Durante a F8, conferência para desenvolvedores que o Facebook está apresentando em San Jose, na Califórnia, a rede social trouxe a público seu maior arsenal na corrida para a construção de modelos de aprendizado de máquina para reconhecimento facial: as bilhões de selfies públicas que nós postamos no Instagram.
A conferência revelou uma pesquisa desenvolvida pela empresa que mostra detalhes de como mais de 3,5 bilhões de imagens do Instagram, todas postadas de forma pública, e as mais de 17 mil hashtags que as acompanhavam, serviram de dados para a construção de modelos que o Facebook está criando para desenvolver sua própria tecnologia de reconhecimento de imagem.
Com centenas de GPUs trabalhando incessantemente para processar as informações, eles geraram sistemas autônomos de aprendizado profundo que superaram os modelos da concorrência, atingindo mais de 85,4% de precisão na ImageNet, uma base de dados imagética.
Além dos rostos, um contexto
O material que cedemos ao Facebook quando postamos uma foto no Instagram vai além da imagem dos nossos rostos: quando combinamos a fotografia com o uso das hashtags, criamos um contexto para aquela imagem.
Assim, a fase inicial da pesquisa teve foco em hierarquizar as hashtags que fossem mais relevantes.
Termos que eram usados como sinônimos foram mapeados, de forma que foi possível determinar quais hashtags eram mais específicas e quais eram mais gerais, levando ao que os pesquisadores chamaram de “large-scale hashtag prediction model”, ou algo como “modelo de previsão de hashtag em grande escala”, em tradução livre.
E a privacidade?
Uma vez que a sombra das discussões sobre privacidade de venda de dados privados ainda paira sobre a empresa, é interessante observar a forma que a pesquisa compreendeu somente imagens públicas, deixando todo o conteúdo privado que a rede social comporta fora dos bancos de dados de treinamento de seus sistemas autônomos.
Fonte: Terra – por Ares Saturno