Saltar al contenido

Facebook, IA para mejorar la descripción de las fotos

29 marzo, 2021

Entre los contenidos más compartidos en Facebook están, obviamente, las fotos. Por desgracia, no todos los usuarios pueden verlas, por lo que la empresa de Menlo Park desarrolló en 2016 una tecnología, denominada ATT (Texto Alternativo Automático en Italiano), que permite generar la descripción de la imagen. Esta tecnología se ha mejorado gracias a la inteligencia artificial.

Facebook: IA para «ver» imágenes

Las personas con deficiencias visuales e invidentes pueden utilizar lectores de pantalla para conocer el contenido de las imágenes a través de una voz sintética, pero sólo si se han publicado con el atributo«texto alternativo«. Dado que muchas fotos carecen de texto alternativo, Facebook ha desarrollado una tecnología ATT que utiliza el reconocimiento de objetos para generar descripciones de imágenes.

La última versión de la tecnología puede detectar hasta diez veces más contenido y genera una descripción más detallada indicando actividades, símbolos, tipos de animales y más, por ejemplo«Esto puede ser un selfie de dos personas, al aire libre, con la Torre de Pisa«. También se añadió información sobre la posición relativa y el tamaño de los elementos, por ejemplo: «Puede ser una imagen de cinco personas, dos en el centro y tres situadas en los laterales«.

Facebook IA

La primera versión de ATT se desarrolló con datos etiquetados por humanos que se utilizaron para entrenar la red neuronal convolucional. Sin embargo, el modelo sólo podía reconocer 100 conceptos, como árbol, montaña y exterior. En cambio, la versión actual utiliza un modelo basado en datos poco supervisados, es decir, miles de millones de imágenes públicas de Instagram de diferentes zonas geográficas y los correspondientes hashtags escritos en varios idiomas.

Las distintas mejoras han permitido reconocer más de 1.200 conceptos. Por último, Facebook modificó la tecnología ATT para ofrecer una descripción por defecto para todas las fotos y una más detallada para las fotos de interés específico, como las de amigos y familiares. Las descripciones están ahora disponibles en 45 idiomas.

Configuración