October 18, 2021

Facebook quiere que las máquinas vean el mundo a través de nuestros ojos

Durante los últimos dos años, Facebook AI Research (FAIR) ha trabajado con 13 universidades de todo el mundo para reunir el mayor conjunto de datos de video en primera persona, específicamente para entrenar modelos de reconocimiento de imágenes de aprendizaje profundo. Las IA entrenadas en el conjunto de datos serán mejores para controlar robots que interactúan con personas o interpretar imágenes de lentes inteligentes. “Las máquinas podrán ayudarnos en nuestra vida diaria solo si realmente comprenden el mundo a través de nuestros ojos”, dice Kristen Grauman de FAIR, quien lidera el proyecto.

Dicha tecnología podría ayudar a las personas que necesitan ayuda en el hogar o guiar a las personas en las tareas que están aprendiendo a completar. “El video en este conjunto de datos está mucho más cerca de cómo los humanos observan el mundo”, dice Michael Ryoo, investigador de visión por computadora en Google Brain y Stony Brook University en Nueva York, que no participa en Ego4D.

Pero los posibles usos indebidos son claros y preocupantes. La investigación está financiada por Facebook, un gigante de las redes sociales que recientemente ha sido acusado en el Senado de Estados Unidos de anteponer las ganancias al bienestar de las personas, como corroboran las propias investigaciones de MIT Technology Review.

El modelo de negocio de Facebook y otras compañías de Big Tech es extraer la mayor cantidad de datos posible del comportamiento en línea de las personas y venderlos a los anunciantes. La IA descrita en el proyecto podría extender ese alcance al comportamiento cotidiano fuera de línea de las personas, revelando qué objetos hay alrededor de su hogar, qué actividades disfrutó, con quién pasó el tiempo e incluso dónde se detuvo su mirada: un grado sin precedentes de información personal.

“Hay trabajo sobre la privacidad que se debe hacer a medida que se saca esto del mundo de la investigación exploratoria y se convierte en algo que es un producto”, dice Grauman. “Ese trabajo incluso podría estar inspirado por este proyecto”.

FACEBOOK

El mayor conjunto de datos anterior de video en primera persona consiste en 100 horas de imágenes de personas en la cocina. El conjunto de datos de Ego4D consta de 3.025 horas de video grabado por 855 personas en 73 ubicaciones diferentes en nueve países (EE. UU., Reino Unido, India, Japón, Italia, Singapur, Arabia Saudita, Colombia y Ruanda).

Los participantes tenían diferentes edades y antecedentes; algunos fueron reclutados por sus ocupaciones visualmente interesantes, como panaderos, mecánicos, carpinteros y paisajistas.

Los conjuntos de datos anteriores consistían típicamente en clips de vídeo con secuencias de comandos de sólo unos pocos segundos de duración. Para Ego4D, los participantes usaron cámaras montadas en la cabeza durante hasta 10 horas a la vez y capturaron videos en primera persona de actividades diarias sin guión, como caminar por la calle, leer, lavar la ropa, ir de compras, jugar con mascotas, jugar juegos de mesa y interactuar con otras personas. Algunas de las imágenes también incluyen audio, datos sobre dónde se centró la mirada de los participantes y múltiples perspectivas sobre la misma escena. Es el primer conjunto de datos de este tipo, dice Ryoo.