January 19, 2022

Un robot del desierto muestra las grandes oportunidades de la IA

Cuando Hongzhi Gao era joven, vivía con su familia en Gansu, una provincia ubicada en el centro del norte de China junto al desierto de Tengger. Pensando en su infancia, recuerda el viento constante y constante de tierra fuera de su casa, y que durante la mayoría de los meses del año no pasó más de un minuto después de salir antes de que la arena llene cualquier espacio vacío y se cuele en su interior. bolsillos, botas y su boca. La monotonía del desierto se quedó en su cabeza durante años, y en la universidad convirtió ese recuerdo en una idea para construir una máquina que pueda traer vida vegetal al paisaje desértico.

Los esfuerzos para detener la desertificación, el proceso por el cual la tierra fértil se convierte en desierto, se han centrado principalmente en soluciones manuales costosas. Hongzhi diseñó un robot con tecnología de aprendizaje profundo para automatizar el proceso de plantación de árboles: desde identificar los lugares óptimos hasta plantar plántulas de árboles y regar. A pesar de no tener experiencia con IA, como estudiante de pregrado, Hongzhi usó la plataforma de aprendizaje profundo PaddlePaddle de Baidu para unir diferentes módulos para construir un robot con mejor capacidad de detección de objetos que máquinas similares ya disponibles en el mercado. A Hongzhi y sus amigos les llevó menos de un año poner en marcha el producto final y ponerlo en funcionamiento.

El robot del desierto de Hongzhi sirve como un ejemplo revelador de la creciente accesibilidad de la inteligencia artificial.

En la actualidad, más de cuatro millones de desarrolladores están utilizando la tecnología de inteligencia artificial de código abierto de Baidu para crear soluciones que puedan mejorar la vida de las personas en sus comunidades, y muchos de ellos tienen poca o ninguna experiencia técnica en el campo. “En la próxima década, la IA será la fuente de cambios que tendrán lugar en todos los tejidos de nuestra sociedad, transformando la forma en que operan las industrias y las empresas. La tecnología ampliará la experiencia humana al llevarnos a una inmersión más profunda en el mundo digital ”, dijo el director ejecutivo de Baidu, Robin Li, en Baidu Create 2021, una conferencia de desarrolladores de inteligencia artificial.

Al entrar en un nuevo capítulo en la evolución de la IA, Haifeng Wang, director de tecnología de Baidu, identificó dos tendencias clave que apuntalan el camino a seguir de la industria: la IA seguirá madurando y aumentando su complejidad técnica. Y al mismo tiempo, el costo de implementación y la barrera de entrada disminuirán, lo que beneficiará tanto a las empresas que construyen soluciones impulsadas por IA a escala como a los desarrolladores de software que exploran el mundo de la IA.

Fusión de conocimientos y datos con el aprendizaje profundo

La integración de conocimientos y datos con el aprendizaje profundo ha mejorado significativamente la eficiencia y precisión de los modelos de IA. Desde 2011, la infraestructura de inteligencia artificial de Baidu ha estado adquiriendo e integrando nueva información en un gráfico de conocimiento a gran escala. Actualmente, este gráfico de conocimiento tiene más de 550 mil millones de hechos, que cubren todos los aspectos de la vida cotidiana, así como temas específicos de la industria, que incluyen manufactura, productos farmacéuticos, derecho, servicios financieros, tecnología y medios y entretenimiento.

Este gráfico de conocimiento y los puntos de datos masivos juntos forman los componentes básicos del recién lanzado modelo de lenguaje pre-entrenado de Baidu PCL-BAIDU Wenxin (versión ERINIE 3.0 Titan). El modelo supera a otros modelos de lenguaje sin gráficos de conocimiento en 60 tareas de procesamiento del lenguaje natural (PNL), incluida la comprensión de lectura, la clasificación de textos y la similitud semántica.

Aprendizajes a través de modalidades

El aprendizaje intermodal es una nueva área de investigación de IA que busca mejorar la comprensión cognitiva de las máquinas e imitar mejor el comportamiento adaptativo de los humanos. Ejemplos de esfuerzos de investigación en esta área incluyen la síntesis automática de texto a imagen, donde se entrena un modelo para generar imágenes a partir de descripciones de texto únicamente, así como algoritmos construidos para comprender el contenido visual y expresar esa comprensión con palabras. El desafío con estas tareas es que las máquinas creen conexiones semánticas entre diferentes tipos de conjuntos de datos (por ejemplo, imágenes, texto) y comprendan las interdependencias entre ellos.

El siguiente paso para la IA es fusionar tecnologías de IA como la visión por computadora, el reconocimiento de voz y el procesamiento del lenguaje natural para crear un sistema multimodal.

En este frente, Baidu ha lanzado una variante de sus modelos de PNL que une el lenguaje y la comprensión semántica visual. Ejemplos de aplicaciones del mundo real para este tipo de modelo incluyen avatares digitales que pueden percibir su entorno como seres humanos y manejar la atención al cliente para empresas, y algoritmos que pueden “dibujar” obras de arte y componer poemas basados ​​en su comprensión de las obras de arte generadas. .

Hay resultados potenciales aún más creativos e impactantes para esta tecnología. La plataforma PaddlePaddle puede construir conexiones semánticas a través de la visión y el lenguaje, lo que llevó a un grupo de estudiantes de maestría en China a crear un diccionario para preservar los idiomas en peligro de extinción en regiones como Yunnan y Guangxi al traducirlos más fácilmente al chino simplificado.

Integración de IA en software y hardware, y en casos de uso específicos de la industria

A medida que los sistemas de inteligencia artificial se aplican para resolver problemas cada vez más complejos y específicos de la industria, se pone un mayor énfasis en optimizar el software (marco de aprendizaje profundo) y el hardware (chip de inteligencia artificial) en su conjunto, en lugar de optimizar cada uno individualmente, teniendo en cuenta factores como como potencia de cálculo, consumo de energía y latencia.

Además, se está produciendo una gran innovación en la capa de plataforma de la infraestructura de inteligencia artificial de Baidu, donde los desarrolladores externos están utilizando las capacidades de aprendizaje profundo para crear nuevas aplicaciones adaptadas a casos de uso específicos. La plataforma PaddlePaddle tiene una serie de API para admitir aplicaciones de inteligencia artificial en tecnologías más nuevas, como la computación cuántica, las ciencias de la vida, la mecánica de fluidos computacional y la dinámica molecular.

La IA también tiene usos prácticos. Por ejemplo, en Shouguang, una pequeña ciudad de la provincia de Shandong, la IA se utiliza para optimizar la industria de frutas y verduras. Solo se necesitan dos personas y una aplicación para administrar docenas de cobertizos de verduras.

Y esto es notable, dice Wang: “A pesar de la mayor complejidad de la tecnología de inteligencia artificial, la plataforma de aprendizaje profundo de código abierto reúne el procesador y las aplicaciones como un sistema operativo, lo que reduce las barreras de entrada para las empresas y las personas que buscan incorporar la inteligencia artificial en sus negocios”.

Barrera de entrada reducida para desarrolladores y usuarios finales

En el frente tecnológico, el pre-entrenamiento de modelos grandes como PCL-BAIDU Wenxin (versión ERNIE 3.0 Titan) ha resuelto muchos cuellos de botella comunes que enfrentan los modelos tradicionales. Por ejemplo, estos modelos de propósito general han ayudado a sentar las bases para ejecutar diferentes tipos de tareas posteriores de la PNL, como la clasificación de texto y la respuesta a preguntas, en un lugar consolidado, mientras que en el pasado, cada tipo de tarea tenía que resolverse por un modelo separado.

PaddlePaddle también tiene una serie de herramientas fáciles de desarrollar, como tecnologías de compresión de modelos para ajustar los modelos de propósito general para que se ajusten a casos de uso más específicos. La plataforma proporciona una biblioteca con soporte oficial de modelos de grado industrial con más de 400 modelos, desde grandes a pequeños, que retienen solo una fracción del tamaño de los modelos de uso general pero pueden lograr un rendimiento comparable, reduciendo el desarrollo del modelo y los costos de implementación.

En la actualidad, la tecnología de aprendizaje profundo de código abierto de Baidu respalda a una comunidad de más de cuatro millones de desarrolladores de IA que han creado colectivamente 476.000 modelos, lo que contribuye a la transformación impulsada por la IA de 157.000 empresas e instituciones. Los ejemplos enumerados anteriormente son el resultado de las innovaciones que ocurren en todas las capas de la infraestructura de IA de Baidu, que integra tecnologías como reconocimiento de voz, visión por computadora, AR / VR, gráficos de conocimiento y preentrenamiento de grandes modelos que están un paso más cerca de la percepción. el mundo como humanos.

En su estado actual, la IA ha alcanzado un nivel de madurez que le permite realizar tareas asombrosas. Por ejemplo, el reciente lanzamiento de Metaverse XiRang no habría sido posible sin la plataforma de PaddlePaddle para crear avatares digitales para que los participantes de todo el mundo se conecten desde sus dispositivos. Además, los avances futuros en áreas como la computación cuántica podrían mejorar significativamente el rendimiento de los metaversos. Esto demuestra cómo las diferentes ofertas de Baidu están entrelazadas y son interdependientes.

En unos años, la IA estará cerca del núcleo de nuestra experiencia humana. Será para nuestra sociedad lo que la energía de vapor, la electricidad e Internet fueron para las generaciones anteriores. A medida que la IA se vuelve más compleja, los desarrolladores como Hongzhi trabajarán más en la capacidad de artistas y diseñadores, dada la libertad creativa para explorar casos de uso que antes se consideraban solo teóricamente posibles. El cielo es el limite.

Este contenido fue producido por Baidu. No fue escrito por el personal editorial de MIT Technology Review.