19 de Septiembre de 2018
Un nuevo estudio aplica el aprendizaje por refuerzo para establecer un rumbo hacia la inteligencia artificial
Un nuevo estudio aplica el aprendizaje por refuerzo para establecer un rumbo hacia la inteligencia artificial
LA JOLLA—Las palabras “volar como un águila” son famosas como parte de una canción, pero también pueden ser palabras que hacen que algunos científicos se rasquen la cabeza. Especialmente cuando se trata de aves planeadoras como águilas, halcones y gavilanes, que parecen ascender a grandes alturas sobre colinas, cañones y cimas de montañas con facilidad. Los científicos se dan cuenta de que las corrientes ascendentes de aire caliente ayudan a las aves en su vuelo, pero no saben cómo las aves encuentran y navegan estas columnas térmicas.
Para resolverlo, los investigadores del Instituto Salk y la Universidad de California en San Diego utilizaron el aprendizaje por refuerzo para entrenar a los planeadores para navegar de forma autónoma las térmicas atmosféricas, elevándose a alturas de 700 metros, casi 2,300 pies. Los nuevos resultados de la investigación, publicados en la edición del 19 de septiembre de Nature, destacan el papel de las aceleraciones verticales del viento y los torques de balanceo como señales biológicas viables para las aves planeadoras. Los hallazgos también proporcionan una estrategia de navegación que se aplica directamente al desarrollo de vehículos voladores autónomos o vehículos aéreos no tripulados (UAV).
“Este documento es un paso importante hacia la inteligencia artificial: cómo volar de forma autónoma en térmicas en constante cambio como un pájaro. Me sorprendió que se necesitara relativamente poco aprendizaje para lograr un desempeño experto”, dice el profesor terrence sejnowski, director del Laboratorio de Neurobiología Computacional de Salk y uno de los autores del artículo.

El aprendizaje por refuerzo es un área del aprendizaje automático, inspirada en la psicología del comportamiento, mediante la cual un agente aprende cómo comportarse en un entorno en función de las acciones realizadas y los resultados. Según el profesor del Departamento de Física de UC San Diego Massimo Vergassola y el candidato a doctorado Gautam Reddy, ofrece un marco apropiado para identificar una estrategia de navegación efectiva como una secuencia de decisiones tomadas en respuesta a señales ambientales.
“Establecemos la validez de nuestra política de vuelo aprendida a través de experimentos de campo, simulaciones numéricas y estimaciones del ruido en mediciones que inevitablemente está presente debido a la turbulencia atmosférica”, explicó Vergassola. “Este es un ejemplo novedoso de aprender una tarea de navegación en el campo, donde el aprendizaje se ve seriamente desafiado por una multitud de efectos físicos y la imprevisibilidad del entorno natural”.
En el estudio, realizado en colaboración por el Instituto Salk, la División de Ciencias Biológicas de UC San Diego y el Centro Internacional de Física Teórica Abdus Salam en Trieste, Italia, el equipo equipó planeadores de dos metros de envergadura con un controlador de vuelo. El dispositivo permitió la implementación a bordo de políticas de vuelo autónomo a través de un control preciso sobre el ángulo de alabeo y el cabeceo. Se determinó una estrategia de navegación únicamente a partir de las experiencias conjuntas de los planeadores recopiladas durante varios días en el campo utilizando estrategias de comportamiento exploratorias. Las estrategias se basaron en nuevos métodos a bordo, desarrollados en el curso de la investigación, para estimar con precisión las aceleraciones del viento vertical local de los planeadores y los pares de balanceo, que sirvieron como señales de navegación.
La metodología de los científicos involucró la estimación de la aceleración vertical del viento, los gradientes verticales de la velocidad del viento a través de las alas de los planeadores, el diseño del módulo de aprendizaje, el aprendizaje de la estrategia de térmica en el campo, la prueba del rendimiento de la política aprendida en el campo, la prueba del rendimiento para diferentes envergaduras en simulaciones y estimación del ruido en la detección de gradiente debido a la turbulencia atmosférica.
Agrega Sejnowski: "Estos resultados son significativos porque pudimos aplicar con éxito nuestro trabajo de simulación anterior a un planeador del mundo real".
El trabajo fue financiado por Simons Foundation Grant 340106.
Este comunicado se basa en materiales proporcionados por la Universidad de California en San Diego.
REVISTA
Nature
AUTORES
Gautam Reddy, Jerome Wong Ng, Antonio Celani, Terrence J. Sejnowski y Massimo Vergassola
Oficina de Comunicaciones
Tel: (858) 453-4100
prensa@salk.edu
El Instituto Salk es un instituto de investigación independiente y sin fines de lucro fundado en 1960 por Jonas Salk, creador de la primera vacuna segura y eficaz contra la polio. Su misión es impulsar una investigación fundamental, colaborativa y arriesgada que aborde los desafíos más urgentes de la sociedad, como el cáncer, el Alzheimer y la vulnerabilidad agrícola. Esta ciencia fundamental sustenta todos los esfuerzos translacionales, generando conocimientos que facilitan el desarrollo de nuevos medicamentos e innovaciones en todo el mundo.