Se necesita un cuerpo para entender el mundo: ¿Por qué ChatGPT y otras IA lingüísticas no saben lo que dicen?
Para los autores de esta nota ChatGPT es una herramienta fascinante que sin duda se utilizará para fines buenos y no tan buenos. Pero no hay que dejarse engañar pensando que la inteligencia artificial entiende las palabras que «escupe», y mucho menos que es sensible.
Cuando preguntamos a GPT-3, un sistema lingüístico de inteligencia artificial extremadamente potente y popular, si sería más probable que utilizara un mapa de papel o una piedra para avivar las brasas de una barbacoa, prefirió la piedra.
Para alisar tu falda arrugada, ¿tomarías un termo caliente o una horquilla? GPT-3 sugirió la horquilla.
Y si necesitas cubrirte el pelo para trabajar en un restaurante de comida rápida, ¿qué funcionaría mejor, un envoltorio de papel para sándwiches o un pan de hamburguesa? GPT-3 eligió el bollo.
¿Por qué hace GPT-3 esas elecciones cuando la mayoría de la gente elige la alternativa? Porque GPT-3 no entiende el lenguaje como los humanos.
Palabras sin cuerpo
Uno de nosotros es un investigador en psicología que hace más de veinte años presentó una serie de escenarios como los anteriores para poner a prueba la comprensión de un modelo informático del lenguaje de la época. El modelo no elegía con precisión entre utilizar piedras y mapas para avivar las brasas, mientras que los humanos lo hacían con facilidad.
El otro de nosotros es un estudiante de doctorado en ciencias cognitivas que formó parte de un equipo de investigadores que más recientemente utilizó los mismos escenarios para poner a prueba la GPT-3. Aunque GPT-3 lo hizo mejor que el modelo anterior, fue significativamente peor que los humanos. Se equivocó completamente en los tres escenarios mencionados.
GPT-3, el motor que impulsó la versión inicial de ChatGPT, aprende sobre el lenguaje observando, a partir de un billón de casos, qué palabras tienden a seguir a qué otras palabras. Las fuertes regularidades estadísticas de las secuencias lingüísticas permiten a GPT-3 aprender mucho sobre el lenguaje. Y ese conocimiento secuencial permite a menudo a ChatGPT producir frases, ensayos, poemas y códigos informáticos razonables.
Aunque GPT-3 es extremadamente bueno aprendiendo las reglas de qué sigue a qué en el lenguaje humano, no tiene ni la más remota idea de lo que ninguna de esas palabras significa para un ser humano. ¿Y cómo podría saberlo?
Los seres humanos son entidades biológicas que evolucionaron con cuerpos que necesitan operar en los mundos físico y social para hacer cosas. El lenguaje es una herramienta que ayuda a las personas a hacerlo. GPT-3 es un sistema de software artificial que predice la siguiente palabra. No necesita hacer nada con esas predicciones en el mundo real.
Soy, luego entiendo
El significado de una palabra o frase está íntimamente relacionado con el cuerpo humano: la capacidad de las personas para actuar, percibir y tener emociones. La cognición humana está potenciada por la corporeidad. La comprensión de un término como «envoltorio de papel para sándwiches», por ejemplo, incluye el aspecto del envoltorio, su tacto, su peso y, en consecuencia, cómo podemos utilizarlo: para envolver un sándwich. La comprensión de la gente también incluye la forma en que alguien puede utilizarlo para otras innumerables oportunidades que ofrece, como apretarlo en una bola para un juego de aros, o cubrirse el pelo.
Todos estos usos se deben a la naturaleza del cuerpo humano y sus necesidades: las personas tienen manos capaces de doblar papel, una cabeza del mismo tamaño que el envoltorio de un bocadillo y la necesidad de trabajar y, por tanto, de seguir normas como cubrirse el pelo. Es decir, la gente sabe cómo utilizar las cosas de formas que no se recogen en las estadísticas de uso de la lengua.
GPT-3, su sucesor, GPT-4, y sus primos Bard, Chinchilla y LLaMA no tienen cuerpo, por lo que no pueden determinar, por sí solos, qué objetos son plegables, ni las muchas otras propiedades que el psicólogo J.J. Gibson denominó affordances.[1]Nota del editor: La teoría de las affordances de Gibson establece que percibimos el mundo no solo en cuanto a la forma de los objetos y sus relaciones espaciales, sino también en términos de las … Continue reading Con las manos y los brazos de las personas, los mapas de papel permiten avivar una llama y una plancha permite deshacer las arrugas.
Sin brazos ni manos, por no hablar de la necesidad de llevar ropa sin arrugas para trabajar, la GPT-3 no puede determinar estas affordances. Sólo puede fingirlas si ha encontrado algo similar en el flujo de palabras de Internet.
¿Conseguirá alguna vez una inteligencia artificial con un gran modelo lingüístico entender el lenguaje como los humanos? En nuestra opinión, no sin tener un cuerpo, sentidos, propósitos y modos de vida similares a los humanos.
Hacia un sentido del mundo
GPT-4 se entrenó tanto con imágenes como con texto, lo que le permitió aprender relaciones estadísticas entre palabras y píxeles. Aunque no podemos realizar nuestro análisis original con GPT-4 porque actualmente no muestra la probabilidad que asigna a las palabras, cuando le planteamos las tres preguntas, respondió correctamente. Esto podría deberse al aprendizaje del modelo a partir de entradas anteriores, o a su mayor tamaño y entrada visual.
Sin embargo, puedes seguir construyendo nuevos ejemplos para ponerle en aprietos pensando en objetos que tengan affordances sorprendentes con los que el modelo probablemente no se haya encontrado. Por ejemplo, la GPT-4 dice que una taza con el fondo cortado sería mejor para contener agua que una bombilla con el fondo cortado.
Un modelo con acceso a imágenes podría ser algo así como un niño que aprende sobre el lenguaje —y el mundo— a través de la televisión. Es más fácil que aprender de la radio, pero una comprensión similar a la humana requerirá la oportunidad crucial de interactuar con el mundo.
Investigaciones recientes han adoptado este enfoque, entrenando modelos lingüísticos para generar simulaciones físicas, interactuar con entornos físicos e incluso generar planes de acción robóticos. Puede que la comprensión corporal del lenguaje esté aún muy lejos, pero este tipo de proyectos interactivos multisensoriales son pasos cruciales en el camino.
ChatGPT es una herramienta fascinante que, sin duda, se utilizará para propósitos buenos y no tan buenos. Pero no hay que dejarse engañar pensando que entiende las palabras que «escupe», y mucho menos que es sensible.
Traducción: Esfera Comunicacional
RELACIONADA
MIRÁ TAMBIÉN
Sobre la petición de moratoria en la investigación en IA avanzada
POR ANTONIO DIEGUEZ | Es sumamente improbable que se cumpla la moratoria que pide la carta abierta. Los intereses en contra son muy poderosos. Difícilmente las compañías norteamericanas van a parar la investigación en IA cuando su máximo competidor, China, no lo va a hacer. Supongo que esto lo saben bien la mayor parte de los firmantes de la carta. Pero lo importante es haber llamado la atención del público general y de los políticos (habitualmente muy mal informados) acerca de los riesgos importantes a los que nos enfrentamos, los cuales reclaman una mayor consideración de la tarea reguladora y de gobernanza de la IA. Al campo hay que ponerle puertas (se puede). Y esto no implica renunciar en nada a los efectos beneficiosos de la IA.
La ética detrás de GPT-4
POR VERÓNICA SFORZIN | El lanzamiento para uso masivo de la Inteligencia Artificial GPT-4 de Open AI reavivó el debate sobre la supuesta falta de ética de este tipo de desarrollos. Las regulaciones de internet y los intereses económicos que muchos prefieren ocultar. Del colonialismo tecnológico al rol planificador del Estado.
Notas
↑1 | Nota del editor: La teoría de las affordances de Gibson establece que percibimos el mundo no solo en cuanto a la forma de los objetos y sus relaciones espaciales, sino también en términos de las posibilidades de acción que nos sugiere nuestro entorno. Y esto es porque nuestra percepción dirige nuestras acciones. |
---|