Los nuevos resultados de la Inteligencia Artificial causan asombro y temor. La Inteligencia Artificial lleva unos 80 años entre nosotros. Comenzó con el ambicioso proyecto de simular la inteligencia humana en una computadora. Pronto se hizo evidente que llevarlo a cabo requería en aquel momento de una potencia informática que sobrepasaba los límites de forma abrumadora. Desde entonces, la potencia informática ha aumentado por lo que este obstáculo ha sido superado. Los cerebros artificiales siguen siendo menos potentes que nuestros cerebros humanos, pero parece ser que ahora son capaces de igualar algunas de sus capacidades cognitivas. A través de herramientas como ChatGPT basadas en los llamados LLM (large language models o modelos de lenguaje de gran tamaño) se ha accedido al ámbito del lenguaje, lo que podría considerarse un paso crítico. En palabras del filósofo Yuval Noah Harari: «La IA ha hackeado el sistema operativo humano al poder producir lenguaje». A este pensamiento añade el temor de que la IA pronto pueda tomar el control de nuestro espacio cultural y por lo tanto de nosotros mismos como seres humanos. Geoffrey Hinton, uno de los creadores de esta nueva IA, considerado como el Padrino de la IA, ha abandonado su colaboración con Google para dedicar sus esfuerzos a advertir sobre los riesgos de la nueva IA, centrándose en la posibilidad de que la IA llegue a ser más inteligente que nosotros en un futuro muy próximo.
Me gustaría aquí hablar de dos aspectos de la cuestión. Primero está el argumento de que la IA en realidad no comprende el lenguaje. Después me gustaría presentar una teoría que puede explicar el dominio del lenguaje por parte de la IA. ¿Cómo puede ser que una máquina produce lenguaje sin realmente entenderlo?
¿Cómo funciona la Inteligencia Artificial?
Muy resumidamente, la Inteligencia Artificial funciona simulando en cierto modo el funcionamiento de nuestro cerebro. Nuestro cerebro básicamente está formado por que transmiten estímulos eléctricos a otras neuronas con las que está conectado. La neurona misma tiene un umbral que los estímulos entrantes deben superar para desencadenar una respuesta. Esta respuesta luego puede ser amplificada por las conexiones neuronales. La inteligencia artificial reduce esto a un modelo matemático. Mientras que las neuronas en nuestro cerebro son una jungla salvaje de conexiones, las neuronas artificiales están ordenadas en una matriz donde cada elemento de una capa está conectado con cada elemento en la siguiente. Esto hace posible usar cálculos matriciales para simular la propagación de información. Un ejemplo clásico del uso de esta IA es el reconocimiento de imágenes. Como entrada, tienes los píxeles de una imagen, cada uno de ellos estimula a las neuronas de entrada. Esta información luego se propaga a la capa oculta y más amplia de células y de allí llega a células de salida que corresponden a las categorías de imágenes que se quiere que sean reconocidas por la IA, como gato, perro o ser humano. La red neuronal se configura al azar y al principio tendrá resultados aleatorios. Luego se entrena diciéndole que cambie su configuración cada vez que cometa errores y reforzándola cuando sea correcta. Este modelo se ha ampliado en los últimos años. Los llamados modelos de lenguaje de gran tamaño de los que se dice que pueden hablar son de hecho redes neuronales que tienen como objetivo predecir la siguiente palabra en un texto como resultado de algún input. La arquitectura es en este caso, por supuesto, un poco más compleja que la utilizada para el reconocimiento de imágenes, pero los elementos básicos son los mismos.
¿Cuál es la diferencia entre nuestro cerebro y el cerebro artificial?
Como hemos visto, el cerebro artificial es muy similar al nuestro. Se dice que las versiones actuales todavía tienen aproximadamente diez mil veces menos neuronas de las que tenemos en nuestro cerebro, pero dado que la potencia informática está aumentando constantemente, es solo cuestión de tiempo que lleguen a alcanzarlas. Pero hay otra diferencia que no debe ser olvidada. Para presentarla podemos retroceder hasta el filósofo griego Aristóteles (384-322 a.C.) y echar mano de su idea del alma. Según Aristóteles, el alma es, por un lado, la forma de un cuerpo viviente. Por otro lado, esta forma puede formarse a sí misma. Esto puede expresarse en términos muy simples. Nuestra mente está construida sobre un cuerpo animal, que a su vez está construido sobre otras estructuras orgánicas. Este cuerpo animal ya tiene percepción sensorial, y esta percepción sensorial no solo recopila datos, sino que estos datos ya tienen algún significado para el animal. Cuando un lobo ve un conejo, ve una posibilidad de saciar su hambre. Sin poder hablar, el lobo ya atribuye significado a las cosas que lo rodean. Esta es una diferencia importante con los cerebros artificiales. Simplemente están construidos dentro de algún dispositivo plástico que no tiene vida propia. Veremos que esto tiene algunas implicaciones enormes.
¿Qué significa entender el significado?
Al hablar de lenguaje, uno de alguna manera tiene que suscribirse a una teoría sobre el lenguaje. La más completa y refinada que he encontrado ha sido desarrollada por el filósofo estadounidense contemporáneo Robert Brandom. Según Brandom, una expresión adquiere significado a través de una postura normativa del hablante. La idea es que el lenguaje solo puede ser utilizado por seres sintientes que puedan entender la normatividad. Saben que han hecho algo mal si son castigados y tratan de modificar su comportamiento. Y esto también se aplica al lenguaje, donde el castigo es simplemente no ser entendido. Cuando aprendemos un idioma desde la infancia, adoptamos un conjunto de reglas al que nos adaptamos y que obedecemos implícitamente. Así, algo tan simple como relacionar una palabra con un objeto al decir que este objeto se llama «árbol» no es solo una atribución abstracta. Más bien está conectado con nuestro animal interior y realmente significa algo para nosotros. Esto es exactamente lo que falta en un cerebro artificial cuando usa el lenguaje. El cerebro artificial también se adapta poco a poco al uso correcto de una palabra. Esto se hace a través de un proceso llamado retropropagación, que envía una retroalimentación negativa a las neuronas artificiales cuando cometen un error. Después el cerebro artificial cambia los pesos de sus conexiones internas hasta que se adapta perfectamente a todos los casos de uso de una palabra dada. Pero esta adaptación perfecta no implica que la palabra realmente tenga un significado para la IA. No significa algo para ella en el sentido de tener importancia. Por lo tanto, la IA no usa realmente el lenguaje en el sentido en que lo hacemos nosotros. Simplemente muestra una regularidad que coincide exactamente con nuestro comportamiento cuando usamos el lenguaje. Pero mostrar regularidad es algo completamente diferente de hacer algo activamente. Trabajar con el lenguaje sin entenderlo. Pero incluso si hemos concluido que la IA no comprende el lenguaje que produce, tenemos que admitir que los resultados que produce son muy buenos. ¿Cómo puede ser esto? ¿Cómo puede un sistema muerto de números producir textos que suenan como si hubieran sido escritos por un ser humano? ¿No es necesaria comprensión alguna del significado para ello? Si profundizamos en cómo funcionan estos grandes modelos de lenguaje, en cómo está construido ChatGPT, veremos que sí. La IA crea vectores de significado que le permiten encontrar las posiciones de las palabras dentro de las expresiones y las expresiones dentro de los contextos. Mientras que anteriores programas de traducción basados en computadora no podían lidiar con sinónimos produciendo a veces resultados bastante graciosos, ChatGPT captará exactamente el término adecuado. Lo hace porque tiene un mapa de un idioma y logra encontrar la ubicación de cada palabra en su contexto en este mapa.
Grandes modelos de lenguaje como máquinas estructuralistas.
Hay una teoría lingüística muy influyente que describe el lenguaje de la misma manera en que funcionan estos grandes modelos de lenguaje. Se trata de la teoría estructuralista iniciada a principios del siglo XX por Ferdinand de Saussure. Según Saussure, las palabras adquieren significado no a través de la referencia a un objeto en el mundo exterior, sino a través de su relación con otras palabras en el idioma. Así, el lenguaje forma un sistema que de cierta manera se explica a sí mismo. Podemos probar esto fácilmente. Si alguien no conoce una palabra, seguramente encontraremos una manera de explicarle esta palabra usando otras palabras. Las relaciones entre las palabras que usamos, al hacer esto, son bastante similares a los vectores de significado que ChatGPT usa para procesar palabras y oraciones. El hecho de que el resultado de estos procesos nos parezca bastante significativo nos proporciona algún tipo de prueba empírica de la teoría de Saussure. Por lo tanto, podemos decir que los grandes modelos de lenguaje son máquinas estructuralistas en la medida en que utilizan la teoría estructuralista del lenguaje para navegar dentro del sistema de significados de un idioma.
La muerte del autor.
Pero ¿no implicaría esto que ChatGPT realmente entiende el lenguaje? Tal vez Saussure afirmara que esto es cierto. De todos modos, sigo pensando que podemos argumentar a favor de la tesis contraria, la que hemos defendido anteriormente. Primero, resumamos dónde estamos ahora. Por un lado, tenemos un argumento sólido en contra de que ChatGPT pueda entender el lenguaje. Por otro lado, según una comprensión estructuralista del lenguaje, tenemos que aceptar que ChatGPT entiende el lenguaje ya que, a partir de los resultados que produce ChatGPT, tenemos que concluir que esta teoría estructuralista del lenguaje es correcta. ¿Cómo podemos conciliar estas suposiciones contradictorias? Pues hay otro pensador estructuralista que puede ayudarnos con esta contradicción. Este pensador es Roland Barthes. Barthes retomó la teoría del lenguaje de Saussure y sacó varias conclusiones muy interesantes de ella. Y la más famosa e interesante es ciertamente esta tesis de la muerte del autor. Según Barthes, cuando un autor escribe un texto, no es él quien escribe, sino que es el sistema de signos, el lenguaje mismo, el que está realmente escribiendo a través del autor. Así que el autor y su comprensión personal realmente no son necesarios para producir lenguaje. El autor podrá querer expresar un significado personal pero lo único que hace es crear fragmentos de lenguaje que ingresan en discursos más grandes y en corrientes culturales y se disuelven dentro de ellos. Estos discursos y corrientes culturales están entrelazados con el propio lenguaje. De este modo, el hecho de que un texto haya sido producido por algún sistema de IA o escrito por un autor expresando sus sentimientos más profundos se vuelve irrelevante desde este punto de vista. Aunque el sistema de IA no tiene sentimientos y no tiene opinión sobre los asuntos, al usar el lenguaje sabe cómo expresar sentimientos y opiniones y puede así disimular tenerlos.
¿Hay algo especial en entender realmente un idioma?
Sin embargo, hay una diferencia clave entre nosotros los humanos y la IA. Al entender lo que decimos, tenemos la posibilidad de reflexionar sobre las corrientes culturales que nos llevan consigo. En general, simplemente estamos reproduciendo el flujo de signos. Estamos siguiendo ciegamente prácticas culturales y en la mayoría de los casos simplemente hacemos lo que se debe hacer. Pero podemos detenernos y reflexionar. Seguramente esta postura reflexiva no sea fácil de adquirir, ni una vez adquirida sea fácil de mantener. Esto se debe a que incluso el simple acto de dejar de seguir la corriente, detenerse por un momento ya es un acto contracorriente. Esto es algo completamente imposible de hacer para cualquier sistema de IA. Dado que no tiene preferencias propias y simplemente reproduce las preferencias culturales en las que ha sido entrenado, no puede adoptar una postura reflexiva sobre estas preferencias. Es incapaz de formular cualquier tipo de crítica a menos que esta crítica ya forme un discurso establecido dentro de la cultura en la que ha sido entrenado. Aristóteles vio la esencia específica del ser humano en la racionalidad. Pero según lo que hemos discutido, parece que sistemas como ChatGPT son perfectamente capaces de ser racionales. Y vimos que lo específico de nosotros como seres humanos, lo que nos diferencia de la IA, es más bien el alma animal dentro de nosotros. Es esta alma animal la que nos permite tener preferencias propias las cuales forman la base de nuestras opiniones. Esto va en contra de la intuición de Aristóteles de que la capacidad superior (la racionalidad) es específica del ser humano. Cuando comparamos a los seres humanos con los animales, podemos ver claramente que la racionalidad es lo específico en los seres humanos porque es a través de nuestra racionalidad como dominamos completamente el reino animal. Entonces, ¿cómo es posible que en el caso de la IA las cosas sean al revés y seamos especiales debido a la parte animal de nosotros mismos? Si observamos esto un poco más profundamente, podemos ver que no solo somos animales. Según el pensamiento medieval, la naturaleza en su conjunto consiste en una serie de niveles estructurales o formas. Y todas estas formas están presentes en el cuerpo humano, lo que lo convierte en un microcosmos. Eso es lo que lo hace especial. Es un ser que unifica toda la naturaleza en una sola criatura. Según este punto de vista, no son tanto las capacidades que compartimos con los animales las que nos hacen especiales, sino más bien que somos un todo de mente y cuerpo. Y cualquier sistema de IA que solo intente reconstruir la mente humana, creará algo incompleto.