Por qué no podemos afirmar que la inteligencia artificial ‘habla’

Vea También

Cada vez es más común escuchar afirmaciones como “la inteligencia artificial dice”, “una conversación entre chatbots” o incluso “las máquinas pueden entender el lenguaje”. Sin embargo, nada más lejos de la realidad. Por ahora.

La filosofía pragmática del lenguaje –en particular, la teoría de los actos de habla del filósofo del lenguaje británico John Langshaw Austin– nos ayuda a clarificar por qué la inteligencia artificial no habla realmente y por qué confundir simulación con desempeño genuino del lenguaje es una falacia (un engaño: un argumento que parece verdadero siendo falso). Veamos cómo.

Actos de habla: más que palabras

Austin, en su obra Cómo hacer cosas con palabras (1955), argumenta que el lenguaje no es solo un vehículo de formulación y transmisión de información, a través de palabras correctamente encadenadas, sino una herramienta para actuar en el mundo, para generar –a través de actos de habla– cambios en distintas dimensiones de la realidad.

¿En qué sentido hablar es actuar en el mundo? Cuando decimos cosas como “te quiero”, “te lo prometo”, “sal de aquí”, “perdona”, realizamos un acto de habla. Este acto se compone de tres niveles:

El locutivo, que es la emisión de sonidos o palabras con una estructura gramatical y un significado.
El ilocutivo, que es la acción que se realiza con esas palabras (como prometer, ordenar, preguntar).
Y el perlocutivo, que es el efecto que esas palabras generan en el receptor (como esperanza, miedo, asombro).

Cada uno de estos niveles es crucial para entender que, para que un acto de habla sea genuino –para que se considere que alguien o algo habla– debe darse en el contexto pragmático en el que los hablantes, además de la capacidad de articular expresiones lingüísticamente correctas y con sentido, poseen intencionalidad y pueden interpretar y responder a la intención comunicativa. Sin este marco pragmático, el habla queda reducida a una mera repetición de combinación de signos sin significado real.

La intención es la clave

Esto nos permite realizar una interesante reflexión. Cuando compone frases, una inteligencia artificial no habla, solo es un motor que estructura cadenas de signos según patrones programados, sin intencionalidad real. Esta composición, si solo contiene información, simula la dimensión locutiva del habla; si además refleja acción (un mensaje del tipo “disculpa”, “lo tendré en cuenta”, etc.) simula la dimensión ilocutiva. Pero si, además, el mensaje está diseñado para provocar una reacción (“comprendo cómo te sientes”, “no te preocupes”, etc.), entonces simula la dimensión perlocutiva.

Si al otro lado de la comunicación simulada hay un receptor humano, este puede llegar a sentir seguridad, miedo, esperanza, etc., y, por lo tanto, manifestar realmente el nivel perlocutivo. Pero, ojo, sería una reacción a una simulación, una reacción “en falso” (en ausencia de intencionalidad real). No se habría completado un acto de habla auténtico.

Los robots no pueden ‘charlar’ entre ellos

Esto nos lleva a un segundo escenario: cuando tanto el emisor como el receptor son máquinas. En este caso se daría una conversación completamente simulada, en todas sus dimensiones: locutiva, ilocutiva y perlocutiva, sin ningún componente real –las afirmaciones sobre “conversaciones” entre chatbots no son tales–.

Una tercera opción es: emisor humano, receptor artificial. El caso más sencillo es el que se da cuando mandamos un prompt o instrucción a un motor (de texto o de imagen) y el más complejo sería mantener una “conversación” con una máquina entrenada para simular emociones, valores morales o sentimientos. Si, además de una respuesta en forma de frases bien articuladas esperamos del receptor artificial una reacción, tenemos que tener claro que estamos esperando una mera simulación de la dimensión perlocutiva.

La “habitación china” de Searle

Para comprender mejor esto recurramos a la distinción que realiza el filósofo John Searle en Intentionality: an essay in the Philosophy of mind (1983). En esta obra traza la diferencia entre las nociones de intencionalidad intrínseca, propia de los seres humanos y basada en estados mentales que pueden referirse al mundo, e intencionalidad derivada, que es la atribuida a símbolos, textos o programas informáticos, sin una base real de comprensión.

Su famoso experimento mental de la “habitación china” (Minds, brains, and programs, 1980) ilustra esta distinción. Searle imagina a una persona dentro de una habitación que recibe símbolos chinos y sigue instrucciones para responder en chino, sin comprender el significado y, por lo tanto, sin estar teniendo lugar auténticos actos de habla. Aunque desde el exterior pueda parecer que entiende chino, en realidad solo manipula símbolos sin comprensión real. Este argumento refuta la idea de que los sistemas computacionales poseen una verdadera mente o intencionalidad en la comunicación lingüística.

Ni comprenden ni conversan

Incurrimos diariamente en este error con los asistentes virtuales. Cuando decimos a un asistente “pon música relajante” y el asistente responde con una lista de reproducción, podría parecer que ha entendido la petición (es decir, la dimensión ilocutiva). Sin embargo, solo ha ejecutado un patrón predefinido, sin comprender ni lo que “relajante” significa en un contexto humano, ni por qué una determinada música podría ser relajante. La atribución de comprensión resulta, por lo tanto, también errónea.

Sin duda, los modelos de inteligencia artificial actuales son extraordinarios en la generación de texto coherente y en la imitación de patrones conversacionales humanos. Sin embargo, lo que hacen, como hemos visto, no es hablar.

Es un gran problema filosófico, a día de hoy, que los usuarios antropomorficemos (es decir, asociemos cualidades humanas) la inteligencia artificial, dando por hecho que, porque devuelve construcciones lingüísticas correctas y adecuadas, realmente estamos participando en un diálogo significativo. Se trata del error de la simulación: confundir la apariencia de un fenómeno con su realidad subyacente. Como Austin muestra, hablar no es solo producir frases gramaticalmente correctas, sino realizar un acto consciente con intención, contexto y consecuencias personales y sociales.

Precisamente, la falta de esta triple dimensión pragmática del habla humana en las emisiones lingüísticas de los chatbots es la que hace que nos sintamos incómodos o nos parezca extraño “hablar” con las máquinas y compartir pensamientos, sentimientos o emociones. Intuitivamente sabemos que falta algo en sus interacciones lingüísticas con nosotros, y ese algo son esas dimensiones intencionales y conscientes del habla.

¿Nos acostumbraremos a la simulación de estas dimensiones y acabaremos aceptándolas como parte de una nueva realidad comunicativa? ¿O se desarrollará la inteligencia artificial hasta el punto de adquirir consciencia, intencionalidad y, consecuentemente, hablará? Iremos viendo.

Carmen Sánchez no recibe salario, ni ejerce labores de consultoría, ni posee acciones, ni recibe financiación de ninguna compañía u organización que pueda obtener beneficio de este artículo, y ha declarado carecer de vínculos relevantes más allá del cargo académico citado.