En el 2015, Andy Goodman, diseñador de servicios y de experiencias de usuario, habló de un término que hoy todavía puede resultar novedoso: el zero UI o la interfaz cero. Para aclarar, una interfaz es el conjunto de elementos (arquitectura de información, patrones y elementos visuales) que nos permiten relacionarnos con diferentes softwares, dispositivos y sistemas operativos. Dicho esto, el término zero UI alude específicamente a la capacidad de interacción con sistemas o dispositivos, sin necesidad de que haya una pantalla de por medio.
Es probable que para el 2015 este fuera un término bastante disruptivo. Sin embargo, cada vez nos acercamos más a este paradigma de diseño. Dispositivos como Alexa dan cuenta de ello, ya que en muchos casos la interacción humano-máquina se da a través de la voz, y las pantallas ocupan un nivel secundario. En este punto, cabe traer a colación una afirmación que también llama bastante mi atención y que es uno de los focos de esta reflexión -el lenguaje- es la interfaz más antigua del mundo. Esto quiere decir que la interfaz no ha desaparecido y su puesto está siendo ocupado por el lenguaje, ahora de manera mucho más evidente.Por tanto, la conversación juega un papel imprescindible en el desarrollo de la tecnología.
Según el Diccionario de la Real Academia Española, una conversación es la «Acción y efecto de hablar familiarmente una o varias personas con otra u otras»; pero esta definición pierde algo de vista: que en el mundo contemporáneo no solo se conversa con los humanos, sino también con las máquinas. Ejemplo de esto son los chatbots, los voicebots, y los dispositivos que emplean reconocimiento y procesamiento del lenguaje natural. Cabe mencionar, además, que conversar es también acogerse al conjunto de normas de la conversación, seguir los turnos, conocer el contexto, compartir el código, tratar de recuperar el mensaje en caso de que se presente ambigüedad, entre otros. Así, si bien el tipo de dispositivos mencionados siguen algunas de estas pautas, otras parecen fuera de alcance y es esta carencia la que en muchas ocasiones da la impresión de inutilidad.
Hasta aquí, es probable que no sea muy clara la relación con el oficio filológico; pero mi premisa es que si las interfaces son el lenguaje y la filología se encarga del estudio profundo de este, la relación, aunque parece lejana, resulta bastante natural y, por fortuna, el mundo contemporáneo le ha dado cada vez más importancia a lo que las humanidades tienen por decir. En el campo de la tecnología aparecen nuevos retos, que ya no basta con que ingenieros y desarrolladores los resuelvan, sino que deben abordarse desde perspectivas multi o interdisciplinarias. Uno de ellos es, justamente, la humanización o antropomorfización de asistentes virtuales de voz y de texto. Esto es, chatbots y voicebots.
Nuevamente, según el Diccionario de la Real Academia Española, humanizar es «Hacer humano, familiar y afable alguien o algo», mientras que antropomorfizar es «Conceder forma o cualidades humanas a una cosa o a un ser sobrenatural». Esto significa que con estos atributos no se espera hacer pasar al chatbot por un humano, lo cual no sería ético, sino perfeccionar algunas características para que las personas usuarias que interactúan con estos dispositivos puedan percibir valor en ellos.
Una de estas características es la verosimilitud. Si para Aristóteles las artes no eran mera imitación, sino que exponían algo que podría ser cierto , la definición puede perfectamente trasladarse a este tipo de tecnologías. Con ellas, se busca que las personas usuarias puedan distinguir que no están interactuando con un humano real; pero que, dada la verosimilitud o la imitación de una conversación real, puedan aceptar el contrato de interacción, ignorar el hecho de que no hay un humano detrás e, idealmente , conversar con el asistente virtual siguiendo las pautas socialmente establecidas, como si de algo performativo se tratara.
Ahora bien, aunque suene simple no resulta fácil construir la verosimilitud de un asistente virtual. A la hora de establecer un diálogo, los humanos implícitamente siguen el mencionado conjunto de reglas de cada uno de los niveles lingüísticos. Para empezar, el nivel fonético, que se encarga de los sonidos del habla, dicta también la pauta de cómo debería percibirse el sonido en los asistentes virtuales: la naturalidad no solo del acento, sino también de las palabras en el caso de los chatbots, la entonación afirmativa o interrogativa, la evitación de las cacofonías y, en el caso de los asistentes de voz, la cercanía con el acento o la variedad dialectal.
Desde el nivel morfológico, no puede perderse de vista la formación de las palabras. Mi sorpresa fue grande cuando me enteré de que en variedades dialectales como la puertorriqueña preferían el sufijo -era, en vez del sufijo -al. De ahí que en el chatbot debiera hablarse de transacción temporera, que era lo más común para los usuarios y que tal vez tenía que ver algo con la forma del inglés temporary, y no de transacción temporal, que es lo que usualmente diría en mi variedad dialectal. Además, desde el punto de vista no del diseño conversacional , sino del entrenamiento, la morfología puede ayudar en el reconocimiento de entities o entidades , pues según el tipo de prefijos o sufijos que contengan las palabras se pueden clasificar las entidades y delimitar si se refieren a nombres de lugares, de organizaciones, de productos, entre otras.
En cuanto a la sintaxis, es sabido que esta determina el orden oracional, por lo que a la hora de diseñar conversaciones para asistentes virtuales debe pensarse no solo en el correcto orden de la escritura del diálogo, sino también en las posibles formas gramaticales que emplearían los usuarios para referirse a determinada intención. De ahí su utilidad para el entrenamiento de formas de pregunta o utterances , que pueden llevar a hacer más inteligente el chatbot.
En lo que concierne a la semántica, que se refiere al significado de una unidad lingüística o palabra, su aplicación resulta evidente. A la hora de diseñar cualquier texto o diálogo, deben elegirse las palabras correctas. Con correcto no hago referencia a lo que esté avalado por algún diccionario, sino a lo que sea más común y acorde para los hablantes o usuarios. Sabemos que puede no resultar efectivo emplear las mismas palabras para todas las variedades dialectales, ya que los significados connotativos hacen que socialmente algunas palabras tengan otros matices.
Además, lo «correcto», en este caso, también tiene que ver con lo que llamo «empatía lingüística». Uno de los parámetros para humanizar o antropomorfizar el chatbot es justamente este, que al igual que un humano tenga la capacidad de ponerse en los zapatos del receptor. ¿Cómo debería responderse si sabemos que nuestro interlocutor está molesto, frustrado o abrumado? En una conversación real, una alternativa sería cooperar, hacerle saber que entendemos la situación y tratar de mitigar la situación. Con un chatbot, acogiéndonos a lo que ocurre socialmente, debería ocurrir lo mismo y este es uno de los grandes retos que deben ser abordados por quienes tienen la capacidad de conocer a profundidad el lenguaje y sus matices.
El último nivel lingüístico es el pragmático, que está asociado al semántico y los demás niveles. Desde mi punto de vista, este es el nivel más complejo de aplicar en chatbots, dada su naturaleza social o contextual. Entre los principales saberes adaptables al desarrollo de asistentes virtuales tenemos el manejo de la ambigüedad, ya que estas herramientas deben tener la capacidad de clarificar, de acuerdo con el discurso del usuario, si la intención es una u otra. Así mismo, es fundamental la adaptación al usuario, lo cual se refiere a la manera discursiva del chatbot y está completamente asociado a la personalidad que se le diseñe. Si nuestro chatbot está pensado para un público adolescente, lo natural, para fomentar la verosimilitud, es que él se comunique como un adolescente más. Que su léxico y demás comportamientos lingüísticos sean afines al público receptor.
También, cabe resaltar la utilidad de las máximas conversacionales a la hora de diseñar la conversación. No puede perderse de vista que estas son reglas implícitas que ayudan a que la comunicación sea efectiva y que el mensaje se comprenda con facilidad. Es por esta razón que la aplicación de la máxima de cantidad (referente a no alargar los mensajes innecesariamente), la máxima de calidad (asociada a la veracidad de la información), la máxima de relevancia (relativa a la pertinencia del mensaje) y la máxima de modo (ligada a la no ambigüedad o complejización del mensaje) son de gran ayuda a la hora de diseñar una conversación «natural».
En cuanto a las implicaturas conversacionales, el hecho de comprenderlas y anteponerlas permite la creación de interacciones más naturales. En el lenguaje cotidiano es común que como hablantes pasemos por alto información que creemos que puede ser inferida por el receptor. De ahí que en los asistentes virtuales o chatbots deba procurarse, en la medida de lo posible, el entrenamiento de implicaturas que puedan resultar usuales en algún punto de la conversación. Debo aclarar, además, que la acotación de en la medida de lo posible la hago partiendo de la complejidad que implica el entrenamiento de la pragmática en chatbots y de mi deducción de que en gran medida es la falta de esta la que crea la percepción de inutilidad en ellos, todavía incapaces de reconocer el sarcasmo, la ironía, algunas expresiones idiomáticas, las emociones y el tono de voz del usuario o emisor, entre otras. Aunque es probable que esto pueda saldarse en algunos años, gracias a los avances de la inteligencia artificial.
No obstante, aunque hasta aquí se haya hablado únicamente de saberes lingüísticos, debo mencionar que los saberes literarios o narrativos también juegan un papel relevante en el diseño conversacional. Hace unos párrafos mencioné la creación de personalidad de un chatbot. Este proceso parte de investigaciones sobre las personas usuarias: quiénes son, cómo se comunican, cuáles son sus expectativas, qué arquetipos son más acordes. Esto, si se piensa, no dista mucho de lo que llamamos diseño de personaje. En cuentos y novelas encontramos personajes con voces y características propias; personajes que probablemente no fueron construidos al azar, sino de manera premeditada. Con los chatbots funciona de igual manera: podría no diseñarse el personaje, pero el lector, al encontrar inconsistencias, sabrá que algo falta.
La transversalidad de la personalidad o de la narrativa construida en torno al asistente virtual hace que, si estas están bien diseñadas, todos los demás elementos puedan percibirse como un conjunto. Si en una novela nos encontramos con un personaje que actúa y se comunica como adulto; pero supimos páginas antes que era un niño de cinco años, es probable que sintamos que algo no anda bien y que renunciemos al contrato de interacción que firmamos con esta obra. En los chatbots, aunque puede no ser fácil la renuncia dada la necesidad de la información, la sensación de inverosimilitud es la misma.
Este texto podría alargarse hablando de las muchas otras posibilidades en torno al diseño conversacional y el entrenamiento de asistentes virtuales. Sin embargo, quiero terminar volviendo a una de las afirmaciones anteriores: el lenguaje es la interfaz. Esto solo puede significar que los retos para mejorar el funcionamiento de esa interfaz (y me refiero a la comunicación humano-máquina) ya no están solo en manos de la tecnología, sino también de las humanidades. Son la sociología, la psicología, la filosofía, la antropología, la filología, la lingüística y las demás áreas las que conocen la complejidad humana y las que con su perspectiva crítica pueden ayudar a resolver problemas contemporáneos como el diseño de las experiencias de los usuarios.
En lo que concierne específicamente a la filología, que es mi área de saber, considero que esta no es solo una ciencia, sino que se convierte en una manera de pensar. Como filólogos y filólogas, nos preparamos no solo para entender y aplicar la teoría, sino también para ser críticos, creativos y, con la lingüística, lógicos. Entendemos el lenguaje en su profundidad, desde el nivel fonético hasta el pragmático, desde el idiolecto hasta el sociolecto. No intuimos lo que puede pasar en una conversación humano-máquina, sino que nuestro conocimiento en el área nos permite anticiparnos. La lógica conversacional y el conocimiento de los hablantes nos dan la pauta para empatizar y para tomar decisiones lingüísticas que consideremos que puedan beneficiar a las personas usuarias o receptoras de la información. Estos conocimientos, sumados a los de otras áreas y ciencias, auguran un importante futuro.