Las máquinas que hablan con los humanos

Uno de lo dispositivos tecnológicos para el hogar que pueden controlarse a través de la voz mediante Google Home./B. Diefenbach / Reuters
Uno de lo dispositivos tecnológicos para el hogar que pueden controlarse a través de la voz mediante Google Home. / B. Diefenbach / Reuters

El reconocimento de la voz avanza a pasos agigantados y abre una nueva era en nuestra manera de convivir con los dispositivos

ARANTXA HERRANZMadrid

El mismo día que Google anunciaba la disponibilidad en nuestro país de su asistente de voz para el hogar, al que bautizó como Google Home, una empresa española, Sherpa, daba a conocer que pasaba de ser el Siri (el asistente personal de Apple) español a dar el salto hacia el mundo profesional, firmando un llamativo acuerdo con el fabricante de coches Porsche para integrar así su tecnología en los modelos de esta lujosa marca alemana. Unos anuncios que vienen a demostrar que la voz es la próxima gran interfaz para hacer más ágil y eficiente la interacción de los humanos con la tecnología y con toda clase de dispositivos electrónicos.

Para interactuar con un sistema que reconoce la voz basta con hablar a los dispositivos y que estos nos comprendan. En comparación con las ya veteranas interfaces gráficas, los usuarios han tenido que aprender a interactuar con un sistema por distintos métodos. Es lo que se conoce como interfaz hombre-máquina, un sistema complejo que maneja todo el proceso de comunicación y es responsable de proporcionar el conocimiento, la funcionalidad y la información disponible del dispositivo.

Así, para 'entendernos' e interactuar con las máquinas y dispositivos, primero hubo que hacer uso de lenguajes basados en códigos y unos sistemas de programación que no estaban al alcance de todos los consumidores y usuarios. La introducción del teclado y el ratón vinieron a simplificar el proceso. Y los gestos táctiles a través de las pantallas sensibles han sido la última gran barrera superada para la democratización de muchas tecnologías.

Sin embargo, el lenguaje hablado es, con toda probabilidad, la principal diferencia del hombre con las máquinas y con el resto de los seres vivos. Por eso, son muchas las empresas y los investigadores que se afanan por mejorar sistemas complejos como el reconocimiento del lenguaje natural para que la interacción con las máquinas sea cada vez más cómoda, fluida y sencilla.

Más palabras

El reto es que no tengamos nada más que utilizar nuestra propia voz para que las tecnologías se pongan a nuestro servicio. Y eso teniendo en cuenta que el habla no es un medio natural de comunicación con los ordenadores, teléfonos, tabletas y otros dispositivos. Así, en la presentación de Google Home, sus responsables aseguraban que con cada «Ok Google» (combinación de palabras necesarias para activar la función del asistente personal) el algoritmo que se esconde detrás del altavoz es capaz de ir aprendiendo. La promesa es que, cuanto más lo utilicemos, más y mejor nos conocerá, por lo que en el futuro serán capaces, incluso, de adelantarse a nuestras necesidades y deseos.

El avance en estos sistemas de reconocimiento de la voz y del lenguaje ha sido espectacular, muy especialmente en los últimos años. Estos sistemas son ya capaces de distinguir varias voces, varios acentos e, incluso, algunas malas pronunciaciones. Pero, lo cierto es que aún queda camino por recorrer. Así, por ejemplo, en muchos casos hay que activar el asistente cada vez que deseamos pedirle algo, lo que resta naturalidad a la conversación. También se ha avanzado mucho en lo que se refiere al reconocimiento de la ironía y el sarcasmo, pero siguen sin ser sistemas completamente perfectos.

Sherpa, la fima española que ha fichado por Porsche, anunciará nuevos acuerdos en este terreno

Además, las interfaces de voz están saliendo de su espacio natural para ir acoplándose a muchos otros terrenos. Los teléfonos móviles fueron los primeros dispositivos en los que podíamos utilizar estos asistentes. Pero según han ido mejorando y perfeccionándose los sistemas, son cada vez más frecuentes los altavoces con inteligencia artificial integrada.

El primero en llegar a nuestro país ha sido Google Home, pero los consumidores españoles se muestran, a priori, bastante predispuestos a adquirir tanto este producto como algunos de la competencia. Según una encuesta de D-Link, aun cuando ninguno de ellos estaba disponible en nuestro mercado, el 22% de los españoles se muestra favorable a comprar un Google Home, un 19% lo haría con un Amazon Echo y el 13% se decanta por Apple HomePod.

Pero poco a poco, y con la promesa de los coches autónomos, estos asistentes de voz también se están integrando en otros sectores del mercado, como el de la automoción. Éste es, precisamente, el próximo gran objetivo de Sherpa, una compañía española que fue la primera en desarrollar un asistente de voz para los teléfonos Android.

La firma española que ha fichado con Porsche asegura que habrá más acuerdos en este terreno. La tecnología de inteligencia artificial que desarrolla esta empresa se basa en un sistema de algoritmos que dotan de capacidad cognitiva a Sherpa. Podrá ir aprendiendo gustos, tendencias, intereses y cualquier otra información relevante de los usuarios, de forma que éstos encuentren la solución más oportuna a sus necesidades.

Pero la utilización de la voz para relacionarnos con las máquinas tiene repercusiones en muchos ámbitos, como en las búsquedas que hacemos en internet. Cuando buscamos algo (en un PC o en móvil) utilizando un teclado (físico o virtual) solemos escribir únicamente las palabras clave. Por ejemplo, 'Hotel Granada'. Sin embargo, cuando utilizamos la voz, nuestra petición es radicalmente diferente. Esto, evidentemente, también está obligado a las empresas a ajustarse para a este tipo de peticiones.

Cómo lograr que las aparatos nos entiendan cada vez mejor

Para lograr que podamos hablar a las máquinas y que estas nos entiendan, los avances realizados en los últimos años en los campos del procesamiento del lenguaje natural, las interfaces de conversación, la automatización y el aprendizaje automático y los procesos de aprendizaje profundo han tenido mucho que ver. De hecho, sin todas estas tecnologías y desarrollos hoy no podríamos estar detallando las capacidades de los asistentes virtuales, que cada vez son más inteligentes y útiles.

La naturalidad de utilizar el habla es, en realidad, una extensión de nuestras experiencias al usar la voz para comunicarnos con otros humanos. La diferencia con las máquinas es que las personas comparten una gran cantidad de conocimiento con sus interlocutores. Una gran parte de la naturalidad que damos por sentado en la comunicación de voz desaparece cuando el oyente no comprende el significado de lo que decimos.

Los ordenadores y los productos tecnológicos tienen ahora la capacidad de hablar, escuchar e incluso comprender lo que decimos los humanos. El campo del procesamiento de voz abarca una amplia gama de actividades que comparten el objetivo futuro de permitir que las personas se comuniquen con las máquinas utilizando las habilidades naturales de comunicación mediante la voz. Se basa en la confluencia de cálculos de bajo coste y algoritmos mejorados que han estimulado una amplia gama de usos para la tecnología de procesamiento de voz en todo el espectro del tratamiento de la información. Los avances en la tecnología del lenguaje humano ofrecen la promesa de un acceso casi universal a la información y los servicios en internet.

 

Fotos

Vídeos