Skip to main content

El futuro con Alexa

15 de Mayo de 2020//
(Tiempo estimado: 5 - 10 minutos)

En 2014 se produjo el lanzamiento de Alexa, el servicio inteligente de reconocimiento de voz y lenguaje natural ubicado en Amazon Cloud. Desde entonces, los avances y la democratización de la Inteligencia Artificial (IA) conversacional no han hecho más que crecer, aportando nuevas experiencias y conectando a los clientes con servicios innovadores mediante una integración cada vez más efectiva.

 Con más de 100 millones vendidos, Alexa se ha transformado en uno de los dispositivos más ubicuos jamás construido. Rohit Prasad, el vicepresidente y director científico para Amazon Alexa, compartió en la última edición de Web Summit en Lisboa su visión sobre el progreso de este asistente virtual y sobre el prometedor futuro de la Inteligencia Artificial conversacional.

 Superando la búsqueda por palabras

Si echamos la vista atrás, hasta 2014 estábamos habituados, como consumidores, a conectarnos con servicios o a conseguir información a través de la búsqueda por palabras clave en los navegadores, que nos devolvían un listado de enlaces azules sobre los que hacer clic. Por aquel entonces, los smartphones lograron hacer esto de forma más sencilla y se produjo la explosión de las aplicaciones. Toda la presión cognitiva nos impactó de golpe y empezamos a ser nosotros, desde las pantallas de nuestros móviles llenas de apps, quienes teníamos que tomar las decisiones. 

Hace seis años anunciamos lo que entonces se denominó Amazon Echo, hoy conocido como Alexa. Por primera vez, se ofrecía una computación ambiental operada por la voz que iba a revolucionar nuestro concepto de comodidad. La carga cognitiva viró de clientes y consumidores a una IA que respondía cuando le hablaban. 

  • El lanzamiento de Alexa nos exigió ser capaces de realizar cuatro tareas diferentes con la IA. Primero, la detección de la palabra “Alexa” para que al pronunciarla se produjese la activación. Hoy esa detección es cuatro veces más eficiente, y nuestros errores se han reducido por un factor de cuatro. 
  • La segunda tarea era el reconocimiento automático de voz (automatic voice recognition). Había que hacer que el dispositivo, al oír a alguien hablando, registrase la voz y la enviase a la cloud. Allí, la IA automáticamente traducía ese audio de voz a palabras. En este proceso también hemos logrado cuadruplicar el resultado, gracias a la mejoría en un conjunto de tecnologías específicas. 
  • Cuando se tenían las palabras, la tercera labor era averiguar el significado, la tarea más difícil para la IA. Hoy Alexa es capaz de optimizar por tres su entendimiento natural del lenguaje, ampliando exponencialmente su comprensión conceptual.
  • La última tarea era la conversión de texto a voz, al regresar con la respuesta para el usuario. Si comparamos cómo sonaba Alexa en 2014 y cómo suena hoy, podremos comprobar que su voz es mucho más suave y natural.

Evolución de los progresos

Desde que nació Alexa, hemos profundizando en la tecnología deep learning, trabajando con la gran cantidad de ordenadores disponibles en AWS (Amazon Web Services) y con un amplio volumen de datos. Paulatinamente hemos ido llegando a tecnologías sofisticadas, como son el aprendizaje activo o el aprendizaje semi-supervisado, que permite aprender a partir de data sin etiquetar. Ya somos capaces de transferir el aprendizaje de una tarea a otra (transfer learning) y hemos conseguido que todos los componentes sean conscientes del contexto 

Gracias a esto, Alexa es capaz de acceder fácilmente a cualquier tipo de contenido y convertir un proceso de compra complicado en algo sencillo. Pero lo que ha sido una grata sorpresa ha sido su aplicación en las casas inteligentes, posibilitando el control de todos los electrodomésticos conectados.

 La evolución de las interacciones ha sido espectacular. Hoy Alexa está disponible en más de 80 países con 15 variantes lingüísticas. Cada vez es más ubicua y la interacción cada vez más natural. Ya hay billones de interacciones semanales, todas a través de la voz. 

Pilares de la IA

El reconocimiento de voz y el entendimiento de la IA conversacional fue un importante cambio de paradigma, pero hay ahora otro de igual magnitud: la democratización de la IA conversacional.

Gracias a la introducción de dos capacidades, como Alexa Voice Service (AVS), que ha hecho posible que los desarrolladores incorporen Alexa a sus dispositivos de una manera sencilla (hay ya 85.000 dispositivos compatibles) y Alexa Skills Kit, que permite construir experiencias en Alexa y transformarlas para ser usadas en otras apps incluidas en los teléfonos móviles. ¡Ya hay más de 100.000!

En esta nueva fase, donde la IA es la base para mejorar la experiencia del consumidor, consideramos que hay algunos pilares fundamentales en los que asentarse: 

  • El primero es lograr que nuestra IA goce de la confianza de nuestros

clientes, asegurando una mayor transparencia y control sobre ella. Esto ha sido algo que hemos intentado poner en práctica desde el primer día. Por ejemplo, podemos preguntarle: “Alexa, ¿qué es lo que has escuchado?”, y ella nos responderá. Esta ventaja del voice computing ya está siendo introducida en otro dispositivo.

Otro es el sistema de entrenamiento de reconocimiento de voz no supervisado. Alexa perfecciona ese reconocimiento a través de un proceso automatizado que utiliza datos no etiquetados gracias a un deep learning que enseña al modelo a mejorar por sí solo, usando más de un millón de horas de datos sin etiquetar. En este proceso no hay involucración de personas. Es Alexa quien progresivamente se vuelve más inteligente para entender palabras.

  • El siguiente eje está vinculado con la capacidad para aprender

directamente de los consumidores. Imaginemos que uno pide a Alexa la canción del ABC, mientras que otro le dice: “Alexa, pon la canción del alfabeto”, refiriéndose ambos a la misma melodía. Alexa es ya capaz de aprender equivalentes semánticos como este y puede reescribir la solicitud de cualquier usuario a otra forma de palabras, consiguiendo el resultado deseado en ambos casos.

  • El tercer pilar se refiere a la gestión del conocimiento. Continuamente se

añaden billones de datos y hechos a su base de conocimiento. Hasta los usuarios pueden proveer a Alexa de respuestas con el servicio “Alexa Answers”, con el que cualquiera puede responder a preguntas a las que, hasta ahora, el dispositivo aún no tenía una respuesta. A partir de este momento, al formular una pregunta de ese tipo, Alexa dará una respuesta generada a través de Alexa Answers, señalando que la información proviene de otro usuario de Amazon.

  • La búsqueda de mayor proactividad, yendo mucho más allá de las

palabras y aprendiendo del contexto a través de distintas capacidades, es otro pilar esencial. Una de esas capacidades es la de las intuiciones. Si Alexa intuye que el usuario dejó la luz del garaje encendida, se lo hará saber para que la apague.

Otra función vinculada con el contexto es “Alexa Guard” (Alexa Vigila). Si el usuario la activa cuando sale de casa, y el dispositivo oye romperse un cristal, o salta la alarma de humos, mandará una notificación al móvil del cliente para que este pueda averiguar qué está pasando.

  • Intentamos que Alexa sea cada vez más natural, algo esencial en la

interacción persona-máquina. Teniendo en cuenta que a través de Alexa Skills Kit ya se han creado 100.000 prestaciones, la dificultad radica en simplificar, haciendo que Alexa aporte la prestación adecuada y emprenda la acción correcta con naturalidad. Por ejemplo, si el usuario quiere que Roomba limpie su cuarto, en vez de decir: “Alexa, que Roomba empiece a limpiar mi cuarto”, se puede simplificar en: “Alexa, empieza a limpiar”. O poder transmitir varias órdenes a la vez: “Alexa, enciende las luces y pon música”. O hacer que averigüe una cita, como: “Alexa, cuándo tengo que ir a casa de mamá”, sin necesidad de que el usuario se preocupe de haber puesto esa información en un calendario o saber dónde está el recordatorio.

Alexa, cuéntame

El siguiente desafío para Alexa será anticipar los objetivos de los clientes. Si hasta ahora, hemos desarrollado la capacidad para completar transacciones, debemos avanzar hasta conseguir anticipar acciones relacionadas con problemas y cuestiones monetarias. Para ello, hemos introducido una nueva tecnología de deep learning que hace que los desarrolladores generen y ofrezcan funciones capaces de resolver cuestiones complejas de una forma sencilla.

Por ejemplo, si un desarrollador está buscando construir una función capaz de comprar entradas de cine, en vez de intentar describir todas las diferentes formas en las cuales los clientes podrían tratar de adquirirlas, será sólo necesario que provea de ciertos ejemplos a Alexa, y esta se encargará del proceso, haciendo que sea muy sencillo ponerlo en marcha. Esta tecnología permite reducir a un tercio el tiempo empleado en crear una prestación, disminuyendo además los datos necesarios en un orden de magnitud de diez. 

La segunda parte de anticipar los objetivos de los clientes pasa por imaginar una tecnología con la que poder construir una interacción con Alexa para, por ejemplo, salir una noche. Hoy sería necesario involucrar muchísimas prestaciones diferentes para: comprar las entradas del cine, conseguir un Uber, reservar mesa en un restaurante… pero, ¿y si Alexa fuera capaz de combinar todas esas necesidades en una sola interacción? Basándonos en las mismas tecnologías de deep learning, actualmente estamos logrando que esto también sea posible. 

Además, mediante “Alexa Conversations”, es capaz de dialogar con personas. Los clientes pueden, por ejemplo, conectar Alexa al timbre de su casa y ella preguntará a cualquier visitante cuál es el objetivo de su cita y, si es necesario, mandará un correo electrónico al usuario informándole de quién ha ido a verle; o si simplemente es un repartidor quien se acerca para entregar un paquete que no hay que firmar, Alexa le indicará dónde lo puede dejar.

Hacia la Inteligencia Artificial General

Nuestra aspiración es que Alexa esté en todas partes, siempre disponible. Para ello, introduciremos nuevos dispositivos, que se sumarán a los ya disponibles: Echo Buds (auriculares inalámbricos con Alexa), Echo Frames-Eyeglasses (monturas de gafas con Alexa), Echo Loop-Smart ring (anillos inteligentes con Alexa)… Todo esto permitirá a Alexa estar en contacto permanente con el usuario y satisfacer sus necesidades al momento.

Aun habiendo hecho tremendos avances en IA, creo que esta tecnología está sólo dando sus primeros pasos. De sensory data, pasamos (2014) a phenomena modeling; hoy ya estamos en la toma de decisiones inteligentes pero, en el futuro, deberemos alcanzar el razonamiento y la autonomía.

En la fase de modelación de fenómenos, el principio fue el reconocimiento y la modulación de la voz; ahora estamos haciendo que el contexto intervenga en la toma de pequeñas decisiones para nuestros clientes. La comprensión de ese contexto en cualquier interacción es una capacidad que ha de ser “inyectada” poco a poco en Alexa. Iremos ascendiendo “la montaña de la IA” hasta tocar cumbre en lo que será la Artificial General Intelligence, que hará de Alexa algo mucho más útil en nuestras vidas.


Rohit Prasad, vicepresidente y director científico para Amazon Alexa.

Publicado en Executive Excellence nº166 mayo 2020.