Roberto Valente: “Cada día la voz se volverá más importante en esta época de transición digital”

 

El CEO de la empresa Interactive Media conversó con Ok-Bot sobre el lanzamiento de su más reciente solución: PhoneMyBot, una propuesta que le pone voz a los chatbots y traduce a texto el lenguaje oral (para que los asistentes nos entiendan).

-¿Qué es PhoneMyBot?

-PhoneMyBot es la más reciente solución que brinda Interactive Media. Interactive Media es una compañía que ha estado trabajando en inteligencia artificial desde 1996. Hemos desarrollado soluciones AVR en el pasado y en los últimos 10 años nos hemos enfocado en Inteligencia Artificial, así como en el desarrollo de soluciones, primero para voicebots y luego omnicanal a través de la inclusión de texto. Nuestro producto clásico es una solución end-to-end que permite el contacto con el usuario por texto o por llamada telefónica y una integración con un call center o red telefónica.

En los últimos años entendimos que en el mercado hay varias empresas que trabajan con inteligencia artificial, muchas con chatbots. Estas empresas son muy buenas en cuanto a sus usinas cognitivas de Inteligencia Artificial, pero en general no tienen experiencia en voz, tecnologías del habla o integraciones con red telefónica, campo en el que Interactive Media se destaca. Por este motivo hemos decidido lanzar esta nueva solución llamada PhoneMyBot, una plataforma self-service de software totalmente basada en la nube, que brinda voz y telefonía a los chatbots. Las compañías pueden así disponer de voicebots a partir de sus propios chatbots tan solo conectándose con nuestra plataforma. Automáticamente agregamos voz telefónica a la aplicación.

Este es el principal servicio, pero además tenemos otro como la transcripción de archivos de audio. Notamos que algunos chatbots trabajan con aplicaciones de mensajería como WhatsApp, pero ciertas veces, los usuarios prefieren grabar un audio en lugar de enviar texto. En este caso los chatbots no pueden funcionar porque no saben cómo administrar un mensaje de audio. Por eso PhoneMyBot ofrece un servicio de transcripción con el que le enviamos al chatbot el audio transcrito a texto para que pueda seguir trabajando normalmente. En pocas palabras, PhoneMyBot es una solución que agrega voz a chatbots y permite transcripción de mensajes de audio.

-¿Cómo surgió la idea de ponerle voz a los chatbots?

-La idea surgió de la experiencia. Porque veníamos de trabajar muchos años con estas aplicaciones. Notamos que era un desafío desarrollar una buena aplicación que requiriera el uso de la voz y esté dirigida a miles o millones de usuarios. Tuvimos la idea de dividir el problema: por un lado, hacer la aplicación desde el lenguaje natural con Inteligencia Artificial, algo que los desarrolladores de chabots hacen; la otra fue administrar la interfaz de la red telefónica o del asistente virtual  como Google Home o Alexa, la integración con un call center y desarrollar la habilidad de trabajar bien con tecnología de speech recognition. Entonces dividimos los problemas: Interactive Media es muy buena en integración con redes telefónicas, y existen muchas empresas muy buenas desarrollando aplicaciones basadas en texto. Entonces pensamos que esta alianza sería muy sólida al agilizar el proceso de desarrollo de nuevas aplicaciones. Las empresas de desarrollo de chatbots ya no tienen que enfocarse en aspectos que no dominan, como integraciones con redes de telefonía, reconocimiento de voz, etc. y en cambio sí pueden poner el acento en lo que sí hacen bien, en chatbots. Pero al final, luego de conectarse con nuestra plataforma PhoneMyBot pueden adquirir una solución omnicanal, porque le agregan voz y teléfono a sus productos. Es muy sencillo y pueden probarlo de manera gratuita en nuestro sitio https://www.phonemybot.com/ .

-¿Cuáles son los desafíos en la traducción desde el lenguaje escrito al oral y desde la voz al texto?

-Gracias por esta pregunta. Es muy importante, porque el corazón de la solución de PhoneMyBot es la habilidad para reconocer qué dice el usuario y, por supuesto, convertir en voz lo que el chatbot nos da como texto. La primera tecnología es llamada speech to text, reconocimiento automático de voz. Nosotros no generamos desarrollos speech to text, sino que usamos los productos del mercado. Pero tenemos un módulo con el que decidimos cuál producto utilizar según las diversas situaciones. Por ejemplo, ante una pregunta como “¿Puedo ayudarle?” seguido de una respuesta aleatoria del usuario, existen productos que pueden transcribirlo.  Pero cuando la pregunta es “Dame tu teléfono”, hay productos que no son buenos en la transcripción, entonces cambiamos automáticamente hacia otro producto de reconocimiento de voz. De esta manera, obtenemos siempre la mejor performance. Esto es muy importante por dos razones, para la experiencia de usuario, porque las personas pueden conversar de manera correcta con el voicebot; y porque de esta manera no es necesario transferir la comunicación a persona para completar el servicio. Para la otra tecnología, de texto a voz, tenemos diferentes productos, una lista de productos in voice para diferentes lenguajes, género. El usuario puede elegir el idioma. Otro servicio que proveemos, es a través de un locutor profesional, una voz humana profesional, ideal para una mejor comprensión de la aplicación.

-¿Pueden las voces ser adaptadas a las necesidades del cliente?

-Es posible de acuerdo con la capacidad del producto text to speech que elijamos. Un proyecto importante puede alquilar la voz de un actor como Tom Cruise o Nicole Kidman, pero por supuesto será muy costoso. Por lo tanto, es usual elegir entre las voces disponibles o incluso la de un locutor profesional que no sea necesariamente un actor, puede ser un locutor de radio, televisión o un DJ y obtener así un muy buen resultado.

 -¿Cuál es el perfil de las compañías que usan PhoneMyBot?

-El socio ideal es la compañía que desarrolla chatbots, ya que nos complementamos al 100%. Sabemos que nuestra habilidad es proveer una solución omnicanal. Esto es muy bueno, porque muchos clientes quieren solo una inteligencia para diferentes canales. Pero lo que suele pasar es que se usen distintas tecnologías para distintos canales. Quiero decir, una para chatbots y otra para voicebots. Con PhoneMyBot es posible tener una inteligencia que administre los distintos canales. Esto es muy bueno en términos de propiedad del producto.

-¿Cuál es, según su opinión, el rol que tiene la voz en la conversación digital en esta época?

-La voz es muy importante y lo será cada vez más. Hay varias razones. Todos saben que en la actualidad en el mercado hay diversas opciones de dispositivos como Alexa, Google Home, Cortana, etc. ¿Por qué sucede esto? Porque hablar es más veloz que escribir. Es tres veces más veloz. Es más fácil hablar que escribir. Aprendemos primero a hablar y luego a escribir. Es más natural. Esa es la ventaja del habla sobre el texto. Luego hay otras situaciones en las que puede ser muy útil. Si tienes las manos ocupadas, si estás manejando, no podés escribir y la única posibilidad que te queda es hablar. Otra razón es que en el mundo hay personas que, por razones educativas, no escriben de manera correcta y prefieren hablar, porque lo hacen mejor. En los próximos meses o años, cada día la voz se volverá más importante en esta época de transición digital.

Deja un comentario