Cathy Pearl: “Un diseñador VUI es alguien que tiene respeto por la comunicación humana”

Gerente de diseño de Google Assistant en Google y autora del libro de O’Reilly Designing Voice User Interfaces, Cathy Pearl contó en esta entrevista para Ok-Bot cómo fue su rol pionero en el trabajo conversacional, en la década del ´90; cuál es la estrategia de Google Assistant para ser útil ante audiencias segmentadas y cómo cree que evolucionará el ecosistema de asistentes virtuales. Además, consejos para quienes empiezan a involucrarse en la disciplina.

 

¿Podés contarnos cómo empezaste tu carrera? ¿Cómo y cuándo empezaste a trabajar con asistentes virtuales y Voice User Interface?

Era el tipo de cosa que siempre me interesó. Cuando era niña, trataba de hacer que mi computadora me hablara, pero nunca se me ocurrió que podría convertirse en una verdadera carrera profesional o  un trabajo real. Fue a finales de los 90, mientras trabajaba como ingeniera de software en la NASA, vi una búsqueda laboral para una empresa llamada Nuance Communications que fabricaba IVR´s, sistemas de telefonía automatizada para hablar con las computadoras. Me interesó mucho y, aunque no llegaba a funcionar, tenían una línea de demostración a la que podías llamar por teléfono y podías pretender transferir dinero de aquí para allá. Me resultó increíble. Entonces obtuve una entrevista. Fue en 1999, cuando la tecnología todavía era muy nueva y no había mucha gente que supiera cómo hacer esto. Así que todos estábamos aprendiendo en el trabajo. Varios de los que nos convertimos en diseñadores de interfaz de usuario de voz (VUI) en esta empresa aprendimos sobre la marcha.

¿Qué hace a un buen diseñador de VUI?

Me gusta pensar en dos partes: por un lado, es una persona muy curiosa e interesada en cómo hablan los humanos, que no se sorprenderá cuando su usuario le diga algo inesperado a su bot. Es alguien que tiene respeto por la comunicación humana. Además de eso, debe ser consciente acerca de las limitaciones de la tecnología. Porque puedes ser un hermoso escritor y hacer maravillosos diseños de conversación, pero si no se puede construir porque la tecnología no le da soporte, no sirve.  No hace falta ser un programador, pero tienes que poseer una comprensión de lo que la tecnología puede y no puede hacer.

Los asistentes virtuales tradicionalmente han sido diseñados por programadores. En tu libro “Designing voice user interfaces” le hablas a un público más amplio. ¿Crees que es posible que gente no especializada pueda tener acceso a diseñar este tipo de herramientas?

Creo que sí. Hay dos posibilidades. Si eres parte de una empresa en donde eres diseñador y trabajas con programador@s, el proceso puede derivar en que el diseñador dé forma a la experiencia y el desarrollador la construya.  Esa es una posibilidad y creo que así es como operan muchas empresas. Pero también, incluso si estás solo y no eres programador, existen herramientas como VoiceFlow y Botsociety que te permiten usar una interfaz gráfica de usuario y, mediante drag and drop, crear experiencias reales que puedes testear en tu asistente virtual, y no hace falta programar para construirlas. Entonces, seguro, creo que cualquiera que tenga interés y esté dispuesto a aprender, porque tienes que aprender muchas cosas, absolutamente puede hacerlo.

¿Puede decirnos cuáles son los principales desafíos en el desarrollo de un asistente virtual, así como en el diseño VUI?

Creo que uno de los mayores desafíos, si estás creando un asistente virtual, es comunicar a las personas lo que puede y lo que no puede hacer. Entonces, en un asistente de amplio alcance como Google Assistant o Alexa, seguro la gente sabe que puede reproducir música,  configurar temporizadores… Pero, ¿cómo pueden saber acerca de las otras 10,000 cosas que el asistente virtual hace y de aquellas que no? Y eso es algo con lo que la industria todavía está luchando. Entonces puedes construir cosas maravillosas, pero si nadie las conoce y no lo usan, ya sabes, deja de tener relevancia.

La otra cosa, por supuesto, es el hecho de que aunque los humanos hablamos de distintas maneras podemos lidiar con eso fácilmente: ante una pregunta de “sí o no”, si hay una pausa demasiado larga, probablemente significa que van a decir que no. Y una computadora no entiende todo eso. Y así, a veces, algo que parece súper básico para un humano, para una computadora es un problema, porque no tiene ese contexto y ese sentido común que tenemos los humanos.

Un estudio de Bloomberg explica que del 15 al 25 por ciento de los nuevos  usuarios de Alexa no vuelven a estar activos en la segunda semana. ¿Es esta una nueva era para el uso de los smart speakers?

Al principio, por supuesto, eran una novedad: “oh Dios mío, puedes hablar con esta cosa y hacer cosas”. Pero claro, eso se desvanece. Y nuevamente, creo que se remonta a esta idea de descubrir que puedo reproducir una canción, pero… ¿qué más puedo hacer? Y si una persona no puede encontrar cosas que le sean útiles, simplemente no lo van a usar. Si ya saben cómo hacer algo en su teléfono, ¿por qué deberían molestarse en hablar con un asistente inteligente? Entonces creo que se trata, otra vez, de preguntarnos cómo comunicamos a la gente cuáles son las cosas que puede encontrar realmente útiles. Creo que hemos cruzado el umbral y  la tecnología de voz se ha vuelto un lugar común. No creo que desaparezca ni nada por el estilo, pero puede evolucionar hacia, ya sabes, diferentes dispositivos, como cosas que cuelgan en la pared, o en tu automóvil, u otros lugares donde podrías hablar a un asistente de voz. Así que creo que llegó para quedarse, pero podría cambiar en la forma en que se presenta.

Cathy, vivimos en un mundo de audiencias segmentadas. Entonces, mi pregunta es, ¿cómo es que el/la diseñador/a de voz tiene en cuenta aquella diversidad en productos masivos como Alexa o Google Assistant?

Existe el dicho de que si diseñas para todos, no diseñas para nadie. Y es difícil. Porque cuando intentas crear un asistente virtual de propósito general, quieres que le sirva a todos, pero lograrlo es muy difícil. Entonces, creo que algunas de las cosas a tener en cuenta son, definitivamente, hacer investigación de usuario, analizar diferentes segmentos de la población…¿Cuáles son las cosas que son importantes para ellos? ¿Cuáles son las formas en que les gusta interactuar? Puedes mirar, por ejemplo, a los niños, adolescentes, adultos jóvenes y tratar de entender cuáles son sus quejas, qué encuentran valioso. Algo que para una persona podría ser cool, para otra puede no serlo. Simplemente, diría que vayan hacia donde se encuentran los usuarios y traten de entenderlos. No solo digas, “bueno, sé lo que todos quieren”, porque ahí es donde nos metemos en problemas. Un buen diseñador sabe que uno mismo no es ejemplo de usuario: tienes que salir y escuchar a otras personas.

¿Cuáles son las mejores habilidades para convertirse en un diseñador de conversación?

Cuando veo a las personas que son diseñadoras de conversación, francamente, noto que vienen de orígenes diferentes. Tienes gente en campos técnicos, como ingeniería eléctrica; yo vengo de ciencias de la computación y ciencia cognitiva… Hay gente que viene del teatro, que eran actores; otros son escritores de estrategias de contenido. Hay una gran variedad. Y entonces, no hay un solo camino. No puedes salir y obtener un título en diseño de conversación. Así que, si estoy buscando currículums o portfolios  miro menos qué estudió alguien en la escuela y, en cambio, me fijo más en el conjunto de habilidades.

Y volvemos a una de las preguntas que hiciste antes. Si yo preguntara “¿qué necesitas hacer para diseñar un buen sistema de voz?” y no me respondieras que “tienes que analizar lo que la gente le dice a tu sistema para que puedas iterarlo y mejorarlo”, si no posees ese ese concepto…bueno, creo que ahí falta algo. Entonces,  busco gente que haya experimentado, que entiendan que esto es algo difícil de hacer, que lleva mucho tiempo y que, normalmente, no lo haces bien la primera vez. También debes tener un respeto por los usuarios e interés en el lenguaje. No es necesario que te guste hablar muchos idiomas, no tienes que ser lingüista. No soy lingüista, pero debes tener interés en comprender la comunicación humana.

Foto: https://www.cathypearl.com/

¿Nos dirías cuál es la estrategia que tiene Google Assistant para profundizar su alcance a un público más amplio?

Tiene que ver con lo que hablamos antes. Google Assistant no solo está disponible para ti como un smart speaker, sino que está en tu teléfono y las personas tienen sus teléfonos con ellos mucho tiempo. No necesitas estar en tu casa y hablar con tu smart speaker   para aprovechar las cosas que el sistema puede hacer. Hacer al Assistant me hace pensar en qué  lo haría más útil. Si pudiera ayudarte mientras conduces al trabajo, ¿sería más útil cuando hablas con amigos? Es pensar cuáles son todos los lugares que podríamos  convertirlo en una parte útil de la vida. En definitiva, se trata de ampliar el acceso para que no tengas que estar en un solo lugar con un dispositivo.

¿Cuál crees que será el rol de los asistentes virtuales en los próximos años?

Nadie conoce el futuro, yo tampoco, pero sí sé cuál es mi esperanza. Mi opinión es que se volverán aún más útiles. Hoy puedo hacerle una pregunta a mi asistente virtual y muchas veces puedo obtener una respuesta, pero a veces se desvía o solo llega parcialmente. Y por eso me gustaría que fuera más allá. Entonces, por ejemplo, si digo algo como, “vamos al Parque Nacional Arches”, donde están los mejores lugares para caminar. Me encantaría tener una conversación sobre eso. Entonces, en lugar de decir, “oh, encontré un sitio web para ti. Aquí tienes”, en cambio me gustaría que fuera algo como “oh, bueno, ya sabes, aquí están las tres mejores caminatas que creo que te gustarán porque sé que te gustan. Y aquí hay una foto. Y aquí hay algo de información”. En definitiva, una experiencia más conversacional, más como un asistente humano. Quiero tener un ida y vuelta que sea beneficioso para mí y haga parte del trabajo. También una de las cosas que me encantan de los parlantes inteligentes es que me distraen del teléfono: si estoy viendo la televisión y tengo una pregunta rápida, puedo hacerla y él me responderá. No tengo que levantar mi teléfono y luego decir “oh, he estado con mi teléfono durante 20 minutos”. Me gusta el hecho de que pueden ayudarme a seguir conectada sin una pantalla justo frente a mí todo el tiempo.

¿Puedes dar algún consejo a aquellos que quieran entrar en el universo del diseño conversacional, Asistencia Virtual y VUI´s?

Algunos de mis consejos son sobre la experimentación. Hay algunas herramientas como Voiceflow y Botsociety que te permiten experimentar y esa es la mejor manera. Porque hasta que no hayas intentado escribir un chatbot o una experiencia de voz no sabrás cómo son algunos de los desafíos… así que practica, muéstrale a tus amigos, mira lo que sucede. Por que cada vez que construyes tu primer bot, estás tan orgulloso… que luego se lo das a alguien y  ves que al usarlo escriben o dicen algo que no esperabas. Ahí te preguntas “¿por qué dirían eso?”, y ahí te das cuenta cómo funciona esto. Pero también hay tanta gente por ahí, compartiendo su experiencia como diseñadores de conversación, hay comunidades a las que puedes unirte e interactuar con otros diseñadores de conversaciones. Hay gente que escribe ensayos en Medium sobre sus experiencias. También puedes unirte a organizaciones como Women in Voice u otras comunidades o simplemente comenzar a seguir a personas en Twitter que te interesen y que creas que están construyendo cosas interesantes. Y mi consejo también es seguir a una variedad de personas. Que no se limite a mirar a las personas como yo, que he estado en el terreno durante mucho tiempo, cierto, sino que debes seguir a las personas que han estado en él uno o dos años porque están aprendiendo todo tipo de cosas. Ellos tienen una perspectiva diferente a la mía. Eso es muy valioso. Miremos a mucha gente. Hay podcasts, hay meetups, muchas reuniones virtuales gratuitas. Puedes unirte y empezar a sumergirte en lo que dicen y tratar de aprender de ellos.

Deja un comentario