Press o Say (Vista previa)

La acción Press o Say (presionar o decir) permite a los creadores de flujo crear un flujo de voz en el cual el llamante puede proporcionar una entrada a través del habla o la entrada DTMF utilizando el teclado de marcación de su teléfono. Cualquier entrada que elijan se transmite directamente al servicio de reconocimiento de voz de IBM Watson (agregaremos más proveedores más adelante). Todavía estamos haciendo ajustes y recibiendo comentarios para Presionar o Decir, por lo que se ha presentado en la vista previa.

La acción se parece a la acción Recopilar DTMF en la mayoría de los casos y permite la misma configuración de los siguientes elementos:

 

Tecla de terminación

La tecla que el llamante puede presionar en su teclado de marcación para indicar que ha completado su entrada.

 

Límite de tiempo

Especifique el número de segundos que el usuario tiene para ingresar su entrada antes de que el flujo continúe.

 

Número de dígitos

El número de dígitos que la acción debería esperar recibir (por ejemplo, 16 dígitos para un número de tarjeta de crédito).

 

Configuración de audio

Agregue clips de audio o texto a voz para configurar un aviso de audio para la acción (es decir, «Ingrese su número de tarjeta de crédito de 16 dígitos»).

 

Almacenar datos en registros de datos de Atmosphere® Insights

Cuando se marca, las entradas DTMF se almacenarán con fines analíticos en Atmosphere® Insights.

 

Nota: Debido a la posibilidad de compartir datos confidenciales o privados, no almacenamos ninguna entrada DTMF sin marcar esta casilla.

 

Habilitar grabación de voz

Permitir que las entradas habladas se conviertan en texto.

 

Output (Salida)

La acción Presionar o Decir crea una variable que contiene la entrada del llamante (ya sea dígitos DTMF o transcripción de su discurso). Se puede usar una acción de cambio para enrutar el flujo en función del contenido de la variable.

 

Beneficios:

  • Menor latencia: Esta acción se transmite directamente a los servicios de reconocimiento de voz, como IBM Watson, para un reconocimiento de voz mucho más rápido en el flujo de voz en comparación con la solución anterior para este caso de uso, que implicó encadenar múltiples acciones y se basó en llamadas API al servicio de reconocimiento de voz.

  • Convertir números hablados en dígitos: Las mejoras del backend también permiten que los números hablados se traduzcan a dígitos (es decir, «Dos cuatro siete tres» se convierte en «2473»).

  • Interrumpir: Debido a que esta acción se transmite directamente al servicio de reconocimiento de voz, la acción está diseñada para responder rápidamente a la voz, lo que significa que si el usuario desea interrumpir mientras se reproduce el mensaje de audio, puede hacerlo. Anteriormente, con el método basado en API, el llamante tenía que esperar a que finalizara el mensaje de audio antes de hablar.