# Voz

Cada vez será más habitual comunicarnos con sistemas de inteligencia artificial (IA) mediante nuestra voz y, a menudo, esperaremos una respuesta hablada.

![Un robot hablando](./images/speech.jpg)

*Reconocimiento de voz* (un sistema de IA que interpreta el lenguaje hablado) y *Síntesis de voz* (un sistema de IA que genera una respuesta hablada) son los componentes principales de una solución de IA habilitada por voz.

## Crear un recurso de Cognitive Services

Para crear un software que pueda interpretar el lenguaje hablado y responder de la misma manera, puede usar **Voz** de Cognitive Services, que permite convertir lenguaje hablado en texto y viceversa.

Si no tiene uno, siga estos pasos para crear un recurso de **Cognitive Services** en su suscripción de Azure:

> **Nota**: Si ya tiene un recurso de Cognitive Services, abra su página de **Inicio rápido** en Azure Portal y copie la clave y el punto de conexión en la siguiente celda. En caso contrario, siga estos pasos para crear uno.

1. En la pestaña de otro explorador, abra Azure Portal (https://portal.azure.com) e inicie sesión con su cuenta de Microsoft.
2. Haga clic en el botón **&#65291;Crear un recurso**, busque *Cognitive Services* y cree un recurso de **Cognitive Services** con esta configuración:
    - **Suscripción**: *su suscripción de Azure*.
    - **Grupo de recursos**: *seleccione o cree un grupo de recursos con un nombre único.*
    - **Región**: *seleccione cualquier región disponible*:
    - **Nombre**: *escriba un nombre único*.
    - **Plan de tarifa**: S0
    - **Confirmo que he leído y comprendido las notificaciones**: seleccionado.
3. Espere a que la implementación finalice. Vaya al recurso de Cognitive Services y, en la página **Información general**, haga clic en el vínculo para administrar las claves del servicio. Necesitará la clave y la ubicación para conectarse a su recurso de Cognitive Services desde aplicaciones de cliente.

### Obtener la clave y la ubicación de un recurso de Cognitive Services

Para usar su recurso de Cognitive Services, las aplicaciones de cliente necesitan su clave de autenticación y su ubicación:

1. En Azure Portal, en la página **Claves y punto de conexión** de su recurso de Cognitive Services, copie la **Key1** de su recurso y péguela en el siguiente código, en sustitución de **YOUR_COG_KEY**.
2. Copie la **Ubicación** de su recurso y péguela en el siguiente código, en sustitución de **YOUR_COG_LOCATION**.
>**Nota**: Quédese en la página **Claves y punto de conexión** y copie la **Ubicación** desde esta página, (ejemplo: _westus_). No_agregue_espacios entre las palabras del campo Ubicación. 
3. Ejecute el código siguiente. Para ello, haga clic en **Run cell** (&#9655;) a la izquierda de la celda.

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

## Reconocimiento de voz

Digamos que quiere crear un sistema de automatización del hogar que acepte instrucciones habladas, como “turn the light on” para encender la luz y “turn the light off” para apagarla. Su aplicación debe ser capaz de reconocer el audio de su voz (su instrucción hablada), interpretarlo y convertirlo en texto para, después, procesarlo y analizarlo.

Ya está listo para transcribir audio. La entrada de audio puede recibirse a través de un **micrófono** o mediante un **archivo de audio**. 


### Reconocimiento de voz con un archivo de audio

Ejecute la celda siguiente para ver cómo funciona el servicio Reconocimiento de voz con un **archivo de audio**. 


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Get spoken command from audio file
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Configure speech recognizer
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Use a one-time, synchronous call to transcribe the speech
speech = speech_recognizer.recognize_once()

# Play the original audio file
playsound(audio_file)

# Show transcribed text from audio file
print(speech.text)

## Síntesis de voz

Ya hemos visto cómo usar el servicio Voz para transcribir el lenguaje hablado, pero ¿qué pasa si queremos convertir el texto en voz? ¿Cómo podemos hacerlo?

Supongamos que su sistema de automatización del hogar ha interpretado un comando para encender la luz (“turn the light on”). Lo esperado sería que el sistema respondiera al comando y que, además, realizase la acción solicitada.

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Get text to be spoken
response_text = 'Turning the light on.'

# Configure speech synthesis
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
speech_synthesizer = SpeechSynthesizer(speech_config)

# Transcribe text into speech
result = speech_synthesizer.speak_text(response_text)

# Display an appropriate image
file_name = response_text.lower() + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

Cambie la variable **response_text** a *Turning the light off.* (incluido el punto final) y vuelva a ejecutar la celda para escuchar el resultado.

## Más información

En este cuaderno, hemos visto un sencillo ejemplo sobre cómo usar el servicio Voz, de Cognitive Services. Puede obtener más información sobre [Conversión de voz en texto](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text) y [Conversión de texto en voz](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech) en la documentación del servicio Voz.