# Unidad 5 - Reconocimiento y síntesis de voz

En este notebook veremos como reconocer frases de voz para transcribirlas a texto y viceversa.

## Requerimientos

Para poder seguir correctamente este notebook necesitaremos tener micrófono en nuestro ordenador y las siguientes librerías instaladas:

* SpeechRecognition
* Pyaudio

En caso de no tenerlas instaladas, aquí tienes cómo instalarlas.

### SpeechRecognition

1. Abriremos una consola de “Anaconda Promt”
2. Ejecutaremos el comando: `pip install SpeechRecognition`

### Pyaudio

1. Abriremos una consola de “Anaconda Promt”
2. Ejecutaremos el comando: `conda install pyaudio`
3. A continuación este: `conda install -c anaconda portaudio`
4. Por último este:`pip install pyttsx3`

## Parte 1: Reconocimiento de voz

En primer lugar vamos a ver cómo reconocer la voz y convertirla a texto

### Importación de librerías

In [1]:
import speech_recognition as sr

### Creación de la instalacia de reconocimiento de voz

Para crear la instancia basta con ejecutar el comando `Recognizer()`

In [2]:
instance = sr.Recognizer()

### Seleccionamos la fuente de audio

Como comentamos en la unidad podemos utilizar audio en 2 tipos de fuente, bien desde un fichero en formato WAV o desde el micrófono, veamos ambos procesos.

#### Audio desde fichero

El proceso es muy sencillo, bastaría con cargar el archivo utilizando el comando `AudioFile('RUTA_DEL_ARCHIVO')`

In [3]:
file = sr.AudioFile('./example.wav')

#### Audio desde fichero

En primer lugar tenemos que cargar el audio del micrófono con el comando `Microphone()`

In [4]:
# En caso de tener algún error al ejecutar el comando Microphone(), descomentar estas líneas
#import sys
#!{sys.executable} -m pip install pyaudio

In [5]:
mic = sr.Microphone()

El comando `Microphone()` seleccionará por defecto el micrófono que nuestro sistema tenga predeterminado, pero podemos seleccionar cualquier otro instalado en el sistema, incluso la salida de audio que podríamos utilizar para transcribir, por ejemplo, una reunión.

Para ver la lista de micrófonos ejecutaremos el comando `list_microphone_names()`

In [6]:
sr.Microphone().list_microphone_names()

['Microsoft Sound Mapper - Input',
 'Micrófono (USB Microphone)',
 'Microsoft Sound Mapper - Output',
 '6 - U28E590 (AMD High Definitio',
 '4 - PHL 223V7 (AMD High Definit',
 'Audio digital (S/PDIF) (High De',
 '3 - PHL 223V7 (AMD High Definit',
 'Output (AMD HD Audio DP out #5)',
 'Output (AMD HD Audio HDMI out #3)',
 'Output (AMD HD Audio HDMI out #2)',
 'SPDIF Out (HD Audio SPDIF out)',
 'Micrófono (USB Microphone)',
 'Auriculares con micrófono (@System32\\drivers\\bthhfenum.sys,#2;%1 Hands-Free AG Audio%0\r\n;(Sudio Ett))',
 'Auriculares con micrófono (@System32\\drivers\\bthhfenum.sys,#2;%1 Hands-Free AG Audio%0\r\n;(Sudio Ett))',
 'Auriculares ()']

Para seleccionar cualquier otro micrónono de la lista basta con especificar el orden que tiene en la lista dentro del comando Micrphone() -> `Microphone(device_index=12)` Seleccionará el 12º de la lista, en este caso "Micrófono (USB Microphone)"

#### Crear el fragmento de audio

Una vez tenemos el input, bien desde audio o desde el micrófono, lo establecemos como source. En este proceso es cuando eliminaríamos el ruido de fondo con el comando `adjust_for_ambient_noise()`

In [21]:
def mic_conversion():
    with mic as source:
        
        #Ajustes de sonido ambiente
        instance.adjust_for_ambient_noise(source)
        
        #Comenzar a grabar el audio
        audio = instance.listen(source)
        
        #Transcribir usando la api de google
        transcript = instance.recognize_google(audio, language='es-ES', show_all = True)
        
        #Devolvemos el resultado obtenido
        return transcript ['alternative'][0]['transcript']
        
def audio_conversion():
    with file as source:
        
        instance.adjust_for_ambient_noise(source)
        
        audio = instance.record(source)
        
        transcript = instance.recognize_google(audio, language='es-ES', show_all = True)
        
        return transcript ['alternative'][0]['transcript']

Ahora vamos a probar las funciones que hemos creado.

#### Función de micrófono

Cuando ejecutemos el comando, debemos esperar un segundo para empezar a hablar y evitar que se nos corte el principio del audio. La función dejará de grabar automáticamente tras dejar de hablar

In [23]:
mic_conversion()

{'alternative': [{'transcript': 'lista de la compra 4', 'confidence': 0.89029455}, {'transcript': 'lista de la compra cuatro'}, {'transcript': 'listadelacompra 4'}, {'transcript': 'listadelacompra cuatro'}], 'final': True}


'lista de la compra 4'

#### Función de procesamiento de audio

Ahora haremos lo mismo con la función del texto. No nos reconocerá el principio del texto, por lo que el reconocimiento no será del todo correcto.

El texto contenido en el audio es el siguiente:

`La Policía Nacional ha finalizado hoy la implantación de esta nueva versión del DNI y desde hoy únicamente se expedirá este DNI Europeo para todos los ciudadanos españoles.`

In [24]:
audio_conversion()

'final ha finalizado y la implantación de esta nueva versión del DNI desde hoy únicamente se expedirá este DNI europeo para todos los ciudadanos españoles'

## Parte 2: Síntesis de voz

En primer lugar vamos a ver cómo reconocer la voz y convertirla a texto

### Importación de librerías

In [26]:
import pyttsx3

### Motor de reconocimiento

Lo primero que debemos hacer es crear el motor de reconocimiento, para ello basta con ejecutar el comando `init()`

In [28]:
engine = pyttsx3.init()

### Configuración dle motor

Una vez creado, toca configurarlo. En nuestro caso, la configuración será estática, puesto que estableceremos el idioma y la velocidad y no necesitaremos modificar habitualmente los parámetros

In [38]:
#Configuración de la velocidad
engine.setProperty('rate', 140)

#Configuración del idioma
engine.setProperty('voice', 'spanish')

### Función para hablar

Ahora solo nos queda crear una función para que nuestro motor hable

In [40]:
def habla(texto):
    engine.say(texto)
    engine.runAndWait()

### Probar la función

Ahora solo queda probar la función que hemos creado y escuchar cómo se procesa el texto. Vamos a utilizar el mismo texto para comparar el resultado.

In [41]:
texto = 'La Policía Nacional ha finalizado hoy la implantación de esta nueva versión del DNI y desde hoy únicamente se expedirá este DNI Europeo para todos los ciudadanos españoles.'

In [42]:
habla(texto)