# Reconocimiento y síntesis de voz

En este notebook veremos como reconocer frases de voz para transcribirlas a texto y viceversa.

##### Requerimientos

Para poder seguir correctamente este notebook necesitaremos tener micrófono en nuestro ordenador y las siguientes librerías instaladas:

* SpeechRecognition
* Pyaudio

En caso de no tenerlas instaladas, aquí tienes cómo instalarlas.
* SpeechRecognition -->
`pip install SpeechRecognition`
* Pyaudio -->
`conda install pyaudio`
`pip install pyttsx3`


## Parte 1: Reconocimiento de voz

En primer lugar vamos a ver cómo reconocer la voz y convertirla a texto

In [2]:
import speech_recognition as sr

#### Creación de la instalacia de reconocimiento de voz

In [3]:
instance = sr.Recognizer()

#### Seleccionar la fuente de audio

Como se ha comentado, se puede utilizar el audio desde 2 tipos de fuentes distintas, bien desde un fichero en formato WAV o desde el micrófono, veamos ambos procesos.

#### Audio desde fichero

El proceso es muy sencillo, bastaría con cargar el archivo utilizando el comando `AudioFile('RUTA_DEL_ARCHIVO')`

In [5]:
file = sr.AudioFile('./example.wav')

En primer lugar tenemos que cargar el audio del micrófono con el comando `Microphone()`

In [4]:
# En caso de tener algún error al ejecutar el comando Microphone(), descomentar estas líneas:
#import sys
#!{sys.executable} -m pip install pyaudio

In [6]:
mic = sr.Microphone()

El comando `Microphone()` seleccionará por defecto el micrófono que nuestro sistema tenga predeterminado, pero podemos seleccionar cualquier otro instalado en el sistema, incluso la salida de audio que podríamos utilizar para transcribir, por ejemplo, una reunión.

Para ver la lista de micrófonos ejecutaremos el comando `list_microphone_names()`

In [7]:
sr.Microphone().list_microphone_names()

['Asignador de sonido Microsoft - Input',
 'MicrÃ³fono (Realtek(R) Audio)',
 'Asignador de sonido Microsoft - Output',
 'Altavoces (Realtek(R) Audio)',
 'MSI MP242A (Sonido Intel(R) par',
 'Controlador primario de captura de sonido',
 'MicrÃ³fono (Realtek(R) Audio)',
 'Controlador primario de sonido',
 'Altavoces (Realtek(R) Audio)',
 'MSI MP242A (Sonido Intel(R) para pantallas)',
 'MSI MP242A (Sonido Intel(R) para pantallas)',
 'Altavoces (Realtek(R) Audio)',
 'MicrÃ³fono (Realtek(R) Audio)',
 'Speakers ()',
 'MicrÃ³fono ()',
 'Mezcla estÃ©reo ()',
 'Speakers (Nahimic mirroring Wave Speaker)',
 'Output (Sonido Intel(R) para pantallas - Salida 1.1)']

Para seleccionar cualquier otro micrónono de la lista basta con especificar el orden que tiene en la lista dentro del comando Micrphone() -> `Microphone(device_index=12)` Seleccionará el 12º de la lista, en este caso "Micrófono (USB Microphone)"

##### Crear el fragmento de audio

Una vez tenemos el input, bien desde audio o desde el micrófono, lo establecemos como source. En este proceso es cuando eliminaríamos el ruido de fondo con el comando `adjust_for_ambient_noise()`

In [8]:
def mic_conversion():
    with mic as source:
        
        #Ajustes de sonido ambiente
        instance.adjust_for_ambient_noise(source)
        
        #Comenzar a grabar el audio
        audio = instance.listen(source)
        
        #Transcribir usando la api de google
        transcript = instance.recognize_google(audio, language='es-ES', show_all = True)
        
        #Devolvemos el resultado obtenido
        return transcript ['alternative'][0]['transcript']
        
def audio_conversion():
    with file as source:
        
        instance.adjust_for_ambient_noise(source)
        
        audio = instance.record(source)
        
        transcript = instance.recognize_google(audio, language='es-ES', show_all = True)
        
        return transcript ['alternative'][0]['transcript']

Ahora vamos a probar las funciones que hemos creado.

#### Función de micrófono

Cuando ejecutemos el comando, debemos esperar un segundo para empezar a hablar y evitar que se nos corte el principio del audio. La función dejará de grabar automáticamente tras dejar de hablar

In [10]:
mic_conversion()

'el reconocimiento de voz hace referencia a la transcripción de un audio a una cadena de texto mientras que la síntesis de voz es el proceso contrario la conversión en audio de un texto'

#### Función de procesamiento de audio

Ahora haremos lo mismo con la función del texto. No nos reconocerá el principio del texto, por lo que el reconocimiento no será del todo correcto.

El texto contenido en el audio es el siguiente:

`La Policía Nacional ha finalizado hoy la implantación de esta nueva versión del DNI y desde hoy únicamente se expedirá este DNI Europeo para todos los ciudadanos españoles.`

In [11]:
audio_conversion()

'ha finalizado y la implantación de esta nueva versión del DNI y desde hoy únicamente se expedirá este DNI europeo para todos los ciudadanos españoles'

## Parte 2: Síntesis de voz
En primer lugar vamos a ver cómo reconocer la voz y convertirla a texto

In [13]:
### Importación de librerías
#pip install vaderSentiment

In [14]:
import pyttsx3

### Motor de reconocimiento

Lo primero que debemos hacer es crear el motor de reconocimiento, para ello basta con ejecutar el comando `init()`

In [15]:
engine = pyttsx3.init()

### Configuración dle motor

Una vez creado, toca configurarlo. En nuestro caso, la configuración será estática, puesto que estableceremos el idioma y la velocidad y no necesitaremos modificar habitualmente los parámetros

In [16]:
#Configuración de la velocidad
engine.setProperty('rate', 140)

#Configuración del idioma
engine.setProperty('voice', 'spanish')

### Función para hablar

Ahora solo nos queda crear una función para que nuestro motor hable

In [17]:
def habla(texto):
    engine.say(texto)
    engine.runAndWait()

### Probar la función

Ahora solo queda probar la función que hemos creado y escuchar cómo se procesa el texto. Vamos a utilizar el mismo texto para comparar el resultado.

In [18]:
texto = 'La Policía Nacional ha finalizado hoy la implantación de esta nueva versión del DNI y desde hoy únicamente se expedirá este DNI Europeo para todos los ciudadanos españoles.'

In [19]:
habla(texto)