# 1. Voz a texto usando el paquete `SpeechRecognition`

## 1.1. Opciones predeterminadas en PYPI (Python Package Index)

* apiai
* assemblyai
* google-cloud-speech
* pocketsphinx
* SpeechRecognition
* watson-developer-cloud
* wit

## 1.2. Algoritmo

### 1.2.1. Instalar el paquete en caso que no lo tenga Python

In [1]:
#!pip install SpeechRecognition

### 1.2.2. Importar y comprobar la versión del paquete

In [2]:
import speech_recognition as sr
sr.__version__

'3.8.1'

### 1.2.3. Se crea una instancia `sr.Recognizer()`, la cual tiene 7 métodos para elegir a partir de diferentes API's:

In [3]:
r = sr.Recognizer()  #r es una clase de la librería de Speech Recognition

* recognize_bing(): Microsoft Bing Speech
* recognize_google(): Google Web Speech API
* recognize_google_cloud(): Google Cloud Speech - requires installation of the * google-cloud-speech package
* recognize_houndify(): Houndify by SoundHound
* recognize_ibm(): IBM Speech to Text
* recognize_sphinx(): CMU Sphinx - requires installing PocketSphinx
* recognize_wit(): Wit.ai

De estos 7 sólo `recognize_sphinx()` trabaja offline. Los demás necesitan conexión a internet
_______________________________________________________

Actualmente, `SpeechRecognition` es compatible únicamente con los siguientes formatos de audio:

* WAV: debe ser en formato PCM/LPCM
* AIFF
* AIFF-C
* FLAC: sólo FLAC nativo; no soporta formato OGG-FLAC 

### 1.2.4. Se lee el archivo de audio con la herramienta `sr.Audiofile()` y se graba en la instancia `r` creada

In [4]:
file_name = "../Taller AI/harvard_2.wav"
harvard = sr.AudioFile(file_name)
with harvard as source:
    audio = r.record(source)

El tipo de variable de la captura del audio es el siguiente:

### 1.2.5. Se utiliza el API para transcribir a texto el archivo anterior

In [5]:
text = r.recognize_google(audio)
try: 
    print("TEXT:\n\n" + text)
except:
    pass

TEXT:



### 1.2.6. Escuchamos el audio para comparar el texto

In [6]:
#!pip install playsound

from playsound import playsound
playsound("harvard.wav")

In [7]:
from IPython.display import Audio
from scipy.io import wavfile

Audio(file_name,rate=44100)

### 1.2.7. En otros idiomas se puede también, como en español

In [8]:
file_name2 = "../Taller AI/espanol_2.wav"
spanish = sr.AudioFile(file_name2)
with spanish as source:
    audio_spa = r.record(source)

In [9]:
text_spa = r.recognize_google(audio_spa, language = 'es-CO')
try: 
    print("TEXT:\n\n" + text_spa)
except:
    pass

TEXT:

Hola Esto es una prueba para el taller de Inteligencia artificial voz a texto


from playsound import playsound
playsound(file_name2)

In [10]:
Audio(file_name2,rate=44100)