<a href="https://colab.research.google.com/github/FernandoBRdgz/inteligencia_artificial/blob/main/transcripci%C3%B3n_autom%C3%A1tica/transcripci%C3%B3n_con_whisper.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Reconocimiento automático de voz

La tarea de reconocimiento de voz, también conocida como transcripción, es capaz de convertir el lenguaje hablado (una señal de audio) en texto escrito. Conocido por sus siglas en ingles, el ASR (*Automatic Speech Recognition*) se utiliza comúnmente en aplicaciones orientadas al usuario, como agentes virtuales, generación de subtítulos en vivo, toma de notas, etc. La transcripción precisa del habla es esencial para estos casos de uso.

ASR es un componente crítico de la inteligencia artificial. Se usan también terminologías alternativas para describir el reconocimiento de voz como conversión de voz a texto o STT (*speech-to-text*).


### Whisper (Open AI)

Whisper es un sistema de reconocimiento automático de voz (ASR) entrenado en 680,000 horas de datos supervisados multilingües y multitarea recopilados de la web. Mostramos que el uso de un conjunto de datos tan grande y diverso conduce a una mayor solidez a los acentos, el ruido de fondo y el lenguaje técnico. Además, permite la transcripción en varios idiomas, así como la traducción de esos idiomas al inglés. Somos modelos de código abierto y código de inferencia que sirven como base para crear aplicaciones útiles y para futuras investigaciones sobre procesamiento de voz sólido.

In [1]:
!pip install git+https://github.com/openai/whisper.git -q

  Preparing metadata (setup.py) ... [?25l[?25hdone


In [2]:
!pip install gradio -q

Gradio es la forma más rápida de compartir demos su modelo de aprendizaje automático con una interfaz web amigable para que cualquiera pueda usarlo, en cualquier lugar.

In [3]:
import whisper
import gradio as gr

import warnings
warnings.filterwarnings("ignore")

In [4]:
model = whisper.load_model("medium")

In [5]:
model.device

device(type='cpu')

In [6]:
def transcribe(audio):
    
    # Carga audio y lo rellena/recorta para que quepa en 30 segundos
    audio = whisper.load_audio(audio)
    audio = whisper.pad_or_trim(audio)

    # Genera espectrograma log-Mel y lo comparte al mismo dispositivo que el modelo
    mel = whisper.log_mel_spectrogram(audio).to(model.device)

    # Detecta el idioma hablado
    _, probs = model.detect_language(mel)
    print(f"Idioma detectado: {max(probs, key=probs.get)}")

    # Decodifica el audio
    options = whisper.DecodingOptions()
    result = whisper.decode(model, mel, options)
    return result.text

In [7]:
gr.Interface(title='Reconocimiento automático de voz',
             fn=transcribe,
             description="Iniciar grabación con micrófono",
             inputs=[gr.inputs.Audio(source="microphone", type="filepath")],
             outputs="textbox",
             live=True).launch(share=True)

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
Running on public URL: https://9fb5bd39-10f9-4e9b.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades (NEW!), check out Spaces: https://huggingface.co/spaces




**Referencias**

* https://openai.com/blog/whisper/
* https://gradio.app/
* https://developer.nvidia.com/blog/essential-guide-to-automatic-speech-recognition-technology/