# Transcripci√≥n Autom√°tica de Audio con Whisper

**Prop√≥sito:** Transcribir archivos de audio a texto de forma simple y r√°pida.

**Modelo:** OpenAI Whisper

---

## ¬øQu√© vamos a hacer?

En este cuaderno vas a aprender a usar Whisper, el modelo de OpenAI para reconocimiento de voz, para convertir archivos de audio en texto.

**Casos de uso:**
- Transcribir reuniones y entrevistas
- Convertir podcasts a texto
- Generar subt√≠tulos para videos
- Documentar conferencias y charlas

**Requisitos:**
- Google Colab con GPU habilitada (Runtime > Change runtime type > GPU)
- Archivo de audio en formato com√∫n (MP3, WAV, M4A, etc.)

## Paso 1: Instalaci√≥n de Dependencias

Instalamos las librer√≠as necesarias para trabajar con Whisper.

In [1]:
# Instalar dependencias
!pip install -U -q transformers torch torchvision accelerate gradio librosa

print("‚úÖ Dependencias instaladas correctamente")

[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m899.7/899.7 MB[0m [31m1.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m594.3/594.3 MB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m10.2/10.2 MB[0m [31m63.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m88.0/88.0 MB[0m [31m9.4 MB/s[0m eta [36m0:00:00[0m
[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m954.8/954.8 kB[0m [31m28.1 MB/s[0m eta [36m0:00:00[0m
[

## Paso 2: Importar Librer√≠as y Configurar el Modelo

Importamos las librer√≠as y configuramos el modelo de Whisper que vamos a usar.

In [2]:
import torch
from transformers import pipeline
import gradio as gr
import warnings

warnings.filterwarnings('ignore')

print("üì¶ Librer√≠as importadas correctamente")

üì¶ Librer√≠as importadas correctamente


### Selecci√≥n del Modelo

Whisper tiene diferentes tama√±os de modelos. Eleg√≠ seg√∫n tus necesidades:

| Modelo | Tama√±o | Velocidad | Precisi√≥n | Uso recomendado |
|--------|--------|-----------|-----------|------------------|
| tiny | ~39 MB | Muy r√°pido | B√°sica | Pruebas r√°pidas |
| base | ~74 MB | R√°pido | Buena | Audio claro |
| small | ~244 MB | Moderado | Muy buena | **Recomendado para empezar** |
| medium | ~769 MB | Lento | Excelente | Audio con ruido |
| large-v3 | ~1550 MB | Muy lento | M√°xima | M√°xima calidad |

In [3]:
# Seleccionar modelo (cambia aqu√≠ si quieres probar otro)
MODELO_WHISPER = "openai/whisper-small"  # Cambia a tiny, base, medium o large-v3

print(f"ü§ñ Modelo seleccionado: {MODELO_WHISPER}")

ü§ñ Modelo seleccionado: openai/whisper-small


## Paso 3: Cargar el Modelo de Whisper

Cargamos el modelo en la GPU si est√° disponible.

In [4]:
# Detectar dispositivo (GPU o CPU)
device = 0 if torch.cuda.is_available() else -1
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32

print(f"üíª Dispositivo: {'GPU ‚úÖ' if device == 0 else 'CPU ‚ö†Ô∏è'}")
if device == -1:
    print("‚ö†Ô∏è No hay GPU disponible. La transcripci√≥n ser√° m√°s lenta.")
    print("   Para usar GPU: Runtime > Change runtime type > GPU")

# Cargar modelo
print(f"\nüîÑ Cargando modelo {MODELO_WHISPER}...")
print("   (Esto puede tardar unos minutos la primera vez)\n")

transcriptor = pipeline(
    "automatic-speech-recognition",
    model=MODELO_WHISPER,
    device=device,
    torch_dtype=torch_dtype,
    return_timestamps=True,
    chunk_length_s=30,  # Procesa en chunks de 30 segundos
    stride_length_s=5   # Superposici√≥n de 5 segundos
)

print("‚úÖ Modelo cargado exitosamente\n")
print("üéØ Listo para transcribir audio")

üíª Dispositivo: GPU ‚úÖ

üîÑ Cargando modelo openai/whisper-small...
   (Esto puede tardar unos minutos la primera vez)



config.json: 0.00B [00:00, ?B/s]

`torch_dtype` is deprecated! Use `dtype` instead!


model.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

generation_config.json: 0.00B [00:00, ?B/s]

tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

normalizer.json: 0.00B [00:00, ?B/s]

added_tokens.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

preprocessor_config.json: 0.00B [00:00, ?B/s]

Device set to use cuda:0


‚úÖ Modelo cargado exitosamente

üéØ Listo para transcribir audio


## Paso 4: Funci√≥n de Transcripci√≥n

Creamos una funci√≥n simple que toma un archivo de audio y retorna su transcripci√≥n.

In [6]:
def transcribir_audio(archivo_audio):
    """
    Transcribe un archivo de audio a texto usando Whisper.

    Args:
        archivo_audio: Ruta al archivo de audio

    Returns:
        str: Transcripci√≥n del audio
    """
    if not archivo_audio:
        return "‚ùå No se carg√≥ ning√∫n archivo de audio"

    try:
        print("üéØ Iniciando transcripci√≥n...")

        # Transcribir
        resultado = transcriptor(archivo_audio)

        # Extraer texto
        texto = ""
        if isinstance(resultado, dict) and "text" in resultado:
            texto = resultado["text"].strip()
        elif isinstance(resultado, str):
            texto = resultado.strip()

        if not texto:
            return "‚ùå No se pudo extraer texto del audio"

        print(f"‚úÖ Transcripci√≥n completada: {len(texto)} caracteres")

        # Formatear salida
        salida = f"üìù TRANSCRIPCI√ìN\n"
        salida += f"{'='*60}\n\n"
        salida += texto
        salida += f"\n\n{'='*60}\n"
        salida += f"üìä Total de caracteres: {len(texto)}\n"
        salida += f"üìä Palabras aproximadas: {len(texto.split())}\n"
        salida += f"ü§ñ Modelo utilizado: {MODELO_WHISPER}"

        return salida

    except Exception as e:
        error = f"‚ùå Error durante la transcripci√≥n:\n{str(e)}"
        print(error)
        return error

print("‚úÖ Funci√≥n de transcripci√≥n definida")

‚úÖ Funci√≥n de transcripci√≥n definida


## Paso 5: Interfaz Interactiva con Gradio

Creamos una interfaz web simple para subir archivos y ver las transcripciones.

In [7]:
# Crear interfaz
interfaz = gr.Interface(
    fn=transcribir_audio,
    inputs=gr.Audio(
        sources=["upload"],
        type="filepath",
        label="üéµ Subir Archivo de Audio"
    ),
    outputs=gr.Textbox(
        label="üìù Transcripci√≥n",
        lines=15,
        show_copy_button=True,
        placeholder="La transcripci√≥n aparecer√° aqu√≠..."
    ),
    title="üéôÔ∏è Transcriptor de Audio con Whisper",
    description=f"""
    ### üöÄ Transcripci√≥n autom√°tica de audio a texto

    **Modelo:** {MODELO_WHISPER}
    **Dispositivo:** {'GPU' if device == 0 else 'CPU'}

    #### üìã Instrucciones:
    1. Sube tu archivo de audio (MP3, WAV, M4A, etc.)
    2. Espera a que se procese
    3. Copia o descarga la transcripci√≥n

    #### ‚ú® Caracter√≠sticas:
    - Soporta m√∫ltiples idiomas (espa√±ol, ingl√©s, etc.)
    - Maneja archivos de cualquier duraci√≥n
    - Detecta autom√°ticamente el idioma
    - Alta precisi√≥n de transcripci√≥n
    """,
    examples=[],
    cache_examples=False,
    allow_flagging="never",
    theme=gr.themes.Soft()
)

print("‚úÖ Interfaz creada")

‚úÖ Interfaz creada


## Paso 6: Lanzar la Aplicaci√≥n

Ejecuta esta celda para iniciar la interfaz web.

In [8]:
# Lanzar aplicaci√≥n
print("üöÄ Lanzando aplicaci√≥n...\n")

interfaz.launch(
    share=True,      # URL p√∫blica para compartir
    debug=True,      # Mostrar informaci√≥n de debug
    show_error=True  # Mostrar errores en la interfaz
)

print("""
‚úÖ Aplicaci√≥n en ejecuci√≥n

üí° Consejos:
- Para mejor precisi√≥n, usa audio claro y sin mucho ruido de fondo
- Si el audio es muy largo, puede tardar varios minutos
- Podes copiar la transcripci√≥n con el bot√≥n de copiar

‚ö†Ô∏è Importante:
- Esta aplicaci√≥n se ejecuta mientras esta celda est√© corriendo
- Para detenerla, presiona el bot√≥n de stop en esta celda
""")

üöÄ Lanzando aplicaci√≥n...

Colab notebook detected. This cell will run indefinitely so that you can see errors and logs. To turn off, set debug=False in launch().
* Running on public URL: https://0f8286b206f86c44c6.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


üéØ Iniciando transcripci√≥n...


Using custom `forced_decoder_ids` from the (generation) config. This is deprecated in favor of the `task` and `language` flags/config options.
Transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English. This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`. See https://github.com/huggingface/transformers/pull/28687 for more details.


‚úÖ Transcripci√≥n completada: 83 caracteres
Keyboard interruption in main thread... closing server.
Killing tunnel 127.0.0.1:7860 <> https://0f8286b206f86c44c6.gradio.live

‚úÖ Aplicaci√≥n en ejecuci√≥n

üí° Consejos:
- Para mejor precisi√≥n, usa audio claro y sin mucho ruido de fondo
- Si el audio es muy largo, puede tardar varios minutos
- Podes copiar la transcripci√≥n con el bot√≥n de copiar

‚ö†Ô∏è Importante:
- Esta aplicaci√≥n se ejecuta mientras esta celda est√© corriendo
- Para detenerla, presiona el bot√≥n de stop en esta celda



---

## Opci√≥n Alternativa: Transcribir Directamente desde C√≥digo

Si prefer√≠s transcribir sin usar la interfaz web, podes usar estas celdas:

In [9]:
# Subir archivo manualmente
from google.colab import files

print("üìÅ Selecciona tu archivo de audio:")
archivo_subido = files.upload()

# Obtener nombre del archivo
nombre_archivo = list(archivo_subido.keys())[0]
print(f"\n‚úÖ Archivo cargado: {nombre_archivo}")

üìÅ Selecciona tu archivo de audio:


Saving Grabaci√≥n.mp3 to Grabaci√≥n.mp3

‚úÖ Archivo cargado: Grabaci√≥n.mp3


In [10]:
# Transcribir el archivo
resultado = transcribir_audio(nombre_archivo)
print(resultado)

üéØ Iniciando transcripci√≥n...
‚úÖ Transcripci√≥n completada: 83 caracteres
üìù TRANSCRIPCI√ìN

Esta es una grabaci√≥n de prueba para la materia procesamiento del lenguaje natural.

üìä Total de caracteres: 83
üìä Palabras aproximadas: 13
ü§ñ Modelo utilizado: openai/whisper-small


In [11]:
# Opcional: Guardar transcripci√≥n en archivo
nombre_salida = nombre_archivo.rsplit('.', 1)[0] + '_transcripcion.txt'

with open(nombre_salida, 'w', encoding='utf-8') as f:
    f.write(resultado)

print(f"üíæ Transcripci√≥n guardada en: {nombre_salida}")

# Descargar el archivo
files.download(nombre_salida)

üíæ Transcripci√≥n guardada en: Grabaci√≥n_transcripcion.txt


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

---

## Ejercicios Pr√°cticos

### Ejercicio 1: Comparar Modelos
1. Transcribe el mismo audio con diferentes modelos (tiny, small, medium)
2. Compara la precisi√≥n y el tiempo de procesamiento
3. ¬øCu√°l es el mejor balance entre velocidad y calidad?

### Ejercicio 2: Audio con Ruido
1. Prueba con audios de diferentes calidades
2. ¬øC√≥mo afecta el ruido de fondo a la transcripci√≥n?
3. ¬øQu√© modelo funciona mejor con audio ruidoso?

### Ejercicio 3: M√∫ltiples Idiomas
1. Transcribe audios en diferentes idiomas
2. ¬øWhisper detecta correctamente el idioma?
3. ¬øLa precisi√≥n var√≠a seg√∫n el idioma?

### Ejercicio 4: Procesamiento por Lotes
Modifica el c√≥digo para transcribir m√∫ltiples archivos de una vez.

---

## Soluci√≥n de Problemas

### Error: Out of Memory
- Usa un modelo m√°s peque√±o (tiny o base)
- Reduce el tama√±o de chunk_length_s
- Reinicia el runtime y limpia la memoria

### Transcripci√≥n Imprecisa
- Usa un modelo m√°s grande (medium o large-v3)
- Mejora la calidad del audio
- Reduce el ruido de fondo

### Proceso Muy Lento
- Verifica que est√©s usando GPU
- Usa un modelo m√°s peque√±o
- Divide el audio en partes m√°s cortas

---

## Recursos Adicionales

- [Whisper GitHub](https://github.com/openai/whisper)
- [Whisper en Hugging Face](https://huggingface.co/openai/whisper-small)
- [Documentaci√≥n de Transformers](https://huggingface.co/docs/transformers/)

---

**Creado para el curso de Procesamiento del Lenguaje Natural**  
**√öltima actualizaci√≥n:** Noviembre 2025