# Transcripci√≥n Autom√°tica de Videos con Whisper

**Prop√≥sito:** Extraer el audio de videos y transcribirlo a texto de forma simple y r√°pida.

**Modelos:** FFmpeg + OpenAI Whisper

---

## ¬øQu√© vamos a hacer?

En este cuaderno vas a aprender a:
1. Extraer el audio de archivos de video
2. Transcribir ese audio a texto usando Whisper

**Casos de uso:**
- Generar subt√≠tulos para videos
- Transcribir conferencias y presentaciones grabadas
- Documentar entrevistas en video
- Crear textos a partir de tutoriales en video
- Hacer videos accesibles con texto

**Requisitos:**
- Google Colab con GPU habilitada (Runtime > Change runtime type > GPU)
- Archivo de video en formato com√∫n (MP4, AVI, MOV, MKV, etc.)

## Paso 1: Instalaci√≥n de Dependencias

Instalamos las librer√≠as necesarias para trabajar con videos y Whisper.

In [None]:
# Instalar dependencias
!pip install -U -q transformers torch torchvision accelerate gradio moviepy

print("‚úÖ Dependencias instaladas correctamente")

## Paso 2: Importar Librer√≠as y Configurar

Importamos las librer√≠as necesarias.

In [None]:
import torch
from transformers import pipeline
import gradio as gr
from moviepy.editor import VideoFileClip
import os
import warnings

warnings.filterwarnings('ignore')

print("üì¶ Librer√≠as importadas correctamente")

### Selecci√≥n del Modelo de Whisper

| Modelo | Tama√±o | Velocidad | Precisi√≥n | Uso recomendado |
|--------|--------|-----------|-----------|------------------|
| tiny | ~39 MB | Muy r√°pido | B√°sica | Pruebas r√°pidas |
| base | ~74 MB | R√°pido | Buena | Videos cortos |
| small | ~244 MB | Moderado | Muy buena | **Recomendado** |
| medium | ~769 MB | Lento | Excelente | Videos largos |
| large-v3 | ~1550 MB | Muy lento | M√°xima | M√°xima calidad |

In [None]:
# Seleccionar modelo
MODELO_WHISPER = "openai/whisper-small"  # Cambia a tiny, base, medium o large-v3

print(f"ü§ñ Modelo seleccionado: {MODELO_WHISPER}")

## Paso 3: Cargar el Modelo de Whisper

In [None]:
# Detectar dispositivo
device = 0 if torch.cuda.is_available() else -1
torch_dtype = torch.bfloat16 if torch.cuda.is_available() else torch.float32

print(f"üíª Dispositivo: {'GPU ‚úÖ' if device == 0 else 'CPU ‚ö†Ô∏è'}")
if device == -1:
    print("‚ö†Ô∏è No hay GPU disponible. El proceso ser√° m√°s lento.")
    print("   Para usar GPU: Runtime > Change runtime type > GPU")

# Cargar modelo
print(f"\nüîÑ Cargando modelo {MODELO_WHISPER}...")
print("   (Esto puede tardar unos minutos la primera vez)\n")

transcriptor = pipeline(
    "automatic-speech-recognition",
    model=MODELO_WHISPER,
    device=device,
    torch_dtype=torch_dtype,
    return_timestamps=True,
    chunk_length_s=30,
    stride_length_s=5
)

print("‚úÖ Modelo cargado exitosamente\n")
print("üéØ Listo para procesar videos")

## Paso 4: Funci√≥n para Extraer Audio del Video

Creamos una funci√≥n que extrae el audio de un archivo de video.

In [None]:
def extraer_audio_de_video(ruta_video):
    """
    Extrae el audio de un archivo de video y lo guarda como WAV.

    Args:
        ruta_video: Ruta al archivo de video

    Returns:
        str: Ruta al archivo de audio extra√≠do
    """
    try:
        print("üé¨ Extrayendo audio del video...")

        # Cargar video
        video = VideoFileClip(ruta_video)

        # Generar nombre para el archivo de audio
        nombre_base = os.path.splitext(ruta_video)[0]
        ruta_audio = f"{nombre_base}_audio.wav"

        # Extraer y guardar audio
        video.audio.write_audiofile(ruta_audio, verbose=False, logger=None)

        # Cerrar video para liberar recursos
        video.close()

        duracion = video.duration
        print(f"‚úÖ Audio extra√≠do exitosamente")
        print(f"   Duraci√≥n: {int(duracion//60)}:{int(duracion%60):02d} minutos")
        print(f"   Archivo: {ruta_audio}")

        return ruta_audio

    except Exception as e:
        error = f"‚ùå Error al extraer audio: {str(e)}"
        print(error)
        return None

print("‚úÖ Funci√≥n de extracci√≥n de audio definida")

## Paso 5: Funci√≥n de Transcripci√≥n de Video

Funci√≥n principal que combina la extracci√≥n de audio y la transcripci√≥n.

In [None]:
def transcribir_video(archivo_video):
    """
    Transcribe un archivo de video a texto.

    Args:
        archivo_video: Ruta al archivo de video

    Returns:
        str: Transcripci√≥n del video
    """
    if not archivo_video:
        return "‚ùå No se carg√≥ ning√∫n archivo de video"

    try:
        # Paso 1: Extraer audio
        ruta_audio = extraer_audio_de_video(archivo_video)

        if not ruta_audio:
            return "‚ùå No se pudo extraer el audio del video"

        # Paso 2: Transcribir audio
        print("\nüéØ Iniciando transcripci√≥n...")
        resultado = transcriptor(ruta_audio)

        # Extraer texto
        texto = ""
        if isinstance(resultado, dict) and "text" in resultado:
            texto = resultado["text"].strip()
        elif isinstance(resultado, str):
            texto = resultado.strip()

        if not texto:
            return "‚ùå No se pudo extraer texto del audio"

        print(f"‚úÖ Transcripci√≥n completada: {len(texto)} caracteres")

        # Limpiar archivo de audio temporal
        try:
            os.remove(ruta_audio)
            print("üßπ Archivo de audio temporal eliminado")
        except:
            pass

        # Formatear salida
        salida = f"üé¨ TRANSCRIPCI√ìN DE VIDEO\n"
        salida += f"{'='*60}\n\n"
        salida += texto
        salida += f"\n\n{'='*60}\n"
        salida += f"üìä Total de caracteres: {len(texto)}\n"
        salida += f"üìä Palabras aproximadas: {len(texto.split())}\n"
        salida += f"ü§ñ Modelo utilizado: {MODELO_WHISPER}\n"
        salida += f"üìÅ Archivo: {os.path.basename(archivo_video)}"

        return salida

    except Exception as e:
        error = f"‚ùå Error durante el procesamiento:\n{str(e)}"
        print(error)
        return error

print("‚úÖ Funci√≥n de transcripci√≥n de video definida")

## Paso 6: Interfaz Interactiva con Gradio

In [None]:
# Crear interfaz
interfaz = gr.Interface(
    fn=transcribir_video,
    inputs=gr.Video(
        label="üé¨ Subir Archivo de Video",
        sources=["upload"]
    ),
    outputs=gr.Textbox(
        label="üìù Transcripci√≥n",
        lines=15,
        show_copy_button=True,
        placeholder="La transcripci√≥n del video aparecer√° aqu√≠..."
    ),
    title="üé¨ Transcriptor de Videos con Whisper",
    description=f"""
    ### üöÄ Transcripci√≥n autom√°tica de videos a texto

    **Modelo:** {MODELO_WHISPER}
    **Dispositivo:** {'GPU' if device == 0 else 'CPU'}

    #### üìã Instrucciones:
    1. Sube tu archivo de video (MP4, AVI, MOV, MKV, etc.)
    2. Espera a que se extraiga el audio y se transcriba
    3. Copia o descarga la transcripci√≥n

    #### üîÑ Proceso:
    1. Extracci√≥n del audio del video
    2. Transcripci√≥n del audio con Whisper
    3. Limpieza de archivos temporales

    #### ‚ú® Caracter√≠sticas:
    - Soporta m√∫ltiples formatos de video
    - Detecta autom√°ticamente el idioma
    - Alta precisi√≥n de transcripci√≥n
    - Procesa videos de cualquier duraci√≥n

    #### ‚ö†Ô∏è Importante:
    - Videos largos pueden tardar varios minutos
    - El audio se extrae en formato WAV autom√°ticamente
    - Se recomienda usar GPU para videos largos
    """,
    examples=[],
    cache_examples=False,
    allow_flagging="never",
    theme=gr.themes.Soft()
)

print("‚úÖ Interfaz creada")

## Paso 7: Lanzar la Aplicaci√≥n

In [None]:
# Lanzar aplicaci√≥n
print("üöÄ Lanzando aplicaci√≥n...\n")

interfaz.launch(
    share=True,
    debug=True,
    show_error=True
)

print("""
‚úÖ Aplicaci√≥n en ejecuci√≥n

üí° Consejos:
- Videos con audio claro dan mejores resultados
- El procesamiento puede tardar dependiendo de la duraci√≥n del video
- Podes copiar la transcripci√≥n con el bot√≥n de copiar
- El audio se extrae autom√°ticamente y se elimina despu√©s

‚è±Ô∏è Tiempos estimados:
- Video de 1 minuto: ~30 segundos
- Video de 5 minutos: ~2-3 minutos
- Video de 10 minutos: ~5-7 minutos

‚ö†Ô∏è Importante:
- Esta aplicaci√≥n se ejecuta mientras esta celda est√© corriendo
- Para detenerla, presiona el bot√≥n de stop en esta celda
""")

---

## Opci√≥n Alternativa: Transcribir Directamente desde C√≥digo

In [None]:
# Subir archivo manualmente
from google.colab import files

print("üé¨ Selecciona tu archivo de video:")
archivo_subido = files.upload()

# Obtener nombre del archivo
nombre_archivo = list(archivo_subido.keys())[0]
print(f"\n‚úÖ Archivo cargado: {nombre_archivo}")

In [None]:
# Transcribir el video
resultado = transcribir_video(nombre_archivo)
print(resultado)

In [None]:
# Opcional: Guardar transcripci√≥n en archivo
nombre_salida = nombre_archivo.rsplit('.', 1)[0] + '_transcripcion.txt'

with open(nombre_salida, 'w', encoding='utf-8') as f:
    f.write(resultado)

print(f"üíæ Transcripci√≥n guardada en: {nombre_salida}")

# Descargar el archivo
files.download(nombre_salida)

---

## Bonus: Generar Subt√≠tulos con Timestamps

Si necesitas timestamps para generar subt√≠tulos (formato SRT), usa esta funci√≥n:

In [None]:
def transcribir_con_timestamps(archivo_video):
    """
    Transcribe un video y retorna el texto con timestamps (√∫til para subt√≠tulos).
    """
    if not archivo_video:
        return "‚ùå No se carg√≥ ning√∫n archivo de video"

    try:
        # Extraer audio
        ruta_audio = extraer_audio_de_video(archivo_video)
        if not ruta_audio:
            return "‚ùå No se pudo extraer el audio"

        # Transcribir con timestamps
        print("\nüéØ Transcribiendo con timestamps...")
        resultado = transcriptor(ruta_audio, return_timestamps="word")

        # Formatear salida con timestamps
        salida = "üé¨ TRANSCRIPCI√ìN CON TIMESTAMPS\n"
        salida += "="*60 + "\n\n"

        if "chunks" in resultado:
            for i, chunk in enumerate(resultado["chunks"], 1):
                timestamp = chunk.get("timestamp", [0, 0])
                inicio = timestamp[0] if timestamp[0] else 0
                fin = timestamp[1] if timestamp[1] else 0
                texto = chunk.get("text", "")

                salida += f"[{inicio:.2f}s - {fin:.2f}s] {texto}\n"

        # Limpiar archivo temporal
        try:
            os.remove(ruta_audio)
        except:
            pass

        return salida

    except Exception as e:
        return f"‚ùå Error: {str(e)}"

print("‚úÖ Funci√≥n de transcripci√≥n con timestamps definida")

In [None]:
# Usar la funci√≥n con timestamps
# resultado_timestamps = transcribir_con_timestamps(nombre_archivo)
# print(resultado_timestamps)

---

## Ejercicios Pr√°cticos

### Ejercicio 1: Videos de Diferentes Formatos
1. Prueba con videos en diferentes formatos (MP4, AVI, MOV, MKV)
2. ¬øTodos los formatos funcionan correctamente?
3. ¬øHay diferencias en el tiempo de procesamiento?

### Ejercicio 2: Videos con M√∫ltiples Hablantes
1. Transcribe un video con varias personas hablando
2. ¬øWhisper puede distinguir entre hablantes?
3. ¬øC√≥mo afecta esto a la calidad de la transcripci√≥n?

### Ejercicio 3: Generar Subt√≠tulos SRT
Modifica la funci√≥n con timestamps para generar archivos .srt:
```
1
00:00:00,000 --> 00:00:03,500
Primera l√≠nea de subt√≠tulo

2
00:00:03,500 --> 00:00:07,000
Segunda l√≠nea de subt√≠tulo
```

### Ejercicio 4: Comparar Calidad de Video
1. Toma el mismo video en diferentes calidades
2. Transcribe cada versi√≥n
3. ¬øLa calidad del video afecta la transcripci√≥n?

---

## Soluci√≥n de Problemas

### Error al Extraer Audio
- Verifica que el video tenga audio
- Prueba con otro formato de video
- Asegurate que el archivo no est√© corrupto

### Out of Memory
- Usa un modelo m√°s peque√±o (tiny o base)
- Divide el video en segmentos m√°s cortos
- Reinicia el runtime

### Transcripci√≥n Imprecisa
- Usa un modelo m√°s grande (medium o large-v3)
- Verifica la calidad del audio en el video
- Asegurate que no haya mucho ruido de fondo

### Proceso Muy Lento
- Verifica que est√©s usando GPU
- Usa un modelo m√°s peque√±o
- Reduce la duraci√≥n del video

---

## Recursos Adicionales

- [Whisper GitHub](https://github.com/openai/whisper)
- [MoviePy Documentation](https://zulko.github.io/moviepy/)
- [FFmpeg Documentation](https://ffmpeg.org/documentation.html)
- [Formato SRT para Subt√≠tulos](https://en.wikipedia.org/wiki/SubRip)

---

**Creado para el curso de Procesamiento del Lenguaje Natural**  
**√öltima actualizaci√≥n:** Noviembre 2025