<a href="https://colab.research.google.com/github/davidlealo/100profes/blob/master/youtube_to_text.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 ## Flujo de Trabajo
1. Solicitar el enlace de YouTube: Usar la biblioteca pytube para descargar el video y extraer el audio.

2. Separar el audio en segmentos: Utilizar marcas temporales del archivo RTTM o crear tus propios intervalos.

3. Transcribir el audio: Usar OpenAI Whisper o una alternativa speech-to-text.

4. Asignar diálogos a los hablantes: Relacionar cada segmento de audio con su hablante y formatear como una "obra de teatro".

In [1]:
# Instalar dependencias en Colab
!pip install pytube pydub openai-whisper
!apt-get install -y ffmpeg

Collecting pytube
  Downloading pytube-15.0.0-py3-none-any.whl.metadata (5.0 kB)
Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl.metadata (1.4 kB)
Collecting openai-whisper
  Downloading openai-whisper-20240930.tar.gz (800 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m800.5/800.5 kB[0m [31m11.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
Collecting tiktoken (from openai-whisper)
  Downloading tiktoken-0.8.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting triton>=2.0.0 (from openai-whisper)
  Downloading triton-3.1.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.3 kB)
Downloading pytube-15.0.0-py3-none-any.whl (57 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m57.6/57.6 kB[0m [31m5.3 MB/s[0m eta [36m

In [3]:
!pip install yt-dlp

Collecting yt-dlp
  Downloading yt_dlp-2024.12.23-py3-none-any.whl.metadata (172 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/172.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━[0m [32m163.8/172.1 kB[0m [31m6.1 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m172.1/172.1 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading yt_dlp-2024.12.23-py3-none-any.whl (3.2 MB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/3.2 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━[0m [32m2.2/3.2 MB[0m [31m65.3 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m47.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: yt-dlp
Successfully installed yt-dlp-2024.12.23


Código Principal

In [4]:
import subprocess
from pydub import AudioSegment
import whisper
import os

# Solicitar el enlace de YouTube
youtube_link = input("Por favor, ingresa el enlace del video de YouTube: ")

# Descargar el audio usando yt-dlp
audio_file = "audio.mp3"
print("Descargando audio con yt-dlp...")
subprocess.run(["yt-dlp", "--extract-audio", "--audio-format", "mp3", "-o", audio_file, youtube_link])

# Verificar si el archivo fue descargado
if not os.path.exists(audio_file):
    raise FileNotFoundError("Error al descargar el archivo de audio.")
print(f"Audio descargado exitosamente: {audio_file}")

# Convertir el audio a formato WAV
print("Extrayendo audio en formato WAV...")
audio = AudioSegment.from_file(audio_file)
audio.export("audio.wav", format="wav")
os.remove(audio_file)  # Eliminar archivo temporal

# Cargar el modelo Whisper
print("Cargando modelo Whisper...")
model = whisper.load_model("base")

# Transcribir el audio completo
print("Transcribiendo audio...")
result = model.transcribe("audio.wav")
os.remove("audio.wav")  # Eliminar archivo temporal

# Dividir transcripción en segmentos simulados de hablantes
print("Asignando diálogos a hablantes...")
# Simulación de hablantes: alternar entre speaker0 y speaker1
transcription = result["text"]
segments = transcription.split(". ")  # Dividir en oraciones aproximadas
dialogues = [
    {"speaker": f"speaker{i % 2}", "text": segment.strip()}
    for i, segment in enumerate(segments)
]

# Guardar en formato de obra de teatro
output_file = "dialogo.txt"
print(f"Guardando diálogo en formato de obra de teatro en {output_file}...")
with open(output_file, "w") as f:
    for dialogue in dialogues:
        f.write(f"{dialogue['speaker']}: {dialogue['text']}\n\n")

print(f"Proceso completo. Descarga el archivo generado: {output_file}")


Por favor, ingresa el enlace del video de YouTube: https://youtube.com/shorts/iJFhbkjk-tA?si=GWjr_jD01NvCU6AD
Descargando audio con yt-dlp...
Audio descargado exitosamente: audio.mp3
Extrayendo audio en formato WAV...
Cargando modelo Whisper...


100%|███████████████████████████████████████| 139M/139M [00:02<00:00, 70.5MiB/s]
  checkpoint = torch.load(fp, map_location=device)


Transcribiendo audio...




Asignando diálogos a hablantes...
Guardando diálogo en formato de obra de teatro en dialogo.txt...
Proceso completo. Descarga el archivo generado: dialogo.txt
