<a href="https://colab.research.google.com/github/customnime/WhisperX_colab/blob/main/WhisperX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 🗣️ **WhisperX.** *Transcripción de voz con inteligencia artificial!.*

*Notebook por Pablo Emmanuel Magallanes Infante.*

---

Te doy una cordial bienvenida a mi proyecto relacionado con WhisperX. Si cuentas con un archivo de audio y deseas transformarlo en texto, te encuentras en el sitio adecuado. Solo tienes que seguir las indicaciones que te proporcionaré a continuación, y comprobarás lo fácil que es.

## ¿Cómo empezar? 🚀

1. **Habilita la GPU**: Para obtener una transcripción rápida, asegúrate de habilitar la GPU. Ve a "Entorno de ejecución" > "Cambiar tipo de entorno de ejecución" > y selecciona "T4 GPU" en la opción "Acelerador de hardware".
2. **Sube tu archivo de audio**: Usa la herramienta de abajo para subir tu archivo de audio.
3. **Ejecuta las celdas**: Simplemente ejecuta las celdas en orden, ¡y verás la magia suceder!

**Nota**: Si eres nuevo en Google Colab, cada celda con código se ejecuta haciendo clic en el botón de reproducción (▶️) a la izquierda de la celda, o puedes presionar `Shift + Enter`.


In [None]:
#@markdown ## 1. Instalación del paquete 📦
#@markdown Primero, necesitamos instalar WhisperX ejecutando esta celda.

!pip install git+https://github.com/m-bain/whisperx.git@d97cdb7bcf302fb3e1651321a5935f90594e994c

In [None]:
#@markdown ## 2. Sube tu archivo de audio 🎵
#@markdown Haz clic en el botón de abajo para subir tu archivo de audio. Asegúrate de que sea un archivo en formato MP3.
from google.colab import files

uploaded = files.upload()
audio_file = list(uploaded.keys())[0]

# Renombra el archivo de audio
import os
os.rename(audio_file, "audio.mp3")

In [None]:
! pip install yt-dlp
import sys
import warnings
import yt_dlp
import subprocess
import torch
import shutil
import numpy as np
from IPython.display import display, Markdown, YouTubeVideo

device = torch.device('cuda:0')
print('Using device:', device, file=sys.stderr)

Type = "Youtube video or playlist"
#@markdown ## Descarga el audio de su video de youtube 📀
URL = "https://www.youtube.com/watch?v=ZruU4Nb2_ds" #@param {type:"string"}
#@markdown Tardara unos segundos en cargar, porfavor, sea paciente.

video_path_local_list = []

if Type == "Youtube video or playlist":

  ydl_opts = {
    'format': 'm4a/bestaudio/best',
    'outtmpl': 'audio',  # Rename the extracted MP3 file to "audio.mp3"
    'postprocessors': [{
      'key': 'FFmpegExtractAudio',
      'preferredcodec': 'mp3',
    }]
  }

  with yt_dlp.YoutubeDL(ydl_opts) as ydl:
    error_code = ydl.download([URL])
    list_video_info = [ydl.extract_info(URL, download=False)]

## 3. Transcripción de voz ✍️
Ahora, vamos a transcribir tu archivo de audio.

In [None]:
!whisperx audio.mp3 --model large-v2 --output_dir . --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --device cuda

In [None]:
#@markdown ## Descarga tus resultados! 📂
#@markdown Haz click a la celda para descargar los resultados que has creado

files.download ("audio.json")
files.download ("audio.srt")
files.download ("audio.tsv")
files.download ("audio.txt")
files.download ("audio.vtt")

## 4. Transcripcion en otro idioma. 🌍
Puedes hacer una transcripcion de tu audio y transformarlo en otro idioma. Tienes mas de 20 idiomas para traducir.

In [None]:
!whisperx audio.mp3 --model large-v2 --task transcribe --language en --output_dir . --align_model WAV2VEC2_ASR_LARGE_LV60K_960H --device cuda

In [None]:
#@markdown ## Descarga tus resultados! 📂
#@markdown Haz click a la celda para descargar los resultados que has creado

files.download ("audio.json")
files.download ("audio.srt")
files.download ("audio.tsv")
files.download ("audio.txt")
files.download ("audio.vtt")

## **Lenguajes disponibles para traducir.** 🗨️
Puedes modificar el codigo y traducir al idioma que mas te guste. Para hacerlo, modifica las dos letras que estan justo a lado de "language" y coloque algunos de estos idiomas, (recuerda, coloca solamente las dos letras):



```
af - Afrikaans
am - Amharic
ar - Arabic
as - Assamese
az - Azerbaijani
ba - Bashkir
be - Belarusian
bg - Bulgarian
bn - Bengali
bo - Tibetan
br - Breton
bs - Bosnian
ca - Catalan
cs - Czech
cy - Welsh
da - Danish
de - German
el - Greek
en - English
es - Spanish
et - Estonian
eu - Basque
fa - Persian
fi - Finnish
fo - Faroese
fr - French
gl - Galician
gu - Gujarati
ha - Hausa
haw - Hawaiian
he - Hebrew
hi - Hindi
hr - Croatian
ht - Haitian Creole
hu - Hungarian
hy - Armenian
id - Indonesian
is - Icelandic
it - Italian
ja - Japanese
jw - Javanese
ka - Georgian
kk - Kazakh
km - Khmer
kn - Kannada
ko - Korean
la - Latin
lb - Letzeburgesch
ln - Lingala
lo - Lao
lt - Lithuanian
lv - Latvian
mg - Malagasy
mi - Maori
mk - Macedonian
ml - Malayalam
mn - Mongolian
mr - Marathi
ms - Malay
mt - Maltese
my - Burmese
ne - Nepali
nl - Dutch
nn - Norwegian Nynorsk
no - Norwegian
oc - Occitan
pa - Panjabi
pl - Polish
ps - Pashto
pt - Portuguese
ro - Romanian
ru - Russian
sa - Sanskrit
sd - Sindhi
si - Sinhala
sk - Slovak
sl - Slovenian
sn - Shona
so - Somali
sq - Albanian
sr - Serbian
su - Sundanese
sv - Swedish
sw - Swahili
ta - Tamil
te - Telugu
tg - Tajik
th - Thai
tk - Turkmen
tl - Tagalog
tr - Turkish
tt - Tatar
uk - Ukrainian
ur - Urdu
uz - Uzbek
vi - Vietnamese
yi - Yiddish
yo - Yoruba
zh - Chinese
```



## **Créditos y Agradecimientos** 🎉

Este notebook utiliza **WhisperX**, una increíble herramienta de transcripción de voz. ¡Muchas gracias al equipo detrás de WhisperX por hacer posible esta tecnología! **¡No dudes en explorar el [repositorio de WhisperX](https://github.com/m-bain/whisperX) para aprender más sobre este emocionante proyecto!**

...

🎉 Y eso es todo... ¡Feliz transcripción!