# 🐍 Python | Automatically Download YouTube Subtitles 📝

## ❓Ever wanted to grab subtitles from a video to study languages, summarize content, or boost accessibility?

## 👉 With `youtube_dl` and `pysrt`, it's just a few lines of code away!

## 🔧 How does it work?
(๑•̀ㅂ•́)و✧ We fetch the captions from a YouTube link and convert them into plain text you can analyze, translate, or feed into your NLP projects.

## 🔎 Why does it matter?
(｡♥‿♥｡) This approach enables:
•✍️ Automatic dataset generation from video content.  
•🌐 Better accessibility and language learning.  
•🧠 Trend analysis from educational or scientific media.

## ✨ Real-world example:
Let’s say you want to study how AI is taught online. You download subtitles from 10 top YouTube videos, clean the text, analyze it for patterns and keywords. Voilà! A real-world dataset for your next NLP model 🌍

## ⚙️ Business impact:
•📈 Speeds up educational content generation.  
•🦾 Powers real-world NLP model training.  
•💬 Enhances multilingual customer support.

## 📊 Code summary:
•🎥 Download `.srt` subtitles from YouTube.  
•🧽 Clean and format subtitle content.  
•🔠 Extract top keywords with `sklearn`.

🔗 [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

💭 Reflection:
How would you use video subtitles in your AI or data workflows? 🎓

🔑 #datascience #python #youtube #machinelearning #nlp #ai #deeplearning #generativeai #education #accessibility #neurodiversity #openai #upskilling #techtok #youngscientists

---

# 🐍 Python | Descarga subtítulos de YouTube automáticamente 📝

## ❓¿Alguna vez quisiste extraer subtítulos de un video para estudiar idiomas, hacer resúmenes rápidos o mejorar la accesibilidad de tu contenido?

## 👉 ¡Puedes hacerlo en segundos con `youtube_dl` y `pysrt`!

## 🔧 ¿Cómo funciona?
(๑•̀ㅂ•́)و✧ Descargamos los subtítulos directamente desde un enlace de YouTube y los transformamos en texto legible que puedes analizar, traducir o reutilizar en otro proyecto de NLP.

## 🔎 ¿Por qué importa?
(｡♥‿♥｡) Esta técnica permite:
•✍️ Crear datasets automáticamente a partir de contenido audiovisual.  
•🌐 Usarlo como herramienta de accesibilidad o educación.  
•🧠 Analizar tendencias en videos de formación o divulgación científica.

## ✨ Ejemplo real o Caso práctico:
Supón que quieres estudiar cómo se enseña IA en YouTube. Descargas 10 videos populares, extraes sus subtítulos, limpias el texto, y lo analizas con NLP. ¡Boom! Dataset curado, accesible y directo desde la web 🌍

## ⚙️ Impacto en el negocio:
•📈 Automatización en la creación de contenido educativo.  
•🦾 Entrenamiento de modelos NLP con datos del mundo real.  
•💬 Mejora en las estrategias de atención al cliente multilingüe.

## 📊 Resumen de qué se hace en el código:
•🎥 Descargamos subtítulos en `.srt` desde un enlace.  
•🧽 Limpiamos el texto de marcas de tiempo.  
•🔠 Creamos un resumen de palabras clave con `sklearn`.

🔗 [Github](https://github.com/jcombari/AI-For-Unstructured-Data/tree/main)

💭 Reflexión:
¿Cómo aprovecharías los subtítulos de video en tus proyectos de IA o análisis de datos? 🎓

🔑 Hashtags:
#datascience #python #youtube #machinelearning #nlp #ai #deeplearning #generativeai #education #accessibility #neurodiversity #openai #upskilling #techtok #youngscientists

![image.png](attachment:7e74a16c-4e15-4412-b37a-49e462e667a2.png)

In [None]:
import os
import re
import pysrt
import yt_dlp
import webvtt  # Needed to convert .vtt to .srt format
from sklearn.feature_extraction.text import CountVectorizer
import matplotlib.pyplot as plt

# URL of the YouTube video
video_url = 'https://www.youtube.com/watch?v=2lAe1cqCOXo'

# 1. Extract metadata to check available subtitle languages
ydl_opts_info = {
    'skip_download': True,
    'quiet': True,
    'no_warnings': True
}
with yt_dlp.YoutubeDL(ydl_opts_info) as ydl:
    info = ydl.extract_info(video_url, download=False)
    video_id = info.get('id', 'video')
    subs = info.get('subtitles', {})  # Manual subtitles
    auto_subs = info.get('automatic_captions', {})  # Auto-generated subtitles

# Merge both subtitle dictionaries
all_subs = {**subs, **auto_subs}

# Show available languages
print("🗣️ Available subtitle languages:")
for lang_code in all_subs.keys():
    print(f" - {lang_code}")

# 2. Download English subtitles (preferably .vtt format)
download_opts = {
    'skip_download': True,
    'quiet': True,
    'no_warnings': True,
    'writesubtitles': True,
    'writeautomaticsub': True,
    'subtitleslangs': ['en'],
    'subtitlesformat': 'vtt',
    'outtmpl': f'{video_id}.%(ext)s'
}
with yt_dlp.YoutubeDL(download_opts) as ydl:
    ydl.download([video_url])

# 3. Convert .vtt to .srt if necessary
vtt_file = f'{video_id}.en.vtt'
srt_file = f'{video_id}.en.srt'

if os.path.exists(vtt_file):
    webvtt.read(vtt_file).save_as_srt(srt_file)
    print(f"✅ Converted {vtt_file} to {srt_file}")

# 4. Read and clean subtitle text
subs = pysrt.open(srt_file)
full_text = " ".join([sub.text for sub in subs])  # Join all subtitle lines
cleaned_text = re.sub(r'\[.*?\]|[^\w\s]', '', full_text)  # Remove punctuation and tags

# ✅ Save cleaned subtitle text to a file
with open('20250423_YouTube Subtitles.txt', 'w', encoding='utf-8') as f:
    f.write(cleaned_text)
    print("📁 Subtitles saved to '20250423_YouTube Subtitles.txt'")

# 5. Extract top keywords using bag-of-words model
vectorizer = CountVectorizer(stop_words='english', max_features=10)
X = vectorizer.fit_transform([cleaned_text])
keywords = vectorizer.get_feature_names_out()
counts = X.toarray().flatten()

# 6. Plot the top keywords
plt.figure(figsize=(10, 5))
plt.bar(keywords, counts, color='orange')
plt.title('Top Keywords from English YouTube Subtitles')
plt.xlabel('Keywords')
plt.ylabel('Frequency')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 7. Delete the .vtt and .srt files after processing
if os.path.exists(vtt_file):
    os.remove(vtt_file)
    print(f"🗑️ Deleted {vtt_file}")

if os.path.exists(srt_file):
    os.remove(srt_file)
    print(f"🗑️ Deleted {srt_file}")
