# Recherche des sous-titres de vid√©os youtube

Tout d'abord, on doit installer la biblioth√®ques youtube_transcript_api n√©cessaire pour r√©cup√©rer les sous-titres.
il faut entrer dans le terminal : **pip install requests youtube-transcript-api pandas** 

**On cherche √† obtenir les sous-titres, dates de publication, titres et descriptions des vid√©os youtube sur des livres publi√©s en 2023**

*On ne gardera que les vid√©os qui ont des sous-titres car ce sont celles qui nous int√©ressent.*

In [None]:
# Installation des biblioth√®ques n√©cessaires
import pandas as pd
import requests
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api.formatters import SRTFormatter

# Fonction pour rechercher des vid√©os sur YouTube avec des mots-cl√©s
def get_videos(query, api_key):
    url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&key={api_key}'
    response = requests.get(url)
    
    if response.status_code == 200:
        # Extraire les IDs des vid√©os de la r√©ponse JSON
        video_data = response.json()
        video_ids = [item['id']['videoId'] for item in video_data['items']]
        return video_ids
    else:
        print(f"Erreur lors de la recherche des vid√©os: {response.status_code}")
        return []

# Fonction pour obtenir les informations de la vid√©o √† partir de l'API YouTube
def get_video_info(video_id, api_key):
    url = f"https://www.googleapis.com/youtube/v3/videos"
    params = {
        'part': 'snippet',  # R√©cup√®re les informations de base de la vid√©o (titre, description, date)
        'id': video_id,  # ID de la vid√©o
        'key': api_key   # cl√© API
    }
    
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        video_data = response.json()
        if 'items' in video_data and len(video_data['items']) > 0:
            snippet = video_data['items'][0]['snippet']
            title = snippet['title']
            description = snippet['description']
            published_at = snippet['publishedAt']
            return title, description, published_at
    else:
        print(f"Erreur lors de la r√©cup√©ration des infos vid√©o: {response.status_code}")
    return None, None, None

# Fonction pour obtenir les sous-titres d'une vid√©o
def get_video_subtitles(video_id, languages=['fr']):
    try:
        # Tente de r√©cup√©rer les sous-titres dans les langues sp√©cifi√©es
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=languages)
        
        # Utiliser un formateur pour convertir les sous-titres en format SRT
        formatter = SRTFormatter()
        formatted_transcript = formatter.format_transcript(transcript)
        
        return formatted_transcript
    except Exception as e:
        print(f"Erreur lors de l'extraction des sous-titres pour {video_id}: {e}")
        return None

# Fonction principale pour r√©cup√©rer les donn√©es et les stocker dans un DataFrame
def collect_video_data(query, api_key):
    # √âtape 1: Recherche des vid√©os en utilisant la fonction get_videos
    video_ids = get_videos(query, api_key)
    
    video_data = []
    
    for video_id in video_ids:
        print(f"R√©cup√©ration des donn√©es pour la vid√©o {video_id}...")
        
        # √âtape 2: R√©cup√©rer les informations de chaque vid√©o
        title, description, published_at = get_video_info(video_id, api_key)
        
        if title and description and published_at:
            # √âtape 3: R√©cup√©rer les sous-titres si disponibles
            subtitles = get_video_subtitles(video_id)
            
            # √âtape 4: Stocker les donn√©es dans une liste
            video_data.append({
                'Video ID': video_id,
                'Title': title,
                'Description': description,
                'Published At': published_at,
                'Subtitles': subtitles
            })
    
    # Convertir les donn√©es collect√©es en DataFrame
    df = pd.DataFrame(video_data)
    return df

# Exemple d'utilisation
api_key = "XXXXXXXXXXXX"  # Remplacez par sa cl√© API (voir ## 0 Creation d'un projet sur Google Cloud Console dans api_Youtube.ipynb)
query = "nouveaut√© livre 2023"

# Collecter les donn√©es et cr√©er un DataFrame
df = collect_video_data(query, api_key)

# Filtrer les vid√©os qui ont des sous-titres
df_with_subtitles = df[df['Subtitles'].notna() & (df['Subtitles'] != '')]

# Afficher les r√©sultats par pages de 100 lignes
page_size = 100
for start in range(0, len(df_with_subtitles), page_size):
    print(df_with_subtitles.iloc[start:start + page_size])
    input("Appuyez sur Entr√©e pour afficher la page suivante...")

# Sauvegarder dans un fichier CSV
df_with_subtitles.to_csv("ss_exemple.csv", index=False)


R√©cup√©ration des donn√©es pour la vid√©o 0-HWVOEXsv0...
R√©cup√©ration des donn√©es pour la vid√©o FN4Lp2CQ1Kw...
R√©cup√©ration des donn√©es pour la vid√©o -RTlJqOZaOM...
R√©cup√©ration des donn√©es pour la vid√©o msSHHUkTs_w...
R√©cup√©ration des donn√©es pour la vid√©o BncNbKVxOWc...
      Video ID                                              Title  \
0  0-HWVOEXsv0  TOP 10 de 2023 üìö mes meilleures lectures de l'...   
1  FN4Lp2CQ1Kw  J'ai lu 124 LIVRES cette ann√©e, voici mes favoris   
2  -RTlJqOZaOM  JE JUGE LES 50 LIVRES LES PLUS LUS DE 2023 (se...   
3  msSHHUkTs_w       ARRIV√âE LIVRESQUE üìö +25 livres en avril 2023   
4  BncNbKVxOWc    Mon nouveau livre est sorti ! - Patrick Sardais   

                                         Description          Published At  \
0  Quels sont les romans que j'ai le plus aim√©s e...  2023-12-30T09:00:00Z   
1  Hello ma team Jeannot. Je suis trop contente d...  2023-12-16T09:00:08Z   
2  Je vous donne mon avis sur les 50 livres les p...

**On am√©liore le programme pour obtenir plus que 5 r√©sultats.**

In [None]:
# Installation des biblioth√®ques n√©cessaires
import pandas as pd
import requests
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api.formatters import SRTFormatter

# Fonction pour rechercher des vid√©os sur YouTube avec des mots-cl√©s
def get_videos(query, api_key, max_results=50):
    video_ids = []
    next_page_token = None

    while True:
        url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&key={api_key}'
        
        if next_page_token:
            url += f'&pageToken={next_page_token}'
        
        response = requests.get(url)
        
        if response.status_code == 200:
            video_data = response.json()
            video_ids.extend([item['id']['videoId'] for item in video_data['items']])
            next_page_token = video_data.get('nextPageToken')

            if not next_page_token:
                break
        else:
            print(f"Erreur lors de la recherche des vid√©os: {response.status_code}")
            break

    return video_ids

# Fonction pour obtenir les informations de la vid√©o √† partir de l'API YouTube
def get_video_info(video_id, api_key):
    url = f"https://www.googleapis.com/youtube/v3/videos"
    params = {
        'part': 'snippet',  # R√©cup√®re les informations de base de la vid√©o (titre, description, date)
        'id': video_id,  # ID de la vid√©o
        'key': api_key   # cl√© API
    }
    
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        video_data = response.json()
        if 'items' in video_data and len(video_data['items']) > 0:
            snippet = video_data['items'][0]['snippet']
            title = snippet['title']
            description = snippet['description']
            published_at = snippet['publishedAt']
            return title, description, published_at
    else:
        print(f"Erreur lors de la r√©cup√©ration des infos vid√©o: {response.status_code}")
    return None, None, None

# Fonction pour obtenir les sous-titres d'une vid√©o
def get_video_subtitles(video_id, languages=['fr']):
    try:
        # Tente de r√©cup√©rer les sous-titres dans les langues sp√©cifi√©es
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=languages)
        
        # Utiliser un formateur pour convertir les sous-titres en format SRT
        formatter = SRTFormatter()
        formatted_transcript = formatter.format_transcript(transcript)
        
        return formatted_transcript
    except Exception as e:
        print(f"Erreur lors de l'extraction des sous-titres pour {video_id}: {e}")
        return None

# Fonction principale pour r√©cup√©rer les donn√©es et les stocker dans un DataFrame
def collect_video_data(query, api_key):
    # √âtape 1: Recherche des vid√©os en utilisant la fonction get_videos
    video_ids = get_videos(query, api_key)
    
    video_data = []
    
    for video_id in video_ids:
        print(f"R√©cup√©ration des donn√©es pour la vid√©o {video_id}...")
        
        # √âtape 2: R√©cup√©rer les informations de chaque vid√©o
        title, description, published_at = get_video_info(video_id, api_key)
        
        if title and description and published_at:
            # √âtape 3: R√©cup√©rer les sous-titres si disponibles
            subtitles = get_video_subtitles(video_id)
            
            # √âtape 4: Stocker les donn√©es dans une liste
            video_data.append({
                'Video ID': video_id,
                'Title': title,
                'Description': description,
                'Published At': published_at,
                'Subtitles': subtitles
            })
    
    # Convertir les donn√©es collect√©es en DataFrame
    df = pd.DataFrame(video_data)
    return df

# Exemple d'utilisation
api_key = "XXXXXXXXXXX"  # Remplacez par sa cl√© API (# Remplacez par sa cl√© API (voir ## 0 Creation d'un projet sur Google Cloud Console dans api_Youtube.ipynb))
query = "nouveaut√© livre 2023"

# Collecter les donn√©es et cr√©er un DataFrame
df = collect_video_data(query, api_key)

# Filtrer les vid√©os qui ont des sous-titres
df_with_subtitles = df[df['Subtitles'].notna() & (df['Subtitles'] != '')]

# Sauvegarder dans un fichier CSV
df_with_subtitles.to_csv("ss_youtube_nouveaut√©_livre_2023.csv", index=False)

# Afficher les r√©sultats par pages de 100 lignes
page_size = 100
for start in range(0, len(df_with_subtitles), page_size):
    print(df_with_subtitles.iloc[start:start + page_size])
    input("Appuyez sur Entr√©e pour afficher la page suivante...")


**On cherche √† obtenir les sous-titres, dates de publication, titres et descriptions des vid√©os youtube publi√©es entre 2019 et 2023 sur des livres**

In [None]:
# Installation des biblioth√®ques n√©cessaires
import pandas as pd
import requests
from youtube_transcript_api import YouTubeTranscriptApi
from youtube_transcript_api.formatters import SRTFormatter

# Fonction pour rechercher des vid√©os sur YouTube avec des mots-cl√©s
def get_videos(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50):
    video_ids = []
    next_page_token = None

    while True:
        url = f'https://www.googleapis.com/youtube/v3/search?part=snippet&q={query}&type=video&maxResults={max_results}&publishedAfter={start_date}&publishedBefore={end_date}&key={api_key}'
        
        if next_page_token:
            url += f'&pageToken={next_page_token}'
        
        response = requests.get(url)
        
        if response.status_code == 200:
            video_data = response.json()
            video_ids.extend([item['id']['videoId'] for item in video_data['items']])
            next_page_token = video_data.get('nextPageToken')

            if not next_page_token:
                break
        else:
            print(f"Erreur lors de la recherche des vid√©os: {response.status_code}")
            break

    return video_ids

# Fonction pour obtenir les informations de la vid√©o √† partir de l'API YouTube
def get_video_info(video_id, api_key):
    url = f"https://www.googleapis.com/youtube/v3/videos"
    params = {
        'part': 'snippet',  # R√©cup√®re les informations de base de la vid√©o (titre, description, date)
        'id': video_id,  # ID de la vid√©o
        'key': api_key   # cl√© API
    }
    
    response = requests.get(url, params=params)
    
    if response.status_code == 200:
        video_data = response.json()
        if 'items' in video_data and len(video_data['items']) > 0:
            snippet = video_data['items'][0]['snippet']
            title = snippet['title']
            description = snippet['description']
            published_at = snippet['publishedAt']
            return title, description, published_at
    else:
        print(f"Erreur lors de la r√©cup√©ration des infos vid√©o: {response.status_code}")
    return None, None, None

# Fonction pour obtenir les sous-titres d'une vid√©o
def get_video_subtitles(video_id, languages=['fr']):
    try:
        # Tente de r√©cup√©rer les sous-titres dans les langues sp√©cifi√©es
        transcript = YouTubeTranscriptApi.get_transcript(video_id, languages=languages)
        
        # Utiliser un formateur pour convertir les sous-titres en format SRT
        formatter = SRTFormatter()
        formatted_transcript = formatter.format_transcript(transcript)
        
        return formatted_transcript
    except Exception as e:
        print(f"Erreur lors de l'extraction des sous-titres pour {video_id}: {e}")
        return None

# Fonction principale pour r√©cup√©rer les donn√©es et les stocker dans un DataFrame
def collect_video_data(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50):
    # √âtape 1: Recherche des vid√©os en utilisant la fonction get_videos
    video_ids = get_videos(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50)
    
    video_data = []
    
    for video_id in video_ids:
        print(f"R√©cup√©ration des donn√©es pour la vid√©o {video_id}...")
        
        # √âtape 2: R√©cup√©rer les informations de chaque vid√©o
        title, description, published_at = get_video_info(video_id, api_key)
        
        if title and description and published_at:
            # √âtape 3: R√©cup√©rer les sous-titres si disponibles
            subtitles = get_video_subtitles(video_id)
            
            # √âtape 4: Stocker les donn√©es dans une liste
            video_data.append({
                'Video ID': video_id,
                'Title': title,
                'Description': description,
                'Published At': published_at,
                'Subtitles': subtitles
            })
    
    # Convertir les donn√©es collect√©es en DataFrame
    df = pd.DataFrame(video_data)
    return df

# Exemple d'utilisation
api_key = "XXXXXXXXXXXXXXXXX"  # Remplacez par sa cl√© API (voir ## 0 Creation d'un projet sur Google Cloud Console dans api_Youtube.ipynb)
query = "livre"

# Collecter les donn√©es et cr√©er un DataFrame
df = collect_video_data(query, api_key, start_date="2019-01-01T00:00:00Z", end_date="2023-12-31T23:59:59Z", max_results=50)

# Filtrer les vid√©os qui ont des sous-titres
df_with_subtitles = df[df['Subtitles'].notna() & (df['Subtitles'] != '')]

# Sauvegarder dans un fichier CSV
df_with_subtitles.to_csv("ss_youtube_livre_2019_2023.csv", index=False)

# Afficher les r√©sultats par pages de 100 lignes
page_size = 100
for start in range(0, len(df_with_subtitles), page_size):
    print(df_with_subtitles.iloc[start:start + page_size])
    input("Appuyez sur Entr√©e pour afficher la page suivante...")

R√©cup√©ration des donn√©es pour la vid√©o __VbURm5_ec...
R√©cup√©ration des donn√©es pour la vid√©o DZwO5KwuRIE...
R√©cup√©ration des donn√©es pour la vid√©o o-VNlbZpurw...
R√©cup√©ration des donn√©es pour la vid√©o uUMD0W7pytU...
R√©cup√©ration des donn√©es pour la vid√©o A6e1oWi37po...
R√©cup√©ration des donn√©es pour la vid√©o 4hhiGrovsQI...
R√©cup√©ration des donn√©es pour la vid√©o 65rTa6fVF9E...
R√©cup√©ration des donn√©es pour la vid√©o F-IZxgJl0vE...
R√©cup√©ration des donn√©es pour la vid√©o gPEQoXayzqU...
R√©cup√©ration des donn√©es pour la vid√©o JmSxGdWUQe0...
R√©cup√©ration des donn√©es pour la vid√©o MRyHdC8BtOY...
R√©cup√©ration des donn√©es pour la vid√©o N2mIBTubmvs...
R√©cup√©ration des donn√©es pour la vid√©o v_0lc3VJ0zw...
R√©cup√©ration des donn√©es pour la vid√©o 1IYKG3Ufrl4...
R√©cup√©ration des donn√©es pour la vid√©o CnZbHEkjWpI...
R√©cup√©ration des donn√©es pour la vid√©o GEqAg0Ny3Vg...
R√©cup√©ration des donn√©es pour la vid√©o dBX_mLT5f3c...
R√©cup√©ration