In [4]:
pip install google-api-python-client pandas

Note: you may need to restart the kernel to use updated packages.


In [5]:
import pandas as pd
from googleapiclient.discovery import build
import time
import os
from dotenv import load_dotenv

load_dotenv()
API_KEY = os.getenv('API_KEY')

# --- CONFIGURATION ---
API_KEY = 'AIzaSyCGzetLj817oY4vQHJqLqpg0RCwYyW6ads'
REGION_CODE = 'FR'
MAX_VIDEOS_PER_CAT = 200 
CSV_INPUT = 'all_cats-test.csv'
OUTPUT_DIR = 'top_videos_by_cat'

youtube = build('youtube', 'v3', developerKey=API_KEY)

def get_detailed_videos(category_id, category_name):
    videos = []
    next_page_token = None
    
    print(f"Extraction : {category_name}...")
    
    while len(videos) < MAX_VIDEOS_PER_CAT:
        try:
            # On récupère contentDetails pour la durée et snippet pour le reste
            request = youtube.videos().list(
                part="snippet,contentDetails,statistics",
                chart="mostPopular",
                regionCode=REGION_CODE,
                videoCategoryId=str(category_id),
                maxResults=50,
                pageToken=next_page_token
            )
            response = request.execute()
            
            items = response.get('items', [])
            if not items:
                break

            for item in items:
                videos.append({
                    'category_name': category_name,
                    'category_id': category_id,
                    'video_id': item['id'],
                    'title': item['snippet'].get('title'),
                    'channel_title': item['snippet'].get('channelTitle'),
                    'channel_id': item['snippet'].get('channelId'),
                    'description': item['snippet'].get('description', '').replace('\n', ' '),
                    'duration': item['contentDetails'].get('duration'), # Format ISO 8601 (ex: PT10M30S)
                    'language': item['snippet'].get('defaultAudioLanguage', 'N/A'),
                    'views': int(item['statistics'].get('viewCount', 0)),
                    'likes': int(item['statistics'].get('likeCount', 0)),
                    'published_at': item['snippet'].get('publishedAt')
                })
            
            next_page_token = response.get('nextPageToken')
            if not next_page_token:
                break
                
        except Exception as e:
            print(f"Erreur sur {category_name}: {e}")
            break
            
    return videos

# --- EXECUTION ---

# 1. Charger le fichier fourni
df_cats = pd.read_csv(CSV_INPUT)

# Liste pour le DataFrame global final
full_data = []

# 2. Boucler sur les catégories
for _, row in df_cats.iterrows():
    # On filtre les catégories vides ou non supportées (30+)
    if row['category_id'] >= 30:
        continue
        
    cat_videos = get_detailed_videos(row['category_id'], row['name'])
    
    if cat_videos:
        # Créer le DataFrame spécifique à la catégorie
        df_category = pd.DataFrame(cat_videos)
        
        # Sauvegarder le CSV individuel
        file_name = f"{OUTPUT_DIR}/{row['category_id']}_{row['name'].replace(' ', '_')}.csv"
        df_category.to_csv(file_name, index=False, encoding='utf-8-sig')
        
        # Ajouter au global
        full_data.extend(cat_videos)
        
    time.sleep(0.2) # Pause légère

# 3. Créer le DataFrame Global
df_final = pd.DataFrame(full_data)
df_final.to_csv('top_videos_france_complet.csv', index=False, encoding='utf-8-sig')

print(f"\nTerminé !")
print(f"Fichiers par catégorie dans le dossier : {OUTPUT_DIR}")
print(f"Fichier global : top_videos_france_complet.csv")


Terminé !
Fichiers par catégorie dans le dossier : top_videos_by_cat
Fichier global : top_videos_france_complet.csv
