In [None]:
import os
import psycopg
from datetime import date
from googleapiclient.discovery import build
from dotenv import load_dotenv
from tqdm import tqdm

load_dotenv()

# Collecter et enregistrer les métriques des chaînes

- On va collecter et enregistrer en même temps les métriques de chaque chaîne pertinente (en évitant de passer par un JSON).


In [None]:
youtube = build('youtube', 'v3', developerKey=os.getenv("YOUTUBE_API_KEY1"))

In [None]:
def getMetrics(id_chaine):
    request = youtube.channels().list(
        part='statistics',
        id=id_chaine
    )
    response = request.execute()
    
    if not response['items']:
        return None
    
    stats = response['items'][0]['statistics']
    date_releve_chaine = date.today().isoformat()
    nombre_vues_total = int(stats.get('viewCount', 0))
    nombre_abonnes_total = int(stats.get('subscriberCount', 0))
    nombre_videos_total = int(stats.get('videoCount', 0))
    
    return {
        'date_releve_chaine': date_releve_chaine,
        'nombre_vues_total': nombre_vues_total,
        'nombre_abonnes_total': nombre_abonnes_total,
        'nombre_videos_total': nombre_videos_total
    }

In [None]:
getMetrics("UCVQeGg4Fdrrr8vDXa7yjOYg")

In [None]:
conn = psycopg.connect(
    dbname="mydatabase",
    user="postgres",
    password=os.getenv("POSTGRE_PASSWORD"),
    host="localhost",
    port="5432"
)
cur = conn.cursor()

# Récupérer les chaînes pertinentes
cur.execute("SELECT id_chaine FROM chaines WHERE pertinente = TRUE")
chaines = cur.fetchall()


print(chaines)
print(len(chaines))

In [None]:
# Pour chaque chaîne, récupérer et insérer les métriques
for (id_chaine,) in chaines:
    metriques = getMetrics(id_chaine)
    if metriques:
        cur.execute("""
            INSERT INTO chaines_metriques (
                id_chaine, date_releve_chaine,
                nombre_vues_total, nombre_abonnes_total, nombre_videos_total
            )
            VALUES (%s, %s, %s, %s, %s)
            ON CONFLICT (id_chaine, date_releve_chaine) DO NOTHING
        """, (
            id_chaine,
            metriques['date_releve_chaine'],
            metriques['nombre_vues_total'],
            metriques['nombre_abonnes_total'],
            metriques['nombre_videos_total']
        ))

conn.commit()
cur.close()
conn.close()

# Calcul de la couverture

$$
\text{Couverture} = \frac{\text{Nombre de vidéos pertinentes collectées}}{\text{Nombre total de vidéos (le plus récent) de la chaîne pertinente}}
$$


In [None]:
def get_couverture(id_chaine,conn):
    
    cur = conn.cursor()

    # Récupérer le nombre de vidéos collectées
    cur.execute("""
        SELECT COUNT(*) FROM videos
        WHERE id_chaine = %s
    """, (id_chaine,))
    nb_collectees = cur.fetchone()[0]

    # Récupérer le nombre total de vidéos le plus récent
    cur.execute("""
        SELECT nombre_videos_total
        FROM chaines_metriques
        WHERE id_chaine = %s
        ORDER BY date_releve_chaine DESC
        LIMIT 1
    """, (id_chaine,))
    row = cur.fetchone()


    if not row:
        return None  # Pas de métrique pour cette chaîne

    nb_total = row[0]

    if nb_total == 0:
        return 0.0  # Évite division par zéro

    couverture = nb_collectees / nb_total
    return round(couverture, 3)


In [None]:
conn = psycopg.connect(
        dbname="mydatabase",
        user="postgres",
        password=os.getenv("POSTGRE_PASSWORD"),
        host="localhost",
        port="5432"
    )

couverture = get_couverture("UCxBJustR1tuXVy7tLivER2g",conn)
print("Couverture :", couverture)

conn.close()


In [None]:
def get_couverture_moyenne():
    conn = psycopg.connect(
        dbname="mydatabase",
        user="postgres",
        password=os.getenv("POSTGRE_PASSWORD"),
        host="localhost",
        port="5432"
    )
    cur = conn.cursor()

    cur.execute("""
        SELECT id_chaine FROM chaines WHERE pertinente = TRUE
    """)
    chaines = cur.fetchall()

    total = 0.0
    count = 0

    for (id_chaine,) in tqdm(chaines):
        couverture = get_couverture(id_chaine,conn)
        if couverture is not None:
            total += couverture
            count += 1

    conn.close()

    if count == 0:
        return 0.0
    return round(total / count, 3)


In [None]:
get_couverture_moyenne()

# Enrichissement des vidéos

In [79]:
from googleapiclient.discovery import build
import re
import scrapetube

youtube = build("youtube", "v3", developerKey=os.getenv("YOUTUBE_API_KEY3"))

In [80]:
def getVideosIds(channel_id):
    videosIds = []

    for video in scrapetube.get_channel(channel_id, sort_by="newest", content_type="videos"):
        videosIds.append(video["videoId"])

    for short in scrapetube.get_channel(channel_id, sort_by="newest", content_type="shorts"):
        videosIds.append(short["videoId"])

    for stream in scrapetube.get_channel(channel_id, sort_by="newest", content_type="streams"):
        videosIds.append(stream["videoId"])

    return videosIds

def toSeconds(iso_duration):
    # Exemple : "PT50M11S" → 3011 secondes
    match = re.match(r'PT(?:(\d+)H)?(?:(\d+)M)?(?:(\d+)S)?', iso_duration)
    if not match:
        return None
    hours = int(match.group(1)) if match.group(1) else 0
    minutes = int(match.group(2)) if match.group(2) else 0
    seconds = int(match.group(3)) if match.group(3) else 0
    return hours * 3600 + minutes * 60 + seconds

def getvideo_details(video_id):
    request = youtube.videos().list(part='snippet,contentDetails', id=video_id)
    response = request.execute()
    videoMetadata = {
        'id_video': response['items'][0]['id'],
        'id_chaine':response['items'][0]['snippet']['channelId'],
        'titre_video': response['items'][0]['snippet']['title'],
        'description':response['items'][0]['snippet']['description'],
        'date_publication':response['items'][0]['snippet']['publishedAt'],
        'duree': response['items'][0]['contentDetails']['duration'],
        'miniature':'',
        'tags':'',
        'langue':'fr',
    }
    
    ################# get the highest resolution thumbnail
    resolution_order = ["maxres", "standard", "high", "medium", "default"]
    for res in resolution_order:
        if res in response['items'][0]['snippet']['thumbnails']:
            videoMetadata['miniature']= response['items'][0]['snippet']['thumbnails'][res]['url']
            break
    
    if 'tags' in response['items'][0]['snippet']:
        videoMetadata['tags']= response['items'][0]['snippet']['tags']
        
        
    return videoMetadata

def getvideos_details_bunch(video_ids):
    request = youtube.videos().list(
        part='snippet,contentDetails',
        id=','.join(video_ids[:50])  # Max 50 IDs per request
    )
    response = request.execute()

    videos_metadata = []

    for item in response.get('items', []):
        video_metadata = {
            'id_video': item['id'],
            'id_chaine': item['snippet']['channelId'],
            'titre_video': item['snippet']['title'],
            'description': item['snippet'].get('description', ''),
            'date_publication': item['snippet']['publishedAt'],
            'duree': item['contentDetails']['duration'],
            'miniature': '',
            'tags': '',
            'langue': 'fr'
        }

        resolution_order = ["maxres", "standard", "high", "medium", "default"]
        for res in resolution_order:
            if res in item['snippet'].get('thumbnails', {}):
                video_metadata['miniature'] = item['snippet']['thumbnails'][res]['url']
                break

        if 'tags' in item['snippet']:
            video_metadata['tags'] = item['snippet']['tags']

        videos_metadata.append(video_metadata)

    return videos_metadata



In [81]:
ids = getVideosIds("UCTpOTnJY4eYL9JBV_Nh5R5Q")
len(ids)

25

In [None]:
ids

In [None]:
getvideo_details('peyPsLy4Qhw')

In [69]:
conn = psycopg.connect(
    dbname="mydatabase",
    user="postgres",
    password=os.getenv("POSTGRE_PASSWORD"),
    host="localhost",
    port="5432"
)

cur = conn.cursor()

In [62]:
cur.execute("""
    SELECT id_chaine FROM chaines WHERE pertinente = TRUE
""")

chaines_pertinentes = cur.fetchall()

for (id_chaine,) in tqdm(chaines_pertinentes):
    videosIds = getVideosIds(id_chaine)
    for ID in tqdm(videosIds):
        video = getvideo_details(ID)
        # Now save the video on the database
        
        id_video = video["id_video"]
        id_chaine = video["id_chaine"]
        titre = video["titre_video"]
        description = video["description"]
        date_publication = video["date_publication"][:10]  # 'YYYY-MM-DD'
        duree = toSeconds(video["duree"])
        miniature = video["miniature"]
        langue = video["langue"]
        transcription = None
        tags = video["tags"] if isinstance(video["tags"], list) else None
        requetes =  None
        categorie_video = None  
        
        cur.execute("""
        INSERT INTO videos (
            id_video, titre, description, date_publication, categorie_video,
            duree, miniature, langue, transcription, tags, requetes, id_chaine
                ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
                ON CONFLICT (id_video) DO NOTHING
            """, (
                id_video, titre, description, date_publication, categorie_video,
                duree, miniature, langue, transcription, tags, requetes, id_chaine
            ))

100%|██████████| 306/306 [00:15<00:00, 19.95it/s]
100%|██████████| 64/64 [00:02<00:00, 22.01it/s]it]
100%|██████████| 114/114 [00:09<00:00, 11.67it/s]]
100%|██████████| 387/387 [00:20<00:00, 18.54it/s]]
100%|██████████| 16/16 [00:00<00:00, 18.55it/s]it]
100%|██████████| 220/220 [00:11<00:00, 19.97it/s]]
100%|██████████| 204/204 [00:09<00:00, 20.53it/s]]
100%|██████████| 73/73 [00:03<00:00, 20.95it/s]it]
100%|██████████| 24/24 [00:01<00:00, 17.38it/s]it]
100%|██████████| 32/32 [00:01<00:00, 21.47it/s]]  
100%|██████████| 56/56 [00:03<00:00, 17.58it/s]]
100%|██████████| 162/162 [00:07<00:00, 22.16it/s]
100%|██████████| 1954/1954 [01:41<00:00, 19.32it/s]
100%|██████████| 108/108 [00:06<00:00, 16.02it/s]]
100%|██████████| 11/11 [00:00<00:00, 19.71it/s]it]
100%|██████████| 53/53 [00:03<00:00, 17.33it/s]it]
100%|██████████| 2/2 [00:00<00:00, 16.63it/s]s/it]
100%|██████████| 51/51 [00:02<00:00, 18.29it/s]it]
100%|██████████| 38/38 [00:01<00:00, 23.13it/s]it]
100%|██████████| 34/34 [00:01<00:0

HttpError: <HttpError 403 when requesting https://youtube.googleapis.com/youtube/v3/videos?part=snippet%2CcontentDetails&id=YIUXAfQB5f4&key=AIzaSyC7fRtrFt_eykZpSSBVg-o6q9EWBFR3Wiw&alt=json returned "The request cannot be completed because you have exceeded your <a href="/youtube/v3/getting-started#quota">quota</a>.". Details: "[{'message': 'The request cannot be completed because you have exceeded your <a href="/youtube/v3/getting-started#quota">quota</a>.', 'domain': 'youtube.quota', 'reason': 'quotaExceeded'}]">

In [63]:
conn.commit()
cur.close()
conn.close()

- L’exécution s’est arrêtée à 74 chaînes seulement à cause du dépassement de la limite de l’API YouTube, donc on continue avec une autre clé à partir de la chaîne de la ligne 75.
- send a bunch of ids once instead of id by id

In [82]:
ids = getVideosIds("UCTpOTnJY4eYL9JBV_Nh5R5Q")
len(ids)

25

In [84]:
ids

['G0oNl9-4K2o',
 'GkZ6xJZ-BzY',
 'EpMIuJKKO-E',
 '0LZ-BjiS7ig',
 'MoL5wCH_BAM',
 'd-2KqTnOZ4U',
 'O-xPCKEov9Q',
 'i_TuQSjUKU8',
 'vc8HvrY4Lds',
 'RDqT-ewZi-s',
 'hotSiAi70hg',
 'KKJxY2DoszA',
 'FCj7EkPz1dA',
 'OEutZgRTcRQ',
 'IlcDO_7_z3k',
 'inklHzRnoxM',
 'w_e1xonatOk',
 'ScNDOguxyQE',
 'QWJm9dOst-M',
 'mYwMhO4J6Q8',
 'YFQCiz6-xx4',
 'DUdTXyjLSHY',
 'FMZTMInQFpo',
 'zYEdgfbrR_U',
 'eUoYB8Fx2XQ']

In [85]:
getvideos_details_bunch(ids)

[{'id_video': 'G0oNl9-4K2o',
  'id_chaine': 'UCTpOTnJY4eYL9JBV_Nh5R5Q',
  'titre_video': '1 an et 5 mois - Four à pizza à moins de 60€',
  'description': "Le 31 octobre 2020, 529 jours après le début de mon projet pour tendre vers l'autonomie complète. \nCe modèle de four à pizza démontable provient de cette vidéo : https://youtu.be/tHMQ_QQJtbY\n\n\n\nUtiliser du bois pour la cuisine est intéressant d'un point de vue de l'autonomie car parmi les sources d'énergie, le bois est peut-être la plus facile à produire. Pour le quotidien, j'utilise principalement des plaques de cuisson au gaz pour l'instant et même si je consomme très peu de gaz (1 bouteille par an environ), il est toujours intéressant pour moi d'en substituer une partie. \nEn plus de l'aspect énergétique, les pizzas cuites au feu de bois sont tout simplement inégalables d'un point de vue gustatif et c'est toujours très plaisant de les préparer, de les faire cuire et de les déguster, que ce soit seul, ou à l'occasion d'un repa

In [None]:
cur.execute("""
    SELECT id_chaine FROM chaines WHERE pertinente = TRUE
""")

chaines_pertinentes = cur.fetchall()

for (id_chaine,) in tqdm(chaines_pertinentes[105:]):  # Commencer à partir de l'index 74
    videos_ids = getVideosIds(id_chaine)
    
    for i in range(0, len(videos_ids), 50):
        batch_ids = videos_ids[i:i+50]  # Paquet de 50 IDs max
        videos = getvideos_details_bunch(batch_ids)

        data_to_insert = []

        for video in videos:
            id_video = video["id_video"]
            id_chaine = video["id_chaine"]
            titre = video["titre_video"]
            description = video["description"]
            date_publication = video["date_publication"][:10]  # 'YYYY-MM-DD'
            duree = toSeconds(video["duree"])
            miniature = video["miniature"]
            langue = video["langue"]
            transcription = None
            tags = video["tags"] if isinstance(video["tags"], list) else None
            requetes = None
            categorie_video = None

            data_to_insert.append((
                id_video, titre, description, date_publication, categorie_video,
                duree, miniature, langue, transcription, tags, requetes, id_chaine
            ))

        if data_to_insert:
            cur.executemany("""
                INSERT INTO videos (
                    id_video, titre, description, date_publication, categorie_video,
                    duree, miniature, langue, transcription, tags, requetes, id_chaine
                ) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
                ON CONFLICT (id_video) DO NOTHING
            """, data_to_insert)


 51%|█████     | 105/206 [21:24<20:35, 12.23s/it] 


ConnectionError: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response'))

In [87]:
conn.commit()
cur.close()
conn.close()

# Collecter et enregistrer les métriques des vidéos