# Agent IA : Extraction et Analyse de Transcriptions YouTube avec GPT-4o

Ce document explique le fonctionnement d'un agent conversationnel intelligent qui peut :

* Extraire automatiquement la transcription d'une vidéo YouTube
* Utiliser cette transcription pour répondre à des questions en langage naturel
* S'appuyer sur le modèle GPT-4o pour une compréhension plus poussée et des réponses précises



##  Outils et bibliothèques utilisés

| Outil / Librairie        | Rôle                                                                          |
| ------------------------ | ----------------------------------------------------------------------------- |
| `youtube_transcript_api` | Récupération des sous-titres (transcriptions) depuis une URL YouTube          |
| `agents`                 | Création de l'agent, déclaration de la fonction outil, streaming des réponses |
| `dotenv`                 | Chargement de la clé OpenAI depuis un fichier `.env` pour plus de sécurité    |
| `openai.types.responses` | Gestion des réponses à flux continu avec `ResponseTextDeltaEvent`             |
| `asyncio`                | Gestion de la boucle de dialogue de façon non bloquante                       |


##  Etapes clés du fonctionnement de l'agent

### 1. Chargement des variables d'environnement

On utilise `load_dotenv()` pour charger la clé API OpenAI (
`OPENAI_API_KEY`) depuis un fichier `.env`. Cela évite de stocker des clés sensibles en dur dans le code.


### 2. Définition de la fonction outil : `fetch_youtube_transcript()`

* Reçoit une URL YouTube
* Extrait l'identifiant de la vidéo
* Utilise `.fetch()` pour récupérer les sous-titres
* Formate chaque entrée avec un timestamp `[MM:SS]`

Cette fonction est décorée avec `@function_tool` pour être utilisable par l'agent automatiquement.



### 3. Création de l'agent avec `Agent()`

L'agent est créé avec :

* Un nom
* Des instructions : d'abord récupérer la transcription, puis répondre aux questions
* L'outil `fetch_youtube_transcript`
* Le modèle **GPT-4o**, qui permet de gérer des contextes longs et répondre de façon naturelle


### 4. Boucle de dialogue interactive

L'utilisateur peut saisir :

* Une question textuelle (ex : "De quoi parle la vidéo ?")
* Une URL de vidéo YouTube

L'agent gère les deux cas automatiquement. La transcription est appelée si besoin, puis stockée.





In [13]:
!pip install jupyterlab ipykernel ipywidgets openai-agents openai python-dotenv youtube-transcript-api textstat

Collecting openai-agents
  Using cached openai_agents-0.2.4-py3-none-any.whl.metadata (11 kB)
Using cached openai_agents-0.2.4-py3-none-any.whl (164 kB)
Installing collected packages: openai-agents
Successfully installed openai-agents-0.2.4
Note: you may need to restart the kernel to use updated packages.


###  Chargement des bibliothèques essentielles

Dans cette section, nous importons toutes les bibliothèques nécessaires au bon fonctionnement de notre agent intelligent :

- `re` : pour manipuler les expressions régulières (extraction de l'ID vidéo YouTube)
- `asyncio` : pour exécuter l'application de manière asynchrone, sans blocage
- `dotenv` : pour charger automatiquement la clé API OpenAI depuis un fichier `.env` sécurisé
- `youtube_transcript_api` : pour récupérer les sous-titres (transcription) des vidéos YouTube
- `youtube_transcript_api._errors` : pour gérer proprement les erreurs spécifiques à YouTube (ex : vidéo privée, transcription absente, etc.)
- `agents` : module local définissant la structure de l’agent, les outils utilisables, et l’exécution des dialogues
- `openai.types.responses` : pour gérer les réponses `streamées` du modèle (affichage en temps réel mot par mot)




In [50]:
import re                                # Utilisé pour extraire l'ID de la vidéo à partir de l'URL via expressions régulières
import asyncio                           # Permet la gestion asynchrone du dialogue avec l'utilisateur
from dotenv import load_dotenv           # Charge les variables d'environnement depuis un fichier .env (clé API OpenAI)

from youtube_transcript_api import YouTubeTranscriptApi              # Fournit l'accès aux transcriptions des vidéos YouTube
from youtube_transcript_api._errors import (                         # Importe les erreurs spécifiques liées aux vidéos
    NoTranscriptFound,              # Levée si aucune transcription n'est disponible
    TranscriptsDisabled,           # Levée si l’auteur de la vidéo a désactivé les transcriptions
    VideoUnavailable,              # Levée si la vidéo est privée ou supprimée
    CouldNotRetrieveTranscript     # Levée en cas d’échec général de récupération de la transcription
)

from agents import Agent, function_tool, Runner                      # Permet de définir l’agent, l’outil utilisé et l’exécution de l’agent
from openai.types.responses import ResponseTextDeltaEvent            # Gère les réponses reçues de manière progressive (streaming)


In [51]:
import logging                                                   # Permet de configurer les niveaux de journalisation du programme
logging.getLogger("httpx").setLevel(logging.WARNING)             # Réduit les messages de log HTTPX à WARNING uniquement (supprime les logs INFO)


In [52]:
from dotenv import load_dotenv                              # Importe la fonction pour charger les variables d’environnement depuis un fichier .env
import os                                                   # Permet d’accéder aux variables d’environnement via os.getenv()

load_dotenv(dotenv_path=".env", override=True)              # Charge explicitement le fichier .env et écrase les variables existantes si nécessaire

api_key = os.getenv("OPENAI_API_KEY")                       # Récupère la clé API OpenAI depuis l’environnement
print("Clé API chargée :", api_key[:8] + "..." if api_key else "Aucune clé détectée")  # Affiche un extrait de la clé ou un message d’erreur


Clé API chargée : sk-proj-...


### Récupération et formatage de la transcription

Cette fonction permet d’extraire automatiquement la transcription d’une vidéo YouTube à partir de son URL.  
Elle identifie l’ID de la vidéo, interroge l’API via la méthode `.fetch()` et formate le texte avec des horodatages `[MM:SS]`.  
Elle prend également en compte les cas d’erreur courants (vidéo privée, transcription désactivée, etc.).  
Grâce au décorateur `@function_tool`, elle est intégrée comme outil accessible à l’agent conversationnel.


In [67]:
@function_tool                             # Rend cette fonction accessible à l'agent comme un outil externe
def fetch_youtube_transcript(url: str) -> str:
    """
    Récupère et formate la transcription d'une vidéo YouTube à partir de son URL.
    """

    video_id_pattern = r'(?:v=|\/)([0-9A-Za-z_-]{11}).*'         # Expression régulière pour extraire l'ID de la vidéo YouTube
    match = re.search(video_id_pattern, url)                    # Recherche d'une correspondance dans l'URL

    if not match:
        return "URL YouTube invalide."                          # Si aucun ID trouvé, on retourne une erreur explicite

    video_id = match.group(1)                                   # Récupération de l'ID extrait

    try:
        transcript = YouTubeTranscriptApi().fetch(video_id)     # Appel à l’API pour récupérer la transcription

        formatted_entries = []                                  # Liste pour stocker les segments formatés

        for entry in transcript:                                # Parcours de chaque segment de transcription
            minutes = int(entry.start // 60)                    # Conversion du temps de début en minutes
            seconds = int(entry.start % 60)                     # Conversion du reste en secondes
            timestamp = f"[{minutes:02d}:{seconds:02d}]"        # Formatage du timestamp [MM:SS]
            text = entry.text                                   # Récupération du texte associé au segment
            formatted_entries.append(f"{timestamp} {text}")     # Ajout de la ligne formatée à la liste

        return "\n".join(formatted_entries)                     # Retour du texte complet avec un saut de ligne par segment

    # Gestion des différents types d’erreurs spécifiques à l’API
    except TranscriptsDisabled:
        return "Les transcriptions sont désactivées pour cette vidéo."

    except NoTranscriptFound:
        return "Aucune transcription disponible pour cette vidéo."

    except VideoUnavailable:
        return "La vidéo est privée, supprimée ou non accessible."

    except CouldNotRetrieveTranscript:
        return "Impossible de récupérer la transcription pour le moment."

    except Exception as e:
        return f"Erreur inattendue : {str(e)}"                  # Gestion d'une erreur générique pour les cas non anticipés


### Instruction précise pour l'agent

In [63]:
# Instructions de l'agent
instructions = (
    "Tu es un assistant expert en génération de contenu à partir de vidéos YouTube. "
    "Lorsque l'utilisateur te donne une URL, commence par récupérer automatiquement la transcription de la vidéo (outil externe requis). "
    "Analyse ensuite le contenu, identifie les messages clés, le ton de la vidéo, les cibles et les points marquants. "
    "Puis génère les éléments suivants :\n\n"
    "1. Un **article de blog** (500 à 800 mots), structuré avec une introduction accrocheuse, un développement clair (titres, paragraphes) et une conclusion engageante. Le style doit être fluide, accessible, professionnel et informatif.\n\n"
    "2. Un **post LinkedIn** (entre 800 et 1200 caractères), professionnel, structuré, avec une bonne accroche, un contenu clair, et une ouverture à l’interaction (question, appel à l’action, etc.).\n\n"
    "3. Un **post Instagram** (entre 300 et 600 caractères), plus direct, dynamique, avec un ton plus léger, qui résume une idée clé de la vidéo. Utilise des phrases courtes et percutantes.\n\n"
    "Assure-toi d’adapter le ton et la forme à chaque plateforme. "
    "Si la vidéo contient un message central fort ou un angle original, fais-en le fil conducteur de tous les formats."
)


### Définition de l’agent conversationnel

L’agent est configuré à l’aide de la classe `Agent`, qui permet de définir son rôle, ses capacités et le modèle qu’il utilise.

- `name` : nom descriptif de l’agent (ici, spécialisé dans l’analyse de vidéos YouTube)
- `instructions` : consignes initiales données au modèle pour orienter son comportement
- `tools` : liste des fonctions qu’il peut appeler automatiquement en fonction des besoins (ici, `fetch_youtube_transcript`)
- `model` : choix explicite du modèle utilisé, ici **`gpt-4o`** pour profiter d’un contexte étendu et de performances optimisées

Cette définition permet à l’agent de raisonner de manière autonome et d’utiliser des outils externes si nécessaire.


In [64]:
agent = Agent(
    name="YouTube Transcript Agent",               # Nom de l’agent (utilisé pour l'identification ou le debug)
    instructions=instructions,                     # Consignes initiales pour orienter le comportement du modèle
    tools=[fetch_youtube_transcript],              # Liste des outils que l’agent peut utiliser (fonctions accessibles)
    model="gpt-4o"                                  # Modèle de langage utilisé (GPT-4o pour contexte étendu et performance)
)


### Lancement de la boucle de dialogue avec l'utilisateur

La fonction `main()` initialise et gère l’interaction en continu entre l'utilisateur et l'agent.

#### Fonctionnement :
- Affiche un message d’accueil et attend une entrée utilisateur
- Gère les commandes de sortie (`exit`, `quit`, etc.)
- Stocke les échanges dans une liste `input_items` pour maintenir le contexte
- Limite l’historique à 8 messages pour éviter les dépassements de capacité du modèle (token limit)
- Transmet les échanges à l’agent via `Runner.run_streamed(...)` pour obtenir une réponse en streaming
- Gère les différents types d’événements retournés : texte généré, appel d’outil, résultats d’outil
- Affiche la réponse en temps réel ligne par ligne

Cette boucle permet de simuler une véritable conversation, tout en exploitant les capacités du modèle GPT-4o et de l’outil `fetch_youtube_transcript` si nécessaire.


In [68]:
# Fonction principale de dialogue asynchrone
async def main():
    input_items = []                                              # Initialise l'historique de la conversation

    print("=== YouTube Transcript Agent ===")                     # Message d’accueil
    print("Tapez 'exit' pour quitter.")                           # Indique comment quitter
    print("Posez une question ou fournissez une URL YouTube.")    # Invite à interagir

    while True:
        try:
            user_input = await asyncio.to_thread(input, "\nYou: ")  # Saisie utilisateur dans un thread non bloquant
            user_input = user_input.strip()                          # Nettoyage de l’entrée
        except (EOFError, KeyboardInterrupt):                      # Gestion interruption clavier
            print("\nSession interrompue.")                        # Message de sortie
            break

        if user_input.lower() in ['exit', 'quit', 'bye']:          # Commande de sortie
            print("À bientôt !")                                   # Message de départ
            break

        if not user_input:
            continue                                               # Ignore les entrées vides

        input_items.append({"content": user_input, "role": "user"}) # Ajoute la question à l’historique

        input_items = input_items[-8:]                             # Limite l’historique à 8 messages max

        print("\nAgent: ", end="", flush=True)                     # Préparation de l'affichage de la réponse

        try:
            result = Runner.run_streamed(agent, input=input_items) # Exécution de l’agent avec streaming

            async for event in result.stream_events():             # Boucle sur les événements reçus
                if event.type == "raw_response_event" and isinstance(event.data, ResponseTextDeltaEvent):
                    print(event.data.delta, end="", flush=True)    # Affichage progressif du texte

                elif event.type == "run_item_stream_event":
                    if event.item.type == "tool_call_item":
                        print("\n-- Récupération de la transcription...")   # Indique que l’outil est appelé

                    elif event.item.type == "tool_call_output_item":
                        if "⚠️" in event.item.output or "❌" in event.item.output:
                            print(f"-- Erreur : {event.item.output}")       # Affiche les erreurs sans les stocker
                        else:
                            print("-- Transcription récupérée.")            # Indique succès
                            input_items.append({
                                "content": "La transcription a été récupérée avec succès.",
                                "role": "system"
                            })                                              # Stocke une note générique dans le contexte

                    elif event.item.type == "message_output_item":
                        input_items.append({
                            "content": event.item.raw_item.content[0].text,
                            "role": "assistant"
                        })                                                  # Ajoute la réponse finale au contexte

        except Exception as e:
            print(f"\nErreur pendant l'exécution : {e}")                    # Affiche les erreurs inattendues

        print("\n")                                                         # Ligne de séparation entre les échanges


# Lancement de la boucle (notebook ou script async)
await main()


=== YouTube Transcript Agent ===
Tapez 'exit' pour quitter.
Posez une question ou fournissez une URL YouTube.



You:  https://www.youtube.com/watch?v=1js3tX7Pw7c&t=824s



Agent: 
-- Récupération de la transcription...
-- Erreur : ⚠️ Aucune transcription disponible pour cette vidéo.
Il semble qu'il n'y ait pas de transcription disponible pour cette vidéo. Si tu as besoin d'une analyse ou d'une aide particulière, n'hésite pas à me le faire savoir.




You:  https://www.youtube.com/watch?v=1NLoTuRR3hE



Agent: 
-- Récupération de la transcription...
-- Transcription récupérée.
La vidéo exprime des opinions sur des sujets politiques et sociaux, notamment concernant la démocratie, la justice sociale, et les controverses entourant certaines personnalités publiques. Gavin Newsome discute de son parcours personnel et politique, partage ses réflexions sur l'entrepreneuriat et la dynamique politique contemporaine, et aborde les défis auxquels il est confronté en tant que gouverneur.

Il met en lumière son engagement envers des réformes sociales, son opposition à certaines politiques et rhétoriques de l'administration Trump, et l'importance de la communication ouverte et authentique dans la politique. La discussion couvre aussi sa vision pour l'avenir et son approche pour aborder des questions complexes telles que l'homelessness et l'économie.




You:  quit


À bientôt !


In [None]:
# # to run in a .py script use
# if __name__ == "__main__":
#     asyncio.run(main())

In [69]:
pip freeze > requirements.txt


Note: you may need to restart the kernel to use updated packages.


In [70]:
pip install pipreqs


Collecting pipreqs
  Downloading pipreqs-0.5.0-py3-none-any.whl.metadata (7.9 kB)
Collecting docopt==0.6.2 (from pipreqs)
  Downloading docopt-0.6.2.tar.gz (25 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting ipython==8.12.3 (from pipreqs)
  Downloading ipython-8.12.3-py3-none-any.whl.metadata (5.7 kB)
Collecting yarg==0.1.9 (from pipreqs)
  Downloading yarg-0.1.9-py2.py3-none-any.whl.metadata (4.6 kB)
Collecting backcall (from ipython==8.12.3->pipreqs)
  Downloading backcall-0.2.0-py2.py3-none-any.whl.metadata (2.0 kB)
Collecting pickleshare (from ipython==8.12.3->pipreqs)
  Downloading pickleshare-0.7.5-py2.py3-none-any.whl.metadata (1.5 kB)
Downloading pipreqs-0.5.0-py3-none-any.whl (33 kB)
Downloading ipython-8.12.3-py3-none-any.whl (798 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m798.3/798.3 kB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m-:--:--[0m
[?25hDownloading yarg-0.1.9-py2.py3-none-any.whl (19 kB)
Downloading backcall-0.2.0-py2.py3-n

In [None]:
pipreqs /chemin/vers/ton/projet --force
