# Agent IA : Extraction et Analyse de Transcriptions YouTube avec GPT-4o

Ce document explique le fonctionnement d'un agent conversationnel intelligent qui peut :

* Extraire automatiquement la transcription d'une vidéo YouTube
* Utiliser cette transcription pour répondre à des questions en langage naturel
* S'appuyer sur le modèle GPT-4o pour une compréhension plus poussée et des réponses précises



##  Outils et bibliothèques utilisés

| Outil / Librairie        | Rôle                                                                          |
| ------------------------ | ----------------------------------------------------------------------------- |
| `youtube_transcript_api` | Récupération des sous-titres (transcriptions) depuis une URL YouTube          |
| `agents`                 | Création de l'agent, déclaration de la fonction outil, streaming des réponses |
| `dotenv`                 | Chargement de la clé OpenAI depuis un fichier `.env` pour plus de sécurité    |
| `openai.types.responses` | Gestion des réponses à flux continu avec `ResponseTextDeltaEvent`             |
| `asyncio`                | Gestion de la boucle de dialogue de façon non bloquante                       |


##  Etapes clés du fonctionnement de l'agent

### 1. Chargement des variables d'environnement

On utilise `load_dotenv()` pour charger la clé API OpenAI (
`OPENAI_API_KEY`) depuis un fichier `.env`. Cela évite de stocker des clés sensibles en dur dans le code.


### 2. Définition de la fonction outil : `fetch_youtube_transcript()`

* Reçoit une URL YouTube
* Extrait l'identifiant de la vidéo
* Utilise `.fetch()` pour récupérer les sous-titres
* Formate chaque entrée avec un timestamp `[MM:SS]`

Cette fonction est décorée avec `@function_tool` pour être utilisable par l'agent automatiquement.



### 3. Création de l'agent avec `Agent()`

L'agent est créé avec :

* Un nom
* Des instructions : d'abord récupérer la transcription, puis répondre aux questions
* L'outil `fetch_youtube_transcript`
* Le modèle **GPT-4o**, qui permet de gérer des contextes longs et répondre de façon naturelle


### 4. Boucle de dialogue interactive

L'utilisateur peut saisir :

* Une question textuelle (ex : "De quoi parle la vidéo ?")
* Une URL de vidéo YouTube

L'agent gère les deux cas automatiquement. La transcription est appelée si besoin, puis stockée.





In [13]:
!pip install jupyterlab ipykernel ipywidgets openai-agents openai python-dotenv youtube-transcript-api textstat

Collecting openai-agents
  Using cached openai_agents-0.2.4-py3-none-any.whl.metadata (11 kB)
Using cached openai_agents-0.2.4-py3-none-any.whl (164 kB)
Installing collected packages: openai-agents
Successfully installed openai-agents-0.2.4
Note: you may need to restart the kernel to use updated packages.


###  Chargement des bibliothèques essentielles

Dans cette section, nous importons toutes les bibliothèques nécessaires au bon fonctionnement de notre agent intelligent :

- `re` : pour manipuler les expressions régulières (extraction de l'ID vidéo YouTube)
- `asyncio` : pour exécuter l'application de manière asynchrone, sans blocage
- `dotenv` : pour charger automatiquement la clé API OpenAI depuis un fichier `.env` sécurisé
- `youtube_transcript_api` : pour récupérer les sous-titres (transcription) des vidéos YouTube
- `youtube_transcript_api._errors` : pour gérer proprement les erreurs spécifiques à YouTube (ex : vidéo privée, transcription absente, etc.)
- `agents` : module local définissant la structure de l’agent, les outils utilisables, et l’exécution des dialogues
- `openai.types.responses` : pour gérer les réponses `streamées` du modèle (affichage en temps réel mot par mot)




In [50]:
import re                                # Utilisé pour extraire l'ID de la vidéo à partir de l'URL via expressions régulières
import asyncio                           # Permet la gestion asynchrone du dialogue avec l'utilisateur
from dotenv import load_dotenv           # Charge les variables d'environnement depuis un fichier .env (clé API OpenAI)

from youtube_transcript_api import YouTubeTranscriptApi              # Fournit l'accès aux transcriptions des vidéos YouTube
from youtube_transcript_api._errors import (                         # Importe les erreurs spécifiques liées aux vidéos
    NoTranscriptFound,              # Levée si aucune transcription n'est disponible
    TranscriptsDisabled,           # Levée si l’auteur de la vidéo a désactivé les transcriptions
    VideoUnavailable,              # Levée si la vidéo est privée ou supprimée
    CouldNotRetrieveTranscript     # Levée en cas d’échec général de récupération de la transcription
)

from agents import Agent, function_tool, Runner                      # Permet de définir l’agent, l’outil utilisé et l’exécution de l’agent
from openai.types.responses import ResponseTextDeltaEvent            # Gère les réponses reçues de manière progressive (streaming)


In [51]:
import logging                                                   # Permet de configurer les niveaux de journalisation du programme
logging.getLogger("httpx").setLevel(logging.WARNING)             # Réduit les messages de log HTTPX à WARNING uniquement (supprime les logs INFO)


In [52]:
from dotenv import load_dotenv                              # Importe la fonction pour charger les variables d’environnement depuis un fichier .env
import os                                                   # Permet d’accéder aux variables d’environnement via os.getenv()

load_dotenv(dotenv_path=".env", override=True)              # Charge explicitement le fichier .env et écrase les variables existantes si nécessaire

api_key = os.getenv("OPENAI_API_KEY")                       # Récupère la clé API OpenAI depuis l’environnement
print("Clé API chargée :", api_key[:8] + "..." if api_key else "Aucune clé détectée")  # Affiche un extrait de la clé ou un message d’erreur


Clé API chargée : sk-proj-...


### Récupération et formatage de la transcription

Cette fonction permet d’extraire automatiquement la transcription d’une vidéo YouTube à partir de son URL.  
Elle identifie l’ID de la vidéo, interroge l’API via la méthode `.fetch()` et formate le texte avec des horodatages `[MM:SS]`.  
Elle prend également en compte les cas d’erreur courants (vidéo privée, transcription désactivée, etc.).  
Grâce au décorateur `@function_tool`, elle est intégrée comme outil accessible à l’agent conversationnel.


In [66]:
@function_tool                             # Rend cette fonction accessible à l'agent comme un outil externe
def fetch_youtube_transcript(url: str) -> str:
    """
    Récupère et formate la transcription d'une vidéo YouTube à partir de son URL.
    """

    video_id_pattern = r'(?:v=|\/)([0-9A-Za-z_-]{11}).*'         # Expression régulière pour extraire l'ID de la vidéo YouTube
    match = re.search(video_id_pattern, url)                    # Recherche d'une correspondance dans l'URL

    if not match:
        return "URL YouTube invalide."                          # Si aucun ID trouvé, on retourne une erreur explicite

    video_id = match.group(1)                                   # Récupération de l'ID extrait

    try:
        transcript = YouTubeTranscriptApi().fetch(video_id)     # Appel à l’API pour récupérer la transcription

        formatted_entries = []                                  # Liste pour stocker les segments formatés

        for entry in transcript:                                # Parcours de chaque segment de transcription
            minutes = int(entry.start // 60)                    # Conversion du temps de début en minutes
            seconds = int(entry.start % 60)                     # Conversion du reste en secondes
            timestamp = f"[{minutes:02d}:{seconds:02d}]"        # Formatage du timestamp [MM:SS]
            text = entry.text                                   # Récupération du texte associé au segment
            formatted_entries.append(f"{timestamp} {text}")     # Ajout de la ligne formatée à la liste

        return "\n".join(formatted_entries)                     # Retour du texte complet avec un saut de ligne par segment

    # Gestion des différents types d’erreurs spécifiques à l’API
    except TranscriptsDisabled:
        return "Les transcriptions sont désactivées pour cette vidéo."

    except NoTranscriptFound:
        return "Aucune transcription disponible pour cette vidéo."

    except VideoUnavailable:
        return "La vidéo est privée, supprimée ou non accessible."

    except CouldNotRetrieveTranscript:
        return "Impossible de récupérer la transcription pour le moment."

    except Exception as e:
        return f"Erreur inattendue : {str(e)}"                  # Gestion d'une erreur générique pour les cas non anticipés


The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


In [41]:
### define instructions

In [41]:
### define instructions

In [41]:
### define instructions

In [63]:

# 🧠 Instructions de l'agent
instructions = (
    "Tu es un assistant spécialisé dans l'analyse de vidéos YouTube. "
    "Quand l'utilisateur donne une URL, commence par récupérer la transcription à l'aide de l'outil fourni."
)

In [64]:
agent = Agent(
    name="YouTube Transcript Agent",
    instructions=instructions,
    tools=[fetch_youtube_transcript],
    model="gpt-4o"  # ✅ Utilisation explicite du modèle GPT-4o
)

In [65]:

# 🚀 Fonction principale de dialogue
async def main():
    input_items = []

    print("=== YouTube Transcript Agent ===")
    print("Tapez 'exit' pour quitter.")
    print("Posez une question ou fournissez une URL YouTube.")

    while True:
        try:
            user_input = await asyncio.to_thread(input, "\nYou: ")
            user_input = user_input.strip()
        except (EOFError, KeyboardInterrupt):
            print("\n⛔️ Session interrompue.")
            break

        if user_input.lower() in ['exit', 'quit', 'bye']:
            print("👋 À bientôt !")
            break

        if not user_input:
            continue

        input_items.append({"content": user_input, "role": "user"})

        # 🧼 Nettoyage du contexte pour éviter les erreurs de contexte (limite token)
        input_items = input_items[-8:]

        print("\nAgent: ", end="", flush=True)

        try:
            result = Runner.run_streamed(agent, input=input_items)

            async for event in result.stream_events():
                if event.type == "raw_response_event" and isinstance(event.data, ResponseTextDeltaEvent):
                    print(event.data.delta, end="", flush=True)

                elif event.type == "run_item_stream_event":
                    if event.item.type == "tool_call_item":
                        print("\n-- 📥 Récupération de la transcription...")

                    elif event.item.type == "tool_call_output_item":
                        # ✅ Évite de rebalancer les erreurs dans le contexte
                        if "⚠️" in event.item.output or "❌" in event.item.output:
                            print(f"-- ⛔ {event.item.output}")
                        else:
                            print("-- ✅ Transcription récupérée.")
                            input_items.append({
                                "content": "La transcription a été récupérée avec succès.",
                                "role": "system"
                            })

                    elif event.item.type == "message_output_item":
                        input_items.append({
                            "content": event.item.raw_item.content[0].text,
                            "role": "assistant"
                        })

        except Exception as e:
            print(f"\n⚠️ Erreur pendant l'exécution : {e}")

        print("\n")  # ligne de séparation


# 🔁 Lance la boucle dans Jupyter ou un script asynchrone
await main()

=== YouTube Transcript Agent ===
Tapez 'exit' pour quitter.
Posez une question ou fournissez une URL YouTube.



You:  https://www.youtube.com/watch?v=1js3tX7Pw7c&t=824s



Agent: 
-- 📥 Récupération de la transcription...
-- ⛔ ⚠️ Aucune transcription disponible pour cette vidéo.
Je n'ai pas pu récupérer la transcription de cette vidéo. Si tu as une autre vidéo ou besoin d'aide supplémentaire, n'hésite pas à me le dire !




You:  https://www.youtube.com/watch?v=1NLoTuRR3hE



Agent: 
-- 📥 Récupération de la transcription...
-- ✅ Transcription récupérée.
La vidéo traite de divers sujets politiques et personnels, notamment Gavin Newsom discutant de ses expériences en tant que gouverneur de Californie, ses opinions sur Donald Trump et ses propres ambitions politiques futures. Le dialogue explore des thèmes comme la masculinité, les défis économiques et le rôle de l'entrepreneuriat. Newsom partage également des anecdotes personnelles, notamment sur sa famille et ses luttes personnelles. Il aborde la nécessité d'un engagement politique authentique et les récents événements politiques aux États-Unis.




You:  peux tu me faire un résumé de cette vidéo le contexte, les objectifs les points clés avantages et inconvénients?



Agent: Bien sûr, voici un résumé structuré de la vidéo :

### Contexte
La vidéo présente une discussion avec Gavin Newsom, le gouverneur de Californie, où il aborde divers sujets politiques et personnels. L'entretien se concentre sur son expérience, ses opinions politiques et ses projets futurs.

### Objectifs
- Partager la vision de Newsom sur le leadership et la politique moderne.
- Discuter des défis économiques et sociaux en Californie.
- Explorer ses vues sur Donald Trump et l'avenir politique des États-Unis.
- Offrir un aperçu personnel de sa vie et de ses aspirations.

### Points Clés
1. **Leadership et Politique**: Newsom parle de l'importance de l'authenticité et de l'engagement dans la politique actuelle.
   
2. **Économie et Société**: Il aborde les défis économiques que la Californie doit surmonter, notamment le logement et l'inégalité des revenus.

3. **Vision politique**: Ses vues sur la nécessité de réformes dans le système politique américain et sa critique de certaine


You:  quit


👋 À bientôt !


In [46]:
from youtube_transcript_api import YouTubeTranscriptApi
print(dir(YouTubeTranscriptApi))


['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'fetch', 'list']


### create agent

In [None]:
# # to run in a .py script use
# if __name__ == "__main__":
#     asyncio.run(main())