# Agent IA : Extraction et Analyse de Transcriptions YouTube avec GPT-4o

Ce document explique le fonctionnement d'un agent conversationnel intelligent qui peut :

* Extraire automatiquement la transcription d'une vid√©o YouTube
* Utiliser cette transcription pour r√©pondre √† des questions en langage naturel
* S'appuyer sur le mod√®le GPT-4o pour une compr√©hension plus pouss√©e et des r√©ponses pr√©cises



##  Outils et biblioth√®ques utilis√©s

| Outil / Librairie        | R√¥le                                                                          |
| ------------------------ | ----------------------------------------------------------------------------- |
| `youtube_transcript_api` | R√©cup√©ration des sous-titres (transcriptions) depuis une URL YouTube          |
| `agents`                 | Cr√©ation de l'agent, d√©claration de la fonction outil, streaming des r√©ponses |
| `dotenv`                 | Chargement de la cl√© OpenAI depuis un fichier `.env` pour plus de s√©curit√©    |
| `openai.types.responses` | Gestion des r√©ponses √† flux continu avec `ResponseTextDeltaEvent`             |
| `asyncio`                | Gestion de la boucle de dialogue de fa√ßon non bloquante                       |


##  Etapes cl√©s du fonctionnement de l'agent

### 1. Chargement des variables d'environnement

On utilise `load_dotenv()` pour charger la cl√© API OpenAI (
`OPENAI_API_KEY`) depuis un fichier `.env`. Cela √©vite de stocker des cl√©s sensibles en dur dans le code.


### 2. D√©finition de la fonction outil : `fetch_youtube_transcript()`

* Re√ßoit une URL YouTube
* Extrait l'identifiant de la vid√©o
* Utilise `.fetch()` pour r√©cup√©rer les sous-titres
* Formate chaque entr√©e avec un timestamp `[MM:SS]`

Cette fonction est d√©cor√©e avec `@function_tool` pour √™tre utilisable par l'agent automatiquement.



### 3. Cr√©ation de l'agent avec `Agent()`

L'agent est cr√©√© avec :

* Un nom
* Des instructions : d'abord r√©cup√©rer la transcription, puis r√©pondre aux questions
* L'outil `fetch_youtube_transcript`
* Le mod√®le **GPT-4o**, qui permet de g√©rer des contextes longs et r√©pondre de fa√ßon naturelle


### 4. Boucle de dialogue interactive

L'utilisateur peut saisir :

* Une question textuelle (ex : "De quoi parle la vid√©o ?")
* Une URL de vid√©o YouTube

L'agent g√®re les deux cas automatiquement. La transcription est appel√©e si besoin, puis stock√©e.





In [13]:
!pip install jupyterlab ipykernel ipywidgets openai-agents openai python-dotenv youtube-transcript-api textstat

Collecting openai-agents
  Using cached openai_agents-0.2.4-py3-none-any.whl.metadata (11 kB)
Using cached openai_agents-0.2.4-py3-none-any.whl (164 kB)
Installing collected packages: openai-agents
Successfully installed openai-agents-0.2.4
Note: you may need to restart the kernel to use updated packages.


###  Chargement des biblioth√®ques essentielles

Dans cette section, nous importons toutes les biblioth√®ques n√©cessaires au bon fonctionnement de notre agent intelligent :

- `re` : pour manipuler les expressions r√©guli√®res (extraction de l'ID vid√©o YouTube)
- `asyncio` : pour ex√©cuter l'application de mani√®re asynchrone, sans blocage
- `dotenv` : pour charger automatiquement la cl√© API OpenAI depuis un fichier `.env` s√©curis√©
- `youtube_transcript_api` : pour r√©cup√©rer les sous-titres (transcription) des vid√©os YouTube
- `youtube_transcript_api._errors` : pour g√©rer proprement les erreurs sp√©cifiques √† YouTube (ex : vid√©o priv√©e, transcription absente, etc.)
- `agents` : module local d√©finissant la structure de l‚Äôagent, les outils utilisables, et l‚Äôex√©cution des dialogues
- `openai.types.responses` : pour g√©rer les r√©ponses `stream√©es` du mod√®le (affichage en temps r√©el mot par mot)




In [50]:
import re                                # Utilis√© pour extraire l'ID de la vid√©o √† partir de l'URL via expressions r√©guli√®res
import asyncio                           # Permet la gestion asynchrone du dialogue avec l'utilisateur
from dotenv import load_dotenv           # Charge les variables d'environnement depuis un fichier .env (cl√© API OpenAI)

from youtube_transcript_api import YouTubeTranscriptApi              # Fournit l'acc√®s aux transcriptions des vid√©os YouTube
from youtube_transcript_api._errors import (                         # Importe les erreurs sp√©cifiques li√©es aux vid√©os
    NoTranscriptFound,              # Lev√©e si aucune transcription n'est disponible
    TranscriptsDisabled,           # Lev√©e si l‚Äôauteur de la vid√©o a d√©sactiv√© les transcriptions
    VideoUnavailable,              # Lev√©e si la vid√©o est priv√©e ou supprim√©e
    CouldNotRetrieveTranscript     # Lev√©e en cas d‚Äô√©chec g√©n√©ral de r√©cup√©ration de la transcription
)

from agents import Agent, function_tool, Runner                      # Permet de d√©finir l‚Äôagent, l‚Äôoutil utilis√© et l‚Äôex√©cution de l‚Äôagent
from openai.types.responses import ResponseTextDeltaEvent            # G√®re les r√©ponses re√ßues de mani√®re progressive (streaming)


In [51]:
import logging                                                   # Permet de configurer les niveaux de journalisation du programme
logging.getLogger("httpx").setLevel(logging.WARNING)             # R√©duit les messages de log HTTPX √† WARNING uniquement (supprime les logs INFO)


In [52]:
from dotenv import load_dotenv                              # Importe la fonction pour charger les variables d‚Äôenvironnement depuis un fichier .env
import os                                                   # Permet d‚Äôacc√©der aux variables d‚Äôenvironnement via os.getenv()

load_dotenv(dotenv_path=".env", override=True)              # Charge explicitement le fichier .env et √©crase les variables existantes si n√©cessaire

api_key = os.getenv("OPENAI_API_KEY")                       # R√©cup√®re la cl√© API OpenAI depuis l‚Äôenvironnement
print("Cl√© API charg√©e :", api_key[:8] + "..." if api_key else "Aucune cl√© d√©tect√©e")  # Affiche un extrait de la cl√© ou un message d‚Äôerreur


Cl√© API charg√©e : sk-proj-...


### R√©cup√©ration et formatage de la transcription

Cette fonction permet d‚Äôextraire automatiquement la transcription d‚Äôune vid√©o YouTube √† partir de son URL.  
Elle identifie l‚ÄôID de la vid√©o, interroge l‚ÄôAPI via la m√©thode `.fetch()` et formate le texte avec des horodatages `[MM:SS]`.  
Elle prend √©galement en compte les cas d‚Äôerreur courants (vid√©o priv√©e, transcription d√©sactiv√©e, etc.).  
Gr√¢ce au d√©corateur `@function_tool`, elle est int√©gr√©e comme outil accessible √† l‚Äôagent conversationnel.


In [66]:
@function_tool                             # Rend cette fonction accessible √† l'agent comme un outil externe
def fetch_youtube_transcript(url: str) -> str:
    """
    R√©cup√®re et formate la transcription d'une vid√©o YouTube √† partir de son URL.
    """

    video_id_pattern = r'(?:v=|\/)([0-9A-Za-z_-]{11}).*'         # Expression r√©guli√®re pour extraire l'ID de la vid√©o YouTube
    match = re.search(video_id_pattern, url)                    # Recherche d'une correspondance dans l'URL

    if not match:
        return "URL YouTube invalide."                          # Si aucun ID trouv√©, on retourne une erreur explicite

    video_id = match.group(1)                                   # R√©cup√©ration de l'ID extrait

    try:
        transcript = YouTubeTranscriptApi().fetch(video_id)     # Appel √† l‚ÄôAPI pour r√©cup√©rer la transcription

        formatted_entries = []                                  # Liste pour stocker les segments format√©s

        for entry in transcript:                                # Parcours de chaque segment de transcription
            minutes = int(entry.start // 60)                    # Conversion du temps de d√©but en minutes
            seconds = int(entry.start % 60)                     # Conversion du reste en secondes
            timestamp = f"[{minutes:02d}:{seconds:02d}]"        # Formatage du timestamp [MM:SS]
            text = entry.text                                   # R√©cup√©ration du texte associ√© au segment
            formatted_entries.append(f"{timestamp} {text}")     # Ajout de la ligne format√©e √† la liste

        return "\n".join(formatted_entries)                     # Retour du texte complet avec un saut de ligne par segment

    # Gestion des diff√©rents types d‚Äôerreurs sp√©cifiques √† l‚ÄôAPI
    except TranscriptsDisabled:
        return "Les transcriptions sont d√©sactiv√©es pour cette vid√©o."

    except NoTranscriptFound:
        return "Aucune transcription disponible pour cette vid√©o."

    except VideoUnavailable:
        return "La vid√©o est priv√©e, supprim√©e ou non accessible."

    except CouldNotRetrieveTranscript:
        return "Impossible de r√©cup√©rer la transcription pour le moment."

    except Exception as e:
        return f"Erreur inattendue : {str(e)}"                  # Gestion d'une erreur g√©n√©rique pour les cas non anticip√©s


The history saving thread hit an unexpected error (OperationalError('attempt to write a readonly database')).History will not be written to the database.


In [41]:
### define instructions

In [41]:
### define instructions

In [41]:
### define instructions

In [63]:

# üß† Instructions de l'agent
instructions = (
    "Tu es un assistant sp√©cialis√© dans l'analyse de vid√©os YouTube. "
    "Quand l'utilisateur donne une URL, commence par r√©cup√©rer la transcription √† l'aide de l'outil fourni."
)

In [64]:
agent = Agent(
    name="YouTube Transcript Agent",
    instructions=instructions,
    tools=[fetch_youtube_transcript],
    model="gpt-4o"  # ‚úÖ Utilisation explicite du mod√®le GPT-4o
)

In [65]:

# üöÄ Fonction principale de dialogue
async def main():
    input_items = []

    print("=== YouTube Transcript Agent ===")
    print("Tapez 'exit' pour quitter.")
    print("Posez une question ou fournissez une URL YouTube.")

    while True:
        try:
            user_input = await asyncio.to_thread(input, "\nYou: ")
            user_input = user_input.strip()
        except (EOFError, KeyboardInterrupt):
            print("\n‚õîÔ∏è Session interrompue.")
            break

        if user_input.lower() in ['exit', 'quit', 'bye']:
            print("üëã √Ä bient√¥t !")
            break

        if not user_input:
            continue

        input_items.append({"content": user_input, "role": "user"})

        # üßº Nettoyage du contexte pour √©viter les erreurs de contexte (limite token)
        input_items = input_items[-8:]

        print("\nAgent: ", end="", flush=True)

        try:
            result = Runner.run_streamed(agent, input=input_items)

            async for event in result.stream_events():
                if event.type == "raw_response_event" and isinstance(event.data, ResponseTextDeltaEvent):
                    print(event.data.delta, end="", flush=True)

                elif event.type == "run_item_stream_event":
                    if event.item.type == "tool_call_item":
                        print("\n-- üì• R√©cup√©ration de la transcription...")

                    elif event.item.type == "tool_call_output_item":
                        # ‚úÖ √âvite de rebalancer les erreurs dans le contexte
                        if "‚ö†Ô∏è" in event.item.output or "‚ùå" in event.item.output:
                            print(f"-- ‚õî {event.item.output}")
                        else:
                            print("-- ‚úÖ Transcription r√©cup√©r√©e.")
                            input_items.append({
                                "content": "La transcription a √©t√© r√©cup√©r√©e avec succ√®s.",
                                "role": "system"
                            })

                    elif event.item.type == "message_output_item":
                        input_items.append({
                            "content": event.item.raw_item.content[0].text,
                            "role": "assistant"
                        })

        except Exception as e:
            print(f"\n‚ö†Ô∏è Erreur pendant l'ex√©cution : {e}")

        print("\n")  # ligne de s√©paration


# üîÅ Lance la boucle dans Jupyter ou un script asynchrone
await main()

=== YouTube Transcript Agent ===
Tapez 'exit' pour quitter.
Posez une question ou fournissez une URL YouTube.



You:  https://www.youtube.com/watch?v=1js3tX7Pw7c&t=824s



Agent: 
-- üì• R√©cup√©ration de la transcription...
-- ‚õî ‚ö†Ô∏è Aucune transcription disponible pour cette vid√©o.
Je n'ai pas pu r√©cup√©rer la transcription de cette vid√©o. Si tu as une autre vid√©o ou besoin d'aide suppl√©mentaire, n'h√©site pas √† me le dire !




You:  https://www.youtube.com/watch?v=1NLoTuRR3hE



Agent: 
-- üì• R√©cup√©ration de la transcription...
-- ‚úÖ Transcription r√©cup√©r√©e.
La vid√©o traite de divers sujets politiques et personnels, notamment Gavin Newsom discutant de ses exp√©riences en tant que gouverneur de Californie, ses opinions sur Donald Trump et ses propres ambitions politiques futures. Le dialogue explore des th√®mes comme la masculinit√©, les d√©fis √©conomiques et le r√¥le de l'entrepreneuriat. Newsom partage √©galement des anecdotes personnelles, notamment sur sa famille et ses luttes personnelles. Il aborde la n√©cessit√© d'un engagement politique authentique et les r√©cents √©v√©nements politiques aux √âtats-Unis.




You:  peux tu me faire un r√©sum√© de cette vid√©o le contexte, les objectifs les points cl√©s avantages et inconv√©nients?



Agent: Bien s√ªr, voici un r√©sum√© structur√© de la vid√©o :

### Contexte
La vid√©o pr√©sente une discussion avec Gavin Newsom, le gouverneur de Californie, o√π il aborde divers sujets politiques et personnels. L'entretien se concentre sur son exp√©rience, ses opinions politiques et ses projets futurs.

### Objectifs
- Partager la vision de Newsom sur le leadership et la politique moderne.
- Discuter des d√©fis √©conomiques et sociaux en Californie.
- Explorer ses vues sur Donald Trump et l'avenir politique des √âtats-Unis.
- Offrir un aper√ßu personnel de sa vie et de ses aspirations.

### Points Cl√©s
1. **Leadership et Politique**: Newsom parle de l'importance de l'authenticit√© et de l'engagement dans la politique actuelle.
   
2. **√âconomie et Soci√©t√©**: Il aborde les d√©fis √©conomiques que la Californie doit surmonter, notamment le logement et l'in√©galit√© des revenus.

3. **Vision politique**: Ses vues sur la n√©cessit√© de r√©formes dans le syst√®me politique am√©ricain


You:  quit


üëã √Ä bient√¥t !


In [46]:
from youtube_transcript_api import YouTubeTranscriptApi
print(dir(YouTubeTranscriptApi))


['__class__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__le__', '__lt__', '__module__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', '__weakref__', 'fetch', 'list']


### create agent

In [None]:
# # to run in a .py script use
# if __name__ == "__main__":
#     asyncio.run(main())