<a href="https://colab.research.google.com/github/crystalloide/RAG/blob/main/LAB37_Custom_Agent_Tool.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# LAB37 : 1er custom Tool pour Agent :

**Objectif:** :
- Concevoir et impl√©menter un outil personnalis√© r√©utilisable (nom, description, sch√©ma d'entr√©e, fonction)
- Validation
- Gestion d'erreurs
- Mise en cache
- Exposition √† un agent.

**Dur√©e estim√©e:** 15‚Äì20 minutes

**Livrable:** Un module Python avec l'outil + un agent de d√©monstration qui l'appelle.

---

## √âtape 1: Setup

Installation des d√©pendances n√©cessaires.

In [1]:
# Installation des packages
!pip install -q langchain langchain-openai openai python-dotenv requests beautifulsoup4 pydantic cachetools

[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/84.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ[0m [32m81.9/84.8 kB[0m [31m6.0 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m84.8/84.8 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25h

In [3]:
import os
from google.colab import userdata

# R√©cup√©rer la cl√© API depuis les secrets Colab
# Pour ajouter : cliquez sur üîë dans le panneau de gauche
try:
    openai_api_key = userdata.get('OPENAI_API_KEY')
    os.environ['OPENAI_API_KEY'] = openai_api_key
    print("‚úì Cl√© API OpenAI charg√©e depuis les secrets Colab")
except:
    print("‚ö† Secrets Colab non configur√©s. Veuillez ajouter OPENAI_API_KEY.")
    print("Instructions : Cliquez sur üîë dans le panneau gauche > Ajouter un nouveau secret")

‚úì Cl√© API OpenAI charg√©e depuis les secrets Colab


## √âtape 2: D√©finition des sp√©cifications du "tool" :

D√©finition de l'interface de l'outil :

- **Name:** UrlSummarizer
- **Description:** "R√©cup√®re une page web, extrait le texte principal et retourne un r√©sum√© concis."
- **Inputs:** `{ "url": str, "max_words": int = 120 }`
- **Outputs:** cha√Æne de r√©sum√© courte

In [5]:
from pydantic import BaseModel, HttpUrl, PositiveInt

# Sch√©ma d'entr√©e pour l'outil
class UrlSummarizeInput(BaseModel):
    """Sch√©ma de validation pour l'outil UrlSummarizer."""
    url: HttpUrl
    max_words: PositiveInt = 120

# Test du sch√©ma
test_input = UrlSummarizeInput(url="https://1data-hexagone.fr/", max_words=100)
print(f"‚úì Sch√©ma d√©fini: {test_input}")

‚úì Sch√©ma d√©fini: url=HttpUrl('https://1data-hexagone.fr/') max_words=100


## √âtape 3: Impl√©mentation du coeur de l'outil :

### Partie 1: Fonctions utilitaires

In [6]:
import re
import time
import requests
from bs4 import BeautifulSoup
from typing import Optional
from pydantic import ValidationError

# -------- Fonctions utilitaires --------

def clean_text(txt: str) -> str:
    """Nettoie le texte en supprimant les espaces multiples."""
    txt = re.sub(r'\s+', ' ', txt).strip()
    return txt

def extract_main_text(html: str) -> str:
    """Extrait le texte principal d'une page HTML."""
    soup = BeautifulSoup(html, "html.parser")

    # Heuristique: privil√©gier <article>, sinon joindre tous les <p>
    article = soup.find("article")
    if article:
        text = " ".join(p.get_text(" ", strip=True) for p in article.find_all("p"))
    else:
        text = " ".join(p.get_text(" ", strip=True) for p in soup.find_all("p"))

    return clean_text(text)

def http_get(url: str, retries: int = 3, backoff: float = 1.5, timeout: int = 15) -> requests.Response:
    """Effectue une requ√™te HTTP avec retry pour les √©checs transitoires."""
    last_err = None
    for attempt in range(1, retries + 1):
        try:
            r = requests.get(url, timeout=timeout, headers={"User-Agent": "AgenticAI/1.0"})
            r.raise_for_status()
            return r
        except requests.RequestException as e:
            last_err = e
            if attempt == retries:
                raise
            time.sleep(backoff ** attempt)
    raise last_err

print("‚úì Fonctions utilitaires d√©finies")

‚úì Fonctions utilitaires d√©finies


### Partie 2: Syst√®me de cache

In [8]:
from cachetools import TTLCache, cached

# Cache avec TTL de 10 minutes
cache = TTLCache(maxsize=256, ttl=60 * 10)

@cached(cache)
def fetch_and_extract(url: str) -> str:
    """R√©cup√®re et extrait le contenu d'une URL (avec cache)."""
    resp = http_get(url)
    return extract_main_text(resp.text)

print(f"‚úì Syst√®me de cache initialis√© (TTL: 10 min, max: 256 entr√©es)")

‚úì Syst√®me de cache initialis√© (TTL: 10 min, max: 256 entr√©es)


### Partie 3: Fonction principale de l'outil

In [9]:
def summarize_url(url: str, max_words: int = 120) -> str:
    """R√©cup√®re une URL, extrait le texte et retourne un r√©sum√©."""

    # Validation des entr√©es
    try:
        args = UrlSummarizeInput(url=url, max_words=max_words)
    except ValidationError as ve:
        return f"Erreur de validation: {ve}"

    # R√©cup√©ration et extraction du contenu
    try:
        text = fetch_and_extract(str(args.url))
        if not text or len(text.split()) < 30:
            return "D√©sol√©, impossible de trouver suffisamment de contenu lisible sur cette page."
    except Exception as e:
        return f"√âchec de la r√©cup√©ration ou du parsing de l'URL: {e}"

    # R√©sum√© heuristique (compression l√©g√®re)
    words = text.split()
    if len(words) <= args.max_words:
        return " ".join(words)

    # Troncature consciente des phrases
    out = []
    count = 0
    for sentence in re.split(r'(?<=[.!?])\s+', text):
        sw = sentence.split()
        if count + len(sw) > args.max_words:
            break
        out.append(sentence)
        count += len(sw)

    if not out:
        out = words[:args.max_words]
        return " ".join(out) + " ..."

    return " ".join(out)

# Test de la fonction
print("‚úì Fonction summarize_url d√©finie")
print("\nTest avec example.com:")
result = summarize_url("https://example.com", max_words=50)
print(f"R√©sultat: {result[:100]}...")

‚úì Fonction summarize_url d√©finie

Test avec example.com:
R√©sultat: D√©sol√©, impossible de trouver suffisamment de contenu lisible sur cette page....


In [10]:
# Test de la fonction avec un site existant :
print("‚úì Fonction summarize_url d√©finie")
print("\nTest avec example.com:")
result = summarize_url("https://1data-hexagone.fr/", max_words=50)
print(f"R√©sultat: {result[:100]}...")

‚úì Fonction summarize_url d√©finie

Test avec example.com:
R√©sultat: Ma√É¬Ætrisez les technologies leaders du Big Data Chez 1Data-Hexagone, nous formons les professionnels...


## √âtape 4: Fournissons l'outil en tant qu'outil LangChain : )

Cr√©ation des outils LangChain.

In [11]:
from langchain_core.tools import Tool
from langchain.agents import create_agent
from langchain_openai import ChatOpenAI

# Outil UrlSummarizer
url_tool = Tool(
    name="UrlSummarizer",
    func=lambda q: summarize_url(**q) if isinstance(q, dict) else summarize_url(q),
    description=(
        "R√©cup√®re et r√©sume une page web. "
        "Input JSON avec cl√©s: url (string), max_words (int, optionnel, d√©faut 120). "
        "Utiliser pour extraire le contenu principal et obtenir un r√©sum√© concis."
    )
)

# Outil Calculator (pour la vari√©t√©)
def calculator(expr: str):
    """√âvalue une expression math√©matique."""
    try:
        return str(eval(expr))
    except Exception as e:
        return f"Erreur: {e}"

calc_tool = Tool(
    name="Calculator",
    func=calculator,
    description="√âvalue des expressions math√©matiques comme '12*(7+3)'."
)

# Initialisation du LLM
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0)

# Cr√©ation de l'agent avec create_agent
agent = create_agent(
    model=llm,
    tools=[url_tool, calc_tool],
    system_prompt="You are a helpful assistant. Use the tools available to answer questions accurately."
)

print("‚úì Agent initialis√© avec 2 outils: UrlSummarizer et Calculator")

‚úì Agent initialis√© avec 2 outils: UrlSummarizer et Calculator


## √âtape 5: Essai avec des requ√™tes r√©elles :

### Test 1: R√©sumer une page web

In [16]:
# Test 1 avec l'URL summarizer
response = agent.invoke({
    "messages": [{"role": "user", "content": "R√©sume cette page: https://1data-hexagone.fr/"}]
})
print(response['messages'][-1].content)

La page de 1Data-Hexagone pr√©sente des formations destin√©es aux professionnels sur les technologies du Big Data. Elle met l'accent sur l'apprentissage des √©cosyst√®mes Hadoop, des plateformes de streaming en temps r√©el, et des solutions d'intelligence artificielle modernes. Les formations sont pratiques, orient√©es vers les m√©tiers, et dispens√©es par des experts confirm√©s.


### Test 2: Utiliser Calculator

In [17]:
# Test 2 avec la calculatrice
response = agent.invoke({
    "messages": [{"role": "user", "content": "Calcule 12*(7+3)"}]
})
print(response['messages'][-1].content)


Le r√©sultat de \( 12 \times (7 + 3) \) est 120.


### Test 3: Requ√™te combin√©e

In [22]:
# Test 3: Requ√™te combin√©e
response = agent.invoke({
    "messages": [{"role": "user", "content": "Calcule l'√¢ge du capitaine N√©mo au moment de sa disparition dans L'√Æle Myst√©rieuse + 12 et ensuite r√©sume cette page: https://comparia.beta.gouv.fr/"}]
})
print(response['messages'][-1].content)


L'√¢ge du capitaine N√©mo au moment de sa disparition dans "L'√Æle Myst√©rieuse" est de 70 ans. En ajoutant 12, cela donne un total de **82 ans**.

Concernant la page https://comparia.beta.gouv.fr/, voici un r√©sum√© :

Le site "compar:IA" est un comparateur d'IA conversationnelles qui permet aux utilisateurs de discuter avec deux IA de mani√®re anonyme et d'√©valuer leurs r√©ponses. Les donn√©es √©chang√©es sont utilis√©es √† des fins de recherche. Les utilisateurs peuvent interagir aussi longtemps qu'ils le souhaitent, et les mod√®les d'IA sont d√©voil√©s apr√®s la discussion. Le site vise √† sensibiliser les citoyens aux enjeux de l'IA g√©n√©rative et √† encourager le d√©veloppement d'un esprit critique. Les utilisateurs peuvent tester diff√©rents mod√®les d'IA, qu'ils soient propri√©taires ou non, et de diff√©rentes tailles.


### Test 4: Liste des Tools disponibles pour l'agent :

In [23]:
# Test 4: Outils √† disposition
response = agent.invoke({
    "messages": [{"role": "user", "content": "quels sont les tools √† ta disposition ?"}]
})
print(response['messages'][-1].content)

J'ai acc√®s aux outils suivants :

1. **UrlSummarizer** : Cet outil permet de r√©cup√©rer et de r√©sumer le contenu principal d'une page web en fournissant une URL. Il peut √©galement limiter le r√©sum√© √† un certain nombre de mots.

2. **Calculator** : Cet outil √©value des expressions math√©matiques. Par exemple, il peut calculer des op√©rations comme '12*(7+3)'.

Si tu as besoin d'aide avec l'un de ces outils, fais-le moi savoir !


In [24]:
# Test 5: Requ√™te combin√©e + affichage des outils utilis√©s :
response = agent.invoke({
    "messages": [{"role": "user", "content": "Calcule l'√¢ge du capitaine N√©mo au moment de sa disparition dans L'√Æle Myst√©rieuse + 12 et ensuite r√©sume cette page: https://comparia.beta.gouv.fr/, Donne une liste des tools utilis√©s pour r√©pondre aux questions pr√©c√©dents"}]
})
print(response['messages'][-1].content)


L'√¢ge du capitaine N√©mo au moment de sa disparition dans "L'√Æle Myst√©rieuse" est de 70 ans. En ajoutant 12, cela donne un total de 82 ans.

### R√©sum√© de la page https://comparia.beta.gouv.fr/
Le site "compar:IA" est un comparateur d'IA conversationnelles qui permet aux utilisateurs de discuter avec deux IA de mani√®re anonyme et d'√©valuer leurs r√©ponses. Les donn√©es √©chang√©es sont utilis√©es √† des fins de recherche. Les utilisateurs peuvent interagir aussi longtemps qu'ils le souhaitent, et les mod√®les d'IA sont r√©v√©l√©s √† la fin de la discussion. Le site vise √† sensibiliser les citoyens aux enjeux de l'IA g√©n√©rative et √† encourager le d√©veloppement de l'esprit critique.

### Liste des tools utilis√©s
1. **Calculator** - Pour calculer l'√¢ge du capitaine N√©mo + 12.
2. **UrlSummarizer** - Pour r√©sumer la page web fournie.


## √âtape 6: Ajout de garde-fous (guardrails) et Gestion des √©checs (fallbacks)

### Partie 1: Guardrails de s√©curit√©

In [25]:
def http_get_safe(url: str, retries: int = 3, backoff: float = 1.5, timeout: int = 15) -> requests.Response:
    """Version s√©curis√©e de http_get avec guardrails."""
    last_err = None

    for attempt in range(1, retries + 1):
        try:
            # Requ√™te HEAD pour v√©rifier le type de contenu et la taille
            head_resp = requests.head(url, timeout=5, headers={"User-Agent": "AgenticAI/1.0"}, allow_redirects=True)

            # V√©rification du Content-Type
            content_type = head_resp.headers.get('Content-Type', '')
            if not (content_type.startswith('text/') or 'html' in content_type):
                raise ValueError(f"Type de contenu non support√©: {content_type}")

            # V√©rification de la taille (max 2MB)
            content_length = head_resp.headers.get('Content-Length')
            if content_length and int(content_length) > 2 * 1024 * 1024:
                raise ValueError(f"Page trop volumineuse: {int(content_length)/1024/1024:.2f}MB")

            # Requ√™te GET compl√®te
            r = requests.get(url, timeout=timeout, headers={"User-Agent": "AgenticAI/1.0"})
            r.raise_for_status()
            return r

        except requests.RequestException as e:
            last_err = e
            if attempt == retries:
                raise
            time.sleep(backoff ** attempt)

    raise last_err

# Mettre √† jour fetch_and_extract pour utiliser la version s√©curis√©e
cache_safe = TTLCache(maxsize=256, ttl=60 * 10)

@cached(cache_safe)
def fetch_and_extract_safe(url: str) -> str:
    """Version s√©curis√©e avec guardrails."""
    resp = http_get_safe(url)
    return extract_main_text(resp.text)

print("‚úì Guardrails de s√©curit√© ajout√©s:")
print("  - V√©rification du Content-Type (text/* ou html)")
print("  - Limite de taille: 2MB")
print("  - Blocage des fichiers binaires")

‚úì Guardrails de s√©curit√© ajout√©s:
  - V√©rification du Content-Type (text/* ou html)
  - Limite de taille: 2MB
  - Blocage des fichiers binaires


In [34]:
import time

# Test 1: URL valide (page HTML normale)
print("=" * 60)
print("TEST 1: URL valide - Page HTML")
print("=" * 60)
try:
    url = "https://example.com"
    response = http_get_safe(url)
    print(f"‚úì Succ√®s pour {url}")
    print(f"  - Status code: {response.status_code}")
    print(f"  - Content-Type: {response.headers.get('Content-Type')}")
    print(f"  - Taille: {len(response.content)} bytes")
except Exception as e:
    print(f"‚úó Erreur: {e}")

print("\n")

# Test 2: Extraction de texte avec fetch_and_extract_safe
print("=" * 60)
print("TEST 2: Extraction de texte principal")
print("=" * 60)
try:
    url = "https://en.wikipedia.org/wiki/Artificial_intelligence"
    text = fetch_and_extract_safe(url)
    print(f"‚úì Texte extrait de {url}")
    print(f"  - Longueur du texte: {len(text)} caract√®res")
    print(f"  - Aper√ßu: {text[:200]}...")
except Exception as e:
    print(f"‚úó Erreur: {e}")

print("\n")

# Test 3: Fichier binaire (devrait √©chouer)
print("=" * 60)
print("TEST 3: Fichier PDF - Devrait √©chouer")
print("=" * 60)
try:
    url = "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf"
    response = http_get_safe(url)
    print(f"‚úó Ne devrait pas r√©ussir: {url}")
except ValueError as e:
    print(f"‚úì Bloqu√© correctement: {e}")
except Exception as e:
    print(f"‚úó Erreur inattendue: {e}")

print("\n")

# Test 4: URL invalide (devrait utiliser les retries)
print("=" * 60)
print("TEST 4: URL invalide - Test des retries")
print("=" * 60)
try:
    url = "https://this-url-does-not-exist-12345.com"
    start_time = time.time()
    response = http_get_safe(url, retries=2)
    print(f"‚úó Ne devrait pas r√©ussir")
except Exception as e:
    elapsed = time.time() - start_time
    print(f"‚úì √âchec attendu apr√®s {elapsed:.2f}s: {type(e).__name__}")

print("\n")

# Test 5: Cache test (devrait √™tre instantan√© la 2√®me fois)
print("=" * 60)
print("TEST 5: Test du cache")
print("=" * 60)
try:
    url = "https://example.com"

    # Premi√®re requ√™te
    start = time.time()
    text1 = fetch_and_extract_safe(url)
    time1 = time.time() - start

    # Deuxi√®me requ√™te (depuis le cache)
    start = time.time()
    text2 = fetch_and_extract_safe(url)
    time2 = time.time() - start

    print(f"‚úì Premi√®re requ√™te: {time1:.3f}s")
    print(f"‚úì Deuxi√®me requ√™te (cache): {time2:.3f}s")
    print(f"‚úì Acc√©l√©ration: {time1/time2:.1f}x plus rapide")
    print(f"‚úì Textes identiques: {text1 == text2}")
except Exception as e:
    print(f"‚úó Erreur: {e}")

print("\n")

# Test 6: Test avec l'agent
print("=" * 60)
print("TEST 6: Utilisation avec l'agent")
print("=" * 60)
try:
    # Cr√©er un outil utilisant la version s√©curis√©e
    from langchain_core.tools import Tool

    def summarize_url_safe(url: str, max_words: int = 120):
        """R√©sume une URL de mani√®re s√©curis√©e."""
        text = fetch_and_extract_safe(url)
        words = text.split()[:max_words]
        return ' '.join(words) + '...'

    safe_url_tool = Tool(
        name="SafeUrlSummarizer",
        func=summarize_url_safe,
        description="R√©cup√®re et r√©sume une page web de mani√®re s√©curis√©e (max 2MB, HTML uniquement)."
    )

    # Test direct de l'outil
    result = safe_url_tool.func("https://example.com")
    print(f"‚úì R√©sum√© g√©n√©r√©:")
    print(f"  {result[:150]}...")

except Exception as e:
    print(f"‚úó Erreur: {e}")

TEST 1: URL valide - Page HTML
‚úì Succ√®s pour https://example.com
  - Status code: 200
  - Content-Type: text/html
  - Taille: 513 bytes


TEST 2: Extraction de texte principal
‚úì Texte extrait de https://en.wikipedia.org/wiki/Artificial_intelligence
  - Longueur du texte: 89744 caract√®res
  - Aper√ßu: Artificial intelligence ( AI ) is the capability of computational systems to perform tasks typically associated with human intelligence , such as learning , reasoning , problem-solving , perception , ...


TEST 3: Fichier PDF - Devrait √©chouer
‚úì Bloqu√© correctement: Type de contenu non support√©: application/pdf; qs=0.001


TEST 4: URL invalide - Test des retries
‚úì √âchec attendu apr√®s 1.54s: ConnectionError


TEST 5: Test du cache
‚úì Premi√®re requ√™te: 0.106s
‚úì Deuxi√®me requ√™te (cache): 0.000s
‚úì Acc√©l√©ration: 8866.0x plus rapide
‚úì Textes identiques: True


TEST 6: Utilisation avec l'agent
‚úì R√©sum√© g√©n√©r√©:
  This domain is for use in documentation examples w

### Partie 2: Raffinement avec LLM (optionnel)

In [27]:
from openai import OpenAI

client = OpenAI()

def refine_with_llm(text: str, max_words: int = 120) -> str:
    """Raffine le r√©sum√© en utilisant un LLM."""
    prompt = f"R√©sume le texte suivant en {max_words} mots maximum, en pr√©servant les faits cl√©s:\n\n{text}"

    resp = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{"role": "user", "content": prompt}],
        temperature=0.2
    )

    return resp.choices[0].message.content.strip()

def summarize_url_enhanced(url: str, max_words: int = 120, use_llm: bool = True) -> str:
    """Version am√©lior√©e avec guardrails et raffinement LLM."""

    # Validation
    try:
        args = UrlSummarizeInput(url=url, max_words=max_words)
    except ValidationError as ve:
        return f"Erreur de validation: {ve}"

    # R√©cup√©ration s√©curis√©e
    try:
        text = fetch_and_extract_safe(str(args.url))
        if not text or len(text.split()) < 30:
            return "D√©sol√©, impossible de trouver suffisamment de contenu lisible."
    except Exception as e:
        return f"√âchec: {e}"

    # R√©sum√©
    if use_llm and len(text.split()) > max_words:
        # Utiliser le LLM pour un r√©sum√© de meilleure qualit√©
        try:
            # Limiter le texte d'entr√©e pour √©viter les tokens excessifs
            truncated = " ".join(text.split()[:500])
            return refine_with_llm(truncated, max_words)
        except Exception as e:
            print(f"Avertissement: √âchec du raffinement LLM ({e}), utilisation de l'heuristique")

    # Fallback: heuristique simple
    words = text.split()
    if len(words) <= args.max_words:
        return " ".join(words)

    out = []
    count = 0
    for sentence in re.split(r'(?<=[.!?])\s+', text):
        sw = sentence.split()
        if count + len(sw) > args.max_words:
            break
        out.append(sentence)
        count += len(sw)

    if not out:
        return " ".join(words[:args.max_words]) + " ..."

    return " ".join(out)

print("‚úì Version am√©lior√©e avec raffinement LLM cr√©√©e")

# Test comparatif
print("\nTest avec example.com (sans LLM):")
result1 = summarize_url_enhanced("https://1data-hexagone.fr/", max_words=50, use_llm=False)
print(f"R√©sultat: {result1}")

print("\nTest avec example.com (avec LLM):")
result2 = summarize_url_enhanced("https://comparia.beta.gouv.fr/", max_words=50, use_llm=True)
print(f"R√©sultat: {result2}")

‚úì Version am√©lior√©e avec raffinement LLM cr√©√©e

Test avec example.com (sans LLM):
R√©sultat: Ma√É¬Ætrisez les technologies leaders du Big Data Chez 1Data-Hexagone, nous formons les professionnels aux √É¬©cosyst√É¬®mes Hadoop, aux plateformes de streaming en temps r√É¬©el, et aux solutions IA agentiques modernes. Des formations pratiques, orient√É¬©es m√É¬©tier, par des experts confirm√É¬©s.

Test avec example.com (avec LLM):
R√©sultat: Le comparateur d'IA compar:IA permet aux utilisateurs de discuter avec deux IA anonymes pour √©valuer leurs r√©ponses. Cet outil gratuit sensibilise √† l'IA g√©n√©rative et collecte des donn√©es pour am√©liorer les mod√®les. Il est soutenu par le Minist√®re de la Culture et vise √† rendre l'IA plus accessible et transparente.


## √âtape 7: (Optionnel) Exposition en tant qu'outil OpenAI Function-Calling tool

Version native avec Function Calling d'OpenAI.

In [29]:
import json

# Sch√©ma JSON pour Function Calling
url_summarizer_schema = {
    "type": "function",
    "function": {
        "name": "summarize_url",
        "description": "R√©cup√®re et r√©sume le contenu d'une page web",
        "parameters": {
            "type": "object",
            "properties": {
                "url": {
                    "type": "string",
                    "description": "L'URL de la page web √† r√©sumer"
                },
                "max_words": {
                    "type": "integer",
                    "description": "Nombre maximum de mots dans le r√©sum√©",
                    "default": 120
                }
            },
            "required": ["url"]
        }
    }
}

def run_function_calling_agent(user_query: str):
    """Agent utilisant Function Calling natif d'OpenAI."""

    messages = [{"role": "user", "content": user_query}]

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        tools=[url_summarizer_schema],
        tool_choice="auto"
    )

    response_message = response.choices[0].message

    # V√©rifier si le mod√®le veut appeler une fonction
    if response_message.tool_calls:
        for tool_call in response_message.tool_calls:
            if tool_call.function.name == "summarize_url":
                # Extraire les arguments
                function_args = json.loads(tool_call.function.arguments)
                print(f"\nüîß Appel de fonction: {tool_call.function.name}")
                print(f"   Arguments: {function_args}")

                # Ex√©cuter la fonction
                result = summarize_url_enhanced(**function_args)
                print(f"   R√©sultat: {result[:100]}...\n")

                # Ajouter le r√©sultat √† la conversation
                messages.append(response_message)
                messages.append({
                    "role": "tool",
                    "tool_call_id": tool_call.id,
                    "content": result
                })

                # Obtenir la r√©ponse finale
                final_response = client.chat.completions.create(
                    model="gpt-4o-mini",
                    messages=messages
                )

                return final_response.choices[0].message.content

    return response_message.content

# Test
print("‚úì Agent Function Calling cr√©√©\n")
test_query = "R√©sume en 60 mots le contenu de https://1data-hexagone.fr/"
print(f"Query: {test_query}")
result = run_function_calling_agent(test_query)
print(f"\nR√©ponse finale: {result}")

‚úì Agent Function Calling cr√©√©

Query: R√©sume en 60 mots le contenu de https://1data-hexagone.fr/

üîß Appel de fonction: summarize_url
   Arguments: {'url': 'https://1data-hexagone.fr/', 'max_words': 60}
   R√©sultat: 1Data-Hexagone propose des formations pratiques sur les technologies Big Data, incluant Hadoop, solu...


R√©ponse finale: 1Data-Hexagone propose des formations pratiques sur le Big Data, incluant Hadoop, l'intelligence artificielle et le streaming en temps r√©el. Dirig√©es par des experts, les sessions couvrent la gestion des donn√©es massives, les bases NoSQL et les requ√™tes analytiques. Elles sont adapt√©es aux entreprises, avec un accompagnement post-formation et un acc√®s √† des environnements lab.


## √âtape 8: Pour aller plus loin :

### Id√©es d'extensions possibles:

1. **Filtres de m√©tadonn√©es:**
   - Ajouter des allowlist/denylist de domaines
   - Filtrer par langue du contenu

2. **Rate-limiting et cache avanc√©:**
   - Impl√©menter un rate-limiter par domaine
   - Cache persistant avec Redis ou diskcache
   - Cache partag√© entre plusieurs agents

3. **Sources et RAG:**
   - Retourner des m√©tadonn√©es (titre, auteur, date)
   - Extraire et retourner des snippets cit√©s
   - Format compatible RAG avec embeddings

4. **Observabilit√©:**
   - Logs structur√©s
   - M√©triques (latence, cache hit rate)
   - Tracing distribu√©

5. **Robustesse:**
   - Support JavaScript rendering (Playwright/Selenium)
   - Extraction de PDFs
   - Support de l'authentification

6. **LangChain Runnable:**
   - Convertir en Runnable pour LCEL
   - Cha√Ænage avec d'autres outils
   - Support async/streaming

### Exemple d'extension: Filtrage de domaines

In [33]:
from urllib.parse import urlparse
from typing import List, Optional

class DomainFilter:
    """Filtre pour g√©rer les listes d'autorisation/blocage de domaines."""

    def __init__(self, allowlist: Optional[List[str]] = None, denylist: Optional[List[str]] = None):
        self.allowlist = set(allowlist or [])
        self.denylist = set(denylist or [])

    def is_allowed(self, url: str) -> tuple[bool, str]:
        """V√©rifie si l'URL est autoris√©e."""
        domain = urlparse(url).netloc

        # Si allowlist existe, le domaine doit y √™tre
        if self.allowlist and domain not in self.allowlist:
            return False, f"Domaine non autoris√©: {domain}"

        # V√©rifier la denylist
        if domain in self.denylist:
            return False, f"Domaine bloqu√©: {domain}"

        return True, f"OK pour : {domain}"

def summarize_url_filtered(url: str, max_words: int = 120,
                           domain_filter: Optional[DomainFilter] = None) -> str:
    """Version avec filtrage de domaines."""

    # V√©rification du domaine
    if domain_filter:
        allowed, message = domain_filter.is_allowed(url)
        if not allowed:
            return f"Acc√®s refus√©: {message}"

    return summarize_url_enhanced(url, max_words)

# Exemple d'utilisation
filter_example = DomainFilter(
    allowlist=["cloud.google.com", "openai.com", "github.com"],
    denylist=["pirateproxy.space"]
)

print("‚úì Syst√®me de filtrage de domaines cr√©√©\n")

# Tests
print("Test 1 - Domaine autoris√©:")
print(filter_example.is_allowed("https://cloud.google.com/discover/"))

print("\nTest 2 - Domaine bloqu√©:")
print(filter_example.is_allowed("https://www.pirateproxy.space/"))

print("\nTest 3 - Domaine non dans allowlist:")
print(filter_example.is_allowed("https://1data-hexagone.fr/"))

‚úì Syst√®me de filtrage de domaines cr√©√©

Test 1 - Domaine autoris√©:
(True, 'OK pour : cloud.google.com')

Test 2 - Domaine bloqu√©:
(False, 'Domaine non autoris√©: www.pirateproxy.space')

Test 3 - Domaine non dans allowlist:
(False, 'Domaine non autoris√©: 1data-hexagone.fr')


## üéâ Conclusion

Vous avez maintenant cr√©√© un outil personnalis√© production-ready avec:

‚úÖ **Validation de sch√©ma** avec Pydantic  
‚úÖ **Gestion d'erreurs** robuste avec retries  
‚úÖ **Syst√®me de cache** avec TTL  
‚úÖ **Guardrails de s√©curit√©** (type/taille de contenu)  
‚úÖ **Raffinement LLM** optionnel  
‚úÖ **Int√©gration LangChain** et Function Calling natif  
‚úÖ **Extensions** (filtrage de domaines)  

### Prochaines √©tapes:

1. Impl√©menter les extensions sugg√©r√©es
2. Ajouter des tests unitaires et d'int√©gration
3. D√©ployer comme microservice avec FastAPI
4. Int√©grer dans un syst√®me RAG complet
5. Ajouter monitoring et observabilit√©

**Bravo! Vous ma√Ætrisez maintenant la cr√©ation d'outils personnalis√©s pour agents!** üöÄ