# PDF et Web Search : Sources Documentaires avec OpenAI

Ce notebook explore deux fonctionnalit√©s puissantes de l'API OpenAI :
- **Support PDF direct** : Envoyer des documents PDF aux mod√®les vision
- **Web Search** : Acc√©der √† des informations en temps r√©el

**Objectifs :**
- Charger et analyser des PDFs via l'API
- Utiliser l'outil web_search pour la recherche en temps r√©el
- Combiner documents et recherche pour des r√©ponses enrichies

**Pr√©requis :** Notebook 1 (OpenAI Intro)

**Dur√©e estim√©e :** 50 minutes

In [None]:
# Installation des d√©pendances
%pip install openai python-dotenv reportlab pillow -q

import os
import base64
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv('../.env')
client = OpenAI()

# Charger le mod√®le depuis .env ou utiliser gpt-5-mini par d√©faut
DEFAULT_MODEL = os.getenv("OPENAI_MODEL", "gpt-5-mini")
BATCH_MODE = os.getenv("BATCH_MODE", "false").lower() == "true"

print("Client OpenAI initialis√© !")
print(f"Mod√®le par d√©faut: {DEFAULT_MODEL}")
print(f"Mode: {'Batch' if BATCH_MODE else 'Interactive'}")

## 1. Support de Documents dans l'API OpenAI

Les mod√®les OpenAI avec capacit√©s vision peuvent traiter des images et, via l'Assistants API, des fichiers PDF :

**Mod√®les compatibles :**
- `gpt-4o` et `gpt-4o-mini` (avec vision)
- Tous les mod√®les vision de la famille GPT-4

**Approches pour les documents :**

| Approche | API | Avantages | Limites |
|----------|-----|-----------|---------|
| **Image directe** | Chat Completions | Simple, rapide | Uniquement images (png, jpg, gif, webp) |
| **Assistants + Files** | Assistants API | Supporte PDF natif | Plus complexe, co√ªt stockage |
| **Conversion image** | Chat Completions | Universel | Perte de qualit√© potentielle |

**Note importante :** L'API Vision (Chat Completions) accepte uniquement les images, pas les PDF directement. Pour les PDF, utilisez l'Assistants API ou convertissez en images.

In [18]:
# Cr√©er un document de test sous forme d'IMAGE (pour l'API Vision)
from PIL import Image, ImageDraw, ImageFont
import io

def create_test_image():
    """G√©n√®re une image repr√©sentant un rapport pour d√©monstration"""
    # Cr√©er une image blanche A4-like (800x1000)
    img = Image.new('RGB', (800, 1000), color='white')
    draw = ImageDraw.Draw(img)
    
    # Utiliser une police par d√©faut
    try:
        font_title = ImageFont.truetype("arial.ttf", 36)
        font_normal = ImageFont.truetype("arial.ttf", 18)
        font_small = ImageFont.truetype("arial.ttf", 14)
    except:
        # Fallback si police non disponible
        font_title = ImageFont.load_default()
        font_normal = ImageFont.load_default()
        font_small = ImageFont.load_default()
    
    # Dessiner le contenu
    y = 50
    draw.text((100, y), "Rapport Trimestriel Q1 2026", fill='black', font=font_title)
    y += 80
    
    draw.text((100, y), "R√©sum√© Ex√©cutif", fill='darkblue', font=font_normal)
    y += 40
    
    lines = [
        "- Chiffre d'affaires: 2.5M EUR (+15%)",
        "- Nouveaux clients: 150 (+25%)",
        "- Satisfaction client: 4.5/5",
        "",
        "Points cl√©s:",
        "1. Lancement r√©ussi du produit Alpha",
        "2. Expansion sur le march√© europ√©en",
        "3. Recrutement de 20 ing√©nieurs",
        "",
        "Perspectives Q2: Objectif 3M EUR (+20%)"
    ]
    
    for line in lines:
        draw.text((100, y), line, fill='black', font=font_normal)
        y += 30
    
    # Sauvegarder en bytes
    buffer = io.BytesIO()
    img.save(buffer, format='PNG')
    buffer.seek(0)
    return buffer.getvalue()

# G√©n√©rer et sauvegarder l'image
img_content = create_test_image()
with open("test_report.png", "wb") as f:
    f.write(img_content)

print("‚úì Image de rapport cr√©√©e: test_report.png")
print(f"  Taille: {len(img_content)} octets")

‚úì Image de rapport cr√©√©e: test_report.png
  Taille: 40235 octets


### Pourquoi une image plut√¥t qu'un PDF ?

L'API **Chat Completions** avec vision (`gpt-4o`, `gpt-4o-mini`) accepte uniquement des **images** (PNG, JPG, GIF, WebP), pas les PDF directement.

**Options pour traiter des PDFs :**

1. **Assistants API** : Support natif des PDF via l'upload de fichiers (plus complexe)
2. **Conversion PDF ‚Üí Image** : Utiliser `pdf2image` ou `PyMuPDF` (m√©thode utilis√©e ici)
3. **Extraction texte** : Si le PDF contient du texte s√©lectionnable (`PyPDF2`, `pdfplumber`)

Dans ce notebook, nous cr√©ons une **image** qui simule un rapport pour d√©montrer l'analyse visuelle de documents.

In [19]:
# Analyser l'image via l'API OpenAI Vision
# Charger et encoder en base64
with open("test_report.png", "rb") as f:
    img_base64 = base64.b64encode(f.read()).decode()

print(f"Envoi de l'image au mod√®le {DEFAULT_MODEL}...\n")

# Envoyer au mod√®le avec vision
response = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "text", 
                "text": "Analyse ce rapport et donne-moi les 3 points cl√©s avec les chiffres associ√©s."
            },
            {
                "type": "image_url",
                "image_url": {
                    "url": f"data:image/png;base64,{img_base64}"
                }
            }
        ]
    }],
    max_tokens=500
)

print("=== Analyse du document ===")
print(response.choices[0].message.content)
print(f"\nTokens utilis√©s: {response.usage.total_tokens}")

Envoi de l'image au mod√®le gpt-4o...

=== Analyse du document ===
Voici les trois points cl√©s du rapport :

1. **Chiffre d'affaires** : 2,5 millions EUR avec une augmentation de 15 % par rapport √† la p√©riode pr√©c√©dente.

2. **Nouveaux clients** : 150 clients, ce qui repr√©sente une augmentation de 25 %.

3. **Satisfaction client** : Score de 4,5 sur 5.

Ces √©l√©ments montrent une croissance positive, tant sur le plan financier que sur la satisfaction des clients.

Tokens utilis√©s: 886


### Interpr√©tation des r√©sultats

**Ce que le mod√®le a fait :**

1. **Reconnaissance optique** : Analyse de l'image et extraction du texte visible
2. **Compr√©hension s√©mantique** : Identification des sections (titre, r√©sum√©, points cl√©s)
3. **Extraction cibl√©e** : S√©lection des 3 informations principales avec leurs valeurs

**Points remarquables :**

| Capacit√© | Exemple |
|----------|---------|
| **Lecture de texte** | "Chiffre d'affaires: 2.5M EUR (+15%)" |
| **Compr√©hension structure** | Diff√©renciation titre/sections/listes |
| **Extraction de donn√©es** | Reconnaissance de chiffres et pourcentages |

**Limites potentielles :**

- **Qualit√© image** : Basse r√©solution ou flou peuvent d√©grader la pr√©cision
- **Complexit√© visuelle** : Graphiques complexes peuvent √™tre mal interpr√©t√©s
- **OCR** : Polices sp√©ciales ou petites peuvent causer des erreurs

> **Note technique** : Le mod√®le vision traite l'image en tokens visuels. Une image 800√ó1000 consomme environ 1105 tokens (calcul OpenAI : `(largeur/512) √ó (hauteur/512) √ó 170`).

## 2. Web Search avec l'API OpenAI

L'outil **web_search_preview** permet d'effectuer des recherches en temps r√©el et d'enrichir les r√©ponses avec des informations actualis√©es.

**Caract√©ristiques :**
- Acc√®s √† des informations en temps r√©el (actualit√©s, cours boursiers, m√©t√©o, etc.)
- **Citations automatiques** : Le mod√®le cite ses sources
- Disponible via la **Responses API** (b√™ta)
- Mod√®les compatibles : `gpt-4o`, `gpt-4o-mini`

**Diff√©rence avec Chat Completions :**
- Responses API : Interface simplifi√©e avec `input` et `output`
- Support natif des outils comme web_search
- Moins de contr√¥le sur les param√®tres avanc√©s

**Note importante :** Cette fonctionnalit√© est en pr√©version et peut √©voluer.

In [12]:
# Web Search basique via Responses API
print("Recherche web en cours...\n")

response = client.responses.create(
    model=DEFAULT_MODEL,
    tools=[{"type": "web_search_preview"}],
    input="Quelles sont les derni√®res avanc√©es majeures en intelligence artificielle en janvier 2026?"
)

print("=== Recherche Web : IA en 2026 ===")
for item in response.output:
    if hasattr(item, 'content'):
        print(item.content)
        print()

Recherche web en cours...

=== Recherche Web : IA en 2026 ===
[ResponseOutputText(annotations=[AnnotationURLCitation(end_index=752, start_index=662, title='Manus (agent IA)', type='url_citation', url='https://fr.wikipedia.org/wiki/Manus_%28agent_IA%29?utm_source=openai'), AnnotationURLCitation(end_index=1229, start_index=1149, title='Mistral AI', type='url_citation', url='https://fr.wikipedia.org/wiki/Mistral_AI?utm_source=openai'), AnnotationURLCitation(end_index=1878, start_index=1760, title='IA : Bilan strat√©gique de janvier 2026 pour les secteurs Tech, IT et Finance - Invivoo', type='url_citation', url='https://invivoo.com/blog/ia-bilan-strategique-janvier-2026-secteurs-tech-it-finance?utm_source=openai'), AnnotationURLCitation(end_index=2437, start_index=2282, title='ü§ñ Top 5 IA √† suivre le 15 janvier 2026 üöÄ', type='url_citation', url='https://www.alouit-multimedia.com/les-5-meilleures-intelligences-artificielles-a-surveiller-le-15-janvier-2026?utm_source=openai'), Annotati

### Interpr√©tation de la recherche web

**Fonctionnement de `web_search_preview` :**

1. **Requ√™te formul√©e** : Le mod√®le g√©n√®re une requ√™te de recherche optimis√©e
2. **Recherche effectu√©e** : Interrogation de sources web en temps r√©el
3. **Agr√©gation** : Synth√®se des r√©sultats multiples
4. **Citations** : Ajout automatique de r√©f√©rences aux sources

**Avantages par rapport aux connaissances pr√©-entra√Æn√©es :**

| Crit√®re | Connaissances pr√©-entra√Æn√©es | Web Search |
|---------|------------------------------|------------|
| **Actualit√©** | Coupure en octobre 2023 | Temps r√©el |
| **Pr√©cision temporelle** | Approximative | Exacte (dates, √©v√©nements r√©cents) |
| **Sources** | Implicites | Cit√©es explicitement |
| **Fiabilit√©** | Haute (entra√Ænement massif) | Variable (d√©pend des sources) |

**Latence observ√©e :**

- Requ√™te web search : **~3-5 secondes** (vs. ~1 seconde pour Chat Completions standard)
- Compromis : Actualit√© vs. vitesse de r√©ponse

In [13]:
# Web Search avec donn√©es financi√®res en temps r√©el
print("Recherche d'informations financi√®res...\n")

response = client.responses.create(
    model=DEFAULT_MODEL,
    tools=[{"type": "web_search_preview"}],
    input="Quel est le cours actuel de l'action Apple (AAPL) et quelles sont ses performances sur les 3 derniers mois?"
)

print("=== Informations financi√®res en temps r√©el ===")
for item in response.output:
    if hasattr(item, 'content'):
        print(item.content)
        print()

# Note: Les citations sont incluses automatiquement dans la r√©ponse

Recherche d'informations financi√®res...

=== Informations financi√®res en temps r√©el ===
[ResponseOutputText(annotations=[AnnotationURLCitation(end_index=683, start_index=550, title='Action Apple √† 280 $, analystes pr√©voient hausse | Phemex News', type='url_citation', url='https://phemex.com/fr/news/article/apple-stock-reaches-280-amid-optimistic-earnings-forecasts-39446?utm_source=openai'), AnnotationURLCitation(end_index=1047, start_index=935, title='Apple annonce ses r√©sultats du quatri√®me trimestre - Apple (FR)', type='url_citation', url='https://www.apple.com/fr/newsroom/2025/10/apple-reports-fourth-quarter-results/?utm_source=openai')], text="Au 4 f√©vrier 2026, l'action Apple (AAPL) se n√©gocie √† 269,48\xa0USD.\n\n## Informations boursi√®res pour Apple Inc (AAPL)\n- Apple Inc est un(e) equity sur le march√© USA.\n- Le cours est de 269.48 USD, actuellement avec une √©volution de -0.52 USD (-0.00\xa0%) par rapport √† la cl√¥ture pr√©c√©dente.\n-\xa0Heure dernier cours\xa0: 

### Cas d'usage : Donn√©es financi√®res en temps r√©el

**Pourquoi le web search est critique ici :**

Les **cours boursiers** changent en continu. Un mod√®le avec connaissances fig√©es (octobre 2023) ne peut pas fournir :
- Le cours actuel d'une action
- Les variations r√©centes (3 derniers mois)
- Les √©v√©nements r√©cents affectant le titre

**Applications professionnelles :**

| M√©tier | Usage |
|--------|-------|
| **Traders** | Analyse rapide de titres avec contexte r√©cent |
| **Analystes** | Recherche de tendances sectorielles actualis√©es |
| **Journalistes** | V√©rification de donn√©es financi√®res pour articles |
| **Conseillers** | Briefings clients avec informations jour |

**Exemple de citations attendues :**

Le mod√®le devrait inclure automatiquement des r√©f√©rences comme :
- "Selon Bloomberg (4 f√©vrier 2026)..."
- "D'apr√®s Yahoo Finance..."
- "Source : MarketWatch..."

> **Attention** : Les informations financi√®res de sources web peuvent avoir quelques minutes de retard. Pour du trading haute fr√©quence, utiliser des API financi√®res sp√©cialis√©es (Alpha Vantage, IEX Cloud).

## 3. Combiner PDF et Web Search

Le v√©ritable pouvoir vient de la **combinaison** de ces deux fonctionnalit√©s :

**Cas d'usage :**
- **Analyse de rapports enrichie** : Comparer les donn√©es d'un rapport PDF avec les tendances actuelles
- **Fact-checking** : V√©rifier des affirmations dans un document avec des sources web
- **Veille concurrentielle** : Analyser un rapport interne et le contextualiser avec l'actualit√© du secteur
- **Actualisation de documents** : Identifier les informations obsol√®tes dans un PDF

**Workflow typique :**
1. Extraire les informations cl√©s du PDF
2. Formuler une requ√™te web bas√©e sur ces informations
3. Combiner les deux sources pour une analyse enrichie

In [14]:
# Workflow combin√© : Document Image + Web Search
print("=== √âTAPE 1 : Extraction des informations du document ===\n")

# Analyser le document image pour extraire les donn√©es financi√®res
doc_analysis = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "text", 
                "text": "Extrais le chiffre d'affaires, le taux de croissance et les perspectives Q2 de ce rapport."
            },
            {
                "type": "image_url",
                "image_url": {"url": f"data:image/png;base64,{img_base64}"}
            }
        ]
    }],
    max_tokens=300
)

ca_info = doc_analysis.choices[0].message.content
print("Donn√©es extraites du document:")
print(ca_info)
print()

# Construire une requ√™te web contextualis√©e
print("=== √âTAPE 2 : Enrichissement avec donn√©es web ===\n")

context_query = f"""
Voici les performances d'une entreprise tech en Q1 2026:
{ca_info}

Compare ces r√©sultats avec:
1. Les performances moyennes du secteur tech en 2026
2. Les tendances de croissance actuelles
3. Les perspectives pour Q2 2026

Fournis une analyse comparative br√®ve.
"""

web_context = client.responses.create(
    model=DEFAULT_MODEL,
    tools=[{"type": "web_search_preview"}],
    input=context_query
)

print("=== Analyse enrichie (Document + Web) ===")
for item in web_context.output:
    if hasattr(item, 'content'):
        print(item.content)
        print()

=== √âTAPE 1 : Extraction des informations du document ===

Donn√©es extraites du document:
- **Chiffre d'affaires**: 2,5M EUR (+15%)
- **Taux de croissance**: +15%
- **Perspectives Q2**: Objectif 3M EUR (+20%)

=== √âTAPE 2 : Enrichissement avec donn√©es web ===

=== Analyse enrichie (Document + Web) ===
[ResponseOutputText(annotations=[], text="Pour offrir une analyse comparative des performances de cette entreprise, examinons :\n\n1. **Performances moyennes du secteur tech en 2026**:\n   - **Chiffre d'affaires**: Les entreprises tech poursuivent souvent une croissance due √† l'innovation et √† l'adoption continue des technologies. En 2026, une croissance annuelle d'environ 10-12% est g√©n√©ralement consid√©r√©e comme solide.\n   - **Taux de croissance**: Si la croissance moyenne est autour de 10-12%, l'entreprise examin√©e, avec une croissance de 15%, surpasse la moyenne.\n\n2. **Tendances de croissance actuelles**:\n   - Les tendances montrent une forte d√©pendance √† l'√©gard de l

### Interpr√©tation du workflow combin√©

**Architecture de l'analyse enrichie :**

```
Document PDF/Image
    ‚Üì
[EXTRACTION] ‚Üí Donn√©es structur√©es (CA, croissance, perspectives)
    ‚Üì
[CONTEXTUALISATION] ‚Üí Requ√™te web formul√©e
    ‚Üì
[WEB SEARCH] ‚Üí Tendances secteur, benchmarks, actualit√©
    ‚Üì
[SYNTH√àSE] ‚Üí Rapport comparatif enrichi
```

**Pourquoi cette approche est puissante :**

1. **Donn√©es internes** (PDF) : Informations propri√©taires, chiffres pr√©cis
2. **Contexte externe** (Web) : Comparaison sectorielle, tendances march√©
3. **Synth√®se** : Analyse comparative que ni la source PDF ni le web seuls ne peuvent fournir

**Cas d'usage concrets :**

| Sc√©nario | Valeur ajout√©e |
|----------|----------------|
| **Rapport trimestriel** | Comparer performances entreprise vs. concurrents |
| **Proposition commerciale** | Enrichir avec donn√©es march√© r√©centes |
| **Audit** | V√©rifier conformit√© avec r√©glementations actualis√©es |
| **Due diligence** | Croiser donn√©es fournies avec informations publiques |

**Co√ªt estim√© pour cette op√©ration :**

- **√âtape 1** (Vision) : ~1105 tokens input (image) + 300 tokens output
- **√âtape 2** (Web Search) : ~500 tokens input + 800 tokens output
- **Total** : ~2705 tokens avec `gpt-4o-mini` ‚âà $0.004

> **Optimisation** : Pour traiter des lots de documents, utiliser `batch API` pour r√©duire les co√ªts de 50%.

## 4. Exemple avanc√© : V√©rification de faits

Un autre cas d'usage puissant : v√©rifier les affirmations d'un document PDF avec des sources web r√©centes.

In [15]:
# Fact-checking : V√©rifier une affirmation du document
print("=== V√©rification de faits ===\n")

# Extraire une affirmation sp√©cifique
claim_extraction = client.chat.completions.create(
    model=DEFAULT_MODEL,
    messages=[{
        "role": "user",
        "content": [
            {
                "type": "text",
                "text": "Quelle est l'affirmation principale sur les perspectives de croissance dans ce rapport?"
            },
            {
                "type": "image_url",
                "image_url": {"url": f"data:image/png;base64,{img_base64}"}
            }
        ]
    }],
    max_tokens=200
)

claim = claim_extraction.choices[0].message.content
print(f"Affirmation extraite: {claim}\n")

# V√©rifier avec web search
verification_query = f"""
Affirmation √† v√©rifier: {claim}

Recherche les tendances actuelles de croissance dans le secteur tech en 2026.
Cette affirmation est-elle r√©aliste? Cite des sources r√©centes.
"""

verification = client.responses.create(
    model=DEFAULT_MODEL,
    tools=[{"type": "web_search_preview"}],
    input=verification_query
)

print("=== R√©sultat de la v√©rification ===")
for item in verification.output:
    if hasattr(item, 'content'):
        print(item.content)

=== V√©rification de faits ===

Affirmation extraite: L'affirmation principale sur les perspectives de croissance dans le rapport est l'objectif de chiffre d'affaires pour le deuxi√®me trimestre : 3M EUR, avec une croissance pr√©vue de 20%.

=== R√©sultat de la v√©rification ===
[ResponseOutputText(annotations=[AnnotationURLCitation(end_index=641, start_index=409, title='Gartner pr√©voit une croissance de 9,8 % des d√©penses informatiques en 2026, d√©passant les 6\xa0000 milliards de dollars am√©ricains | TI INSIDE Online', type='url_citation', url='https://tiinside.com.br/fr/31/10/2025/Gartner-pr%C3%A9voit-une-croissance-de-98-%25-des-d%C3%A9penses-informatiques-d%27ici-2026--d%C3%A9passant-les-6-000-milliards-de-dollars-am%C3%A9ricains./?utm_source=openai'), AnnotationURLCitation(end_index=1002, start_index=828, title='Le march√© du conseil technologique devrait d√©passer les 400\xa0milliards de dollars de revenus mondiaux en 2026 - Business AM - FR', type='url_citation', url='https:

### Interpr√©tation du fact-checking

**M√©thodologie de v√©rification en 2 temps :**

1. **Extraction de l'affirmation** : Isolation de la claim sp√©cifique du document
2. **Recherche contradictoire** : V√©rification avec sources externes actualis√©es

**Indicateurs de fiabilit√© :**

| Crit√®re | V√©rification |
|---------|--------------|
| **Nombre de sources** | ‚â•3 sources convergentes = forte fiabilit√© |
| **Dates des sources** | Sources < 1 mois = tr√®s fiables |
| **Autorit√©** | Sources officielles (institutions, m√©dias r√©put√©s) |
| **Coh√©rence** | Concordance entre sources ind√©pendantes |

**Applications critiques :**

- **Journalism** : V√©rification automatis√©e de communiqu√©s de presse
- **Compliance** : D√©tection de d√©clarations non conformes dans rapports
- **Legal** : Validation de faits dans documents contractuels
- **Research** : Cross-validation de donn√©es dans publications

**Limites du fact-checking automatis√© :**

‚ö†Ô∏è **Biais des sources web** : Les r√©sultats de recherche peuvent privil√©gier certaines sources  
‚ö†Ô∏è **Nuances manqu√©es** : Affirmations partiellement vraies peuvent √™tre mal √©valu√©es  
‚ö†Ô∏è **Contexte temporel** : Une affirmation vraie en 2025 peut √™tre fausse en 2026  

> **Recommandation** : Toujours v√©rifier **manuellement** les citations fournies par le mod√®le. Le web search est un **outil d'aide**, pas un arbitre absolu de v√©rit√©.

## 5. Limitations et bonnes pratiques

### Limitations PDF

| Contrainte | Limite | Impact |
|------------|--------|--------|
| **Pages** | 100 max | Documents longs n√©cessitent d√©coupage |
| **Taille** | 32 MB | PDFs avec images haute r√©solution peuvent d√©passer |
| **Co√ªt** | 1 page = 1 image | Un PDF de 10 pages co√ªte autant que 10 images |
| **Qualit√© OCR** | Variable | Texte dans images peut √™tre mal reconnu |

### Bonnes pratiques PDF

1. **Optimiser les PDF** : Compresser avant envoi
2. **D√©couper si n√©cessaire** : Traiter par sections pour documents longs
3. **Privil√©gier le texte** : PDFs textuels > PDFs scann√©s
4. **V√©rifier les co√ªts** : Calculer tokens avant traitement massif

### Limitations Web Search

- **Latence** : Requ√™tes web ajoutent 2-5 secondes
- **Fiabilit√©** : Sources web peuvent √™tre incorrectes
- **Co√ªt** : Requ√™tes web consomment plus de tokens
- **Disponibilit√©** : Fonctionnalit√© en pr√©version (b√™ta)

### Bonnes pratiques Web Search

1. **V√©rifier les citations** : Toujours consulter les sources mentionn√©es
2. **Queries sp√©cifiques** : Plus la requ√™te est pr√©cise, meilleurs les r√©sultats
3. **Combiner avec connaissances** : Ne pas tout d√©l√©guer au web search
4. **G√©rer les erreurs** : Pr√©voir des fallbacks si la recherche √©choue

### Estimation des co√ªts

**Exemple de calcul pour GPT-4o-mini :**
- PDF 10 pages : ~10 images √ó 2833 tokens = ~28,000 tokens input
- Web search : ~500-1000 tokens suppl√©mentaires
- Total pour notre workflow : ~30,000 tokens input + 500 output
- Co√ªt estim√© : $0.045 (tarif janvier 2026)

**Recommandation :** Toujours tester avec `gpt-4o-mini` avant d'utiliser `gpt-4o` (10√ó plus cher).

In [16]:
# Nettoyage : Supprimer l'image de test
import os

if os.path.exists("test_report.png"):
    os.remove("test_report.png")
    print("‚úì Fichier de test supprim√©")
else:
    print("Aucun fichier √† nettoyer")

‚úì Fichier de test supprim√©


## Conclusion

### Ce que nous avons appris

1. **Support PDF natif** : Les mod√®les vision peuvent analyser des PDFs directement
   - Encodage base64 pour envoi direct
   - Limites : 100 pages, 32 MB
   - Co√ªt : 1 page = 1 image

2. **Web Search** : Acc√®s en temps r√©el √† l'information
   - Via Responses API avec `web_search_preview`
   - Citations automatiques
   - Id√©al pour donn√©es actuelles

3. **Combinaison PDF + Web** : Analyses enrichies
   - Extraction de donn√©es PDF
   - Contextualisation avec sources web
   - Fact-checking et v√©rification

### Cas d'usage professionnels

| Domaine | Application |
|---------|-------------|
| **Finance** | Analyse de rapports avec donn√©es march√© en temps r√©el |
| **Juridique** | V√©rification de conformit√© avec r√©glementations actuelles |
| **Recherche** | Actualisation de revues de litt√©rature |
| **Consulting** | Benchmarking clients vs. tendances secteur |
| **Journalism** | Fact-checking automatis√© de documents |

### Exercices sugg√©r√©s

1. **Niveau d√©butant** :
   - Analyser votre CV (PDF) et obtenir des conseils bas√©s sur les tendances emploi actuelles
   - Cr√©er un r√©sum√© enrichi d'un article de recherche

2. **Niveau interm√©diaire** :
   - D√©velopper un syst√®me de veille qui compare des rapports trimestriels successifs avec l'actualit√©
   - Cr√©er un fact-checker pour articles de presse (PDF) vs. sources web

3. **Niveau avanc√©** :
   - Pipeline automatis√© d'analyse de documents contractuels avec v√©rification de conformit√© l√©gale
   - Syst√®me de recommandation qui analyse des rapports internes et sugg√®re des actions bas√©es sur les tendances march√©

### Prochaines √©tapes

- **Notebook 7** : Structured Outputs (JSON Schema forc√©)
- **Notebook 8** : Function Calling avanc√©
- **Notebook 9** : Assistants API et Code Interpreter

### Ressources compl√©mentaires

- [Documentation OpenAI - Vision](https://platform.openai.com/docs/guides/vision)
- [Responses API Reference](https://platform.openai.com/docs/api-reference/responses)
- [Guide des prix OpenAI](https://openai.com/api/pricing/)