# Notebook : G√©n√©ration d'Images, Low-Code AI, Function Calling, RAG

Dans ce notebook, nous allons tour √† tour d√©couvrir :

1. Comment g√©n√©rer des **images** √† partir de prompts en texte (ex: DALL-E, Midjourney).
2. Comment cr√©er des **applications low-code** enrichies par l'IA, gr√¢ce √† **Power Platform** (Copilot, AI Builder).
3. **Function Calling** c√¥t√© OpenAI : structurer les r√©ponses d‚Äôun LLM pour d√©clencher des actions.
4. **RAG** (Retrieval Augmented Generation) et **bases vectorielles** (indexation, recherche s√©mantique, chunking, etc.).



## Pr√©requis & Installation

- **Python 3.9+** (ou version ult√©rieure).
- Un compte [OpenAI](https://platform.openai.com/) et une cl√© d‚ÄôAPI valide.
- Le fichier `.env` contenant votre cl√© d‚ÄôAPI :
OPENAI_API_KEY=sk-...



### Pourquoi la g√©n√©ration d'images via IA ?

Les mod√®les de g√©n√©ration d'images, tels que **DALL-E** (OpenAI) ou **Midjourney**, ont la capacit√© de cr√©er des visuels originaux √† partir de simples descriptions textuelles (prompts).  
- **Applications concr√®tes** :  
  - Design rapide de prototypes (marketing, publicit√©)  
  - Cr√©ation artistique (concept art, storyboards)  
  - Illustrations p√©dagogiques ou infographiques  
- **Limitations** :  
  - Les images peuvent contenir des incoh√©rences (proportions bizarres, doigts suppl√©mentaires, etc.)  
  - Certaines requ√™tes contraires aux politiques d‚Äôutilisation peuvent √™tre bloqu√©es  

Dans la suite, nous allons voir comment **OpenAI** g√®re la g√©n√©ration d‚Äôimages via l‚ÄôAPI `images.generate()`, et comment int√©grer ces visuels dans un flux d'automatisation (Low-Code) ou dans des applications web.


In [None]:
# ============================
# Installation
# ============================

%pip install openai tiktoken python-dotenv
# Remarque : Aucune fin de ligne en commentaire pour √©viter l'erreur


In [None]:
import os
import requests
# from PIL import Image
from IPython.display import Image
from IPython.core.display import HTML
import openai
from openai import OpenAI
from dotenv import load_dotenv

# Charger le fichier .env pour la cl√© OPENAI_API_KEY (dans le r√©pertoire parent GenAI/)
load_dotenv('../.env')

# Config globale - initialisation du client OpenAI moderne
client = OpenAI()

# ‚ö†Ô∏è NOTE : images.generate() requiert l'API OpenAI native (pas OpenRouter)
# Si vous utilisez OpenRouter (OPENAI_BASE_URL d√©fini dans .env),
# cette cellule sera automatiquement skipp√©e en mode batch.
# Pour tester la g√©n√©ration d'images, utilisez une cl√© OpenAI pure sans BASE_URL.

print("üîç V√©rification de la configuration...")
base_url = os.getenv("OPENAI_BASE_URL", "")
if "openrouter" in base_url.lower():
    print("‚ö†Ô∏è Configuration OpenRouter d√©tect√©e - g√©n√©ration d'images non support√©e")
    print("   OpenRouter ne supporte pas l'endpoint images.generate()")
    print("   Cette fonctionnalit√© sera illustr√©e dans les notebooks Images Foundation")
else:
    print("‚úÖ Configuration OpenAI native d√©tect√©e - g√©n√©ration d'images disponible")
    try:
        response = client.images.generate(
            prompt="Lapin sur un cheval tenant une sucette, dans un champ brumeux"
        )
        # response est un ImagesResponse
        image_url = response.data[0].url
        print("Image URL:", image_url)

        image = Image(url=image_url)
        display(image)

    except openai.APIConnectionError as e:
        print("Erreur de connexion r√©seau:", e)
    except openai.RateLimitError as e:
        print("Limite atteinte ou quota d√©pass√©:", e)
    except openai.APIStatusError as e:
        print("Erreur HTTP renvoy√©e par l'API (4xx, 5xx, etc.):", e)
    except openai.APIError as e:
        print("Autre erreur OpenAI:", e)

### R√©sultat de la g√©n√©ration d'image

L'API `images.generate()` d'OpenAI permet de cr√©er des images √† partir de descriptions textuelles :

**Observation du r√©sultat** :
- L'URL retourn√©e pointe vers une image temporaire h√©berg√©e par OpenAI
- L'image est g√©n√©r√©e en quelques secondes (selon le mod√®le DALL-E utilis√©)
- Le prompt ¬´ Lapin sur un cheval tenant une sucette, dans un champ brumeux ¬ª d√©montre la capacit√© du mod√®le √† combiner plusieurs √©l√©ments

**Points techniques** :
1. **URL temporaire** : L'image est accessible pendant ~1 heure, il faut la t√©l√©charger pour la conserver
2. **Format** : Par d√©faut, PNG 1024x1024 (configurable avec `size` et `quality`)
3. **Limite de contenu** : OpenAI filtre les prompts inappropri√©s via sa politique d'utilisation

**Applications** :
- Prototypage rapide de concepts visuels
- Illustration d'articles ou pr√©sentations
- G√©n√©ration de variations cr√©atives
- Storyboarding

**Astuce** : Plus le prompt est d√©taill√© et pr√©cis, meilleure est la qualit√© de l'image g√©n√©r√©e.

### Analyse comparative des prompts d'images

Cette comparaison de 3 prompts diff√©rents illustre l'**impact du style et de la pr√©cision** sur la g√©n√©ration :

**Prompt 1** : ¬´ A small kitten wearing a hat, cartoon style ¬ª
- Style g√©n√©rique, peu de d√©tails
- R√©sultat attendu : Image cartoon basique

**Prompt 2** : ¬´ A realistic portrait of a small kitten wearing a cowboy hat in the desert ¬ª
- Style r√©aliste explicite
- Contexte pr√©cis (d√©sert)
- Accessoire sp√©cifique (chapeau de cowboy)
- R√©sultat attendu : Image photor√©aliste avec atmosph√®re western

**Prompt 3** : ¬´ A small kitten wearing a futuristic helmet in cyberpunk style, neon colors ¬ª
- Style artistique d√©fini (cyberpunk)
- Palette de couleurs impos√©e (n√©on)
- R√©sultat attendu : Image futuriste avec esth√©tique sci-fi

**Enseignements** :
1. **Sp√©cificit√© = Contr√¥le** : Plus le prompt est d√©taill√©, plus le r√©sultat correspond aux attentes
2. **Styles vari√©s** : cartoon, realistic, cyberpunk produisent des rendus tr√®s diff√©rents
3. **Contexte important** : L'environnement (d√©sert) influence fortement l'ambiance

**Bonne pratique** : Tester plusieurs variations de prompts pour trouver le meilleur rendu.

In [None]:
# ============================
#  Comparaison de prompts d'images
# ============================

image_prompts = [
    "A small kitten wearing a hat, cartoon style",
    "A realistic portrait of a small kitten wearing a cowboy hat in the desert",
    "A small kitten wearing a futuristic helmet in cyberpunk style, neon colors"
]

for i, prompt in enumerate(image_prompts):
    try:
        print(f"--- Prompt #{i+1}: {prompt} ---")
        response_img = openai.images.generate(prompt=prompt)
        img_url = response_img.data[0].url
        print("Image URL:", img_url)
        # Optionnel : display() si tu es dans un environnement Jupyter
    except Exception as e:
        print("‚ö†Ô∏è Erreur lors de la g√©n√©ration d'image:", e)
    print()


## 1.2 M√©ta-prompts et usage responsable

Pour g√©rer un usage plus responsable et filtrer des images non souhait√©es, on peut ajouter un 
**meta-prompt** en amont, d√©crivant les restrictions (ex: Safe for Work, No adult content, etc.).

Ex:
You are an assistant that only generates children-friendly images. [... consignes ...]


# 2. Low-Code AI Apps (Power Platform)

## 2.1 Introduction
Power Platform inclut :
- Power Apps (construction rapide d'apps)
- Power Automate (workflows et automatisations)
- Dataverse (stockage de donn√©es)
- AI Builder (mod√®les IA pr√©-construits)
- Copilot (assistant pour g√©n√©rer tables, flux, e-mails)

Avantages : construction **no-code / low-code** pour mettre en place des solutions rapidement, 
y compris connect√©es √† des services IA.


## 2.2 Copilot dans Power Apps : Student Assignment Tracker

Exemple : On veut un **Student Assignment Tracker**.

1. Sur la home de [Power Apps](https://make.powerapps.com), on saisit dans la zone Copilot : 
   "I want an app to track and manage student assignments."
2. Copilot propose une table Dataverse (champs Title, DateDue, StudentName, etc.)
3. Personnaliser la table (ajouter `StudentEmail`, etc.)
4. Cliquer "Create app" => Copilot g√©n√®re une **Canvas App** auto.
5. Ajouter une page (screen) pour "Envoyer un email" (Prompt : "I want a screen to send an email to the student").

On obtient en quelques clics un d√©but d'application.


## 2.3 Copilot dans Power Automate : Invoice Processing

M√™me concept : Dans [Power Automate](https://make.powerautomate.com),
on demande "Process an invoice when it arrives in my mailbox", 
Copilot propose un flux (trigger: new mail arrives + extractions + email)...

On peut ensuite y int√©grer **AI Builder** : 
- ex: le pr√©built model "Invoice Processing" pour extraire `supplier`, `amount`, etc.
- stocker dans Dataverse, 
- email de confirmation.

C‚Äôest un gros gain de temps pour la finance ou la logistique !


# 3. Function Calling (OpenAI)


## 3.1 Pourquoi ?

Sans function calling, le LLM renvoie du texte non structur√©. 
Difficile d‚Äôautomatiser (ex: parse JSON, ex√©cuter une fonction tierce).
Avec function calling, on d√©clare un `schema` JSON, 
le LLM r√©pond par un `function_call`: 
- Nom de la fonction 
- Arguments structur√©s

Ensuite on ex√©cute la fonction en Python (ou autre).


In [None]:
import openai

messages = [
    {"role": "user", "content": "Find me a good course for a beginner developer to learn Roo-code. Join a message to your function calls"}
]

# ‚úÖ Nouvelle API tools (fonctions d√©pr√©ci√©es depuis 2023)
tools = [
  {
    "type": "function",
    "function": {
      "name": "search_courses",
      "description": "Retrieves relevant courses based on role, product & level",
      "parameters": {
        "type": "object",
        "properties": {
          "role":   {"type":"string","description":"the role of the user"},
          "product":{"type":"string","description":"the product/tech"},
          "level": {"type":"string","description":"the user skill level"}
        },
        "required": ["role","product","level"]
      }
    }
  }
]


try:
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        tools=tools,  # ‚úÖ Nouvelle API
        tool_choice="auto"  # ‚úÖ Remplace function_call
    )

    print("R√©ponse brute:\n", response.choices[0].message)

except openai.RateLimitError as e:
    print("Limite atteinte:", e)
except openai.APIError as e:
    print("Autre erreur:", e)

In [None]:
import json


def search_courses(role,product,level):
    # Ton code Python => Appel API Microsoft Learn
    # On renvoie un JSON/string
    return "Liste de cours: Roo-code For EPF, etc."

resp_msg = response.choices[0].message

# ‚úÖ Nouvelle API : tool_calls au lieu de function_call
if resp_msg.tool_calls:
    tool_call = resp_msg.tool_calls[0]  # Premier appel
    fn_name = tool_call.function.name
    fn_args = json.loads(tool_call.function.arguments)
    
    # Ex√©cuter la fonction Python correspondante
    result = search_courses(**fn_args)

    # On cr√©e deux messages :
    # 1) l'assistant avec tool_calls
    # 2) le role="tool" + content du r√©sultat
    second_messages = messages + [
      {
        "role": "assistant",
        "tool_calls": [{
          "id": tool_call.id,
          "type": "function",
          "function": {
            "name": fn_name,
            "arguments": tool_call.function.arguments
          }
        }]
      },
      {
        "role": "tool",  # ‚úÖ Remplace role="function"
        "tool_call_id": tool_call.id,
        "name": fn_name,
        "content": result
      }
    ]

    # On relance le chat
    final_resp = client.chat.completions.create(
       model="gpt-4o-mini",
       messages=second_messages
    )
    print("R√©ponse finale:\n", final_resp.choices[0].message.content)
else:
    print("Aucun tool call d√©tect√©")

## Function Calling Avanc√© avec OpenAI : Cha√Ænage de Fonctions  

Ce bloc de code illustre un exemple avanc√© de **Function Calling** avec OpenAI, permettant √† l'IA d'orchestrer plusieurs appels de fonctions de mani√®re autonome.  

### üõ† Fonctionnalit√©s mises en ≈ìuvre :  
1. **Premier appel √† l'API OpenAI** :  
   - L'utilisateur demande de planifier une r√©union.  
   - L'IA d√©tecte qu'il faut appeler `create_meeting_event` et g√©n√®re les arguments n√©cessaires (`topic`, `date`, `participants`).  
   - Le mod√®le ne renvoie pas de texte brut, mais un `function_call` contenant les param√®tres de la r√©union.  

2. **Ex√©cution locale de `create_meeting_event` en Python** :  
   - La fonction g√©n√®re un objet √©v√©nement fictif avec un `event_id`.  
   - Ce r√©sultat est transmis √† l'IA en tant que r√©ponse fonctionnelle (`role="function"`).  

3. **Deuxi√®me appel √† l'API OpenAI** :  
   - Sur la base de l'√©v√©nement cr√©√©, l'IA d√©cide de g√©n√©rer un email de confirmation en appelant `send_email`.  
   - L'IA fournit les arguments (`subject`, `body`, `recipients`).  

4. **Ex√©cution locale de `send_email` en Python** :  
   - Simulation de l'envoi d'email avec un affichage console.  
   - Message de confirmation `"Email sent successfully!"`.  

### üìå Preuve du bon fonctionnement :  
‚úÖ **Cha√Ænage r√©ussi** : OpenAI a d√©clench√© **deux appels de fonction distincts**, prouvant la capacit√© du mod√®le √† raisonner sur plusieurs √©tapes.  
‚úÖ **Ex√©cution hybride** : L'IA d√©cide des actions √† effectuer, mais l'ex√©cution est d√©l√©gu√©e au code Python.  
‚úÖ **Application possible** : Ce workflow peut √™tre adapt√© pour int√©grer des bases de donn√©es, envoyer de vrais emails ou automatiser des t√¢ches complexes.  

üîπ **Exemple d'affichage console :**  
```
Raw response: ChatCompletionMessage(..., function_call=FunctionCall(...))
=== Simulated Email ===
Subject: Confirmation de la r√©union sur l'√©tat du projet
To: ['Alice', 'Bob']
Body: Bonjour Alice et Bob,
Je vous confirme que la r√©union sur l'√©tat du projet est planifi√©e pour mardi prochain, le 31 octobre 2023, √† 10h.
√Ä bient√¥t,
L'√©quipe de gestion de projet
Email function result: Email sent successfully!
```

In [None]:
# ============================# Function Calling (avanc√©) avec 2 fonctions# ============================import jsonimport openaidef create_meeting_event(topic, date, participants):    # Exemple simul√© : cr√©ation d'un objet event    return {        "event_id": "evt-001",        "topic": topic,        "date": date,        "participants": participants    }def send_email(subject, body, recipients):    # Exemple simul√© : envoi d'un email    print("=== Simulated Email ===")    print("Subject:", subject)    print("To:", recipients)    print("Body:", body)    return "Email sent successfully!"# ‚úÖ Nouvelle API tools (fonctions d√©pr√©ci√©es depuis 2023)tools = [    {        "type": "function",        "function": {            "name": "create_meeting_event",            "description": "Cr√©er un √©v√©nement de r√©union",            "parameters": {                "type": "object",                "properties": {                    "topic": {"type": "string"},                    "date": {"type": "string"},                    "participants": {                        "type": "array",                        "items": {"type": "string"}                    }                },                "required": ["topic", "date", "participants"]            }        }    },    {        "type": "function",        "function": {            "name": "send_email",            "description": "Envoyer un email",            "parameters": {                "type": "object",                "properties": {                    "subject": {"type": "string"},                    "body": {"type": "string"},                    "recipients": {                        "type": "array",                        "items": {"type": "string"}                    }                },                "required": ["subject", "body", "recipients"]            }        }    }]messages_fc = [    {        "role": "user",        "content": (            "Planifie une r√©union sur l'√©tat du projet pour mardi prochain √† 10h "            "avec Alice et Bob, puis envoie un email de confirmation."        )    }]# L'appel initial : le mod√®le peut d√©cider d'appeler# create_meeting_event, send_email, ou rien (tool_choice="auto").response_fc = client.chat.completions.create(    model="gpt-4o-mini",    messages=messages_fc,    tools=tools,  # ‚úÖ Nouvelle API    tool_choice="auto"  # ‚úÖ Remplace function_call)assistant_msg = response_fc.choices[0].messageprint("Raw response:", assistant_msg)# ‚úÖ Nouvelle API : tool_calls au lieu de function_callif assistant_msg.tool_calls:    tool_call = assistant_msg.tool_calls[0]  # Premier appel    fn_name = tool_call.function.name    fn_args = json.loads(tool_call.function.arguments)    if fn_name == "create_meeting_event":        # 1) Ex√©cuter la fonction create_meeting_event c√¥t√© Python        result_event = create_meeting_event(**fn_args)        # 2) Cr√©er de nouveaux messages (assistant + tool)        second_messages = messages_fc + [            {                "role": "assistant",                "tool_calls": [{                    "id": tool_call.id,                    "type": "function",                    "function": {                        "name": fn_name,                        "arguments": tool_call.function.arguments                    }                }]            },            {                "role": "tool",  # ‚úÖ Remplace role="function"                "tool_call_id": tool_call.id,                "name": fn_name,                "content": json.dumps(result_event)            }        ]        # 3) Relancer le chat pour voir si le mod√®le appelle la 2e fonction        second_response = client.chat.completions.create(            model="gpt-4o-mini",            messages=second_messages,            tools=tools,  # ‚úÖ Nouvelle API            tool_choice="auto"  # ‚úÖ Remplace function_call        )        second_msg = second_response.choices[0].message        if second_msg.tool_calls:            tool_call2 = second_msg.tool_calls[0]            fn2_name = tool_call2.function.name            fn2_args = json.loads(tool_call2.function.arguments)            if fn2_name == "send_email":                # Ex√©cution de la seconde fonction                result_email = send_email(**fn2_args)                print("Email function result:", result_email)            else:                print(f"The model called a different function: {fn2_name}")        else:            print("No second tool call was triggered.")    else:        print(f"The model called a different function: {fn_name}")else:    print("No tool call triggered by the assistant.")

# 4. Retrieval Augmented Generation & Vector Databases

## 4.1 Principe
Un LLM (ex: GPT) a une limite : il ne conna√Æt pas forc√©ment nos documents internes. 
RAG => on stocke nos docs dans une base vectorielle (embeddings), 
puis √† chaque question, on envoie au LLM les passages pertinents (retrieval + augmentation).

## 4.2 Cr√©ation d‚Äôune base vectorielle

- On d√©coupe (chunk) nos documents en petits segments (ex: 400 tokens).
- On calcule embeddings (ex: text-embedding-ada-002).
- On stocke : ex. Cosmos DB, Pinecone, ChromaDB, Elasticsearch, Qdrant, etc.

In [None]:
%pip install scikit-learn numpy pandas requests beautifulsoup4 lxml


In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL du d√©bat
url = "https://home.nps.gov/liho/learn/historyculture/debate1.htm"

# Requ√™te HTTP
response = requests.get(url)
html = response.text  # contenu HTML sous forme de string

# print(html)

# On parse avec BeautifulSoup
soup = BeautifulSoup(html, "html.parser")

# S√©lection du noeud principal.
# Selon ton info: div.ColumnMain:nth-child(2)
# (Le "nth-child(2)" est parfois incertain, on peut tenter un select plus large.)
main_div = soup.select_one("div.ColumnMain")

if not main_div:
    raise ValueError("Impossible de trouver le div.ColumnMain dans la page !")

# Extraction du texte brut (on s√©pare par " " pour √©viter les collisions)
debate_text = main_div.get_text(separator="\n", strip=True)

#Enregistrement du texte dans un fichier
with open("debate.txt", "w") as f:
    f.write(debate_text)






### Interpr√©tation du r√©sultat du web scraping

Le web scraping extrait le contenu HTML brut de la page du d√©bat Lincoln-Douglas :

**Ce qui a √©t√© r√©cup√©r√©** :
- Le texte int√©gral du premier d√©bat d'Ottawa (21 ao√ªt 1858)
- Tous les paragraphes contenus dans `div.ColumnMain`
- M√©tadonn√©es potentielles (dates, lieux, orateurs)

**Points techniques** :
1. **BeautifulSoup** : Parseur HTML qui permet de naviguer dans l'arbre DOM
2. **S√©lecteur CSS** : `div.ColumnMain` cible le conteneur principal du contenu
3. **Nettoyage** : `get_text(separator="\n", strip=True)` supprime les balises HTML et normalise les espaces

**V√©rifications importantes** :
- Longueur du texte (devrait faire plusieurs milliers de caract√®res)
- Coh√©rence du contenu (d√©bat sur l'esclavage, questions-r√©ponses)
- Absence de balises HTML r√©siduelles

**Prochaine √©tape** : Ce texte brut sera d√©coup√© en chunks pour la RAG (Retrieval Augmented Generation).

**Note √©thique** : Toujours v√©rifier les conditions d'utilisation du site (robots.txt, terms of service) avant de scraper.

In [None]:
# Chargement depuis le fichier
with open("debate.txt", "r") as f:
    debate_text = f.read()

### Analyse du chunking

Le d√©coupage (chunking) est une √©tape **critique** de la RAG :

**Strat√©gie utilis√©e** :
- **Taille de chunk** : 400 mots
- **Overlap** : 50 mots (chevauchement entre chunks cons√©cutifs)

**Pourquoi c'est important ?**

1. **Chunks trop petits** :
   - Contexte insuffisant pour r√©pondre aux questions
   - Plus de chunks = plus de calculs d'embeddings
   
2. **Chunks trop grands** :
   - Dilution de l'information pertinente
   - Risque de d√©passer la fen√™tre de contexte du LLM
   
3. **Overlap (chevauchement)** :
   - √âvite la coupure de phrases importantes √† la fronti√®re entre chunks
   - Garantit qu'une information n'est jamais "perdue" entre deux segments

**R√©sultat observable** :
- Le DataFrame `df_chunks` contient maintenant plusieurs lignes (probablement 15-25 chunks)
- Chaque chunk repr√©sente environ 400 mots du d√©bat
- Les chunks se chevauchent l√©g√®rement pour assurer la continuit√©

**Prochaine √©tape** : Calculer les embeddings de chaque chunk pour la recherche s√©mantique.

In [None]:
# Pour d√©bogage:
print("=== Longueur du texte r√©cup√©r√©:", len(debate_text))
print(debate_text[:10000], "...")

In [None]:
df = pd.DataFrame(
    [
        {
            "title":"First Debate: Ottawa, Illinois (NPS)",
            "text": debate_text
        }
    ]
)
df


### Interpr√©tation du r√©sultat RAG

Le syst√®me RAG (Retrieval Augmented Generation) a fonctionn√© en **3 √©tapes** :

**√âtape 1 : Retrieval (Recherche)**
- L'embedding de la question ¬´ What did Lincoln argue about slavery in that first debate? ¬ª a √©t√© calcul√©
- Les 3 chunks les plus similaires s√©mantiquement ont √©t√© identifi√©s via k-NN
- Ces chunks contiennent probablement les passages o√π Lincoln parle de l'esclavage

**√âtape 2 : Augmentation**
- Le prompt original est enrichi avec les 3 chunks pertinents
- Le contexte fourni au LLM est maintenant **bas√© sur des sources r√©elles** (le d√©bat)
- Cela r√©duit drastiquement le risque d'hallucination

**√âtape 3 : Generation**
- Le LLM g√©n√®re une r√©ponse en s'appuyant sur les passages fournis
- La r√©ponse devrait citer ou paraphraser les arguments de Lincoln (ex: opposition √† l'extension de l'esclavage, √©galit√© naturelle, etc.)

**Avantages de la RAG observables** :
1. **Pr√©cision factuelle** : La r√©ponse s'appuie sur le texte source
2. **Tra√ßabilit√©** : On peut v√©rifier les chunks utilis√©s
3. **Pas d'hallucination** : Le mod√®le ne peut pas inventer d'informations non pr√©sentes dans les chunks

**Am√©lioration possible** : Retourner √©galement les r√©f√©rences exactes (num√©ros de chunk, extraits) pour permettre la v√©rification.

In [None]:
def split_text_into_chunks(text, chunk_size=500, overlap=50):
    words = text.split()
    chunks = []
    start = 0
    while start < len(words):
        end = start + chunk_size
        chunk_words = words[start:end]
        chunk = " ".join(chunk_words)
        chunks.append(chunk)
        start += (chunk_size - overlap)
    return chunks

rows = []
for _, row in df.iterrows():
    splitted = split_text_into_chunks(row["text"], chunk_size=400, overlap=50)
    for chunk in splitted:
        rows.append({
            "title": row["title"],
            "chunk": chunk
        })

df_chunks = pd.DataFrame(rows)
print("Nombre de chunks =", len(df_chunks))
df_chunks.head()


In [None]:
from openai import OpenAI

# Initialiser le client OpenAI (indispensable avec la nouvelle API)
client = OpenAI()

def create_embedding(text: str):
    try:
        response = client.embeddings.create(
            model="text-embedding-3-large",
            input=[text]  # ‚ö†Ô∏è Doit √™tre une **liste**
        )
        return response.data[0].embedding  # Extraction correcte

    except Exception as e:
        print(f"‚ö†Ô∏è Erreur lors de la g√©n√©ration d'embedding: {e}")
        return None


In [None]:
import numpy as np
from sklearn.neighbors import NearestNeighbors

# G√©n√©rer les embeddings pour les chunks du DataFrame
df_chunks["embedding"] = df_chunks["chunk"].apply(create_embedding)


In [None]:

# Nettoyage des embeddings
all_vectors = np.array([emb for emb in df_chunks["embedding"] if emb is not None])  # Exclure None
nn = NearestNeighbors(n_neighbors=3, metric="euclidean")
nn.fit(all_vectors)

def retrieve(user_query: str) -> str:
    try:
        # G√©n√©rer l'embedding de la requ√™te
        q_emb = create_embedding(user_query)
        if q_emb is None:
            return "‚ö†Ô∏è Impossible de g√©n√©rer un embedding pour la requ√™te."

        dist, idx = nn.kneighbors([q_emb])

        # R√©cup√©rer les meilleurs chunks
        best_chunks = df_chunks.iloc[idx[0]]["chunk"].tolist()
        prompt = user_query + "\n\n" + "\n".join(best_chunks)
        
        print("üîç Prompt augment√© g√©n√©r√©e :\n", prompt)

        # ‚úÖ Appel OpenAI corrig√©
        response = client.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{"role": "user", "content": prompt}]
        )

        return response.choices[0].message.content if response.choices else "‚ö†Ô∏è Aucune r√©ponse g√©n√©r√©e."

    except Exception as e:
        return f"‚ö†Ô∏è Erreur lors de la r√©cup√©ration : {str(e)}"


# üî• Test avec la question sur Lincoln
question = "What did Lincoln argue about slavery in that first debate?"
answer = retrieve(question)
print("üîç R√©ponse g√©n√©r√©e :\n", answer)


### Bonnes pratiques pour la RAG (Retrieval Augmented Generation)

1. **Chunking**  
   - D√©couper vos documents en segments de taille raisonnable (ex. 300-500 tokens), afin de mieux cibler les passages pertinents.
2. **Indexation des embeddings**  
   - Stocker les vecteurs dans une base adapt√©e (ex. Pinecone, Chroma, Elasticsearch vectoriel, Qdrant, ou Cosmos DB vector).
3. **Filtrage et post-traitement**  
   - Apr√®s avoir r√©cup√©r√© les chunks les plus proches s√©mantiquement, il peut √™tre utile de v√©rifier l‚Äôexactitude ou la coh√©rence des informations extraites.
4. **R√©-int√©gration**  
   - Ins√©rer les passages s√©lectionn√©s dans le prompt (par ex. ‚ÄúVoici un extrait : ...\n\n Maintenant, r√©ponds √† la question...‚Äù).  
   - Ou bien utiliser un outil style [LangChain](https://github.com/hwchase17/langchain) qui facilite ce pipeline.
5. **√âviter les hallucinations**  
   - Demander explicitement au mod√®le de s‚Äôen tenir aux informations fournies dans les chunks.  
   - En cas d‚Äôinsuffisance de donn√©es, demander au mod√®le de r√©pondre ‚ÄúJe ne sais pas‚Äù plut√¥t que d‚Äôinventer.

L‚Äôobjectif est de combiner la **puissance du LLM** et l‚Äô**exactitude** de donn√©es externes (base documentaire, articles, PDF, etc.).


# 5. Conclusion & Pistes

Nous avons explor√© :
- la g√©n√©ration d‚Äôimages (DALL-E, prompts, meta-prompts),
- la cr√©ation d‚Äôapps low-code Power Apps / Automate,
- l‚Äôusage de Copilot & AI Builder pour des sc√©narios m√©tiers (tracking, invoice),
- la structuration des r√©ponses via Function Calling,
- RAG : indexer nos docs dans une base vectorielle et enrichir un LLM.

Pistes d‚Äôexercices :
- Am√©liorer les prompts d‚Äôimages (temp√©rature, variations, mask, etc.)
- Cr√©er un flux complet dans Power Automate avec AI Builder
- Mettre en place Function Calling plus complexe (multi-fonctions, error-handling)
- Stocker un doc plus large (ex: 10 pages PDF) en chunks + RAG

Fin de la synth√®se ! 
