# ü§ñ Formation RAG ‚Äì Partie 1

---
## üéØ Objectifs p√©dagogiques

Cette formation a pour but de vous initier au concept de **RAG (Retrieval-Augmented Generation)**. √Ä la fin de cette formation, vous serez capable de :

- Comprendre les composants essentiels d‚Äôun syst√®me RAG
- Manipuler du code Python sur Colab
- Installer et utiliser **Ollama** pour faire tourner un mod√®le LLM localement
- Tester un prototype sur un document PDF
- Explorer les √©tapes vers une mise en production (abord√©es en deuxi√®me partie)


# üöß S√©quence‚ÄØ1.0¬†‚Äì Setup du Projet (Expliqu√© en partie 2)

In [None]:
!curl -fsSL https://ollama.com/install.sh | sh

In [None]:
import subprocess, time
ollama_proc = subprocess.Popen("ollama serve", shell=True)
time.sleep(2)
print('‚úÖ Ollama est pr√™t')

In [None]:
!ollama pull llama3.2:latest
!ollama pull nomic-embed-text:latest
!ollama pull bge-m3

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

In [None]:
%cd /content/gdrive/MyDrive
!git clone https://github.com/antoinecstl/FormationEYAI.git
%cd FormationEYAI

In [None]:
!pip install -r requirements.txt

# üîç S√©quence‚ÄØ1.1¬†‚Äì Bases du RAG¬†: embeddings & similarit√© (SLIDE)

## üß† Cr√©ation d'embeddings avec un mod√®le local

Pour pouvoir comparer des phrases ou retrouver des documents pertinents, on doit **transformer du texte en vecteurs num√©riques** (embeddings). Ces vecteurs capturent le sens des mots ou des phrases dans un espace math√©matique.

### üîß Que fait cette cellule ?
- Elle d√©finit une fonction `embed_texts` qui prend une **liste de phrases** en entr√©e.
- Chaque phrase est transform√©e en vecteur via le mod√®le `nomic-embed-text` install√© localement avec Ollama. (Nous pr√©parons ici deux mod√®les d'embeeding `nomic-embed-text` et `bge-m3`que nous utiliserons par la suite)
- Elle retourne un tableau `numpy` contenant les vecteurs (`shape = (n, d)`), o√π :
  - `n` est le nombre de phrases
  - `d` est la dimension de l‚Äôespace d‚Äôembedding

Ces vecteurs seront utiles pour calculer des similarit√©s ou faire de la recherche s√©mantique.


In [None]:
import numpy as np, ollama

EMBED_MODEL1 = "nomic-embed-text:latest"
EMBED_MODEL2 = "bge-m3"

def embed_texts(texts, embed_model):
    """Retourne un np.ndarray shape (n, d)"""
    return np.array([ollama.embeddings(model=embed_model, prompt=t)['embedding'] for t in texts], dtype='float32')

## üî¨ Test d'embedding : comparaison de phrases

Ici, on mesure la **similarit√©** entre deux phrases √† l‚Äôaide de leurs embeddings.

#### üîç Que fait cette cellule ?
- Elle convertit chaque phrase en vecteur (embedding)
- Elle mesure leur proximit√© √† l‚Äôaide d‚Äôun **produit scalaire**
- Le score obtenu indique le **niveau de similarit√© s√©mantique**

#### üìä Comment lire le score ?
- `1` : phrases tr√®s proches (sens similaire)
- `0` : phrases sans lien
- `-1` : phrases oppos√©es (Les mod√®les que nous utilisons sont tr√®s g√©n√©rique et n'arrivent que tr√®s rarement √† aller en dessous de 0. En effet, les embeddings de mod√®les r√©cents sont faits pour maximiser la similarit√© entre phrases proches, pas pour maximiser la dissimilarit√©.)

‚úèÔ∏è Vous pouvez modifier les phrases pour tester diff√©rents cas.

In [None]:
phrase1 = "Cite moi les meilleures √©curie de Formule 1"
phrase2 = "Pourquoi le ciel est bleu ?"

vecs = embed_texts([phrase1, phrase2], EMBED_MODEL1)
sim = float(vecs[0] @ vecs[1] / (np.linalg.norm(vecs[0])*np.linalg.norm(vecs[1])))
print(f"Similarit√© : {sim:.3f}")

# üìê S√©quence‚ÄØ1.2¬†‚Äì Chunking & nettoyage d‚Äôun PDF d‚Äôexemple (SLIDE)

#### üîç Que fait cette cellule ?

Ici, ce bloc de code sert √† d√©couper un texte en morceaux adapt√©s au LLM. 

La fonction `auto_chunk_size` d√©termine la taille des morceaux (chunks) en fonction de la longueur du texte, afin de rester efficace. Plus le texte est long et plus les chunks sont petit.

La fonction `chunk_document` d√©coupe un texte en morceaux exploitables par un LLM.
    1. Calcule la taille des chunks avec `auto_chunk_size`.
    2. Cr√©er un d√©coupeur intelligent `splitter` qui coupe aux paragraphes, puis lignes, puis phrases.
    3. Filtre les morceaux trop courts (< 100 caract√®res>)

Cela permet de faciliter l'analyse de texte long par le LLM en pr√©servant le sens.

In [None]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

def auto_chunk_size(tok:int)->int:
    return 1024 if tok<8000 else 768 if tok<20000 else 512

def chunk_document(text:str):
    size=auto_chunk_size(len(text.split()))
    splitter=RecursiveCharacterTextSplitter(
        separators=["\n\n","\n",". "],
        chunk_size=size,
        chunk_overlap=size//4,
        length_function=len,
        )
    return [c for c in splitter.split_text(text) if len(c)>100]

## üìñ Chargement du PDF d'exemple

On commence par **extraire le texte brut du PDF** page par page gr√¢ce √† la librairie PyPDF2.

### üí° Pourquoi faire √ßa ?  
- Cela permet de r√©cup√©rer tout le contenu textuel du document.  
- On peut ensuite estimer sa taille en nombre de mots (tokens), ce qui aide √† adapter les traitements (chunking, embeddings, etc.).

In [None]:
from PyPDF2 import PdfReader

sample_path = "/content/gdrive/MyDrive/FormationEYAI/Anonymized_Rapport.pdf"
pages = PdfReader(sample_path).pages
full_text = "\n".join(p.extract_text() or "" for p in pages)

print(f"üìÑ Le document contient {len(full_text.split())} tokens environ.")

### üå≥ Chunking du PDF
Ici, le text extrait du pdf est d√©coup√© en plus petit segments (chunks), afin de pr√©parer le texte pour de l'indexation.


### Pourquoi cr√©er des chunks ?  
- Les mod√®les ne peuvent pas traiter de tr√®s longs textes d‚Äôun coup.  
- Le chunking permet de diviser le contenu en morceaux coh√©rents et exploitables.  
- On peut ensuite traiter chaque chunk ind√©pendamment (calcul d‚Äôembeddings, recherche, etc.).


‚úèÔ∏è Parcourer la lise de chunks g√©n√©r√©s afin de valider le bon d√©coupage du contenu.

In [None]:
chunks = chunk_document(full_text)
print(f"{len(chunks)} chunks cr√©√©s.\nAper√ßu :\n{chunks[0][:300]}‚Ä¶")

# üìä S√©quence‚ÄØ1.3¬†‚Äì Index vectoriel FAISS (SLIDE)


Les vecteurs obtenus √† partir des chunks sont rang√©s dans une structure appel√©e **index FAISS**.

### Qu‚Äôest-ce que FAISS ?  
- Un outil tr√®s rapide pour rechercher les vecteurs proches dans un grand ensemble.  
- Permet de retrouver rapidement les documents les plus similaires √† une requ√™te.

### üí° Pourquoi cr√©er cet index ?  
- Pour acc√©l√©rer les recherches dans la base de documents vectoris√©s.  
- C‚Äôest indispensable d√®s qu‚Äôon a beaucoup de donn√©es √† parcourir.

In [None]:
import faiss, numpy as np

def build_faiss_index(vectors:np.ndarray)->faiss.IndexFlatIP:
    d=vectors.shape[1]
    idx=faiss.IndexFlatIP(d)
    idx.add(vectors.astype('float32'))
    return idx

## üß™ Construction index chunks


Chaque chunk est transform√© en vecteur num√©rique (embedding), puis ajout√© √† l‚Äôindex FAISS.

### Ce que √ßa signifie :  
- On passe de textes √† vecteurs.  
- On construit une base efficace pour retrouver les chunks les plus pertinents rapidement.

In [None]:
import numpy as np

chunk_vecs = embed_texts(chunks, EMBED_MODEL2)
index = build_faiss_index(chunk_vecs)

print(index.ntotal, "Nombre de vecteurs total dans l'index")

# üßÆ S√©quence‚ÄØ1.4¬†‚Äì Algorithme MMR

MMR permet de s√©lectionner des passages √† la fois **pertinents** et **diversifi√©s** pour une requ√™te donn√©e.

### Pourquoi c‚Äôest important ?  
- S√©lectionner uniquement les passages les plus similaires peut donner des r√©sultats redondants.  
- MMR √©quilibre la similarit√© √† la question et la diversit√© entre passages s√©lectionn√©s.

Cet algorithme am√©liore la qualit√© des r√©sultats en √©vitant les r√©p√©titions.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

def mmr(query_vec:np.ndarray, cand:np.ndarray, k:int=5, Œª:float=0.3):
    selected, rest = [], list(range(len(cand)))
    while len(selected)<min(k,len(rest)):
        best, best_score = None, -1e9
        for idx in rest:
            sim_q = float(query_vec @ cand[idx]/(np.linalg.norm(query_vec)*np.linalg.norm(cand[idx])+1e-6))
            sim_s = max(cosine_similarity(cand[idx][None,:], cand[selected])[0]) if selected else 0.
            score = Œª*sim_q - (1-Œª)*sim_s
            if score>best_score:
                best, best_score = idx, score
        selected.append(best); rest.remove(best)
    return selected

## üî¨ Test MMR
Ici, l'algorithme MMR est appel√© pour trouver les 3 passages les plus pertinents et vari√©s en r√©ponse √† la question.

‚úèÔ∏èModifier la question pour s'assurer que MMR s√©lectionne bien des passages diff√©rents mais li√©s √† la question.

In [None]:
import numpy as np

q_vec = embed_texts(["Sujet principal du rapport ?"], EMBED_MODEL2)[0]
sel = mmr(q_vec, chunk_vecs, 3)
print(sel)

# üßë‚Äçüé§ S√©quence‚ÄØ1.5¬†‚Äì Prompt engineering (SLIDE)

## üß† Construction du prompt

Apr√®s avoir s√©lectionn√© les passages du document les plus pertinents et vari√©s par rapport √† la question,  
on construit un prompt clair et structur√© avec `build_prompt`.

`ctxs` repr√©sente les informations du document jug√©es pertinentes √† la `question` pos√©e.

### üí° Pourquoi on fait √ßa ?  
Cette √©tape est essentielle pour que le mod√®le fournisse une r√©ponse cibl√©e et fiable,  
en s‚Äôappuyant uniquement sur les donn√©es extraites du document.

In [None]:
def build_prompt(question:str, ctxs:list[str]):
    ctx_block="\n\n".join(f"[{i+1}] {c}" for i,c in enumerate(ctxs))
    system="Vous √™tes un assistant expert. Utilisez uniquement les informations suivantes pour r√©pondre en fran√ßais. Citez les sources [n]."
    return [
        {"role":"system","content":system},
        {"role":"user","content":f"CONTEXTE(S):\n{ctx_block}\n\nQUESTION: {question}\n\nR√©ponse:"}
    ]


In [None]:
print(build_prompt("Pourquoi le ciel est bleu¬†?", ["La diffusion Rayleigh explique la couleur du ciel."]))

## ü§ñ S√©quence‚ÄØ1.6 Premier Appel au LLM (SLIDE)

Ce code envoie une liste de messages au mod√®le `llama3.2:3B` via la fonction `_call_llm`.

- Le premier message d√©finit le r√¥le ou le comportement attendu du mod√®le.  
- Le second contient la question pos√©e.

On peut ajuster la cr√©ativit√© (`temperature`) et la longueur de la r√©ponse (`max_tokens`).

‚úèÔ∏è Modifie ces param√®tres et la question pour tester et comprendre l‚Äôimpact sur les r√©ponses.


In [None]:
from typing import List, Dict

MODEL_NAME = "llama3.2:3B"

def _call_llm(messages: List[Dict[str, str]], *, temperature: float = 0.1, max_tokens: int = 2048, stream: bool = False):
    """Enveloppe simple autour de ollama.chat pour usage direct."""
    return ollama.chat(
        model=MODEL_NAME,
        messages=messages,
        stream=stream,
        options={"temperature": temperature, "num_predict": max_tokens},
    )

# üß™ Exemple d'appel
messages = [
    {"role": "system", "content": "Tu es un assistant concis"},
    {"role": "user", "content": "Donne-moi la capitale de l‚ÄôItalie"}
]
print(_call_llm(messages)["message"]["content"].strip())

# üèóÔ∏è S√©quence‚ÄØ1.7¬†‚Äì Assemblage mini‚ÄëRAG (prototype)

Ici, on combine toutes les √©tapes vues pr√©c√©demment pour cr√©er un syst√®me simple de RAG qui r√©pond √† une question √† partir d‚Äôun document.

1. Transformer la question en vecteur (embedding) avec `embed_texts`.  
2. Chercher les passages les plus proches dans l‚Äôindex FAISS (`index.search`).  
3. R√©cup√©rer les textes correspondants √† ces passages.  
4. Construire un prompt structur√© avec `build_prompt`.  
5. Appeler le mod√®le de langage avec `_call_llm` pour g√©n√©rer la r√©ponse.  
6. Retourner la r√©ponse et les passages utilis√©s.

Cete fonction montre comment utiliser les embeddings et l‚Äôindexation pour alimenter un LLM en contexte pr√©cis.

In [None]:
def ask(question: str, chunks: List[str], vecs: np.ndarray, top_k: int = 3):
    # Recherche des chunks pertinents
    q_vec = embed_texts([question], EMBED_MODEL2)[0]
    _, I = index.search(q_vec[None, :], top_k)
    ctx = [chunks[i] for i in I[0]]
    # Pr√©paration du prompt
    prompt = build_prompt(question, ctx)
    # Appel LLM et retour de la r√©ponse
    answer = _call_llm(prompt)["message"]["content"].strip()
    return answer, I[0]

## üß™ Prototype RAG sur le PDF


Maintenant, on peut poser une question sur le PDF `rapport.pdf` et obtenir une r√©ponse sourc√©e bas√©e sur le contenu r√©el du document.

‚úèÔ∏è Change la question pour explorer diff√©rentes r√©ponses !



In [None]:
question = "Qui est le prestataire de la mission ?"
print(ask(question, chunks, chunk_vecs))