# ü§ñ Formation : Construction d'une Application RAG PDF Chat

## Objectifs d'apprentissage
- Comprendre les concepts de RAG (Retrieval-Augmented Generation)
- Impl√©menter un syst√®me de recherche vectorielle avec FAISS
- Int√©grer un mod√®le de langage local avec Ollama
- Cr√©er une interface utilisateur avec Streamlit
- G√©rer le traitement de documents PDF et la segmentation de texte

## Architecture du syst√®me
```
PDF ‚Üí Chunking ‚Üí Embeddings ‚Üí Vector Store ‚Üí Retrieval ‚Üí LLM ‚Üí Response
```

## 1. Installation et Imports

Commen√ßons par installer les d√©pendances n√©cessaires et importer les modules requis.

In [None]:
# Installation des d√©pendances (√† ex√©cuter une seule fois)
# !pip install streamlit faiss-cpu numpy PyPDF2 langchain scikit-learn ollama-python

from __future__ import annotations

import os
import tempfile
from typing import Any, Dict, List, Optional, Tuple

import faiss  # type: ignore
import numpy as np
import streamlit as st
from PyPDF2 import PdfReader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from sklearn.metrics.pairwise import cosine_similarity

import ollama  # pip install ollama-python

## 2. Configuration de l'Interface Utilisateur

### üéØ **Exercice 1** : Interface Streamlit
Compl√©tez la configuration de l'interface utilisateur en ajoutant :
1. Le CSS pour styliser les messages de chat
2. Les styles pour les conteneurs de chat

In [None]:
# Configuration de la page Streamlit
st.set_page_config(page_title="ü§ñ RAG PDF Chat", page_icon="ü§ñ", layout="wide")

# TODO: Ajoutez le CSS pour styliser l'interface
# Indice: Utilisez st.markdown() avec unsafe_allow_html=True
# Cr√©ez des styles pour .user-msg et .bot-msg avec des couleurs diff√©rentes

st.markdown(
    """
<style>
html, body {
    font-family: 'Helvetica Neue', sans-serif;
    background-color: #f4f7fa;
}
.sidebar .sidebar-content {
    background-color: #ffffff;
}
.chat-container {
    max-width: 1200px;
    margin: auto;
    padding: 1rem;
}
/* TODO: Compl√©tez les styles CSS pour les messages */
/* .user-msg { ... } */
/* .bot-msg { ... } */
</style>
""",
    unsafe_allow_html=True,
)

## 3. Configuration des Mod√®les et Param√®tres

### Concepts cl√©s :
- **Mod√®le de langage** : llama3.2:3b pour la g√©n√©ration de r√©ponses
- **Mod√®le d'embeddings** : nomic-embed-text pour cr√©er les repr√©sentations vectorielles
- **Param√®tres de recherche** : TOP_K pour limiter les r√©sultats

In [None]:
# Configuration des mod√®les et param√®tres
MODEL_NAME = "llama3.2:3b"
EMBEDDING_MODEL = "nomic-embed-text:latest"
DOC_TOP_K = 3
CHUNK_TOP_K = 5
CANDIDATES_K = 20
NEIGHBORS = 1
LAMBDA_DIVERSITY = 0.3
SIM_THRESHOLD = 0.25
TEMPERATURE = 0.2
MAX_TOKENS = 2048

## 4. Fonctions d'Interaction avec les Mod√®les

### üéØ **Exercice 2** : Impl√©mentation des appels LLM
Compl√©tez les fonctions pour interagir avec Ollama :
1. `_call_llm()` : Appel au mod√®le de langage
2. `embed_texts()` : G√©n√©ration d'embeddings

In [None]:
def _call_llm(messages: List[Dict[str, str]], *, temperature: float = 0.1, max_tokens: int = 2048, stream: bool = False):
    """
    Fonction pour appeler le mod√®le de langage via Ollama
    
    Args:
        messages: Liste des messages au format [{"role": "user/assistant", "content": "..."}]
        temperature: Param√®tre de cr√©ativit√© (0.0 = d√©terministe, 1.0 = cr√©atif)
        max_tokens: Nombre maximum de tokens √† g√©n√©rer
        stream: Si True, retourne un stream pour l'affichage en temps r√©el
    """
    # TODO: Impl√©mentez l'appel √† ollama.chat()
    # Indice: Utilisez ollama.chat() avec les param√®tres model, messages, stream, options
    pass

def embed_texts(texts: List[str]) -> np.ndarray:
    """
    G√©n√®re les embeddings pour une liste de textes
    
    Args:
        texts: Liste des textes √† vectoriser
        
    Returns:
        Array numpy contenant les embeddings
    """
    # TODO: Impl√©mentez la g√©n√©ration d'embeddings
    # Indice: Utilisez ollama.embeddings() dans une liste comprehension
    # Retournez un np.array avec dtype="float32"
    pass

## 5. Traitement des Documents PDF

### Concepts techniques :
- **Extraction de texte** : PyPDF2 pour lire les PDFs
- **Nettoyage** : Expressions r√©guli√®res pour nettoyer le texte
- **Normalisation** : Suppression des espaces et caract√®res ind√©sirables

In [None]:
def clean_text(text: str) -> str:
    """Nettoie le texte extrait du PDF"""
    import re
    text = re.sub(r"\n{2,}", "\n\n", text)  # Normalise les sauts de ligne
    text = re.sub(r"(\w+)-\n(\w+)", r"\1\2", text)  # R√©pare les mots coup√©s
    text = re.sub(r"\s{2,}", " ", text)  # Normalise les espaces
    return text.strip()

def extract_pdf_text(path: str) -> str:
    """Extrait le texte d'un fichier PDF"""
    return clean_text("\n".join(page.extract_text() or "" for page in PdfReader(path).pages))

## 6. Segmentation de Documents (Chunking)

### üéØ **Exercice 3** : Impl√©mentation du chunking adaptatif
Le chunking est crucial pour le RAG. Impl√©mentez :
1. `auto_chunk_size()` : Taille adapt√©e selon la longueur du document
2. `chunk_document()` : Segmentation du texte avec RecursiveCharacterTextSplitter

In [None]:
def auto_chunk_size(tokens: int) -> int:
    """
    D√©termine la taille optimale des chunks selon la longueur du document
    
    Args:
        tokens: Nombre approximatif de tokens dans le document
        
    Returns:
        Taille recommand√©e pour les chunks
    """
    # TODO: Impl√©mentez la logique de taille adaptative
    # R√®gle: <8000 tokens ‚Üí 1024, <20000 ‚Üí 768, sinon 512
    pass

def chunk_document(text: str) -> List[str]:
    """
    Segmente un document en chunks avec chevauchement
    
    Args:
        text: Texte complet du document
        
    Returns:
        Liste des chunks de texte
    """
    size = auto_chunk_size(len(text.split()))
    
    # TODO: Cr√©ez un RecursiveCharacterTextSplitter
    # Param√®tres: separators=["\n\n", "\n", ". "], chunk_size=size, 
    #            chunk_overlap=25% de size, length_function=len
    
    # TODO: Utilisez split_text() et filtrez les chunks < 100 caract√®res
    pass

## 7. G√©n√©ration de R√©sum√©s

### Concept : R√©sum√© hi√©rarchique
Pour les questions globales, nous g√©n√©rons un r√©sum√© du document complet qui sera utilis√© comme contexte suppl√©mentaire.

In [None]:
def make_summary(text: str) -> str:
    """G√©n√®re un r√©sum√© structur√© du document"""
    messages = [
        {
            "role": "system", 
            "content": "Vous √™tes un expert en synth√®se documentaire. R√©sumez le texte suivant en trois parties : (1) Contexte, (2) Points cl√©s, (3) Conclusions. R√©pondez en fran√ßais."
        },
        {"role": "user", "content": text[:120000]}  # Limite pour √©viter de d√©passer le contexte
    ]
    return _call_llm(messages)["message"]["content"].strip()

## 8. Index de Recherche Vectorielle

### üéØ **Exercice 4** : Classe RagIndex
Impl√©mentez la classe principale pour g√©rer l'indexation et la recherche :

### Architecture :
- **Index hi√©rarchique** : Documents ‚Üí Chunks
- **FAISS** : Recherche vectorielle rapide
- **MMR** : Maximum Marginal Relevance pour la diversit√©

In [None]:
class RagIndex:
    """Classe principale pour l'indexation et la recherche RAG"""
    
    def __init__(self):
        self.doc_index: Optional[faiss.IndexFlatIP] = None
        self.chunk_index: Optional[faiss.Index] = None
        self.doc_meta: List[Dict[str, Any]] = []
        self.chunk_meta: List[Dict[str, Any]] = []
        self.chunk_emb: Optional[np.ndarray] = None

    def build(self, uploaded_files: List[st.runtime.uploaded_file_manager.UploadedFile]):
        """
        Construit l'index √† partir des fichiers upload√©s
        
        Args:
            uploaded_files: Liste des fichiers PDF upload√©s via Streamlit
        """
        doc_embs, chunk_embs_list = [], []
        
        for doc_id, uf in enumerate(uploaded_files):
            # Sauvegarde temporaire du fichier
            with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp:
                tmp.write(uf.getbuffer())
                path = tmp.name
            
            # TODO: Extraire le texte du PDF
            # TODO: G√©n√©rer le r√©sum√© du document
            # TODO: Stocker les m√©tadonn√©es du document
            # TODO: Cr√©er l'embedding du r√©sum√©
            
            # TODO: Segmenter le texte en chunks
            # TODO: G√©n√©rer les embeddings des chunks
            # TODO: Stocker les m√©tadonn√©es des chunks
            
            os.unlink(path)  # Nettoyage

        # TODO: Cr√©er l'index FAISS pour les documents (IndexFlatIP)
        # TODO: Cr√©er l'index FAISS pour les chunks (IndexHNSWFlat)
        pass

## 9. D√©tection de Questions Globales

### Concept : Classification automatique des questions
Certaines questions portent sur l'ensemble du document (r√©sum√©, sujet principal) plut√¥t que sur des d√©tails sp√©cifiques.

In [None]:
    def _is_global(self, query: str, thr: float = 0.78) -> bool:
        """
        D√©termine si une question porte sur l'ensemble du document
        
        Args:
            query: Question de l'utilisateur
            thr: Seuil de similarit√©
            
        Returns:
            True si la question est globale
        """
        examples = [
            "De quoi parle ce document ?",
            "Quel est le sujet principal ?",
            "Fais un r√©sum√© du document",
        ]
        
        emb_q = embed_texts([query])[0]
        emb_ex = embed_texts(examples)
        
        # Calcul de similarit√© cosinus
        sims = emb_ex @ emb_q / (np.linalg.norm(emb_ex, axis=1) * np.linalg.norm(emb_q) + 1e-6)
        return float(np.max(sims)) >= thr

# Ajout √† la classe RagIndex
RagIndex._is_global = _is_global

## 10. Maximum Marginal Relevance (MMR)

### üéØ **Exercice 5** : Algorithme MMR
Impl√©mentez l'algorithme MMR pour √©quilibrer pertinence et diversit√© dans les r√©sultats.

### Formule MMR :
`Score = Œª √ó Sim(query, doc) - (1-Œª) √ó max(Sim(doc, selected))`

In [None]:
    def _mmr(self, q: np.ndarray, cand: np.ndarray, k: int) -> List[int]:
        """
        Maximum Marginal Relevance pour diversifier les r√©sultats
        
        Args:
            q: Embedding de la question
            cand: Embeddings des candidats
            k: Nombre de r√©sultats √† s√©lectionner
            
        Returns:
            Indices des candidats s√©lectionn√©s
        """
        selected, rest = [], list(range(len(cand)))
        
        while len(selected) < min(k, len(rest)):
            best, best_score = None, -1e9
            
            for idx in rest:
                # TODO: Calculer la similarit√© avec la question
                # sim_q = cosine_similarity(q, cand[idx])
                
                # TODO: Calculer la similarit√© maximale avec les documents d√©j√† s√©lectionn√©s
                # sim_s = max(cosine_similarity(cand[idx], selected)) if selected else 0
                
                # TODO: Calculer le score MMR
                # score = LAMBDA_DIVERSITY * sim_q - (1-LAMBDA_DIVERSITY) * sim_s
                
                # TODO: Garder le meilleur candidat
                pass
            
            # TODO: Ajouter le meilleur √† la s√©lection et le retirer des candidats
            
        return selected

# Ajout √† la classe RagIndex
RagIndex._mmr = _mmr

## 11. Fonction de Recherche Principale

### üéØ **Exercice 6** : M√©thode retrieve()
Impl√©mentez la logique de recherche compl√®te :
1. Recherche des documents pertinents
2. Filtrage des chunks par document
3. Application de MMR
4. Expansion du contexte

In [None]:
    def retrieve(self, query: str) -> Tuple[List[str], List[int], Optional[str]]:
        """
        Recherche les contextes pertinents pour une question
        
        Args:
            query: Question de l'utilisateur
            
        Returns:
            Tuple (contextes, indices, r√©sum√©_si_global)
        """
        # TODO: G√©n√©rer l'embedding de la question
        
        # TODO: Rechercher les documents les plus pertinents (doc_index.search)
        
        # TODO: Filtrer les chunks appartenant aux documents s√©lectionn√©s
        
        # TODO: Cr√©er un sous-index avec les chunks filtr√©s
        
        # TODO: Rechercher les chunks candidats
        
        # TODO: Appliquer le seuil de similarit√©
        
        # TODO: Appliquer MMR pour diversifier
        
        # TODO: Expansion du contexte (chunks voisins)
        
        # TODO: Construire les contextes finaux
        
        # TODO: Ajouter le r√©sum√© si question globale
        
        pass

# Ajout √† la classe RagIndex
RagIndex.retrieve = retrieve

## 12. Construction des Prompts

### Concept : Ing√©nierie des prompts
Un prompt bien structur√© am√©liore significativement la qualit√© des r√©ponses du mod√®le.

In [None]:
def build_prompt(question: str, contexts: List[str], summary: Optional[str], history: List[Dict[str, str]] = None):
    """
    Construit le prompt pour le mod√®le de langage
    
    Args:
        question: Question de l'utilisateur
        contexts: Contextes r√©cup√©r√©s
        summary: R√©sum√© du document si question globale
        history: Historique de conversation
        
    Returns:
        Messages format√©s pour le LLM
    """
    # Construction du bloc de contexte avec num√©rotation
    ctx_block = "\n\n".join(f"[{i+1}] {c}" for i, c in enumerate(contexts))
    
    if summary:
        ctx_block = f"[R√©sum√©] {summary}\n\n" + ctx_block
    
    system = (
        "Vous √™tes un assistant expert. Utilisez uniquement les informations suivantes pour r√©pondre en fran√ßais. "
        "Citez vos sources avec les balises [n]. Si l'information n'est pas trouv√©e, informez-en l'utilisateur."
    )
    
    messages = [{"role": "system", "content": system}]
    
    # Ajout de l'historique de conversation
    if history and len(history) > 0:
        previous_messages = history[:-1] if history[-1]["role"] == "user" else history
        messages.extend(previous_messages)
    
    # Message utilisateur avec contexte
    current_user_content = f"CONTEXTE(S):\n{ctx_block}\n\nQUESTION: {question}\n\nR√©ponse:"
    messages.append({"role": "user", "content": current_user_content})
    
    return messages

## 13. Interface Streamlit Compl√®te

### üéØ **Exercice 7** : Application finale
Assemblons tous les composants pour cr√©er l'application compl√®te.

In [None]:
# Initialisation de l'√©tat Streamlit
if "messages" not in st.session_state:
    st.session_state.messages = []
if "rag" not in st.session_state:
    st.session_state.rag = None
if "processing" not in st.session_state:
    st.session_state.processing = False

# Sidebar pour l'upload de fichiers
with st.sidebar:
    st.header("üìö Documents")
    files = st.file_uploader("D√©posez vos PDF", type=["pdf"], accept_multiple_files=True)
    if st.button("üîÑ R√©initialiser"):
        st.session_state.clear()
        st.rerun()

# Construction de l'index
if files and st.session_state.rag is None:
    with st.spinner("üìÑ Indexation en cours‚Ä¶"):
        rag = RagIndex()
        rag.build(files)
        st.session_state.rag = rag
    st.success(f"{len(files)} document(s) index√©(s) ! Posez vos questions.")

## 14. Affichage du Chat et Gestion des Interactions

### üéØ **Exercice 8** : Interface de chat compl√®te
Impl√©mentez l'affichage des messages et la gestion des interactions utilisateur.

In [None]:
# TODO: Affichage des messages de chat
# Indice: Parcourir st.session_state.messages et afficher avec les styles CSS

# TODO: Gestion de l'input utilisateur
# Indice: Utiliser st.chat_input() avec les bonnes conditions de d√©sactivation

# TODO: Traitement de la question
# 1. Ajouter le message utilisateur √† l'historique
# 2. R√©cup√©rer les contextes avec rag.retrieve()
# 3. Construire le prompt
# 4. Appeler le LLM en streaming
# 5. Afficher la r√©ponse en temps r√©el
# 6. Ajouter la r√©ponse √† l'historique

# TODO: Affichage des contextes dans un expander

## 15. Test de l'Application

### üéØ **Exercice 9** : Tests et Validation
Une fois votre code compl√©t√©, testez l'application avec diff√©rents types de questions :

1. **Questions sp√©cifiques** : "Que dit le document sur [sujet pr√©cis] ?"
2. **Questions globales** : "De quoi parle ce document ?"
3. **Questions de comparaison** : "Quelles sont les diff√©rences entre X et Y ?"
4. **Questions factuelles** : "Quels sont les chiffres mentionn√©s ?"

In [None]:
# Pour tester l'application, ex√©cutez dans votre terminal :
# streamlit run formation_rag_chat.py

# Conseils de d√©bogage :
print("‚úÖ Configuration termin√©e")
print(f"üìä Mod√®le LLM : {MODEL_NAME}")
print(f"üîç Mod√®le embeddings : {EMBEDDING_MODEL}")
print("üöÄ Pr√™t pour les tests !")

## 16. Points d'Am√©lioration et Extensions

### Concepts avanc√©s √† explorer :

1. **Chunking s√©mantique** : Utiliser des mod√®les pour segmenter selon le sens
2. **Re-ranking** : Am√©liorer l'ordre des r√©sultats avec des mod√®les d√©di√©s  
3. **M√©moire conversationnelle** : Maintenir le contexte sur plusieurs √©changes
4. **Multimodalit√©** : Supporter images et tableaux dans les PDFs
5. **√âvaluation automatique** : M√©triques RAGAS pour mesurer la qualit√©
6. **Cache intelligent** : Optimiser les performances avec mise en cache
7. **Agents RAG** : Ajouter des capacit√©s de raisonnement et d'action

### Ressources pour aller plus loin :
- Documentation LangChain : https://python.langchain.com/
- Tutoriels FAISS : https://github.com/facebookresearch/faiss
- Guide Ollama : https://ollama.ai/

## üéâ F√©licitations !

Vous avez construit une application RAG compl√®te capable de :
- ‚úÖ Traiter des documents PDF
- ‚úÖ Cr√©er des embeddings vectoriels
- ‚úÖ Effectuer une recherche s√©mantique
- ‚úÖ G√©n√©rer des r√©ponses contextualis√©es
- ‚úÖ Maintenir une interface utilisateur intuitive

**Prochaines √©tapes** : D√©ployez votre application et testez-la avec vos propres documents !