# TP - RAG (Retrieval-Augmented Generation) appliqu√© √† la G√©opolitique

## Dur√©e : 1h30-2h

### Objectifs p√©dagogiques
- Comprendre l'architecture et le fonctionnement d'un syst√®me RAG
- Impl√©menter un RAG simple pour l'analyse g√©opolitique
- Explorer l'impact des diff√©rents param√®tres (chunking, embedding, retrieval)
- Analyser les avantages et limites du RAG pour l'analyse documentaire

### Pr√©requis
- Avoir ex√©cut√© le script de r√©cup√©ration de documents
- Connaissances de base sur les embeddings (TP pr√©c√©dent)
- Notions de prompting et LLM

## 1. Introduction au RAG

### Qu'est-ce que le RAG ?

**RAG = Retrieval-Augmented Generation**

Le RAG combine:
1. **Retrieval** (Recherche) : Trouver les documents pertinents dans une base de donn√©es
2. **Augmented** (Augment√©) : Enrichir le contexte du LLM avec ces documents
3. **Generation** (G√©n√©ration) : Produire une r√©ponse bas√©e sur le contexte enrichi

### Pourquoi utiliser le RAG ?

‚úÖ **Actualit√©** : Acc√®s √† des informations r√©centes non pr√©sentes dans le LLM
‚úÖ **Pr√©cision** : R√©ponses bas√©es sur des sources sp√©cifiques
‚úÖ **Tra√ßabilit√©** : Possibilit√© de citer les sources
‚úÖ **Personnalisation** : Utilisation de documents sp√©cifiques √† un domaine

### Architecture simplifi√©e

```
Question ‚Üí Embedding ‚Üí Recherche ‚Üí Documents pertinents
                                           ‚Üì
                                    LLM + Contexte ‚Üí R√©ponse
```

## 2. Installation et configuration

In [None]:
# Installation des packages n√©cessaires
!pip install langchain langchain-community langchain-huggingface
!pip install sentence-transformers transformers
!pip install chromadb faiss-cpu
!pip install pandas numpy
!pip install openai anthropic  # Pour les LLMs (optionnel)

In [None]:
# Imports essentiels
import os
import json
import pandas as pd
import numpy as np
from typing import List, Dict

# LangChain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma, FAISS
from langchain.chains import RetrievalQA
from langchain.llms import HuggingFacePipeline
from langchain.schema import Document

# Transformers
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM

import warnings
warnings.filterwarnings('ignore')

print("‚úì Packages import√©s avec succ√®s!")

## 3. Chargement des documents g√©opolitiques

In [None]:
# Configuration des chemins
DOCS_FOLDER = "documents_geopolitique"

def charger_documents():
    """Charge tous les documents disponibles"""
    documents = []
    
    # 1. Charger les articles JSON
    json_files = [f for f in os.listdir(DOCS_FOLDER) if f.endswith('.json')]
    if json_files:
        with open(os.path.join(DOCS_FOLDER, json_files[0]), 'r', encoding='utf-8') as f:
            articles = json.load(f)
            for article in articles:
                doc = Document(
                    page_content=f"Titre: {article['titre']}\n\n{article['contenu']}",
                    metadata={
                        "source": article['source'],
                        "titre": article['titre'],
                        "langue": article['langue'],
                        "type": "actualite"
                    }
                )
                documents.append(doc)
    
    # 2. Charger les documents de r√©f√©rence
    ref_folder = os.path.join(DOCS_FOLDER, "documents_reference")
    if os.path.exists(ref_folder):
        for filename in os.listdir(ref_folder):
            if filename.endswith('.txt'):
                with open(os.path.join(ref_folder, filename), 'r', encoding='utf-8') as f:
                    content = f.read()
                    doc = Document(
                        page_content=content,
                        metadata={
                            "source": "reference",
                            "filename": filename,
                            "type": "reference"
                        }
                    )
                    documents.append(doc)
    
    print(f"‚úì {len(documents)} documents charg√©s")
    return documents

# Charger les documents
documents = charger_documents()

# Aper√ßu
if documents:
    print(f"\nExemple de document:")
    print(f"Contenu: {documents[0].page_content[:200]}...")
    print(f"M√©tadonn√©es: {documents[0].metadata}")

## 4. √âtape 1 : Text Splitting (D√©coupage des documents)

Le d√©coupage est crucial : des chunks trop grands = moins de pr√©cision, trop petits = perte de contexte

In [None]:
# Configuration du text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # üìù TODO: Essayez 200, 500, 1000
    chunk_overlap=50,      # üìù TODO: Essayez 0, 50, 100
    length_function=len,
    separators=["\n\n", "\n", ".", " ", ""]
)

# D√©couper les documents
chunks = text_splitter.split_documents(documents)
print(f"‚úì {len(documents)} documents d√©coup√©s en {len(chunks)} chunks")
print(f"\nTaille moyenne des chunks: {np.mean([len(chunk.page_content) for chunk in chunks]):.0f} caract√®res")

# Visualiser quelques chunks
print("\nExemples de chunks:")
for i, chunk in enumerate(chunks[:3]):
    print(f"\n--- Chunk {i+1} ---")
    print(f"Taille: {len(chunk.page_content)} caract√®res")
    print(f"Contenu: {chunk.page_content[:150]}...")

### ü§î Question 1 : Impact du chunking
Modifiez `chunk_size` et `chunk_overlap` dans la cellule ci-dessus. Comment cela affecte-t-il :
- Le nombre total de chunks ?
- La coh√©rence du contenu dans chaque chunk ?
- Quel compromis devez-vous faire ?

## 5. √âtape 2 : Embeddings et Vector Store

In [None]:
# Choix du mod√®le d'embeddings
EMBEDDING_MODELS = {
    "multilingual-mini": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
    "multilingual-mpnet": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
    "french-camembert": "dangvantuan/sentence-camembert-base",
    "english-minilm": "sentence-transformers/all-MiniLM-L6-v2"
}

# üìù TODO: Changez le mod√®le ici
model_choice = "multilingual-mini"

# Cr√©er les embeddings
embeddings = HuggingFaceEmbeddings(
    model_name=EMBEDDING_MODELS[model_choice],
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

print(f"‚úì Mod√®le d'embeddings charg√©: {model_choice}")

In [None]:
# Cr√©er le vector store
# üìù TODO: Essayez 'chroma' ou 'faiss'
vector_store_type = "faiss"  

print(f"Cr√©ation du vector store ({vector_store_type})...")

if vector_store_type == "chroma":
    vectorstore = Chroma.from_documents(
        documents=chunks,
        embedding=embeddings,
        persist_directory="./chroma_db"
    )
else:  # faiss
    vectorstore = FAISS.from_documents(
        documents=chunks,
        embedding=embeddings
    )

print(f"‚úì Vector store cr√©√© avec {len(chunks)} chunks")

## 6. √âtape 3 : Test de la recherche (Retrieval)

In [None]:
def tester_recherche(query: str, k: int = 3):
    """Teste la recherche de documents similaires"""
    print(f"\nüîç Recherche: '{query}'")
    print(f"Top {k} r√©sultats:\n")
    
    # Recherche
    resultats = vectorstore.similarity_search_with_score(query, k=k)
    
    for i, (doc, score) in enumerate(resultats):
        print(f"--- R√©sultat {i+1} (score: {score:.3f}) ---")
        print(f"Source: {doc.metadata}")
        print(f"Extrait: {doc.page_content[:200]}...\n")
    
    return resultats

# Test avec diff√©rentes requ√™tes
queries_test = [
    "Relations entre la Chine et les √âtats-Unis",
    "Changement climatique et g√©opolitique",
    "Conflits en Afrique"
]

# üìù TODO: Modifiez k (nombre de r√©sultats) - essayez 1, 3, 5
k_resultats = 3

for query in queries_test[:1]:  # Tester la premi√®re requ√™te
    resultats = tester_recherche(query, k=k_resultats)

### ü§î Question 2 : Qualit√© de la recherche
- Les documents retrouv√©s sont-ils pertinents ?
- Comment le nombre de r√©sultats (k) affecte-t-il la qualit√© ?
- Testez avec vos propres questions g√©opolitiques !

In [None]:
# üìù TODO: Testez vos propres questions ici
ma_question = "Quel est le r√¥le de l'Union europ√©enne dans les conflits actuels ?"
mes_resultats = tester_recherche(ma_question, k=3)

## 7. √âtape 4 : Configuration du LLM pour la g√©n√©ration

In [None]:
# Pour ce TP, nous utilisons un petit mod√®le open-source
# Note: Pour de meilleurs r√©sultats, utilisez GPT-3.5/4 ou Claude avec une API key

def creer_llm_simple():
    """Cr√©e un LLM simple pour la g√©n√©ration"""
    
    # Utiliser un mod√®le l√©ger
    model_id = "google/flan-t5-base"  # üìù TODO: Essayez "google/flan-t5-small" ou "google/flan-t5-large"
    
    print(f"Chargement du mod√®le {model_id}...")
    
    # Pipeline de g√©n√©ration
    pipe = pipeline(
        "text2text-generation",
        model=model_id,
        max_length=512,
        temperature=0.7,  # üìù TODO: Essayez 0.1 (d√©terministe) √† 1.0 (cr√©atif)
        do_sample=True
    )
    
    # Wrapper pour LangChain
    llm = HuggingFacePipeline(pipeline=pipe)
    
    print("‚úì LLM charg√© et pr√™t!")
    return llm

# Cr√©er le LLM
llm = creer_llm_simple()

## 8. Assemblage du syst√®me RAG complet

In [None]:
# Template de prompt pour le RAG
from langchain.prompts import PromptTemplate

# üìù TODO: Modifiez ce template selon vos besoins
template = """Utilise les extraits de documents suivants pour r√©pondre √† la question. 
Si tu ne peux pas r√©pondre bas√© sur les documents, dis-le clairement.

Documents:
{context}

Question: {question}

R√©ponse concise et factuelle:"""

QA_PROMPT = PromptTemplate(
    template=template,
    input_variables=["context", "question"]
)

# Cr√©er la cha√Æne RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # üìù TODO: Essayez aussi "map_reduce" pour de longs documents
    retriever=vectorstore.as_retriever(
        search_kwargs={"k": 3}  # üìù TODO: Ajustez le nombre de documents
    ),
    return_source_documents=True,
    chain_type_kwargs={"prompt": QA_PROMPT}
)

print("‚úì Syst√®me RAG configur√© et pr√™t!")

## 9. Test du syst√®me RAG complet

In [None]:
def poser_question_rag(question: str, afficher_sources: bool = True):
    """Pose une question au syst√®me RAG"""
    print(f"\nüí¨ Question: {question}")
    print("Recherche et g√©n√©ration en cours...\n")
    
    # Obtenir la r√©ponse
    resultat = qa_chain({"query": question})
    
    # Afficher la r√©ponse
    print("üìù R√©ponse:")
    print(resultat['result'])
    
    # Afficher les sources
    if afficher_sources and 'source_documents' in resultat:
        print("\nüìö Sources utilis√©es:")
        for i, doc in enumerate(resultat['source_documents']):
            print(f"\n  Source {i+1}:")
            print(f"  - Type: {doc.metadata.get('type', 'inconnu')}")
            print(f"  - Source: {doc.metadata.get('source', 'inconnue')}")
            print(f"  - Extrait: {doc.page_content[:100]}...")
    
    return resultat

# Questions de test
questions_geopolitiques = [
    "Quels sont les principaux conflits r√©gionaux actuels ?",
    "Comment le changement climatique affecte-t-il la g√©opolitique ?",
    "Quel est le r√¥le des BRICS dans le syst√®me international ?",
    "Quelles sont les tensions en mer de Chine ?"
]

# Tester une question
resultat = poser_question_rag(questions_geopolitiques[0])

### ü§î Question 3 : Analyse de la g√©n√©ration
- La r√©ponse est-elle coh√©rente avec les sources ?
- Y a-t-il des hallucinations (informations invent√©es) ?
- Comment am√©liorer la qualit√© des r√©ponses ?

In [None]:
# üìù TODO: Testez d'autres questions
for question in questions_geopolitiques[1:3]:
    resultat = poser_question_rag(question, afficher_sources=False)
    print("\n" + "="*60)

## 10. Exp√©rimentations avanc√©es

### Exercice 1 : Comparaison avec/sans RAG

In [None]:
def comparer_avec_sans_rag(question: str):
    """Compare les r√©ponses avec et sans RAG"""
    print(f"\nüî¨ Comparaison pour: '{question}'\n")
    
    # Sans RAG (LLM seul)
    print("1Ô∏è‚É£ SANS RAG (LLM seul):")
    reponse_sans_rag = llm(question)
    print(reponse_sans_rag)
    
    # Avec RAG
    print("\n2Ô∏è‚É£ AVEC RAG (LLM + Documents):")
    resultat_rag = qa_chain({"query": question})
    print(resultat_rag['result'])
    
    print("\nSources RAG:")
    for doc in resultat_rag['source_documents'][:2]:
        print(f"- {doc.metadata.get('titre', 'Sans titre')[:50]}...")

# Test sur une question d'actualit√©
question_test = "Quelles sont les derni√®res tensions entre pays en 2025 ?"
comparer_avec_sans_rag(question_test)

### Exercice 2 : Impact des param√®tres de recherche

In [None]:
def analyser_impact_k(question: str, k_values: list = [1, 3, 5, 10]):
    """Analyse l'impact du nombre de documents r√©cup√©r√©s"""
    print(f"\nüìä Analyse de l'impact de k pour: '{question}'\n")
    
    for k in k_values:
        print(f"\n--- k = {k} documents ---")
        
        # Cr√©er un nouveau retriever avec k diff√©rent
        qa_chain_k = RetrievalQA.from_chain_type(
            llm=llm,
            chain_type="stuff",
            retriever=vectorstore.as_retriever(search_kwargs={"k": k}),
            return_source_documents=True,
            chain_type_kwargs={"prompt": QA_PROMPT}
        )
        
        # Obtenir la r√©ponse
        resultat = qa_chain_k({"query": question})
        
        print(f"R√©ponse ({len(resultat['result'])} caract√®res): {resultat['result'][:150]}...")
        print(f"Nombre de sources uniques: {len(set(doc.metadata.get('source', '') for doc in resultat['source_documents']))}")

# Analyser
analyser_impact_k("Quels sont les enjeux de l'intelligence artificielle en g√©opolitique ?")

### ü§î Question 4 : Optimisation du RAG
Bas√© sur vos exp√©rimentations :
- Quel nombre de documents (k) donne les meilleurs r√©sultats ?
- Comment la taille des chunks affecte-t-elle la qualit√© ?
- Quel mod√®le d'embedding est le plus adapt√© √† vos documents ?

### Exercice 3 : RAG multilingue

In [None]:
# Test avec des questions dans diff√©rentes langues
questions_multilingues = {
    "fr": "Quelles sont les relations entre la France et l'Afrique ?",
    "en": "What are the main challenges facing the United Nations?",
    "es": "¬øCu√°l es el papel de Am√©rica Latina en la geopol√≠tica mundial?"
}

print("üåç Test multilingue du RAG\n")

for langue, question in questions_multilingues.items():
    print(f"\n[{langue.upper()}] {question}")
    resultat = qa_chain({"query": question})
    print(f"R√©ponse: {resultat['result'][:200]}...")
    print(f"Langues des sources: {set(doc.metadata.get('langue', 'inconnue') for doc in resultat['source_documents'])}")

## 11. Analyse critique et limites du RAG

In [None]:
# Cr√©ons un cas probl√©matique pour illustrer les limites
def tester_limites_rag():
    """Teste les limites du syst√®me RAG"""
    
    cas_limites = [
        {
            "type": "Question hors corpus",
            "question": "Quelle est la politique spatiale du Luxembourg ?"
        },
        {
            "type": "Question n√©cessitant du raisonnement",
            "question": "Si les tensions augmentent en mer de Chine et que le p√©trole devient rare, quel pays sera le plus affect√© ?"
        },
        {
            "type": "Question temporelle",
            "question": "Comment ont √©volu√© les relations sino-am√©ricaines depuis 10 ans ?"
        },
        {
            "type": "Question contradictoire",
            "question": "Pourquoi la Suisse est-elle membre de l'OTAN ?"
        }
    ]
    
    print("üö® Test des limites du RAG\n")
    
    for cas in cas_limites:
        print(f"\n--- {cas['type']} ---")
        print(f"Question: {cas['question']}")
        
        resultat = qa_chain({"query": cas['question']})
        print(f"\nR√©ponse RAG: {resultat['result']}")
        print(f"Nb sources trouv√©es: {len(resultat['source_documents'])}")
        
        # Analyser la pertinence
        if resultat['source_documents']:
            premier_doc = resultat['source_documents'][0].page_content[:100]
            print(f"Pertinence de la 1√®re source: {premier_doc}...")

# Ex√©cuter les tests
tester_limites_rag()

### ü§î Question 5 : R√©flexion sur les limites
D'apr√®s vos observations :
- Quelles sont les principales limites du RAG ?
- Comment le syst√®me g√®re-t-il l'absence d'information ?
- Peut-on faire confiance au RAG pour l'analyse g√©opolitique ?

## 12. Synth√®se et bonnes pratiques

In [None]:
# üìù TODO: Compl√©tez vos observations

mes_conclusions_rag = {
    "avantages_observes": [
        "Acc√®s √† des informations actualis√©es",
        # Ajoutez vos observations...
    ],
    "limites_identifiees": [
        "D√©pendance √† la qualit√© des documents sources",
        # Ajoutez vos observations...
    ],
    "parametres_optimaux": {
        "chunk_size": 500,  # Votre choix
        "k_documents": 3,   # Votre choix
        "modele_embedding": "multilingual-mini",  # Votre choix
    },
    "cas_usage_pertinents": [
        "Analyse d'actualit√©s g√©opolitiques",
        # Ajoutez vos id√©es...
    ],
    "ameliorations_possibles": [
        "Utiliser un LLM plus puissant",
        # Ajoutez vos suggestions...
    ]
}

print("=== SYNTH√àSE DE MES OBSERVATIONS SUR LE RAG ===")
for categorie, contenu in mes_conclusions_rag.items():
    print(f"\n{categorie.replace('_', ' ').upper()}:")
    if isinstance(contenu, list):
        for item in contenu:
            print(f"  ‚Ä¢ {item}")
    elif isinstance(contenu, dict):
        for key, value in contenu.items():
            print(f"  ‚Ä¢ {key}: {value}")

## 13. Pour aller plus loin

### Extensions possibles du RAG

1. **RAG hybride** : Combiner recherche par mots-cl√©s et recherche s√©mantique
2. **Re-ranking** : R√©ordonner les documents r√©cup√©r√©s selon leur pertinence
3. **Multi-modal RAG** : Int√©grer images, graphiques, cartes
4. **RAG conversationnel** : Maintenir un historique de conversation
5. **RAG avec citations** : Citer pr√©cis√©ment les sources dans la r√©ponse

### Code bonus : RAG avec m√©ta-donn√©es

In [None]:
# Exemple de recherche avec filtrage par m√©ta-donn√©es
def recherche_avec_filtres(question: str, type_doc: str = None, langue: str = None):
    """Recherche avec filtrage sur les m√©ta-donn√©es"""
    print(f"\nüîç Recherche filtr√©e: '{question}'")
    if type_doc:
        print(f"   Filtre type: {type_doc}")
    if langue:
        print(f"   Filtre langue: {langue}")
    
    # Cr√©er un filtre (d√©pend du vector store utilis√©)
    # Note: Ceci est un exemple conceptuel
    resultats = vectorstore.similarity_search(
        question,
        k=5,
        # filter={"type": type_doc} if type_doc else None  # Pseudo-code
    )
    
    print(f"\n{len(resultats)} r√©sultats trouv√©s")
    for i, doc in enumerate(resultats[:3]):
        print(f"\n{i+1}. {doc.metadata}")
        print(f"   {doc.page_content[:100]}...")

# Test
recherche_avec_filtres(
    "Tensions internationales",
    type_doc="actualite"
)

## Questions finales de r√©flexion

### üéØ Pour votre pratique future :

1. **Application professionnelle** : Comment pourriez-vous utiliser le RAG dans votre domaine d'expertise en g√©opolitique ?

2. **√âthique et biais** : Comment s'assurer que le RAG ne propage pas de d√©sinformation ou de biais g√©opolitiques ?

3. **Souverainet√© des donn√©es** : Quels enjeux pose l'utilisation de RAG avec des documents sensibles ou confidentiels ?

4. **√âvolution future** : Comment imaginez-vous l'√©volution du RAG pour l'analyse g√©opolitique dans 5 ans ?

5. **Alternatives** : Quelles autres approches pourrait-on combiner avec le RAG pour am√©liorer l'analyse ?

---

## üìö Ressources compl√©mentaires

1. **Documentation**
   - [LangChain RAG Tutorial](https://python.langchain.com/docs/use_cases/question_answering)
   - [Hugging Face RAG Guide](https://huggingface.co/docs/transformers/model_doc/rag)

2. **Articles de recherche**
   - "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)
   - "REALM: Retrieval-Augmented Language Model Pre-Training" (Guu et al., 2020)

3. **Outils avanc√©s**
   - [Haystack](https://haystack.deepset.ai/) - Framework NLP pour RAG
   - [Weaviate](https://weaviate.io/) - Vector database sp√©cialis√©e
   - [Pinecone](https://www.pinecone.io/) - Vector database cloud

---

**F√©licitations !** Vous avez maintenant une compr√©hension pratique du RAG appliqu√© √† la g√©opolitique. üéì

N'h√©sitez pas √† exp√©rimenter davantage et √† adapter ces techniques √† vos besoins sp√©cifiques.