# TP - RAG (Retrieval-Augmented Generation) appliqué à la Géopolitique

## Durée : 1h30-2h

### Objectifs pédagogiques
- Comprendre l'architecture et le fonctionnement d'un système RAG
- Implémenter un RAG simple pour l'analyse géopolitique
- Explorer l'impact des différents paramètres (chunking, embedding, retrieval)
- Analyser les avantages et limites du RAG pour l'analyse documentaire

### Prérequis
- Avoir exécuté le script de récupération de documents
- Connaissances de base sur les embeddings (TP précédent)
- Notions de prompting et LLM

## 1. Introduction au RAG

### Qu'est-ce que le RAG ?

**RAG = Retrieval-Augmented Generation**

Le RAG combine:
1. **Retrieval** (Recherche) : Trouver les documents pertinents dans une base de données
2. **Augmented** (Augmenté) : Enrichir le contexte du LLM avec ces documents
3. **Generation** (Génération) : Produire une réponse basée sur le contexte enrichi

### Pourquoi utiliser le RAG ?

✅ **Actualité** : Accès à des informations récentes non présentes dans le LLM
✅ **Précision** : Réponses basées sur des sources spécifiques
✅ **Traçabilité** : Possibilité de citer les sources
✅ **Personnalisation** : Utilisation de documents spécifiques à un domaine

### Architecture simplifiée

```
Question → Embedding → Recherche → Documents pertinents
                                           ↓
                                    LLM + Contexte → Réponse
```

## 2. Installation et configuration

In [None]:
# Installation des packages nécessaires
!pip install langchain langchain-community langchain-huggingface
!pip install sentence-transformers transformers
!pip install chromadb faiss-cpu
!pip install pandas numpy
!pip install openai anthropic  # Pour les LLMs (optionnel)

In [None]:
# Imports essentiels
import os
import json
import pandas as pd
import numpy as np
from typing import List, Dict

# LangChain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma, FAISS
from langchain.chains import RetrievalQA
from langchain.llms import HuggingFacePipeline
from langchain.schema import Document

# Transformers
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM

import warnings
warnings.filterwarnings('ignore')

print("✓ Packages importés avec succès!")

## 3. Chargement des documents géopolitiques

In [None]:
# Configuration des chemins
DOCS_FOLDER = "documents_geopolitique"

def charger_documents():
    """Charge tous les documents disponibles"""
    documents = []
    
    # 1. Charger les articles JSON
    json_files = [f for f in os.listdir(DOCS_FOLDER) if f.endswith('.json')]
    if json_files:
        with open(os.path.join(DOCS_FOLDER, json_files[0]), 'r', encoding='utf-8') as f:
            articles = json.load(f)
            for article in articles:
                doc = Document(
                    page_content=f"Titre: {article['titre']}\n\n{article['contenu']}",
                    metadata={
                        "source": article['source'],
                        "titre": article['titre'],
                        "langue": article['langue'],
                        "type": "actualite"
                    }
                )
                documents.append(doc)
    
    # 2. Charger les documents de référence
    ref_folder = os.path.join(DOCS_FOLDER, "documents_reference")
    if os.path.exists(ref_folder):
        for filename in os.listdir(ref_folder):
            if filename.endswith('.txt'):
                with open(os.path.join(ref_folder, filename), 'r', encoding='utf-8') as f:
                    content = f.read()
                    doc = Document(
                        page_content=content,
                        metadata={
                            "source": "reference",
                            "filename": filename,
                            "type": "reference"
                        }
                    )
                    documents.append(doc)
    
    print(f"✓ {len(documents)} documents chargés")
    return documents

# Charger les documents
documents = charger_documents()

# Aperçu
if documents:
    print(f"\nExemple de document:")
    print(f"Contenu: {documents[0].page_content[:200]}...")
    print(f"Métadonnées: {documents[0].metadata}")

## 4. Étape 1 : Text Splitting (Découpage des documents)

Le découpage est crucial : des chunks trop grands = moins de précision, trop petits = perte de contexte

In [None]:
# Configuration du text splitter
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,        # 📝 TODO: Essayez 200, 500, 1000
    chunk_overlap=50,      # 📝 TODO: Essayez 0, 50, 100
    length_function=len,
    separators=["\n\n", "\n", ".", " ", ""]
)

# Découper les documents
chunks = text_splitter.split_documents(documents)
print(f"✓ {len(documents)} documents découpés en {len(chunks)} chunks")
print(f"\nTaille moyenne des chunks: {np.mean([len(chunk.page_content) for chunk in chunks]):.0f} caractères")

# Visualiser quelques chunks
print("\nExemples de chunks:")
for i, chunk in enumerate(chunks[:3]):
    print(f"\n--- Chunk {i+1} ---")
    print(f"Taille: {len(chunk.page_content)} caractères")
    print(f"Contenu: {chunk.page_content[:150]}...")

### 🤔 Question 1 : Impact du chunking
Modifiez `chunk_size` et `chunk_overlap` dans la cellule ci-dessus. Comment cela affecte-t-il :
- Le nombre total de chunks ?
- La cohérence du contenu dans chaque chunk ?
- Quel compromis devez-vous faire ?

## 5. Étape 2 : Embeddings et Vector Store

In [None]:
# Choix du modèle d'embeddings
EMBEDDING_MODELS = {
    "multilingual-mini": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
    "multilingual-mpnet": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
    "french-camembert": "dangvantuan/sentence-camembert-base",
    "english-minilm": "sentence-transformers/all-MiniLM-L6-v2"
}

# 📝 TODO: Changez le modèle ici
model_choice = "multilingual-mini"

# Créer les embeddings
embeddings = HuggingFaceEmbeddings(
    model_name=EMBEDDING_MODELS[model_choice],
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

print(f"✓ Modèle d'embeddings chargé: {model_choice}")

In [None]:
# Créer le vector store
# 📝 TODO: Essayez 'chroma' ou 'faiss'
vector_store_type = "faiss"  

print(f"Création du vector store ({vector_store_type})...")

if vector_store_type == "chroma":
    vectorstore = Chroma.from_documents(
        documents=chunks,
        embedding=embeddings,
        persist_directory="./chroma_db"
    )
else:  # faiss
    vectorstore = FAISS.from_documents(
        documents=chunks,
        embedding=embeddings
    )

print(f"✓ Vector store créé avec {len(chunks)} chunks")

## 6. Étape 3 : Test de la recherche (Retrieval)

In [None]:
def tester_recherche(query: str, k: int = 3):
    """Teste la recherche de documents similaires"""
    print(f"\n🔍 Recherche: '{query}'")
    print(f"Top {k} résultats:\n")
    
    # Recherche
    resultats = vectorstore.similarity_search_with_score(query, k=k)
    
    for i, (doc, score) in enumerate(resultats):
        print(f"--- Résultat {i+1} (score: {score:.3f}) ---")
        print(f"Source: {doc.metadata}")
        print(f"Extrait: {doc.page_content[:200]}...\n")
    
    return resultats

# Test avec différentes requêtes
queries_test = [
    "Relations entre la Chine et les États-Unis",
    "Changement climatique et géopolitique",
    "Conflits en Afrique"
]

# 📝 TODO: Modifiez k (nombre de résultats) - essayez 1, 3, 5
k_resultats = 3

for query in queries_test[:1]:  # Tester la première requête
    resultats = tester_recherche(query, k=k_resultats)

### 🤔 Question 2 : Qualité de la recherche
- Les documents retrouvés sont-ils pertinents ?
- Comment le nombre de résultats (k) affecte-t-il la qualité ?
- Testez avec vos propres questions géopolitiques !

In [None]:
# 📝 TODO: Testez vos propres questions ici
ma_question = "Quel est le rôle de l'Union européenne dans les conflits actuels ?"
mes_resultats = tester_recherche(ma_question, k=3)

## 7. Étape 4 : Configuration du LLM pour la génération

In [None]:
# Pour ce TP, nous utilisons un petit modèle open-source
# Note: Pour de meilleurs résultats, utilisez GPT-3.5/4 ou Claude avec une API key

def creer_llm_simple():
    """Crée un LLM simple pour la génération"""
    
    # Utiliser un modèle léger
    model_id = "google/flan-t5-base"  # 📝 TODO: Essayez "google/flan-t5-small" ou "google/flan-t5-large"
    
    print(f"Chargement du modèle {model_id}...")
    
    # Pipeline de génération
    pipe = pipeline(
        "text2text-generation",
        model=model_id,
        max_length=512,
        temperature=0.7,  # 📝 TODO: Essayez 0.1 (déterministe) à 1.0 (créatif)
        do_sample=True
    )
    
    # Wrapper pour LangChain
    llm = HuggingFacePipeline(pipeline=pipe)
    
    print("✓ LLM chargé et prêt!")
    return llm

# Créer le LLM
llm = creer_llm_simple()

## 8. Assemblage du système RAG complet

In [None]:
# Template de prompt pour le RAG
from langchain.prompts import PromptTemplate

# 📝 TODO: Modifiez ce template selon vos besoins
template = """Utilise les extraits de documents suivants pour répondre à la question. 
Si tu ne peux pas répondre basé sur les documents, dis-le clairement.

Documents:
{context}

Question: {question}

Réponse concise et factuelle:"""

QA_PROMPT = PromptTemplate(
    template=template,
    input_variables=["context", "question"]
)

# Créer la chaîne RAG
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",  # 📝 TODO: Essayez aussi "map_reduce" pour de longs documents
    retriever=vectorstore.as_retriever(
        search_kwargs={"k": 3}  # 📝 TODO: Ajustez le nombre de documents
    ),
    return_source_documents=True,
    chain_type_kwargs={"prompt": QA_PROMPT}
)

print("✓ Système RAG configuré et prêt!")

## 9. Test du système RAG complet

In [None]:
def poser_question_rag(question: str, afficher_sources: bool = True):
    """Pose une question au système RAG"""
    print(f"\n💬 Question: {question}")
    print("Recherche et génération en cours...\n")
    
    # Obtenir la réponse
    resultat = qa_chain({"query": question})
    
    # Afficher la réponse
    print("📝 Réponse:")
    print(resultat['result'])
    
    # Afficher les sources
    if afficher_sources and 'source_documents' in resultat:
        print("\n📚 Sources utilisées:")
        for i, doc in enumerate(resultat['source_documents']):
            print(f"\n  Source {i+1}:")
            print(f"  - Type: {doc.metadata.get('type', 'inconnu')}")
            print(f"  - Source: {doc.metadata.get('source', 'inconnue')}")
            print(f"  - Extrait: {doc.page_content[:100]}...")
    
    return resultat

# Questions de test
questions_geopolitiques = [
    "Quels sont les principaux conflits régionaux actuels ?",
    "Comment le changement climatique affecte-t-il la géopolitique ?",
    "Quel est le rôle des BRICS dans le système international ?",
    "Quelles sont les tensions en mer de Chine ?"
]

# Tester une question
resultat = poser_question_rag(questions_geopolitiques[0])

### 🤔 Question 3 : Analyse de la génération
- La réponse est-elle cohérente avec les sources ?
- Y a-t-il des hallucinations (informations inventées) ?
- Comment améliorer la qualité des réponses ?

In [None]:
# 📝 TODO: Testez d'autres questions
for question in questions_geopolitiques[1:3]:
    resultat = poser_question_rag(question, afficher_sources=False)
    print("\n" + "="*60)

## 10. Expérimentations avancées

### Exercice 1 : Comparaison avec/sans RAG

In [None]:
def comparer_avec_sans_rag(question: str):
    """Compare les réponses avec et sans RAG"""
    print(f"\n🔬 Comparaison pour: '{question}'\n")
    
    # Sans RAG (LLM seul)
    print("1️⃣ SANS RAG (LLM seul):")
    reponse_sans_rag = llm(question)
    print(reponse_sans_rag)
    
    # Avec RAG
    print("\n2️⃣ AVEC RAG (LLM + Documents):")
    resultat_rag = qa_chain({"query": question})
    print(resultat_rag['result'])
    
    print("\nSources RAG:")
    for doc in resultat_rag['source_documents'][:2]:
        print(f"- {doc.metadata.get('titre', 'Sans titre')[:50]}...")

# Test sur une question d'actualité
question_test = "Quelles sont les dernières tensions entre pays en 2025 ?"
comparer_avec_sans_rag(question_test)

### Exercice 2 : Impact des paramètres de recherche

In [None]:
def analyser_impact_k(question: str, k_values: list = [1, 3, 5, 10]):
    """Analyse l'impact du nombre de documents récupérés"""
    print(f"\n📊 Analyse de l'impact de k pour: '{question}'\n")
    
    for k in k_values:
        print(f"\n--- k = {k} documents ---")
        
        # Créer un nouveau retriever avec k différent
        qa_chain_k = RetrievalQA.from_chain_type(
            llm=llm,
            chain_type="stuff",
            retriever=vectorstore.as_retriever(search_kwargs={"k": k}),
            return_source_documents=True,
            chain_type_kwargs={"prompt": QA_PROMPT}
        )
        
        # Obtenir la réponse
        resultat = qa_chain_k({"query": question})
        
        print(f"Réponse ({len(resultat['result'])} caractères): {resultat['result'][:150]}...")
        print(f"Nombre de sources uniques: {len(set(doc.metadata.get('source', '') for doc in resultat['source_documents']))}")

# Analyser
analyser_impact_k("Quels sont les enjeux de l'intelligence artificielle en géopolitique ?")

### 🤔 Question 4 : Optimisation du RAG
Basé sur vos expérimentations :
- Quel nombre de documents (k) donne les meilleurs résultats ?
- Comment la taille des chunks affecte-t-elle la qualité ?
- Quel modèle d'embedding est le plus adapté à vos documents ?

### Exercice 3 : RAG multilingue

In [None]:
# Test avec des questions dans différentes langues
questions_multilingues = {
    "fr": "Quelles sont les relations entre la France et l'Afrique ?",
    "en": "What are the main challenges facing the United Nations?",
    "es": "¿Cuál es el papel de América Latina en la geopolítica mundial?"
}

print("🌍 Test multilingue du RAG\n")

for langue, question in questions_multilingues.items():
    print(f"\n[{langue.upper()}] {question}")
    resultat = qa_chain({"query": question})
    print(f"Réponse: {resultat['result'][:200]}...")
    print(f"Langues des sources: {set(doc.metadata.get('langue', 'inconnue') for doc in resultat['source_documents'])}")

## 11. Analyse critique et limites du RAG

In [None]:
# Créons un cas problématique pour illustrer les limites
def tester_limites_rag():
    """Teste les limites du système RAG"""
    
    cas_limites = [
        {
            "type": "Question hors corpus",
            "question": "Quelle est la politique spatiale du Luxembourg ?"
        },
        {
            "type": "Question nécessitant du raisonnement",
            "question": "Si les tensions augmentent en mer de Chine et que le pétrole devient rare, quel pays sera le plus affecté ?"
        },
        {
            "type": "Question temporelle",
            "question": "Comment ont évolué les relations sino-américaines depuis 10 ans ?"
        },
        {
            "type": "Question contradictoire",
            "question": "Pourquoi la Suisse est-elle membre de l'OTAN ?"
        }
    ]
    
    print("🚨 Test des limites du RAG\n")
    
    for cas in cas_limites:
        print(f"\n--- {cas['type']} ---")
        print(f"Question: {cas['question']}")
        
        resultat = qa_chain({"query": cas['question']})
        print(f"\nRéponse RAG: {resultat['result']}")
        print(f"Nb sources trouvées: {len(resultat['source_documents'])}")
        
        # Analyser la pertinence
        if resultat['source_documents']:
            premier_doc = resultat['source_documents'][0].page_content[:100]
            print(f"Pertinence de la 1ère source: {premier_doc}...")

# Exécuter les tests
tester_limites_rag()

### 🤔 Question 5 : Réflexion sur les limites
D'après vos observations :
- Quelles sont les principales limites du RAG ?
- Comment le système gère-t-il l'absence d'information ?
- Peut-on faire confiance au RAG pour l'analyse géopolitique ?

## 12. Synthèse et bonnes pratiques

In [None]:
# 📝 TODO: Complétez vos observations

mes_conclusions_rag = {
    "avantages_observes": [
        "Accès à des informations actualisées",
        # Ajoutez vos observations...
    ],
    "limites_identifiees": [
        "Dépendance à la qualité des documents sources",
        # Ajoutez vos observations...
    ],
    "parametres_optimaux": {
        "chunk_size": 500,  # Votre choix
        "k_documents": 3,   # Votre choix
        "modele_embedding": "multilingual-mini",  # Votre choix
    },
    "cas_usage_pertinents": [
        "Analyse d'actualités géopolitiques",
        # Ajoutez vos idées...
    ],
    "ameliorations_possibles": [
        "Utiliser un LLM plus puissant",
        # Ajoutez vos suggestions...
    ]
}

print("=== SYNTHÈSE DE MES OBSERVATIONS SUR LE RAG ===")
for categorie, contenu in mes_conclusions_rag.items():
    print(f"\n{categorie.replace('_', ' ').upper()}:")
    if isinstance(contenu, list):
        for item in contenu:
            print(f"  • {item}")
    elif isinstance(contenu, dict):
        for key, value in contenu.items():
            print(f"  • {key}: {value}")

## 13. Pour aller plus loin

### Extensions possibles du RAG

1. **RAG hybride** : Combiner recherche par mots-clés et recherche sémantique
2. **Re-ranking** : Réordonner les documents récupérés selon leur pertinence
3. **Multi-modal RAG** : Intégrer images, graphiques, cartes
4. **RAG conversationnel** : Maintenir un historique de conversation
5. **RAG avec citations** : Citer précisément les sources dans la réponse

### Code bonus : RAG avec méta-données

In [None]:
# Exemple de recherche avec filtrage par méta-données
def recherche_avec_filtres(question: str, type_doc: str = None, langue: str = None):
    """Recherche avec filtrage sur les méta-données"""
    print(f"\n🔍 Recherche filtrée: '{question}'")
    if type_doc:
        print(f"   Filtre type: {type_doc}")
    if langue:
        print(f"   Filtre langue: {langue}")
    
    # Créer un filtre (dépend du vector store utilisé)
    # Note: Ceci est un exemple conceptuel
    resultats = vectorstore.similarity_search(
        question,
        k=5,
        # filter={"type": type_doc} if type_doc else None  # Pseudo-code
    )
    
    print(f"\n{len(resultats)} résultats trouvés")
    for i, doc in enumerate(resultats[:3]):
        print(f"\n{i+1}. {doc.metadata}")
        print(f"   {doc.page_content[:100]}...")

# Test
recherche_avec_filtres(
    "Tensions internationales",
    type_doc="actualite"
)

## Questions finales de réflexion

### 🎯 Pour votre pratique future :

1. **Application professionnelle** : Comment pourriez-vous utiliser le RAG dans votre domaine d'expertise en géopolitique ?

2. **Éthique et biais** : Comment s'assurer que le RAG ne propage pas de désinformation ou de biais géopolitiques ?

3. **Souveraineté des données** : Quels enjeux pose l'utilisation de RAG avec des documents sensibles ou confidentiels ?

4. **Évolution future** : Comment imaginez-vous l'évolution du RAG pour l'analyse géopolitique dans 5 ans ?

5. **Alternatives** : Quelles autres approches pourrait-on combiner avec le RAG pour améliorer l'analyse ?

---

## 📚 Ressources complémentaires

1. **Documentation**
   - [LangChain RAG Tutorial](https://python.langchain.com/docs/use_cases/question_answering)
   - [Hugging Face RAG Guide](https://huggingface.co/docs/transformers/model_doc/rag)

2. **Articles de recherche**
   - "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" (Lewis et al., 2020)
   - "REALM: Retrieval-Augmented Language Model Pre-Training" (Guu et al., 2020)

3. **Outils avancés**
   - [Haystack](https://haystack.deepset.ai/) - Framework NLP pour RAG
   - [Weaviate](https://weaviate.io/) - Vector database spécialisée
   - [Pinecone](https://www.pinecone.io/) - Vector database cloud

---

**Félicitations !** Vous avez maintenant une compréhension pratique du RAG appliqué à la géopolitique. 🎓

N'hésitez pas à expérimenter davantage et à adapter ces techniques à vos besoins spécifiques.