# Chatbot RAG - Économie Française
Ce projet porte la mise en place d’un chatbot intelligent capable d’interroger un rapport PDF en langage naturel.
L’architecture repose sur une approche RAG (Retrieval-Augmented Generation), qui combine la recherche d’informations pertinentes dans un document et la génération de réponses contextuelles grâce à un modèle de langage.

Technologies utilisées :

- Ollama (Mistral) : génération d’embeddings et production de réponses en français

- FAISS : moteur de recherche vectorielle pour retrouver les passages les plus pertinents du document

- Streamlit : interface web interactive et conviviale permettant d’interagir avec le chatbot

## Création des fichiers docs.index et docs.json pour l’indexation des documents

In [6]:
# Usage: exécution après avoir lancé "ollama serve" et téléchargé le modèle mistral.

from pypdf import PdfReader
import ollama
import numpy as np
import faiss
import json
import os
from tqdm import tqdm  # pas obligatoir mais pratique pour voir l'avancement

# Configuration 
pdf_path = "/home/sacko/Documents/Chatbot RAG -EConomie-Française/Fichiers/ECO_FRANCE.pdf"   # chemin vers le fichier PDF
model = "mistral"
chunk_size = 800       # taille en caractères par chunk 
chunk_overlap = 200    # recouvrement entre chunks
index_file = "docs.index"
docs_file = "docs.json"

## Extraction automatique du contenu d’un rapport PDF pour l’analyse IA

In [7]:
# Extraction du contenu textuel d’un PDF
reader = PdfReader(pdf_path)
pages = [p.extract_text() for p in reader.pages]
pages = [p for p in pages if p]  # Exclusion des pages vides lors de l’extraction
full_text = "\n\n".join(pages)
print(f"Texte extrait : {len(full_text)} caractères, {len(pages)} pages")

Texte extrait : 24313 caractères, 13 pages


## Prétraitement et découpage des textes afin d’alimenter le moteur RAG

In [8]:
# Découpage en chunks
def chunk_text(text, chunk_size=800, overlap=200):
    chunks = []
    start = 0
    L = len(text)
    while start < L:
        end = min(start + chunk_size, L)
        chunk = text[start:end].strip()
        if chunk:
            chunks.append(chunk)
        start += chunk_size - overlap
    return chunks

chunks = chunk_text(full_text, chunk_size=chunk_size, overlap=chunk_overlap)
print(f"{len(chunks)} chunks créés (chunk_size={chunk_size}, overlap={chunk_overlap})")

41 chunks créés (chunk_size=800, overlap=200)


##  Production des vecteurs d’embedding via Ollama

In [9]:
# On s'assure que le serveur Ollama est en cours d’exécution et que le modèle mistral a bien été téléchargé (ollama pull mistral).
embeddings = []
for chunk in tqdm(chunks, desc="Embeddings"):
    resp = ollama.embed(model=model, input=chunk)
    
# Le nom de la clé varie selon la version du SDK : embedding pour un vecteur unique ou embeddings pour une liste. Notre code gère les deux.    if "embeddings" in resp:
        emb = resp["embeddings"][0]
    elif "embedding" in resp:
        emb = resp["embedding"]
    else:
        raise RuntimeError("Format d'embedding inattendu : %s" % resp)
    embeddings.append(emb)

embeddings = np.array(embeddings, dtype="float32")
print("Embeddings shape:", embeddings.shape)

Embeddings: 100%|█████████████████████████████████████████████████████████████████████████████████| 41/41 [04:32<00:00,  6.64s/it]

Embeddings shape: (41, 4096)





## Construire l'index FAISS et sauvegarder

In [10]:
# Indexation FAISS et enregistrement du fichier d’index
d = embeddings.shape[1]
index = faiss.IndexFlatL2(d)  # index simple L2 
index.add(embeddings)
faiss.write_index(index, index_file)
print("Index sauvegardé:", index_file)

# 5) Sauvegarde des chunks (id -> texte)
with open(docs_file, "w", encoding="utf-8") as f:
    json.dump(chunks, f, ensure_ascii=False, indent=2)
print("Chunks sauvegardés:", docs_file)

Index sauvegardé: docs.index
Chunks sauvegardés: docs.json


In [12]:
query = "Quels sont les facteurs influençant l'économie française ?"

# Chercher le contexte dans FAISS
retrieved = retrieve_context(query, k=3)
prompt = build_prompt(query, retrieved)

# Appel du modèle Ollama
response = ollama.chat(
    model="mistral",
    messages=[{"role":"user","content":prompt}]
)
print("Réponse :", response["message"]["content"])

Réponse :  Les facteurs influençant l'économie française peuvent être identifiés à partir du contexte fourni. Voici une liste de quelques facteurs :

1. La politique fiscale et sociale d'autres pays européens, comme en Allemagne avec la baisse des cotisations sociales, peut affecter l'économie française en créant une compétitivité disproportionnée qui peut entraîner un ralentissement de l'activité dans le pays (chunk 36).
2. La crise financière des années 2008 et 2009 a laissé des déficits importants et une dette publique considérablement accrue en Europe, y compris en France, créant ainsi des défis à l'intérieur de l'Union européenne (chunk 36).
3. Les changements dans les politiques économiques peuvent avoir un impact sur la demande et la croissance économique en France. Par exemple, les effets décalés du contre-choc pétrolier de 1985-1986 ont amplifié la reprise qui a débuté à mi-1987 (chunk 16).
4. Les conflits internationaux peuvent également avoir un impact sur l'économie françai

In [15]:
import faiss
import numpy as np
import json
import ollama
import ipywidgets as widgets
from IPython.display import display, Markdown

# ⚙️ Config
index_file = "/home/sacko/Documents/ProjetRAG/Scripts/docs.index"
docs_file = "/home/sacko/Documents/ProjetRAG/Scripts/docs.json"
model = "mistral"

# 🔄 Charger l'index et les chunks
index = faiss.read_index(index_file)
with open(docs_file, "r", encoding="utf-8") as f:
    docs = json.load(f)

def retrieve_context(query, k=3):
    """Recherche les passages pertinents dans FAISS"""
    q_emb = ollama.embed(model=model, input=query)["embeddings"][0]
    qv = np.array([q_emb], dtype="float32")
    D, I = index.search(qv, k=k)
    results = []
    for dist, idx in zip(D[0], I[0]):
        doc = docs[idx]
        results.append({
            "id": idx,
            "distance": float(dist),
            "page": doc["page"],
            "text": doc["text"]
        })
    return results

def build_prompt(query, retrieved):
    """Construit le prompt pour le LLM avec consignes de citations"""
    context = "\n\n---\n".join(
        [f"[page {r['page']} | dist={r['distance']:.4f}]\n{r['text']}" for r in retrieved]
    )
    prompt = f"""
Tu es un assistant spécialisé en économie française.
Voici des extraits du document ECO_FRANCE.pdf avec numéros de page :

{context}

Question : {query}

Consignes :
- Réponds de manière claire en français.
- Cite les pages pertinentes sous la forme (page X).
- Inclue un court extrait exact entre guillemets pour justifier ta réponse.
"""
    return prompt

def ask(query, k=3):
    """Fonction principale : récupère, construit prompt et appelle Ollama"""
    retrieved = retrieve_context(query, k=k)
    prompt = build_prompt(query, retrieved)
    response = ollama.chat(model=model, messages=[{"role":"user","content":prompt}])
    answer = response["message"]["content"]

    # Affichage
    display(Markdown(f"### 💬 Réponse du modèle :\n{answer}"))
    print("\n📚 Sources utilisées :")
    for r in retrieved:
        print(f"- Page {r['page']} (score={r['distance']:.4f}) : {r['text'][:200]}...")

# 🎛️ Widgets interactifs
text_box = widgets.Text(
    value="Quels sont les impacts de l’IA sur l’économie française ?",
    placeholder="Tape ta question ici...",
    description="Question:",
    layout=widgets.Layout(width="80%")
)

slider_k = widgets.IntSlider(
    value=3,
    min=1,
    max=10,
    step=1,
    description="Nb docs:",
    continuous_update=False
)

button = widgets.Button(description="Poser la question", button_style="success")
output = widgets.Output()

def on_button_click(b):
    output.clear_output()
    with output:
        ask(text_box.value, k=slider_k.value)

button.on_click(on_button_click)

display(text_box, slider_k, button, output)


Text(value='Quels sont les impacts de l’IA sur l’économie française ?', description='Question:', layout=Layout…

IntSlider(value=3, continuous_update=False, description='Nb docs:', max=10, min=1)

Button(button_style='success', description='Poser la question', style=ButtonStyle())

Output()