# Chatbot RAG - √âconomie Fran√ßaise
Ce projet porte la mise en place d‚Äôun chatbot intelligent capable d‚Äôinterroger un rapport PDF en langage naturel.
L‚Äôarchitecture repose sur une approche RAG (Retrieval-Augmented Generation), qui combine la recherche d‚Äôinformations pertinentes dans un document et la g√©n√©ration de r√©ponses contextuelles gr√¢ce √† un mod√®le de langage.

Technologies utilis√©es :

- Ollama (Mistral) : g√©n√©ration d‚Äôembeddings et production de r√©ponses en fran√ßais

- FAISS : moteur de recherche vectorielle pour retrouver les passages les plus pertinents du document

- Streamlit : interface web interactive et conviviale permettant d‚Äôinteragir avec le chatbot

## Cr√©ation des fichiers docs.index et docs.json pour l‚Äôindexation des documents

In [6]:
# Usage: ex√©cution apr√®s avoir lanc√© "ollama serve" et t√©l√©charg√© le mod√®le mistral.

from pypdf import PdfReader
import ollama
import numpy as np
import faiss
import json
import os
from tqdm import tqdm  # pas obligatoir mais pratique pour voir l'avancement

# Configuration 
pdf_path = "/home/sacko/Documents/Chatbot RAG -EConomie-Fran√ßaise/Fichiers/ECO_FRANCE.pdf"   # chemin vers le fichier PDF
model = "mistral"
chunk_size = 800       # taille en caract√®res par chunk 
chunk_overlap = 200    # recouvrement entre chunks
index_file = "docs.index"
docs_file = "docs.json"

## Extraction automatique du contenu d‚Äôun rapport PDF pour l‚Äôanalyse IA

In [7]:
# Extraction du contenu textuel d‚Äôun PDF
reader = PdfReader(pdf_path)
pages = [p.extract_text() for p in reader.pages]
pages = [p for p in pages if p]  # Exclusion des pages vides lors de l‚Äôextraction
full_text = "\n\n".join(pages)
print(f"Texte extrait : {len(full_text)} caract√®res, {len(pages)} pages")

Texte extrait : 24313 caract√®res, 13 pages


## Pr√©traitement et d√©coupage des textes afin d‚Äôalimenter le moteur RAG

In [8]:
# D√©coupage en chunks
def chunk_text(text, chunk_size=800, overlap=200):
    chunks = []
    start = 0
    L = len(text)
    while start < L:
        end = min(start + chunk_size, L)
        chunk = text[start:end].strip()
        if chunk:
            chunks.append(chunk)
        start += chunk_size - overlap
    return chunks

chunks = chunk_text(full_text, chunk_size=chunk_size, overlap=chunk_overlap)
print(f"{len(chunks)} chunks cr√©√©s (chunk_size={chunk_size}, overlap={chunk_overlap})")

41 chunks cr√©√©s (chunk_size=800, overlap=200)


##  Production des vecteurs d‚Äôembedding via Ollama

In [9]:
# On s'assure que le serveur Ollama est en cours d‚Äôex√©cution et que le mod√®le mistral a bien √©t√© t√©l√©charg√© (ollama pull mistral).
embeddings = []
for chunk in tqdm(chunks, desc="Embeddings"):
    resp = ollama.embed(model=model, input=chunk)
    
# Le nom de la cl√© varie selon la version du SDK : embedding pour un vecteur unique ou embeddings pour une liste. Notre code g√®re les deux.    if "embeddings" in resp:
        emb = resp["embeddings"][0]
    elif "embedding" in resp:
        emb = resp["embedding"]
    else:
        raise RuntimeError("Format d'embedding inattendu : %s" % resp)
    embeddings.append(emb)

embeddings = np.array(embeddings, dtype="float32")
print("Embeddings shape:", embeddings.shape)

Embeddings: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 41/41 [04:32<00:00,  6.64s/it]

Embeddings shape: (41, 4096)





## Construire l'index FAISS et sauvegarder

In [10]:
# Indexation FAISS et enregistrement du fichier d‚Äôindex
d = embeddings.shape[1]
index = faiss.IndexFlatL2(d)  # index simple L2 
index.add(embeddings)
faiss.write_index(index, index_file)
print("Index sauvegard√©:", index_file)

# 5) Sauvegarde des chunks (id -> texte)
with open(docs_file, "w", encoding="utf-8") as f:
    json.dump(chunks, f, ensure_ascii=False, indent=2)
print("Chunks sauvegard√©s:", docs_file)

Index sauvegard√©: docs.index
Chunks sauvegard√©s: docs.json


In [12]:
query = "Quels sont les facteurs influen√ßant l'√©conomie fran√ßaise ?"

# Chercher le contexte dans FAISS
retrieved = retrieve_context(query, k=3)
prompt = build_prompt(query, retrieved)

# Appel du mod√®le Ollama
response = ollama.chat(
    model="mistral",
    messages=[{"role":"user","content":prompt}]
)
print("R√©ponse :", response["message"]["content"])

R√©ponse :  Les facteurs influen√ßant l'√©conomie fran√ßaise peuvent √™tre identifi√©s √† partir du contexte fourni. Voici une liste de quelques facteurs :

1. La politique fiscale et sociale d'autres pays europ√©ens, comme en Allemagne avec la baisse des cotisations sociales, peut affecter l'√©conomie fran√ßaise en cr√©ant une comp√©titivit√© disproportionn√©e qui peut entra√Æner un ralentissement de l'activit√© dans le pays (chunk 36).
2. La crise financi√®re des ann√©es 2008 et 2009 a laiss√© des d√©ficits importants et une dette publique consid√©rablement accrue en Europe, y compris en France, cr√©ant ainsi des d√©fis √† l'int√©rieur de l'Union europ√©enne (chunk 36).
3. Les changements dans les politiques √©conomiques peuvent avoir un impact sur la demande et la croissance √©conomique en France. Par exemple, les effets d√©cal√©s du contre-choc p√©trolier de 1985-1986 ont amplifi√© la reprise qui a d√©but√© √† mi-1987 (chunk 16).
4. Les conflits internationaux peuvent √©galement av

In [15]:
import faiss
import numpy as np
import json
import ollama
import ipywidgets as widgets
from IPython.display import display, Markdown

# ‚öôÔ∏è Config
index_file = "/home/sacko/Documents/ProjetRAG/Scripts/docs.index"
docs_file = "/home/sacko/Documents/ProjetRAG/Scripts/docs.json"
model = "mistral"

# üîÑ Charger l'index et les chunks
index = faiss.read_index(index_file)
with open(docs_file, "r", encoding="utf-8") as f:
    docs = json.load(f)

def retrieve_context(query, k=3):
    """Recherche les passages pertinents dans FAISS"""
    q_emb = ollama.embed(model=model, input=query)["embeddings"][0]
    qv = np.array([q_emb], dtype="float32")
    D, I = index.search(qv, k=k)
    results = []
    for dist, idx in zip(D[0], I[0]):
        doc = docs[idx]
        results.append({
            "id": idx,
            "distance": float(dist),
            "page": doc["page"],
            "text": doc["text"]
        })
    return results

def build_prompt(query, retrieved):
    """Construit le prompt pour le LLM avec consignes de citations"""
    context = "\n\n---\n".join(
        [f"[page {r['page']} | dist={r['distance']:.4f}]\n{r['text']}" for r in retrieved]
    )
    prompt = f"""
Tu es un assistant sp√©cialis√© en √©conomie fran√ßaise.
Voici des extraits du document ECO_FRANCE.pdf avec num√©ros de page :

{context}

Question : {query}

Consignes :
- R√©ponds de mani√®re claire en fran√ßais.
- Cite les pages pertinentes sous la forme (page X).
- Inclue un court extrait exact entre guillemets pour justifier ta r√©ponse.
"""
    return prompt

def ask(query, k=3):
    """Fonction principale : r√©cup√®re, construit prompt et appelle Ollama"""
    retrieved = retrieve_context(query, k=k)
    prompt = build_prompt(query, retrieved)
    response = ollama.chat(model=model, messages=[{"role":"user","content":prompt}])
    answer = response["message"]["content"]

    # Affichage
    display(Markdown(f"### üí¨ R√©ponse du mod√®le :\n{answer}"))
    print("\nüìö Sources utilis√©es :")
    for r in retrieved:
        print(f"- Page {r['page']} (score={r['distance']:.4f}) : {r['text'][:200]}...")

# üéõÔ∏è Widgets interactifs
text_box = widgets.Text(
    value="Quels sont les impacts de l‚ÄôIA sur l‚Äô√©conomie fran√ßaise ?",
    placeholder="Tape ta question ici...",
    description="Question:",
    layout=widgets.Layout(width="80%")
)

slider_k = widgets.IntSlider(
    value=3,
    min=1,
    max=10,
    step=1,
    description="Nb docs:",
    continuous_update=False
)

button = widgets.Button(description="Poser la question", button_style="success")
output = widgets.Output()

def on_button_click(b):
    output.clear_output()
    with output:
        ask(text_box.value, k=slider_k.value)

button.on_click(on_button_click)

display(text_box, slider_k, button, output)


Text(value='Quels sont les impacts de l‚ÄôIA sur l‚Äô√©conomie fran√ßaise ?', description='Question:', layout=Layout‚Ä¶

IntSlider(value=3, continuous_update=False, description='Nb docs:', max=10, min=1)

Button(button_style='success', description='Poser la question', style=ButtonStyle())

Output()