# üß† Advanced RAG Agent ‚Äî Documentation Interne
Ce notebook construit un agent RAG capable de r√©pondre √† des questions sur une documentation interne, en utilisant FAISS, LangChain LCEL, et Mistral-7B.

In [None]:
# Installation des biblioth√®ques n√©cessaires:
!pip install -q langchain transformers sentence-transformers faiss-cpu accelerate torch langchain_community langchain-huggingface langchain-core
# pour utilis√© ChromaDB:
# pip install -q chromadb

In [None]:
# T√©l√©chargement des d√©pendances Python:
import os
import torch
from langchain_community.vectorstores import FAISS 
from langchain_huggingface.embeddings import HuggingFaceEmbeddings

from langchain.llms import HuggingFacePipeline 
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain.text_splitter import RecursiveCharacterTextSplitter

print("Installations et imports termin√©s.")

In [None]:
# CONFIGURATION DES COMPOSANTS RAG :

FILE_PATH = "documentation_interne.txt"

# Chargement et Division des donn√©es (Chunking):
try:
    with open(FILE_PATH, 'r', encoding='utf-8') as f:
        document_content = f.read()
except FileNotFoundError:
    print(f"ERREUR: Le fichier {FILE_PATH} n'a pas √©t√© trouv√©. Veuillez le t√©l√©verser dans Colab.")
    exit()

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, 
    chunk_overlap=200
)
docs = text_splitter.create_documents([document_content])
print(f"Document divis√© en {len(docs)} segments (chunks).")

# EMBEDDING (Hugging Face Local et Gratuit):
embedding_function = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2",
    model_kwargs={'device': 'cuda' if torch.cuda.is_available() else 'cpu'} 
)

# CR√âATION DU VECTOR STORE (M√©moire RAG):
vector_store = FAISS.from_documents(docs, embedding_function)
rag_retriever = vector_store.as_retriever(search_kwargs={"k": 3})
print("‚úÖ Base de donn√©es FAISS (RAG) cr√©√©e avec succ√®s.")

In [None]:

%%writefile rag_chain.py
# Charger Mistral 7B Instruct depuis Hugging Face:
model_id = "mistralai/Mistral-7B-Instruct-v0.2"

# Utiliser le pipeline Transformers (GPU de Colab)
llm = HuggingFacePipeline.from_model_id(
    model_id=model_id,
    task="text-generation",
    pipeline_kwargs={
        "max_new_tokens": 512,
        # 'device' est retir√© ici pour √©viter le conflit
    },
    device=0,
    model_kwargs={"torch_dtype": torch.bfloat16} 
)
print(f"‚úÖ LLM Agent (Mistral-7B-Instruct) charg√© depuis Hugging Face sur Colab.")


# --- CONSTRUCTION DE LA CHA√éNE RAG DIRECTE (LCEL) ---

RAG_PROMPT = ChatPromptTemplate.from_template("""
Tu es un assistant IA professionnel. Utilise UNIQUEMENT le contexte fourni ci-dessous pour r√©pondre √† la question. 
Si la r√©ponse n'est pas dans le contexte, tu dois r√©pondre de mani√®re polie : 'Je suis d√©sol√©, cette information sp√©cifique n'est pas disponible dans ma documentation interne.'

--- CONTEXTE ---
{context}
--- FIN CONTEXTE ---

Question: {question}
""")

# Assemblage de la Cha√Æne RAG LCEL
rag_chain = (
    RunnablePassthrough.assign(
        context= (lambda x: x['question']) | rag_retriever 
    )
    | RAG_PROMPT
    | llm # Le LLM HuggingFacePipeline est utilis√© ici
    | StrOutputParser()
)

# --- TESTS DE VALIDATION ---

print("\n" + "="*50)
print("TEST DE LA CHA√éNE RAG DIRECTE SUR COLAB (Validation effectu√©e)")
print("="*50)

# Test 1: Question Interne (utilisation du RAG pour r√©pondre)
print("\n--- TEST 1: Question Interne ---")
question_interne = "Combien de temps faut-il pour finaliser le traitement d'un remboursement ?"
print(f"Question : {question_interne}")
response_interne = rag_chain.invoke({"question": question_interne})
print(f"\nR√âPONSE RAG : {response_interne}")

# Test 2: Question G√©n√©raliste (DOIT r√©pondre 'Information non disponible')
print("\n--- TEST 2: Question G√©n√©rale ---")
question_generale = "Quel est le plus grand d√©sert du monde ?"
print(f"Question : {question_generale}")
response_generale = rag_chain.invoke({"question": question_generale})
print(f"R√âPONSE RAG : {response_generale}")

In [None]:
%%writefile app.py
from fastapi import FastAPI
from pydantic import BaseModel
from rag_chain import rag_chain  # Assure-toi que rag_chain est export√© dans rag_chain.py

app = FastAPI()

class Query(BaseModel):
    question: str

@app.post("/ask")
async def ask_question(query: Query):
    """
    Pose une question √† l'agent RAG.
    - **question**: Texte de la question √† poser
    - **return**: R√©ponse g√©n√©r√©e par le mod√®le, bas√©e sur la documentation interne
    """
    response = rag_chain.invoke({"question": query.question})
    return {"answer": response}

@app.get("/health")
def health_check():
    return {"status": "ok"}


In [None]:
!pip install pyngrok
!nohup uvicorn app:app --host 0.0.0.0 --port 8000 &

In [None]:
from pyngrok import ngrok
public_url = ngrok.connect(8000)
print("üîó URL publique de ton API :", public_url)

In [None]:
!ngrok config add-authtoken #YOUR_NGROK_AUTH_TOKEN