In [None]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from sentence_transformers import SentenceTransformer
import faiss
import pickle
from pathlib import Path

# --- 0. Configuration et D√©finition des Chemins ---
print("üöÄ Configuration de l'application RAG...")

# D√©finir le chemin racine du projet (ajuster si n√©cessaire)
current_path = Path.cwd()
if current_path.name == "notebooks":
    PROJECT_ROOT = current_path.parent
else:
    PROJECT_ROOT = current_path
    
PROCESSED_DATA_PATH = PROJECT_ROOT / "data" / "processed"
FAISS_INDEX_PATH = PROCESSED_DATA_PATH / "my_documents.index"
CHUNKS_PATH = PROCESSED_DATA_PATH / "my_documents_chunks.pkl"

# --- 1. Chargement des Mod√®les ---
print("üß† Chargement des mod√®les (LLM et Embedding)...")

# Charger le LLM (Phi-3)
llm_model_id = "microsoft/Phi-3-mini-4k-instruct"
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
)
llm_model = AutoModelForCausalLM.from_pretrained(
    llm_model_id,
    quantization_config=quantization_config,
    device_map="auto",
    trust_remote_code=True,
)
llm_tokenizer = AutoTokenizer.from_pretrained(llm_model_id, trust_remote_code=True)

# Charger le mod√®le d'Embedding
embedding_model = SentenceTransformer('BAAI/bge-small-en-v1.5', device='cpu')
print("‚úÖ Mod√®les charg√©s.")


# --- 2. Chargement des Artefacts RAG (le "cerveau") ---
print("üìö Chargement de l'index FAISS et des chunks de texte...")
try:
    index = faiss.read_index(str(FAISS_INDEX_PATH))
    with open(CHUNKS_PATH, "rb") as f:
        chunks = pickle.load(f)
    print("‚úÖ Index et chunks charg√©s avec succ√®s.")
except Exception as e:
    print(f"‚ùå Erreur lors du chargement des fichiers RAG. Avez-vous ex√©cut√© le script de cr√©ation d'index d'abord ?")
    print(f"Erreur : {e}")
    # Arr√™ter le script si les fichiers ne peuvent pas √™tre charg√©s
    exit()

# --- 3. D√©finition de la fonction RAG principale ---

def answer_question_with_rag(question: str, k: int = 5) -> str:
    """
    Prend une question, trouve les chunks pertinents, construit un prompt et g√©n√®re une r√©ponse.
    """
    
    # √âtape 3.1 : Vectoriser la question de l'utilisateur
    question_embedding = embedding_model.encode([question])
    
    # √âtape 3.2 : Chercher dans l'index FAISS
    distances, indices = index.search(question_embedding.astype('float32'), k)
    
    # √âtape 3.3 : R√©cup√©rer les chunks de texte pertinents
    retrieved_chunks = [chunks[i] for i in indices[0]]
    context_text = "\n\n---\n\n".join(retrieved_chunks)
    
    # √âtape 3.4 : Construire le prompt pour le LLM
    # C'est ici que le "prompt engineering" est crucial.
    prompt_template = f"""
<|system|>
Vous √™tes un assistant expert qui r√©pond aux questions de mani√®re pr√©cise en vous basant sur le contexte fourni ci-dessous.
.
Ne mentionnez pas l'existence du "contexte" dans votre r√©ponse. R√©pondez directement √† la question.

Contexte fourni :
{context_text}<|end|>
<|user|>
{question}<|end|>
<|assistant|>
"""
    
    # √âtape 3.5 : G√©n√©rer la r√©ponse avec le LLM
    input_ids = llm_tokenizer(prompt_template, return_tensors="pt").to(llm_model.device)
    
    outputs = llm_model.generate(
        **input_ids,
        max_new_tokens=512,  # On peut augmenter un peu pour des r√©ponses plus longues
        do_sample=True,
        temperature=0.6,
        top_p=0.9,
        eos_token_id=llm_tokenizer.eos_token_id
    )
    
    # √âtape 3.6 : D√©coder la r√©ponse
    full_response = llm_tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # Extraire uniquement la partie g√©n√©r√©e par l'assistant
    # Cette m√©thode est plus simple et robuste
    assistant_part = full_response.split("<|assistant|>")
    if len(assistant_part) > 1:
        return assistant_part[1].strip()
    else:
        # Fallback si le formatage est inattendu
        return "D√©sol√©, une erreur est survenue lors de la g√©n√©ration de la r√©ponse."


# --- 4. Boucle de Chat Interactive ---
if __name__ == "__main__":
    print("\n" + "="*50)
    print("ü§ñ Assistant RAG pr√™t. Posez vos questions sur les documents.")
    print("Tapez '/exit' pour quitter.")
    print("="*50 + "\n")

    while True:
        user_question = input("Vous: ")
        if user_question.lower() == '/exit':
            break
        
        # Obtenir la r√©ponse via la pipeline RAG
        answer = answer_question_with_rag(user_question)
        
        print(f"Assistant: {answer}\n")

    print("üëã Au revoir !")

üöÄ Configuration de l'application RAG...
üß† Chargement des mod√®les (LLM et Embedding)...


`flash-attention` package not found, consider installing for better performance: No module named 'flash_attn'.
Current `flash-attention` does not support `window_size`. Either upgrade or use `attn_implementation='eager'`.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


‚úÖ Mod√®les charg√©s.
üìö Chargement de l'index FAISS et des chunks de texte...
‚úÖ Index et chunks charg√©s avec succ√®s.

ü§ñ Assistant RAG pr√™t. Posez vos questions sur les documents.
Tapez '/exit' pour quitter.



Vous:  donne moi l'importance ou l'objectif de la Gestion de version de code


You are not running the flash-attention implementation, expect numerical differences.


Assistant: D√©sol√©, une erreur est survenue lors de la g√©n√©ration de la r√©ponse.



In [4]:
import torch
import gc

# Delete large objects

# del model
# del tokenizer
# del embeddings
del input_ids
del outputs
del question_embedding

# Force Python's garbage collection
gc.collect()

# Empty PyTorch's CUDA cache
if torch.cuda.is_available():
    torch.cuda.empty_cache()
    print("VRAM cache cleared.")

NameError: name 'input_ids' is not defined