## Fine tuning a Retrieval-Augmented Generation model : LLaMa2
**Le principe consiste à récupérer les documents pertinents par rapport à la requête (sentenceTransformer), puis à les transmettre à l’IA générative (le décodeur). Ainsi, l’IA peut s’appuyer à la fois sur ces documents et sur la requête de l’utilisateur pour générer une réponse plus fiable et limiter les hallucinations.**

In [5]:
pip install faiss-cpu transformers sentence-transformers



In [6]:
pip install fitz



In [7]:
import pandas as pd
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
df = pd.read_excel("ART_700_clean.xlsx")


In [8]:
df.head()

Unnamed: 0,texte decision,motif,art_700,phrase pretention,dispositif,resultat
0,Arrêt n° du 13/12/2017 RG n° : 17/00446 MLB/DB...,Le jugement doit être confirmé en ce qu'il a c...,1,sauf du chef de la demande au titre de l'artic...,Condamne le GAEC DES FRESNES à payer à Madame ...,0
1,,"Partie succombante, le GAEC DES FRESNES doit ê...",1,- de condamner le GAEC DES FRESNES au paiement...,Condamne le GAEC DES FRESNES à payer à Madame ...,1
2,COUR D'APPEL DE MONTPELLIER\n1° Chambre Sectio...,L'équité commande de condamner l'appelant à ve...,1,de le condamner à lui verser la somme de 2 000...,Condamne Monsieur B... A... à payer à Madame E...,1
3,,L'équité commande de condamner l'appelant à ve...,1,- condamner Madame E... C... au paiement de la...,Condamne Monsieur B... A... à payer à Madame E...,0
4,GL/MC\nNuméro 10/2020\n\nCOUR D'APPEL DE PAU\n...,L'équité commande d'écarter l'application des ...,1,Condamner Mme Exposito à lui verser une somme ...,Dit n'y avoir lieu à application de l'article ...,0


**On n'a besoin de deux model : un sentenceTransformer pour transformer le texte en Embeddings et qui compare la question à la base de documents disponible ensuite le sentenceTranformer récupère les textes les plus proches et envoit la question de l'utilisateur plus la réponse au chatbot qui lit tout et génère ensuite une réponse précise**

*Création de vecteur avec les décisions de justice afin de faire un lien avec la requête des utilisation (qui sera transformer en vecteur aussi) pour voir s'il y a un matching ou capter la similarité sémantique.*

In [9]:
# Initialisation de Sentence-Transformers embedding model
# Modèle plus léger que L6
model = SentenceTransformer("paraphrase-MiniLM-L3-v2") # Si GPU et memoire RAM disponible amors opter pour : SentenceTransformer("all-MiniLM-L6-v2")
# Generate embeddings for 'texte decision'
df["embeddings"] = df["texte decision"].apply(lambda x: model.encode(str(x)).tolist())
# Convert embeddings to NumPy array
embeddings_array = np.stack(df["embeddings"].values)
# Initialize FAISS index
embedding_dim = embeddings_array.shape[1]
index = faiss.IndexFlatL2(embedding_dim)
# Stockage et indexation de mes embeddings (décisions de justions) : documents scientifiques
index.add(embeddings_array)
# Save FAISS index for later use
faiss.write_index(index, "faiss_legal_index.idx")
# Save updated dataset with embeddings
df.to_csv("legal_data_with_embeddings.csv", index=False)
print("Embeddings stored in FAISS and CSV file saved.")


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.83k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/69.6M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/314 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Embeddings stored in FAISS and CSV file saved.


In [4]:
import torch

if torch.cuda.is_available():
    print("✅ GPU disponible :", torch.cuda.get_device_name(0))
else:
    print("❌ Aucun GPU détecté.")


✅ GPU disponible : Tesla T4


In [10]:
# Matching entre la requête de l'utilisateur et mes document embeddings : recupération des 5 décisions de justices les plus proches de la requête afin que le chatbot (LLama 2 ) se sert de ces éléments pour générer les réponses
def search_legal_cases(query, top_k=5):
    """Retrieve top-k most similar legal cases based on the query."""
    # Convert query to embedding
    query_embedding = model.encode(query).reshape(1, -1)
    # Load FAISS index
    index = faiss.read_index("faiss_legal_index.idx")
    # Search for similar cases
    distances, indices = index.search(query_embedding, top_k)
    # Retrieve and display results
    results = df.iloc[indices[0]][["texte decision", "motif", "dispositif", "resultat"]]
    return results

# Example Query : le model va chercher les décisions de justices qui portent uniquement sur le divorce
query = "divorce"
results = search_legal_cases(query)
print(results)


                                         texte decision  \
1866  \nCOUR D'APPEL D'AGEN\n1ère Chambre\nMATRIMONI...   
1078  Cour d'appel de Pau, 11 février 2014, n° 13/00...   
1071  Cour d'appel d'Agen, 22 janvier 2009, n° 08/00...   
1862  Cour d'appel de Pau, 5 janvier 2016, n° 14/028...   
1552  Cour d'appel de Pau, 4 avril 2005, n° 03/03438...   

                                                  motif  \
1866  Prononce pour altération définitive du lien co...   
1078  Prononce aux torts partagés le divorce des épo...   
1071  C... D... ne dispose pas de ressources lui per...   
1862                                                NaN   
1552                                                NaN   

                                             dispositif  resultat  
1866  Il est ainsi fait la preuve de l'altération dé...         1  
1078  Si les deux demandes sont accueillies, le divo...         0  
1071  il sera dispensé de toute contribution paternelle         1  
1862              

In [None]:
from transformers import pipeline
from huggingface_hub import login
login(token="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") # change the token on https://huggingface.co/

#Load a local LLaMA model (adjust for your setup) : #7 milliards de paramètres
llm_pipeline = pipeline(
    "text-generation",
    model="meta-llama/Llama-2-7b-chat-hf", # chatbot de metaqui va générer les réponses
    device=0,
    truncation=True,
    temperature=0.2  # Exemple : 0.7 pour plus de diversité
)
#from transformers import pipeline
#generator = pipeline(
#    "text-generation",
#   model="EleutherAI/gpt-neo-1.3B",  # ✅ modèle libre
#    device=0,                         # utilise le GPU s’il est dispo
#    truncation=True,                 # coupe le prompt si trop long (optionnel mais OK)
#   temperature=0.7                   # 0 = sortie très déterministe (pas créatif)
#)
def search_legal_cases_with_llama(query, top_k=5):
    """Retrieve similar legal cases and use a local LLaMA model for response generation."""
    # Convert query to embedding
    query_embedding = model.encode(query).reshape(1, -1)
    # Load FAISS index
    index = faiss.read_index("faiss_legal_index.idx")
    # Search for similar cases
    distances, indices = index.search(query_embedding, top_k)
    # Retrieve relevant cases
    retrieved_texts = df.iloc[indices[0]][["texte decision", "motif", "dispositif"]].values.tolist()
    # Format retrieved text and **truncate** to avoid exceeding LLaMA limits
    context = "\n\n".join([f"Case {i+1}: {t[0]}\nReasoning: {t[1]}\nDecision: {t[2]}" for i, t in enumerate(retrieved_texts)])
    context = " ".join(context.split()[:350])  # Limit input text to ~350 words

    # Construct LLaMA prompt
    prompt = f"""
    Tu es un expert judiciaire en divorce. D'après les cas cohérents suivants, génère un résumé et des conseils juridiques pour mon client qui fait face à un probleme.
    **Question de l'utilisateur:** {query}
    **cas cohérents:** {context}
    **Donne moi ton expertise juridique détaillée pour gagner le procès:**
    """

    # Generate response
    response = llm_pipeline(prompt, max_new_tokens=900)
    return response[0]['generated_text']


config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Device set to use cpu


In [18]:
import shutil

# Supprimer tout le cache Hugging Face (modèles, tokenizers, etc.)
shutil.rmtree('/root/.cache/huggingface', ignore_errors=True)

print("✅ Cache Hugging Face supprimé")


✅ Cache Hugging Face supprimé


In [19]:
shutil.rmtree('/root/.cache/torch', ignore_errors=True)
print("✅ Cache PyTorch supprimé")


✅ Cache PyTorch supprimé


In [20]:
!df -h

Filesystem      Size  Used Avail Use% Mounted on
overlay         113G   56G   58G  50% /
tmpfs            64M     0   64M   0% /dev
shm             5.7G  4.0K  5.7G   1% /dev/shm
/dev/root       2.0G  1.2G  775M  61% /usr/sbin/docker-init
tmpfs           6.4G  1.2M  6.4G   1% /var/colab
/dev/sda1        92G   78G   15G  85% /kaggle/input
tmpfs           6.4G     0  6.4G   0% /proc/acpi
tmpfs           6.4G     0  6.4G   0% /proc/scsi
tmpfs           6.4G     0  6.4G   0% /sys/firmware
