In [1]:
import os
import json
import random
from langchain.vectorstores import FAISS
from langchain_ollama.embeddings import OllamaEmbeddings
from langchain.chat_models import ChatOllama

# Définir le chemin de l'index FAISS
FAISS_PATH = "faiss_index"
OUTPUT_JSON = "dataset_llama3.json"

# Vérifier si FAISS existe
if not os.path.exists(f"{FAISS_PATH}/index.faiss"):
    raise FileNotFoundError("L'index FAISS n'existe pas !")

# Charger l'index FAISS
embedding_model = OllamaEmbeddings(model="nomic-embed-text")
vector_store = FAISS.load_local(FAISS_PATH, embeddings=embedding_model, allow_dangerous_deserialization=True)

# Initialiser le modèle Llama pour générer des réponses
chat_model = ChatOllama(model="llama3.2:latest")

# Extraire les documents stockés
documents = vector_store.similarity_search(" ", k=1000)  # Récupérer jusqu'à 1000 documents

# Générer un dataset de questions-réponses
dataset = []
for doc in documents:
    question = f"Que pouvez-vous me dire sur : {doc.page_content[:50]} ?"  # Générer une question basée sur le contenu
    response = chat_model.invoke(question).content  # Générer une réponse avec Llama3

    dataset.append({"question": question, "answer": response})

# Sauvegarder au format JSON
with open(OUTPUT_JSON, "w", encoding="utf-8") as f:
    json.dump(dataset, f, indent=4, ensure_ascii=False)

print(f"Dataset enregistré dans {OUTPUT_JSON} ✅")


  chat_model = ChatOllama(model="llama3.2:latest")


Dataset enregistré dans dataset_llama3.json ✅


In [2]:
import json
from datasets import load_dataset

# Charger le dataset JSON
dataset_path = "dataset_llama3.json"
dataset = load_dataset("json", data_files=dataset_path, split="train")

# Vérifier les premières lignes
print(dataset[0])


Generating train split: 0 examples [00:00, ? examples/s]

{'question': 'Que pouvez-vous me dire sur : #8\nGET /movies/_search\n{ "size": 0, \n  "aggs": {\n  ?', 'answer': 'Un requête Elasticsearch !\n\nLa requête que vous avez écrite est une requête de recherche avec un agregage (ou " aggregations" en anglais) sur les données de films (_movies).\n\nVoici une analyse détaillée de la requête :\n\n- `GET /movies/_search` : C\'est la méthode HTTP utilisée pour effectuer une recherche. Le `_search` est le nom de l\'index de vos données (dans ce cas, `movies`).\n\n- `{ "size": 0 }` : Cette partie définit la quantité de résultats à renvoyer. Dans cet exemple, on ne veut pas de résultats spécifiques mais plutôt une recherche plus générale. La valeur de `0` signifie que vous voulez toutes les documents qui correspondent aux conditions de recherche.\n\n- `"aggs": { ... }` : C\'est la partie des agregations qui permet de groupez et de résumez les données en fonction de certaines conditions. Dans ce cas, on utilise un agregage nommé `_count`.\n\n- `?` : 

In [3]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import LoraConfig, get_peft_model

MODEL_NAME = "meta-llama/Meta-Llama-3-8B"  # Prend un modèle optimisé
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

# Charger le modèle en mode 8 bits pour économiser la RAM
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME, 
    load_in_8bit=True, 
    device_map="auto"
)

# Configurer LoRA
lora_config = LoraConfig(
    r=8,  # Rank des matrices de projection
    lora_alpha=32,
    lora_dropout=0.1,
    target_modules=["q_proj", "v_proj"]  # Seules ces couches sont entraînées
)

# Appliquer LoRA au modèle
model = get_peft_model(model, lora_config)

# Afficher les paramètres entraînables
model.print_trainable_parameters()


OSError: You are trying to access a gated repo.
Make sure to have access to it at https://huggingface.co/meta-llama/Meta-Llama-3-8B.
401 Client Error. (Request ID: Root=1-67e67827-7d31a2243d9e5d9b53fce61b;d0b16656-9a89-4b1a-a3bf-eadb18d68523)

Cannot access gated repo for url https://huggingface.co/meta-llama/Meta-Llama-3-8B/resolve/main/config.json.
Access to model meta-llama/Meta-Llama-3-8B is restricted. You must have access to it and be authenticated to access it. Please log in.