# Chargement des fichiers sources

In [20]:
import os
from PyPDF2 import PdfReader

# Import Files 
def file_loader(folder):
    files = []
    for i, file_name in enumerate(os.listdir(folder)):
        file_path = os.path.join(folder, file_name)
        if os.path.isfile(file_path):
            extension = os.path.splitext(file_name)[1].lower()
            with open(file_path, 'r', encoding='latin-1') as f:
                files.append({
                    'name': file_name,
                    'path': file_path,
                    'extension': extension,
                    'content': f.read(),
                })
            print(f"Chargé : {files[i]['name']} ({len(files[i]['content'])} caractères) {files[i]['extension']})")
    return files

# Convert PDF to TXT
def pdf_to_txt(file, output_folder_path):
    """
    Convert a PDF file (already loaded as a dict from file_loader) to TXT and save it in output_folder.
    Returns the path to the TXT file.
    """
    txt_name = os.path.splitext(file['name'])[0] + '.txt'
    txt_path = os.path.join(output_folder_path, txt_name)
    if file['extension'] == '.pdf':
        if not os.path.isfile(txt_path):
            print(f"Conversion du PDF {file['name']} en TXT...")
            with open(file['path'], 'rb') as f:
                reader = PdfReader(f)
                text = ""
                for page in reader.pages:
                    text += page.extract_text() or ""
            with open(txt_path, 'w', encoding='utf-8') as f_txt:
                f_txt.write(text)
            print(f"Fichier TXT créé : {os.path.splitext(file['name'])[0]}.txt")
        else:
            print(f"Le fichier TXT {txt_name} existe déjà, pas de conversion nécessaire.")
        return txt_path
    print(f"Le fichier {file['name']} n'est pas un PDF, pas de conversion effectuée.")
    return None

sources_path = os.path.join(os.getcwd(), "sources")
transformed_sources_path = os.path.join(os.getcwd(), "transformed_sources")
files = file_loader(sources_path)
for file in files:
    if(file['extension'] == '.pdf'):
        pdf_to_txt(file, transformed_sources_path)

Chargé : Warhammer 4 - Livre de base.pdf (67641992 caractères) .pdf)
Conversion du PDF Warhammer 4 - Livre de base.pdf en TXT...
Fichier TXT créé : Warhammer 4 - Livre de base.txt


# Découpage des fichiers txt en chunks

In [45]:
import os
from langchain.text_splitter import TokenTextSplitter
import tiktoken
import json

# Paramètres des chunks
SOURCES_DIR = "transformed_sources"                             # Dossier contenant les fichiers texte à découper
CHUNK_SIZE = 1000                                                # Nombre de tokens par chunk
CHUNK_OVERLAP = 200                                              # Nombre de tokens de chevauchement
OUTPUT_DIR = f"chunks/CS_{CHUNK_SIZE}_CO_{CHUNK_OVERLAP}"       # Dossier de sortie pour les chunks

encoding = tiktoken.get_encoding("cl100k_base")     # Utiliser l'encodeur de tokens de OpenAI (compatible Mistral)

# Initialiser le découpeur de texte
splitter = TokenTextSplitter(
    chunk_size=CHUNK_SIZE,
    chunk_overlap=CHUNK_OVERLAP,
    encoding_name="cl100k_base",
)

def read_json(path):
    with open(path, "r", encoding="utf-8") as f:
        return json.load(f)

def write_json(path, config):
    with open(path, "w", encoding="utf-8") as f:
        json.dump(config, f, indent=4, ensure_ascii=False)

def chunk_files(new_files, old_files):
    i = 0
    for i, new_file in enumerate(new_files, start=1):
        print(f"Découpage de {new_file} en chunk de {CHUNK_SIZE} tokens...")
        chunk_file(os.path.join(SOURCES_DIR, new_file))

    print(f"{i} fichiers ont été découpés en chunks (dans '{OUTPUT_DIR}/').")
    new_param = {
        "CHUNK_SIZE": CHUNK_SIZE,
        "CHUNK_OVERLAP": CHUNK_OVERLAP,
        "SOURCE_DIR": SOURCES_DIR,
        "files": old_files + new_files,
    }
    write_json(os.path.join(OUTPUT_DIR, "param.json"), new_param)


def chunk_file(filepath):
    with open(filepath, "r", encoding="utf-8") as f:
        text = f.read()
    chunks = splitter.split_text(text)

    filename = os.path.splitext(os.path.basename(filepath))[0]
    for i, chunk in enumerate(chunks):
        with open(os.path.join(OUTPUT_DIR, f"{filename}_chunk_{i}.txt"), "w", encoding="utf-8") as out:
            out.write(chunk)

def chunk_cleaner(files):
    param = read_json(os.path.join(OUTPUT_DIR, "param.json"))

    p_chunk_size = param.get("CHUNK_SIZE")
    p_chunk_overlap = param.get("CHUNK_OVERLAP")
    p_sources_dir = param.get("SOURCE_DIR")
    p_files = param.get("files")

    if p_chunk_size == CHUNK_SIZE and p_chunk_overlap == CHUNK_OVERLAP and p_sources_dir == SOURCES_DIR:
        removed_files = list(set(p_files) - set(files))
        new_files = list(set(files) - set(p_files))
        if removed_files:
            print(f"Les fichiers suivants ne sont plus présents : {removed_files}")
            nb_cleaned = chunk_eraser(removed_files)
            print(f"{nb_cleaned} fichiers de chunks ont été supprimés (dans '{OUTPUT_DIR}'/).")
            param["files"] = [f for f in p_files if f not in removed_files]
            write_json(os.path.join(OUTPUT_DIR, "param.json"), param)
        if not new_files:
            print(f"Aucun nouveaux fichier n'a été détecté (dans '{SOURCES_DIR}/').")
        else:
            print(f"{len(new_files)} nouveaux fichiers ont été détectés : {new_files} (dans '{SOURCES_DIR}/').")
        return new_files, param["files"]

def chunk_eraser(diff):
    nb_cleaned = 0
    for file in diff:
        prefix = os.path.splitext(file)[0]
        for f in os.listdir(OUTPUT_DIR):
            if f.startswith(prefix) and f.endswith(".txt"):
                file_path = os.path.join(OUTPUT_DIR, f)
                if os.path.isfile(file_path):
                    os.remove(file_path)
                    nb_cleaned += 1
    return nb_cleaned

files = [f for f in os.listdir(SOURCES_DIR) if f.endswith(".txt")]
old_files = []
if os.path.isfile(os.path.join(OUTPUT_DIR, "param.json")):
    files, old_files = chunk_cleaner(files)
else:
    os.makedirs(OUTPUT_DIR)
chunk_files(files, old_files)







Découpage de Warhammer 4 - Livre de base.txt en chunk de 1000 tokens...
1 fichiers ont été découpés en chunks (dans 'chunks/CS_1000_CO_200/').


# Création de la base de données vectorielle


In [50]:
import os
import uuid
from sentence_transformers import SentenceTransformer
import chromadb

CHUNKS_NAME = "CS_1000_CO_200"
CHUNKS_DIR = f"chunks/{CHUNKS_NAME}"  # Dossier contenant les chunks
EMBEDDING_MODEL = "all-MiniLM-L6-v2"
VECTOR_DB_DIR = f"vector_db/{EMBEDDING_MODEL.replace('-', '_')}"

# Init Chroma
client = chromadb.PersistentClient(path=VECTOR_DB_DIR)
collection = client.get_or_create_collection(CHUNKS_NAME)

# Embedding model
model = SentenceTransformer(EMBEDDING_MODEL)

# Lecture des chunks
def load_chunks():
    chunks = []
    metadatas = []
    ids = []
    for file in os.listdir(CHUNKS_DIR):
        if file.endswith(".txt"):
            path = os.path.join(CHUNKS_DIR, file)
            with open(path, "r", encoding="utf-8") as f:
                content = f.read()
                chunks.append(content)
                metadatas.append({"filename": file})
                ids.append(str(uuid.uuid4()))  # identifiant unique
    return chunks, metadatas, ids

# Génération + insertion
def embed_and_store():
    print("Lecture des chunks...")
    texts, metadatas, ids = load_chunks()

    print("Génération des embeddings...")
    embeddings = model.encode(texts, show_progress_bar=True).tolist()

    print("Insertion dans la base vectorielle...")
    collection.add(
        documents=texts,
        embeddings=embeddings,
        metadatas=metadatas,
        ids=ids
    )

    print(f"{len(texts)} chunks ajoutés à la base vectorielle dans '{VECTOR_DB_DIR}'.")

embed_and_store()


Lecture des chunks...
Génération des embeddings...


Batches: 100%|██████████| 16/16 [00:15<00:00,  1.02it/s]


Insertion dans la base vectorielle...
508 chunks ajoutés à la base vectorielle dans 'vector_db/all_MiniLM_L6_v2'.


In [51]:

client = chromadb.PersistentClient(path=f"vector_db/{EMBEDDING_MODEL.replace('-', '_')}")
collections = client.list_collections()

# client.delete_collection("CS_800_CO_160")

for col in collections:
    print(f"Nom : {col.name}, ID : {col.id}")



Nom : CS_1000_CO_100, ID : 1f389081-73c5-4daf-b838-bf88aa24ab5f
Nom : CS_1000_CO_150, ID : 4ee75404-7ce2-49f3-be03-f455ef30b653
Nom : CS_800_CO_80, ID : 53fcc4cb-7fb3-4cc9-8b49-e0eea43e1188
Nom : CS_300_CO_60, ID : 9cae8747-44df-47d3-8054-851d6d71bad4
Nom : CS_300_CO_30, ID : bf0699be-251c-45f6-9656-0a7d9c38bac6
Nom : CS_800_CO_160, ID : c8e7ab35-faf7-4d49-bcab-a43898a80a8d
Nom : CS_500_CO_100, ID : d2e7a108-12b2-4a48-8f9f-e83c371e60f5
Nom : CS_1000_CO_200, ID : dd9a73c8-df80-4627-bd14-4d734ae5108f
Nom : CS_500_CO_50, ID : e21c2070-abd4-4b08-8f56-efa70d4e1a00


# Test du modèle

In [1]:
import chromadb
from sentence_transformers import SentenceTransformer

# Configuration
CHUNKS_NAME = "CS_1000_CO_200"
EMBEDDING_MODEL = "all-MiniLM-L6-v2"
VECTOR_DB_DIR = VECTOR_DB_DIR = f"vector_db/{EMBEDDING_MODEL.replace('-', '_')}"
TOP_K = 10  # nombre de résultats à retourner

# Initialisation du client et du modèle
client = chromadb.PersistentClient(path=VECTOR_DB_DIR)
collection = client.get_collection(CHUNKS_NAME)
model = SentenceTransformer(EMBEDDING_MODEL)

def ask_question():
    # question = input("Pose ta question : ").strip()
    # if not question:
    #     print("Tu dois poser une question.")
    #     return
    question = "Quel est la capitale de l'Empire ?"

    print("Recherche des passages les plus pertinents...\n")

    # Embedding de la question
    query_embedding = model.encode([question])[0].tolist()

    # Recherche vectorielle
    results = collection.query(
        query_embeddings=[query_embedding],
        n_results=TOP_K,
        include=["documents", "metadatas", "distances"]
    )

    # Filtrer les résultats pour exclure ceux avec une distance >= 1
    filtered_docs = []
    filtered_metas = []
    filtered_dists = []
    for doc, meta, dist in zip(results["documents"][0], results["metadatas"][0], results["distances"][0]):
        if dist < 1:
            filtered_docs.append(doc)
            filtered_metas.append(meta)
            filtered_dists.append(dist)



    # Affichage des résultats filtrés
    for i, (doc, meta, dist) in enumerate(zip(filtered_docs, filtered_metas, filtered_dists)):
        print(f"\n--- Résultat {i+1} ({meta['filename']}) - Similarité : {round((1 - dist) * 100, 2)}% ({round(dist, 3)}) ---")
        print(doc.strip()[:1000])

    filtered_results = {
        "documents": [filtered_docs],
        "metadatas": [filtered_metas],
        "distances": [filtered_dists]
    }
    return filtered_results, question
        
RESULTS, QUESTION = ask_question()


  from .autonotebook import tqdm as notebook_tqdm


Recherche des passages les plus pertinents...


--- Résultat 1 (Warhammer 4 - Livre de base_chunk_441.txt) - Similarité : 13.25% (0.867) ---
iquée principalement par 
les commerçants ou les préposés au péage qui ont accès à une 
grande quantité de l'argent des autres personnes. Les limailles 
d'or et d'argent sont ensuite fondues et vendues à des bijoutiers, 
à des faussaires ou à des receleurs. Les pièces découpées peuvent 
être détectées à l'aide de la Compétence Évaluer  ; plus il y a de 
pièces découpées, plus le Test est facile. 
LE CRITÈRE NULN
Altdorf est peut-être l'actuelle capitale du Reikland et de 
l'Empire, mais les normes monétaires sont établies dans la 
ville-état de Nuln au sud. Historiquement, Nuln était la 
capitale de l'Empire jusqu'à ce que la Maison Holswig-
Schliestein restaure le trône d'Altdorf il y a un siècle, et de 
nombreuses institutions impériales l'habitent encore. Le Nuln 
Standard ne régit que le poids et la métallurgie des pièces 
de monnaie, et non l

In [None]:
import requests

def get_llm_with_context_ollam(question, context, model="mistral"):
    context = "\n\n".join(RESULTS["documents"][0])
    prompt = f"""Tu es un assistant intelligent portant sur le jeu de role sur table Warhammer Fantasy.
    Ton role est de répondre aux questions concernant les règles du jeu ainsi que sur l'univers de Warhammer Fantasy.
    Tu dois répondre de manière concise et précise, en te basant sur les informations fournies dans le contexte ci-dessous.

    ### Contexte :

    {context}


    ### Question : 

    {question}

    ### Réponse :
    """

    response = requests.post(
        f"http://localhost:11434/api/generate",
        json={
            "model": model,
            "prompt": prompt,
            "stream": False,
        }
    )

    data = response.json()
    return data["response"]

question = QUESTION
context = "\n\n".join(RESULTS["documents"][0])
answer = get_llm_with_context_ollam(question, context)

print(f"\n--- Réponse de l'IA ---\n{answer.strip()}\n")


--- Réponse de l'IA ---
Altdorf est la capitale de l'Empire dans le scénario décrit.

