# Mise en place d'une solution locale pour traitement par un LLM 

Cette solution se base sur [ollama](https://ollama.com). Il est nécessaire d'installer l'application qui va aussi installer la ligne de commande *ollama*, puis la librairie Python du même nom via *pip*.

Dans l'exemple ci-dessous, nous allons utiliser l'un des modèles proposés : llama3.1. Il faut donc le télécharger localement sur votre machine via la commande suivante dans un terminal : *ollama pull llama3.1*

Pour l'encodage du sens des documents, il faut installer la librairie *sentence_transformers*.

In [12]:
#On importe les librairies utiles
# !pip install ollama faiss-gpu # if you use GPU
# !pip install ollama faiss-cpu # if you use CPU
import ollama
import os
import numpy as np
from tqdm.autonotebook import tqdm, trange
from sentence_transformers import SentenceTransformer
import faiss

Pour travailler uniquement en local, on a besoin d'un modèle de type *Sentence Transformer* pour plonger les documents. L'un des plus performants aujourd'hui est peut-être *bget-small-en* et il en existe spécialisés sur le français.

In [13]:
model =  SentenceTransformer("ggrn/bge-small-en")

Chargement du corpus, comme d'habitude mais en imposant une taille minimum aux documents/paragraphes.

In [14]:
with open(os.path.join("data", "alice.txt")) as f:    
    lines = [line.strip() for line in f.readlines()]

print(f"{len(lines)} lignes dans le fichier texte")

docs = []
s = ""
for l in lines:
    if (l != ""):
        s = s + " " + l
    else:
        if (s != ""):
            if len(s.split(" "))>5: # ici, il faut au moins 5 mots dans le paragraphe
                docs = docs + [s]
            s = ""

print(f"{len(docs)} paragraphes")

5777 lignes dans le fichier texte
916 paragraphes


In [15]:
build_embedding = False # mettre True la première fois pour calculer et sauvegarder les plongements

if build_embedding:
    
    steps = 200 # nombre de documents traités à la fois
    
    embeddings_full = np.zeros((len(docs), 384), dtype=np.float32) # 384 est la taille des plongements

    num_batches = math.floor(len(docs)/steps)
    for batch_num in tqdm(range(num_batches)):

        embeddings = model.encode(docs[batch_num*steps:(batch_num+1)*steps], show_progress_bar=True)
        embeddings_full[batch_num*steps:(batch_num+1)*steps] = embeddings
    
    embeddings = model.encode(docs[num_batches*steps:])
    embeddings_full[num_batches*steps:] = embeddings
    np.save("emb_alice", embeddings_full)
    
else:
    embeddings_full = np.load("emb_alice.npy")

In [16]:
# A noter que l'index pourrait être, lui aussi, sauvegardé pour éviter de ré-indexer à chaque fois

d = embeddings_full.shape[1]
print(d)
index = faiss.IndexFlatL2(d)
print(index.is_trained)
index.add(embeddings_full)

384
True


On construit une fonction qui prend en entrée la question posée puis réalise tout le traitement, à savoir :

- plongement de la question = vecteur encodant le sens de la question (*embedding*)
- recherche dans l'index en précisant le nombre de documents retournés (paramètre k)
- mis au point de l'invite (*prompt*) en utilisant les documents retrouvés et la question
- interrogation du LLM via *ollama*
- retourne la réponse

In [18]:
def poser_une_question(question):
    question_embedding = np.array([model.encode(question)])
    D, I = index.search(question_embedding, k=10)
    retrieved_docs = [docs[i] for i in I.tolist()[0]]
    #print(retrieved_docs) # à décommenter si vous voulez afficher les documents retrouvés
    prompt = f"""
            Context information is below.
            ---------------------
                {retrieved_docs}
            ---------------------
            Given the context information and not prior knowledge, answer the query.
                Query: {question}
            Answer:
            """
    messages = [
            {
                "role": "user", "content": prompt
            }
        ]
    response = ollama.chat(model='llama3.1', messages=
            messages
        )
    return response['message']['content']



In [19]:
question1 = "What unexpected animal the duchess comes out carrying in baby's clothes?"
question2 = "What is the usual fate reserved for the queen's enemies?"
question3 = "Who carries the crown on a cushion?"

print(poser_une_question(question1))

According to the provided context information, the Duchess comes out carrying a pig in baby's clothes. This is an unexpected and surprising sight, as one would not typically associate pigs with being dressed like babies!
