# DU IA et Sant√© - Atelier NLP

Dans cet atelier, nous allons voir plusieurs techniques de NLP "moderne", principalement bas√©es sur les transformers et la librairie [huggingface](https://huggingface.co/).

Cet atelier est diviser en trois partie.

Dans la partie 1, nous allons nous int√©resser √† la partie encodage des transformers (BERT et cie.) afin de mieux comprendre les repr√©sentations internes de ceux-ci.

Dans la partie 2, nous interesserons √† la partie decodage des transformers (GPT et cie.) et aux m√©thodes de *prompt engineering* permettant d‚Äôam√©liorer leurs r√©sultats.

Enfin, dans la partie 3, nous allons voir comment m√©ler les deux approches pour construire des assistants personnels.

Mais, avant toute choses, il nous faut installer quelques librairies.

Pour cela, executez la cellule suivante:

In [None]:
!pip install accelerate flash-attention jupyter-scatter

Puis, nous allons importer quelques librairies et v√©rifier que nous acc√©dons bien au GPU (si vous en avez un).

Pour cela ex√©cutez la cellule ci-dessous.

In [None]:
# Librairies utilitaires
from tqdm.auto import tqdm
import gc
import re
import json

# Librairies math√©matiques
import numpy as np
import pandas as pd
import seaborn as sb
import matplotlib.pyplot as plt
%matplotlib inline

# Librairies ML
import torch
print("cuda available?", str(torch.cuda.is_available()))
device = torch.device("cpu")
if torch.cuda.is_available():
  device = torch.device("cuda:0")
  torch.cuda.set_device(device)
  print("cuda version:", torch.version.cuda)
  print("cuDNN enabled?", torch.backends.cudnn.enabled)
  print("cuDNN version:", torch.backends.cudnn.version())
  print("Device name? ", torch.cuda.get_device_name(torch.cuda.current_device()))

# Initialisation g√©n√©rateurs de nombres al√©atoires
SEED = 42
np.random.seed(SEED)
torch.random.manual_seed(SEED)

Si le r√©sultat est : `cuda available? False`, cela signifie que la librairie *torch* n‚Äôa pas pu acc√©der √† votre GPU.

Dans le cas contraire (ou si vous n‚Äôavez pas de GPU √† disposition), nous pouvons passer √† la suite.

remarque: si vous utiliser ce GoogleCollab, cliquez sur Ex√©cution > Modifier le type d‚Äôex√©cution et s√©l√©ctionnnez l‚Äôoption T4 GPU

## Partie 1 - Encodage et repr√©sentations internes

Dans cette partie, nous allons voir comment les transformers, plus sp√©cifiquement les mod√®les de type BERT, encodent et transforment les textes fournis pour les donner en entr√©e des mod√®les. Nous allons aussi √©tudier les repr√©sentations internes de ce mod√®les, leurs espaces latents, et comment manipuler ces r√©pr√©sentations.

Pour cela, nous allons nous baser sur le mod√®le [CamemBERT](https://camembert-model.fr/), entrain√© sur des textes en fran√ßais.

Si vous souhaitez essayer un autre mod√®le, voir: https://huggingface.co/models?pipeline_tag=sentence-similarity&sort=trending

In [None]:
from transformers import AutoModel, AutoTokenizer

bert_model_name = "Lajavaness/sentence-camembert-base"

bert_model = AutoModel.from_pretrained(bert_model_name, device_map=device, torch_dtype="auto")
bert_tokenizer = AutoTokenizer.from_pretrained(bert_model_name)

### 1.1 Tokenization

La premi√®re √©tape pour permettre √† un mod√®le de language de traiter du texte est la tokenisation.

Cette √©tape permet de d√©couper une phrase ou un mot en un ou plusieurs *token* connus du mod√®le (l‚Äôensemble des tokens connus par un mod√®le est appel√© son "vocabulaire").

Par exemple:

In [None]:
sentence = "fromage"
tokenized_sentence = bert_tokenizer.tokenize(sentence)
tokenized_sentence

Cependant, un mod√®le attend en entr√©e non pas une liste de tokens, mais la liste des id correspondant √† ces tokens dans son vocabulaire.

Ainsi, il nous faut encoder les tokens obtenus pr√©c√©demment en une liste d‚Äôentier utilisable par le mod√®le.

In [None]:
encoded_sentence = bert_tokenizer.encode(tokenized_sentence, is_split_into_words=True, return_tensors="pt")
encoded_sentence

Le r√©sultat ci-dessus pr√©sente la liste des ids correspondant aux tokens de notre phrase.

Nous pouvons cependant noter la pr√©cense de deux ids suppl√©mentaires (5 et 6), ceux-ci correspondants aux tokens de d√©but et fin de phrase.

Sentez-vous libre de modifier la phrase d‚Äôexemple avant de passer √† la suite.

### 1.2 Word embeddings et espaces latents

Maintenant que nous avons comment tokeniser et encoder un texte pour permettre √† un mod√®le de manipuler ce texte, nous allons voir les r√©prentations internes utilis√© par ces mod√®les pour manipuler ces textes.

Pour cela nous allons utiliser la classe *pipeline* de la librairie *transformers*.

In [None]:
from transformers import pipeline

Cette classe permet d‚Äôutiliser nos mod√®les sur divers probl√®mes.

Ici, nous allons l‚Äôutiliser pour effectuer de la *feature-extraction* et ainsi obtenir les repr√©sentations interne des phrases fournies √† notre mod√®le.

In [None]:
feature_extractor = pipeline('feature-extraction', model=bert_model, tokenizer=bert_tokenizer)

Par exemple:

In [None]:
example_embeddings = feature_extractor(sentence)
pd.DataFrame(example_embeddings[0])

Nous voyons ici, que notre mod√®le transforme chaque token de notre mot en vecteurs, ou *embeddings*, de taille:

In [None]:
len(example_embeddings[0][1])

Pour une meilleure manipulation, il est possible de faire la moyenne de ces vecteurs en un vecteur unique.

In [None]:
example_embedding = pd.DataFrame([np.array(example_embeddings[0]).mean(axis=0)])
example_embedding

La taille de ces vecteurs determine le nombre de dimensions de l‚Äôespace latent de notre mod√®le.

Chaque dimension correspond √† un "concept" utilis√© par le mod√®le pour diff√©rencier les *tokens* entre eux.

Chaque vecteur correspond alors √† un point dans cet espace, et chaque cellule d‚Äôun vecteur correspond √† la position, allant de -1 √† 1, du *token* associ√© sur
une des dimensions de l‚Äôespace latent du mod√®le.

Nous pouvons, entre autres, visualiser la position d‚Äôun *token* sur chaque dimension √† l‚Äôaide d‚Äôune *heatmap*.


In [None]:
# Repr√©sentation des 10 premi√®res valeurs pour plus de lisibilit√©
sb.heatmap(example_embedding.iloc[:,:10], vmin=-1.0, vmax=1.0, annot=True, fmt=".2f")


Il est aussi possible d‚Äôavoir un aper√ßu du vocabulaire d‚Äôun mod√®le dans son espace latent.

Pour cela, il nous faut dans un premier temps recup√©rer les embeddings de chaque token pr√©sent dans le vocabulaire d‚Äôun mod√®le.

In [None]:
# On r√©cup√®re le vocabulaire du mod√®le
vocab = [token.replace("‚ñÅ", "") for token in list(bert_tokenizer.get_vocab().keys())]

# On encodage le vocabulaire
embedded_vocab = feature_extractor(vocab, batch_size=32)

# On met le r√©sultat sous un format plus facile √† utiliser
df_embedded_vocab = pd.DataFrame([np.array(ev[0]).mean(axis=0) for ev in embedded_vocab], index=vocab)

# On affiche le r√©sultat
df_embedded_vocab

On peut alors r√©cup√©rer l‚Äôembedding d‚Äôun token specifique, par exemple:

In [None]:
df_embedded_vocab.loc[[sentence]]

Il nous faut maintenant repr√©senter ces tokens sur un plan en deux dimensions.

En d‚Äôautres termes, il nous faut r√©duire le nombre de dimensions de nos vecteurs
(ou *embeddings*) √† 2.

Pour cela, nous allons utiliser l‚Äôalgorithme *Principal Component Analysis* (PCA) disponible dans la librairie *scikit-learn*.

In [None]:
from sklearn.decomposition import PCA

Dans un premier temps, nous allons initialiser PCA et l‚Äôappliquer aux vecteurs correspondants au vocabulaire de notre mod√®le pour d√©terminer les deux dimensions √† utiliser.

In [None]:
# On initialise PCA
pca = PCA(n_components=2)

# On applique PCA √† nos embeddings
pca_embedded_vocab = pca.fit_transform(df_embedded_vocab)

# Et on mets le r√©sultats sous un format plus facilement manipulable
df_pca = pd.DataFrame(data = pca_embedded_vocab, columns = ['PC1', 'PC2'], index=vocab)

Nous pouvons maintenant g√©n√©rer un graphe de points en deux dimensions dans lequel chaque point correspond √† un token.

Pour cela nous utilisons les librairies *jscatter* et *ipywidgets* qui permettent de g√©n√©rer des graphes interactifs.

In [None]:
import jscatter
import ipywidgets

In [None]:
# Cr√©ation du graphe
scatter = jscatter.Scatter(data=df_pca, x="PC1", y="PC2")

# Cr√©ation du module interactif
output = ipywidgets.Output()

# D√©finition d'une fonction √† appeler lors de la s√©lection de points
@output.capture(clear_output=True)
def selection_change_handler(change):
  display(df_pca.iloc[change.new])

# Connection de l'action de s√©lection de points √† la fonction
scatter.widget.observe(selection_change_handler, names=["selection"])

# Affichage du graphe
ipywidgets.HBox([scatter.show(), output])

Pour d‚Äôautres exemples de visualisation d‚Äôespace latent, voir:

https://projector.tensorflow.org/

https://helboukkouri.github.io/embedding-visualization/

Chaque point d‚Äôun espace latent √©tant associ√© √† un token et positionn√© les uns par rapport aux autres, il est donc th√©oriquement possible de calculer une "distance s√©mantique" entre deux tokens.

Pour cela, nous allons utiliser la [similarit√© cosinus](https://fr.wikipedia.org/wiki/Similarit%C3%A9_cosinus) disponible dans la librairie *scikit-learn*.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

La similarit√© cosinus se base sur l‚Äôangle form√© par deux vecteurs de taille $n$ et fourni un score entre -1 et 1.

C‚Äôest une similarit√© g√©n√©ralement employ√©e en TAL.

Nous allons donc l‚Äôemployer ici pour trier le vocabulaire de notre mod√®le et trouver les tokens "proches" d‚Äôun embedding donn√©.

In [None]:
### D√©finition de la fonction de tri
def sort_vocab_by_similarity(embedding):
  # On calcule la similarite entre l'embedding fourni en entree
  # et les embeddings du vocabulaire de notre mod√®le
  cos_sim = cosine_similarity(embedding, df_embedded_vocab)

  # On met les r√©sultats sous un format plus facilement manipulable
  df = pd.DataFrame(cos_sim[0], columns=["similarity"], index=vocab)

  # On tri par similarite avec l'embedding fourni en entree
  df = df.sort_values(by=['similarity'], ascending=False)

  # On retourne le r√©sultat
  return df

Par exemple:

In [None]:
sort_vocab_by_similarity(df_embedded_vocab.loc[[sentence]])

C‚Äôest cette m√©thode qui est employ√© sur des sites tels que:

https://cemantix.certitudes.org/

https://degaucheoudedroite.delemazure.fr/

Enfin, il est aussi possible d‚Äôeffectuer des op√©rations math√©matiques sur nos vecteurs.

Nous avons d√©j√† vu que nous pouvons faire une moyenne de plusieurs *embeddings*, voyons maintenant ce qu‚Äôil se passe lorsque nous additionnons et soustrayons des *embeddings* entre eux.

In [None]:
mot1 = feature_extractor("France")
mot1 = pd.DataFrame([np.array(mot1[0]).mean(axis=0)])
mot1

In [None]:
mot2 = feature_extractor("Camembert")
mot2 = pd.DataFrame([np.array(mot2[0]).mean(axis=0)])
mot2

In [None]:
mot3 = feature_extractor("Mozzarella")
mot3 = pd.DataFrame([np.array(mot3[0]).mean(axis=0)])
mot3

In [None]:
mot1 - mot2 + mot3

In [None]:
sort_vocab_by_similarity(mot1 - mot2 + mot3)[:10]

C‚Äôest ce principe d‚Äôaddition de "concept" qui est utilis√©, par exemple, dans: https://neal.fun/infinite-craft/

Pour d‚Äôautres exemples employant d‚Äôautres mod√®les, voir: http://nlp.polytechnique.fr/word2vec

Avant de passer √† la suite, nous allons lib√©rer des √©l√©ments de la m√©moire de notre session.

In [None]:
del embedded_vocab
del df_embedded_vocab
del vocab
del scatter
gc.collect()

Et pour en savoir plus sur le fonctionnement des embeddings, voir: https://jalammar.github.io/illustrated-word2vec/

### 1.3 Sauvegarde et recherche s√©mantique de documents

Dans la section pr√©c√©dente, nous avons vu comment transformer des mots sous forme de vecteurs et comment manipuler ces vecteurs.

Nous allons maintenant voir comment utiliser ces m√©thodes pour manipuler des phrases et des textes plus complexes.

De la m√™me mani√®re qu‚Äôun mot, une phrase va √™tre d√©coup√© en *tokens* et chaque *token* transform√© en *embedding*.

In [None]:
pd.DataFrame(feature_extractor("J'aime le fromage")[0])

Bien qu‚Äôil existe plusieurs approches possibles, la m√©thode g√©n√©ralement pour transformer une phrase, un texte ou un document en un vecteur est simplement de faire la moyenne des *embeddings*.

Par exemple:

In [None]:
example1 = pd.DataFrame([feature_extractor("J'aime le fromage",return_tensors = "pt")[0].numpy().mean(axis=0)])
example1

In [None]:
example2 = pd.DataFrame([feature_extractor("Je d√©teste le fromage",return_tensors = "pt")[0].numpy().mean(axis=0)])
example2

In [None]:
example3 = pd.DataFrame([feature_extractor("Le fromage, c'est vraiment bon", return_tensors = "pt")[0].numpy().mean(axis=0)])
example3

In [None]:
example4 = pd.DataFrame([feature_extractor("Le soleil brille sur la ville de Lyon aujourd'hui", return_tensors = "pt")[0].numpy().mean(axis=0)])
example4

Et de la m√™me mani√®re que pour les mots, il est possible de calculer une "distance s√©mantique" entre diff√©rents textes.

In [None]:
cosine_similarity(example1, example2)

In [None]:
cosine_similarity(example1, example3)

In [None]:
cosine_similarity(example1, example4)

En se basant sur ce principe, il est alors possible de stocker des textes et leurs *embeddings* afin de les retrouver en fonction de leur "similarit√©" avec une requ√™te donn√©es.

Pour cela, il nous faut d‚Äôabord cr√©er une fonction permettant de stocker des textes et leurs *embeddings*.

In [None]:
# On cree une liste d'embeddings vide
bdd_embeddings = pd.DataFrame(columns=example1.columns)

# On fait de meme pour stocker les textes
bdd_texts = []

def store_text_embeddings(text):
  # Au cas ou, on test si le texte n'existe pas deja
  if not text in bdd_texts:
    # On genere les embeddings
    embeddings = feature_extractor(text, return_tensors = "pt")[0].numpy().mean(axis=0)
    # On ajoute les embeddings a notre liste d'embeddings
    bdd_embeddings.loc[len(bdd_embeddings.index)] = embeddings
    # On ajoute notre texte a notre liste de textes
    bdd_texts.append(text)

On peut maintenant utiliser cette fonction pour stocker en m√©moire diff√©rents textes.

Par exemple:

In [None]:
texts = [
"Camembert est une appellation g√©n√©rique qui d√©signe g√©n√©ralement un fromage √† p√¢te molle et √† cro√ªte fleurie. Commercialement, cette appellation d'origine normande ne fait l'objet d'aucune protection et se voit utilis√©e pour des fromages n'ayant parfois que peu de rapport avec le camembert originel. Dans certaines r√©gions de France, le camembert est appel√© ¬´ claquos ¬ª, ¬´ clacos ¬ª, ¬´ calendos ¬ª.",
"Le bleu d‚ÄôAuvergne est un fromage √† p√¢te persill√©e fabriqu√© en France dans le Massif central √† partir de lait de vache. Son persillage allant du bleu au bleu noir. Son appellation d'origine b√©n√©ficie de protections depuis 1975.",
"La tomme de Savoie est un fromage produit en France dans la r√©gion alpine de Savoie, regroupant les d√©partements de la Savoie et de la Haute-Savoie. Son appellation est prot√©g√©e par une indication g√©ographique prot√©g√©e.",
"Le munster ou munster-g√©rom√© (ou encore Minschterk√§s en francique lorrain ou Minschterkaas en alsacien) est un fromage √† p√¢te molle fabriqu√© √† partir de lait de vache dans l'Est de la France. Son appellation est prot√©g√©e nationalement depuis 1969 par une appellation d'origine contr√¥l√©e (AOC) et dans l'ensemble des pays de l'Union europ√©enne depuis 1996 par une appellation d'origine prot√©g√©e (AOP).",
"Les bries sont une famille de fromages √† p√¢te molle √† cro√ªte fleurie, originaire de la r√©gion fran√ßaise de Brie.",
"L‚Äôemmentaler ou emmental est un fromage d'origine suisse √† p√¢te dure dont le nom provient de la vall√©e de l'Emme (en allemand, Emmental), une r√©gion √† l'est du canton de Berne.",
"Beaufort (/bof…îÀê Å/) est l'appellation d'origine d'un fromage au lait cru de vache, √† p√¢te press√©e cuite, √©labor√© en Savoie en France. La production du lait et sa transformation s'effectuent dans une aire comprenant la r√©gion du Beaufortain d'o√π il tire son nom. Il est form√© en meule √† talon l√©g√®rement concave. L'appellation beaufort est pr√©serv√©e commercialement via une Appellation d'origine prot√©g√©e.",
"Le gorgonzola est l'appellation d'origine d'un fromage traditionnel √† base de lait de vache, √† p√¢te persill√©e, fabriqu√© dans les r√©gions de Lombardie et du Pi√©mont.",
"Le Valen√ßay est une appellation d'origine d√©signant un fromage de ch√®vre au lait cru du Berry, et de la r√©gion Centre-Val de Loire, en France. Elle reprend le nom de la commune homonyme.",
"Le saint-marcellin IGP est un fromage fran√ßais du Dauphin√©. Son Indication g√©ographique prot√©g√©e (IGP) date de la fin 2013, elle s'√©tend sur 274 communes en Is√®re, dans la Dr√¥me et en Savoie.",
"Reblochon ou reblochon de Savoie est une appellation d'origine d√©signant un fromage fran√ßais produit principalement en Haute-Savoie et dans quelques communes de Savoie. Cette appellation est originaire du massif des Bornes et des Aravis, principalement la vall√©e de Th√¥nes, et s'est √©tendue au val d'Arly et au massif des Bauges.",
"Comt√© est l'appellation d'origine d'un fromage fran√ßais transform√© principalement en Franche-Comt√© et b√©n√©ficiant d'une AOC depuis 1958 et d'une AOP depuis 1996. Son aire de production s'√©tend dans les d√©partements du Jura, du Doubs, et de l'est de l'Ain. Elle englobe √©galement une commune de Haute-Savoie et quelques-unes de Sa√¥ne-et-Loire."
]

for text in texts:
  store_text_embeddings(text)

Si on affiche nos listes de textes et d‚Äô*embeddings*, on voit que les textes et leurs *embeddings* de la cellule pr√©c√©dente ont bien √©t√© enregistr√©s.

In [None]:
bdd_texts

In [None]:
bdd_embeddings

Ensuite, il nous faut cr√©er une fonction permettant de rechercher dans ces *embeddings* pour trouver les documents stock√©s les plus "similaires" √† une requ√™te.

In [None]:
def find_embedded_texts(query, nresults=5):
  # On genere l'embedding correspondant a la requete
  query_embeddings = pd.DataFrame([feature_extractor(query, return_tensors = "pt")[0].numpy().mean(axis=0)])

  # On calcule la distance entre l'embedding de la requete et les embeddings stockes dans notre liste
  df = pd.DataFrame(cosine_similarity(query_embeddings, bdd_embeddings)[0], columns=["similarity"])

  # On tri par similarite
  df = df.sort_values(by=['similarity'], ascending=False)

  # On recupere les indices des premiers resultats
  indexes = df.iloc[:nresults].index

  # On recupere les textes correspondants
  results = []
  for i in indexes:
    results.append({"doc": bdd_texts[i], "score": df.loc[i]["similarity"]})

  # On retourne les textes et leurs scores de similarite
  return results

√Ä l‚Äôaide de cette fonction, nous pouvons maintenant rechercher parmis les textes stock√©es ceux qui correspondent √† une requ√™te.

Par exemple:

In [None]:
query = """
Fromage de Savoie
"""

find_embedded_texts(query)

Ici, pour un objectif p√©dagogique, nous avons cod√© nous m√™me le fonctionnement d‚Äôune base de donn√©es utilisant les principe des *embeddings*.

Il existe cependant des librairies python, telle que [chroma](https://www.trychroma.com/), qui permettent de g√©rer plus efficacement de telles bases de donn√©es.

## Partie 2 - Large mod√®les de langage et g√©n√©ration de texte

Dans cette partie, nous allons aborder l‚Äôaspect "decodage" des transformers.

Cet aspect est g√©n√©ralement employ√© pour g√©n√©rer du texte et est la base des large mod√®les de langage (LLM) tels que GPT-4, Mistral, ou encore LLaMA.

Pour cet atelier, nous allons utiliser le mod√®le [Phi-3](https://azure.microsoft.com/en-us/blog/introducing-phi-3-redefining-whats-possible-with-slms/). Un mod√®le propos√© par Microsoft, qui a l‚Äôavantage d‚Äô√™tre assez l√©ger et sous licence libre (MIT).

Afin de charger ce mod√®les, nous allons utiliser la classe *AutoModelForCausalLM* de la librairie *transformers* comme suit.

In [None]:
from transformers import AutoModelForCausalLM

In [None]:
llm_model_name = "microsoft/Phi-3-mini-128k-instruct"

llm_model = AutoModelForCausalLM.from_pretrained(llm_model_name, device_map=device, torch_dtype="auto", trust_remote_code=True)
llm_tokenizer = AutoTokenizer.from_pretrained(llm_model_name)


Si vous souhaitez utiliser un autre mod√®le, voir: https://huggingface.co/models?pipeline_tag=text-generation.

### 2.1 Compl√©tion de texte

L‚Äôobjectif de base d‚Äôun mod√®le de langage est la compl√©tion de texte.

En d‚Äôautres termes, pour un texte donn√©es, un llm va chercher √† d√©terminer le *token* pouvant le plus plausiblement faire suite √† ce texte.

Pour ce faire, nous allons cr√©er un nouveau pipeline permettant de g√©r√©rer du texte √† partir de notre llm.

In [None]:
text_generator = pipeline(
    "text-generation",
    model=llm_model,
    tokenizer=llm_tokenizer,
)

Nous alors lui demander de compl√©ter un texte.

Par exemple:

In [None]:
prompt = "Le fromage c'est vraiment bon, surtout le"

Pour ce faire, notre llm va d√©composer la phrase en *token* puis en *embeddings* comme vu en Partie 1.

Puis il va d√©terminer, parmis les *tokens* de son vocabulaire, lesquels sont les plus "plausible" pour faire suite aux tokens composant le texte fourni en entr√©e.

In [None]:
output = text_generator(prompt, max_new_tokens = 1, return_full_text = False, do_sample = True, num_return_sequences=5)
print(output)

Parmis ces *tokens*, notre llm va prend le plus "plausible", puis l‚Äôajouter aux texte fournit en entr√©e pour d√©terminer le *token* suivant.

Ainsi de suite, jusqu‚Äô√† atteindre la longueur souhait√©e.

In [None]:
output = text_generator(prompt, max_new_tokens = 5, return_full_text = False)
print(output[0]["generated_text"])

Il est aussi possible de pousser le llm √† s√©lectioner des *tokens* qui seraient moins "plausible", de mani√®re plus al√©atoire.

Pour cela, il suffit de lui fournir une "temperature". Plus cette "temperature" est √©lev√©e, plus le llm cherchera des *tokens* moins plausible.

In [None]:
output = text_generator(prompt, max_new_tokens= 5, return_full_text = False, do_sample=True, temperature = float(SEED) / 50.0, num_return_sequences=3)
print(output)

### 2.2 Agents Conversationnels (ChatBot)

La compl√©tion de texte que nous avons vu pr√©c√©demment est la base des agents conversationnels, ou ChatBot, tels que [ChatGPT](https://chatgpt.com/), [Copilot](https://www.bing.com/chat?q=Microsoft+Copilot&FORM=hpcodx) ou encore [ChatCGT](https://chatcgt.fr/).

N√©anmoins, afin d‚Äôoptimiser cette compl√©tion dans le cadre d‚Äôun ChatBot, les mod√®les employ√©s sont entrain√© sur des textes tourn√©s sous forme de conversations ou "instructions".

C‚Äôest le cas du mod√®le que nous utilisons. D‚Äôailleurs, si vous augmentez la taille des textes g√©n√©r√©s dans l‚Äôexample pr√©c√©dent, notre llm devrait g√©n√©rer une conversation.

Afin d‚Äôutiliser notre llm dans un ChatBot, il nous donc saisir notre requ√™te en pr√©cisant que c‚Äôest le texte saisie par l‚Äôutilisateur.

Par exemple:

In [None]:
query = "J'aimerais manger un fromage de Savoie, que me conseille tu ?"

messages = [
    {"role": "user", "content": query},
]

In [None]:
output = text_generator(messages, return_full_text = False, max_new_tokens = 500)
print(output[0]['generated_text'])

Cependant, notre llm ne garde pas en m√©moire le contexte de la conversation et les questions d√©j√† pos√©es.

Pour poursuivre cette conversation, il nous faut donc ajouter les r√©ponses du ChatBot aux messages pr√©-existant avant de poser une nouvelle question.

Par exemple:

In [None]:
messages.append({"role": "assistant", "content": output[0]['generated_text']})
messages.append({"role": "user", "content": "Je cherche un fromage plus insolite"})
messages

In [None]:
output = text_generator(messages, return_full_text = False, max_new_tokens = 500)
print(output[0]['generated_text'])

√Ä partir de l√†, nous avons les √©l√©ments pour cr√©er un ChatBot minimal.

Tout d‚Äôabord, nous allons cr√©er un message qui va initialiser le ChatBot avec ce qui est attendu de lui. Ce message initial est aussi appel√© *pre-prompt*.


In [None]:
pre_prompt = """
Tu es un ChatBot sp√©cialis√© en fromages.
L'utilisateur est un amateur de fromages de longue date et il connait lui aussi de nombreux fromages.
Ton objectif est de lui faire d√©couvrir des fromages peu connu et insolites en fonction de ses demandes.
Acceuille le avec un message de bienvenu et en te presentant.
"""

messages = [
    {
        "role": "user",
        "content": pre_prompt
    }
]

Ensuite, nous allons d√©finir les param√®tres g√©n√©raux √† utiliser lors de la g√©n√©ration de textes par le ChatBot.

In [None]:
generation_args = {
    "max_new_tokens": 500,
    "return_full_text": False,
    "do_sample": False,
    # pour utiliser le param√®tre "temperature", passer le param√®tre "do_sample" √† True
    #"temperature": float(SEED)
}

Et enfin nous pouvons lancer une boucle qui g√©n√©re un message du ChatBot, attends un message de l‚Äôutilisateur et compl√®te automatiquement la conversation.

La conversation s‚Äôarr√™te lorsque l‚Äôutilisateur saisi le mot "fin".

In [None]:
usr_input = ""
while usr_input != "fin":
  # On genere un message du ChatBot
  output = text_generator(messages, **generation_args)

  # On affiche le message
  print("\nChatBot:", output[0]['generated_text'], "\n")

  # On attend l'entree de l'utilisateur
  usr_input = input("Utilisateur:")

  # On met √† jour la conversation
  messages.append({"role": "assistant", "content": output[0]['generated_text']})
  messages.append({"role": "user", "content": usr_input})


### 2.3 Techniques d‚Äôinstructions (Prompt Engineering)

Avant de cl√¥re cette partie, nous allons aborder diff√©rentes techniques, issu du domaine du *Prompt Engineering*, permettant d‚Äôoptimiser et maximiser la qualit√© des r√©ponses fournie par un agent conversationnel.

Parmis ces techniques, une tr√®s simple a employ√© est celle de la cha√Æne de pens√©e, ou *Chain of Thoughts* (CoT) en anglais.

Pour utiliser cette technique, il suffit d‚Äôajouter "Pensons √©tape par √©tape" (*Let's think step by step*) √† notre requ√™te.

Cela forcera la probabilit√© que le ChatBot g√©n√®re un texte avec plusieurs √©tapes, donc un contenu plus d√©taill√© et donc une r√©ponse de meilleure qualit√©.

Pour en savoir plus, voir: https://www.promptingguide.ai/techniques/cot

In [None]:
messages = [
    {
        "role": "user",
        "content":
        """
          Pensons √©tape par √©tape.
        """ + query
     }
]

In [None]:
output = text_generator(messages, **generation_args)
print(output[0]['generated_text'])

Cependant, la plupart des llm sont maintenant entrain√© pour utiliser automatiquement du CoT lors de la g√©n√©ration de leurs r√©ponses.

Une autre technique possible, d√©riv√©e de CoT, est l‚Äôarbre de pens√©es, ou *Tree of Thoughts* (ToT) en anglais.

Cette technique reprends le principe de CoT, mais d√©taillant √©tape par √©tape des r√©ponses selon diff√©rents point de vue et en comparant ces r√©ponses entre elles.

Pour en savoir plus, voir: https://www.promptingguide.ai/techniques/tot

In [None]:
messages = [
    {
        "role": "user",
        "content":
        """
          Imagine que trois experts diff√©rents d√©battent pour r√©pondre √† cette question.
          Chaque expert √©crit une √©tape de sa r√©flexion et la partage avec le groupe.
          Puis tous les experts continue ainsi de suite, √©tape par √©tape.
          Si un expert r√©alise qu'il s'est tromp√© √† un moment de sa r√©flexion, il sort de la discussion.
          La question est:
        """ + query
     }
]

In [None]:
generation_args["max_new_tokens"] = 5000

In [None]:
output = text_generator(messages, **generation_args)
print(output[0]['generated_text'])

Enfin, il est aussi possible de demander au ChatBot de g√©n√©rer des connaissances g√©n√©rales en lien avec la question pos√©e.

Cette technique, appell√©e *Generated Knowledge Prompting*, guide alors la g√©n√©ration de texte √† l‚Äôaide de ces connaissances fourni explicitement.

Pour en savoir plus, voir: https://www.promptingguide.ai/techniques/knowledge

In [None]:
messages = [
    {
        "role": "user",
        "content":
        """
          Avant de r√©pondre √† la question, √©crit les diff√©rentes connaissances que tu as sur le sujet.
          La question est:
        """ + query
     }
]

In [None]:
output = text_generator(messages, **generation_args)
print(output[0]['generated_text'])

Bien entendu, ces diff√©rentes techniques ne sont pas mutuellement exclusives et pouvent se combiner entre elles.

Par exemple:

In [None]:
messages = [
    {
        "role": "user",
        "content":
        """
          Imagine que trois experts diff√©rents d√©battent pour r√©pondre √† cette question.
          Chaque expert a des connaissances diff√©rentes des autres sur le sujet.
          Avant de d√©battre, chaque expert √©nonce ses connaissances sur le sujet.
          Ensuite, chaque expert √©crit une √©tape de sa r√©flexion et la partage avec le groupe.
          Chaque expert peut r√©futer les arguments d'un autre expert.
          Si un expert r√©alise qu'il s'est tromp√© √† un moment de sa r√©flexion, il sort de la discussion.
          Ainsi de suite jusqu'√† arriver √† un consensus apportant une r√©ponse √† la question.
          La question est: "Je cherche un fromage de Savoie, que me conseille-tu?"
        """
     }
]

In [None]:
output = text_generator(messages, **generation_args)
print(output[0]['generated_text'])

De nombreuses autres techniques de *Prompt Engineering* existent, telles que [Self-Consistency](https://www.promptingguide.ai/techniques/consistency) ou [ReAct](https://www.promptingguide.ai/techniques/react), et bien d‚Äôautres vont surement voir le jour dans les prochaines ann√©es.

L‚Äôobjectif √©tant alors de trouver les bonnes formulations pour r√©pondre le plus efficacement √† telle ou telle demande. Des techniques comme l‚Äô[APE](https://www.promptingguide.ai/techniques/ape) pour *Automatic Prompt Engineer* propose m√™me de g√©n√©rer ces formulations via un mod√®le de langage.

Pour aller plus loin sur le sujet, voir: https://www.promptingguide.ai/

## Partie 3 - Combiner encodage et d√©codage avec les LLM Agents

Pour conclure cet atelier, nous allons voir dans cette partie comment cr√©er un assistant personnel minimal en combinant les diff√©rentes techniques et m√©thodes vues dans les partie pr√©c√©dentes.

### 3.1 Generation augment√©e par requ√™tes (RAG)

La g√©neration augment√©e par requ√™tes, ou *Retrieval Augmented Generation* (RAG) en anglais, est une technique de *Prompt Engineering* consistant √† compl√©ter une question avec des informations v√©rifi√©es et stock√©es en base.

Nous pouvons, par exemple, r√©utiliser la fonction cr√©√©e en partie 1 afin de retrouver des documents correspondants √† notre requ√™te.

In [None]:
docs = find_embedded_texts(query)
docs

Ensuite, il nous faut cr√©er une nouvelle requ√™te compl√©tant la premi√®re avec les informations retrouv√©es et indiquant √† notre llm d‚Äôutiliser ses informations.

In [None]:
usr_input = "Pour r√©pondre √† la question base toi sur les informations suivantes, en indiquant les informations utilis√©es et comment:"

for i, doc in enumerate(docs):
  usr_input += "\n\nInformation " + str(i) + ": \"" + doc["doc"] + "\""

usr_input += "\n\nla question est: \"" + query + "\""

print(usr_input)

Nous pouvons alors fournir cette nouvelle requ√™te √† notre llm, qui devrait g√©n√©rer une r√©ponse bas√©e sur les informations que nous avons retrouv√©es en base.

In [None]:
messages = [
    {
        "role": "user",
        "content": usr_input
     }
]

output = text_generator(messages, return_full_text = False, max_new_tokens=500)
print(output[0]['generated_text'])

Pour en savoir plus sur le RAG, voir: https://www.promptingguide.ai/techniques/rag

### 3.2 Utilisation d‚Äôoutils

Il est aussi possible d‚Äôindiquer au llm les fonctions, aussi appell√© outils ou *tools*, qu‚Äôil peut utiliser pour r√©pondre aux requ√™tes d‚Äôun utilisateur, cela afin d‚Äôautomatiser leur utilisation.

Pour cela, il nous faut lui fournir un *prompt* avec les instructions n√©cessaires.

Par exemple:

In [None]:
messages = [
    {
        "role": "user",
        "content":
          """
            Pour r√©pondre √† la question, utilise la fonction "find_embedded_texts" et base toi sur ses r√©sultats en indiquant quelle information tu as utilis√© et comment.

            Pour utiliser cette fonction, √©crit uniquement et simplement son nom et ses arguments, comme suit:

            {"name": "find_embedded_texts", "args": {"query": "question de l'utilisateur"}}

            La question est:
          """ + query
    }
]

Ce *prompt* permet d‚Äôaiguiller la g√©n√©ration de texte afin que le llm √©crive la fonction √† appeler.

In [None]:
generated_text = text_generator(messages, return_full_text = False, max_new_tokens=500)[0]['generated_text']
print(generated_text)

Il nous faut alors r√©cup√©rer les √©l√©ments pour appeler la fonction.

In [None]:
function_called = json.loads(re.findall(r'\{\"name\": \"find_embedded_texts\", \"args\": \{.+\}\}', generated_text)[0])
function_called

Pour ensuite appeler la fonction avec les arguments g√©n√©r√©s par le llm.

In [None]:
docs = find_embedded_texts(function_called["args"]["query"])
docs

Puis compl√©ter la discussion avec les r√©sultats de la recherche.

In [None]:
system_text = "R√©sultats de la fonction:"

for i, doc in enumerate(docs):
  system_text += "\n\nInformation " + str(i) + ": \"" + doc["doc"] + "\""

messages.append({"role": "assistant", "content": generated_text})
messages.append({"role": "user", "content": system_text})

messages

Pour enfin demander au llm de nous fournir une r√©ponse bas√©es sur les r√©sultats retrouv√©.

In [None]:
generated_text = text_generator(messages, return_full_text = False, max_new_tokens=500)[0]['generated_text']
print(generated_text)

Dans l‚Äôexemple pr√©c√©dent, nous avons demand√© au llm de rechercher des informations correspondants √† une requ√™te.

Mais, de mani√®re similaire, il est tout √† fait possible de lui demander d‚Äôenregistrer de nouvelles informations.

Par exemple:

In [None]:
messages = [
    {
        "role": "user",
        "content":
          """
            Pour enregistrer des informations, utilise la fonction "store_text_embeddings".

            Pour utiliser cette fonction, √©crit simplement son nom et ses arguments, comme suit:

            {"name": "store_text_embeddings", "args": {"text": "information √† enregistrer"}}

            Enregistre l'information suivante: "La mozzarella ou mozzarelle est un fromage √† p√¢te fil√©e traditionnel de la cuisine italienne, √† base de lait de vache ou de bufflonne. Deux de ces fromages b√©n√©ficient d'une appellation d'origine prot√©g√©e, la mozzarella di bufala campana produite en Campanie avec du lait de bufflonne, et la mozzarella di Gioia del Colle produite dans les Pouilles avec du lait de vache"
          """
    }
]

In [None]:
generated_text = text_generator(messages, return_full_text = False, max_new_tokens=500)[0]['generated_text']
print(generated_text)

In [None]:
function_called = json.loads(re.findall(r'\{\"name\": \"store_text_embeddings\", \"args\": \{.+\}\}', generated_text)[0])
store_text_embeddings(function_called["args"]["text"])

In [None]:
bdd_texts

In [None]:
bdd_embeddings

Nous pouvons demander √† notre llm de g√©n√©rer des fiches th√©matiques √† partir d‚Äôune information donn√©es et de faire les appels correspondants.

Par exemple:

In [None]:
messages = [
    {
        "role": "user",
        "content":
          """
            Pour enregistrer des informations, utilise la fonction "store_text_embeddings".

            Pour utiliser cette fonction, √©crit simplement son nom et ses arguments, comme suit:

            {"name": "store_text_embeddings", "args": {"text": "information √† enregistrer"}}

            G√©n√®re et enregistre 5 fiches, et seulement 5, de l'information suivante, chaque fiche portant sur un √©l√©ment particulier:

            "Le roquefort ([ Å…îk(…ô)f…îÀê Å]), ou r√≤caf√≤rt en occitan rouergat, est un fromage √† p√¢te persill√©e √©labor√© dans le sud de la France exclusivement avec des laits crus de brebis.
            La meilleure p√©riode de consommation de ce fromage fran√ßais s'√©tend de janvier √† ao√ªt.
            Ce fromage est mentionn√© express√©ment pour la premi√®re fois au xie si√®cle2, ce qui en fait un symbole historique de la r√©gion des causses et vall√©es de l'Aveyron. Cette r√©gion rurale, √©tablie sur un terroir parfois tr√®s difficile √† exploiter, en a fait sa richesse financi√®re et culturelle.
            De r√©putation internationale, il est associ√© √† l'excellence de l'agriculture fran√ßaise et √† sa gastronomie. Il est m√™me devenu l'embl√®me de la r√©sistance des producteurs et transformateurs de fromage au lait cru contre les demandes r√©it√©r√©es de la g√©n√©ralisation de la pasteurisation du lait[r√©f. souhait√©e]. Il existe aujourd'hui sous forme industrielle et laiti√®re, sa forme fermi√®re subsiste toutefois encore mais marginalement.
            En 1925, en France, ¬´ roquefort ¬ª est la premi√®re appellation d'origine dont l'emploi, du moins dans sa d√©signation d'un fromage vou√© au commerce, est encadr√© administrativement.
            Depuis 1979, cette appellation b√©n√©ficie d'une appellation d'origine contr√¥l√©e (AOC) et, depuis 1996, d'une appellation d'origine prot√©g√©e (AOP)3. Cette AOP se caract√©rise par les grottes aff√©rentes aux fleurines, des failles dans la roche cr√©ant un flux d'air continu et donnant une humidit√© de 80 % minimum et une temp√©rature de 10 ¬∞C en moyenne. Produit par sept fabricants4 sur une zone de 2 000 √ó 300 m, le fromage s'affine. Ces conditions permettent le d√©veloppement du Penicillium roqueforti qui donne au fromage son go√ªt unique.
            La marque Soci√©t√© du groupe Lactalis produit 70% du roquefort en France et domine donc largement le secteur de production de ce fromage5."
          """
    }
]

In [None]:
generated_text = text_generator(messages, return_full_text = False, max_new_tokens=500)[0]['generated_text']
print(generated_text)

In [None]:
find_calls = re.findall(r'\{\"name\": \"store_text_embeddings\", \"args\": \{.+\}\}', generated_text)
find_calls

In [None]:
for call in find_calls:
  function_called = json.loads(call)
  store_text_embeddings(function_called["args"]["text"])

In [None]:
bdd_texts

In [None]:
bdd_embeddings

Pour plus d‚Äôinformation sur l‚Äôutilisation d‚Äôoutils par les llm, voir: https://python.langchain.com/docs/use_cases/tool_use/

### 3.3 Cr√©ation d‚Äôun agent


Nous avons maintenant tous les √©l√©ments pour cr√©er notre propre agents LLM.

Tout d‚Äôabord, nous allons cr√©er un *pre-prompt* pour l‚Äôinitialiser avec les instructions necessaires √† son fonctionnement.

In [None]:
pre_prompt = """
Tu es un ChatBot sp√©cialis√© en fromages.

Tu as √† ta disposition les fonctions suivantes:

[
  {
    "name": "find_embedded_texts",
    "args": [{
      "name": "query",
      "type": str
      }],
    "descr": "recherche en base de donn√©es des documents en lien avec la demande de l'utilisateur."
  },
  {
    "name": "store_text_embeddings",
    "args": [{
      "name": "text",
      "type": str
      }],
    "descr": "enregistre un texte en base de donn√©es pour pouvoir le rechercher plus tard"
  }
]

Pour utiliser une de ces fonctions, √©crit simplement son nom et ses arguments, comme suit:

{"name": "store_text_embeddings", "args": {"text": "information √† enregistrer"}}

{"name": "find_embedded_texts", "args": {"query": "question de l'utilisateur"}}

C'est √† toi de le faire, pas √† l'utilisateur.

Ne mentionne ces fonctions que pour les utiliser, pas pour les expliquer √† l'utilisateur.

L'utilisateur est un amateur de fromages de longue date et il connait lui aussi de nombreux fromages.

Ton objectif est de lui faire d√©couvrir des fromages peu connu et insolites en fonction de ses demandes.

R√©ponds √† ses demandes en utilisant les fonctions √† ta disposition, en d√©taillant tes r√©ponses √©tape par √©tape et en indiquant quelles informations tu as utilis√© et comment.

Acceuille le avec un message de bienvenu et en te presentant.
"""

Il nous faut aussi cr√©er une fonction qui va nous permettre de d√©tecter les fonctions √† appeler.

In [None]:
def call_functions(generated_text):
  find_calls = re.findall(r'\{\"name\": \".+\", \"args\": \{.+\}\}', generated_text)

  results = ""
  for call in find_calls:
    function_called = json.loads(call)
    if function_called["name"] == "store_text_embeddings":
      store_text_embeddings(function_called["args"]["text"])
      results += "\nR√©sultat de la fonction: document enregistr√©\n"
    elif function_called["name"] == "find_embedded_texts":
      docs = find_embedded_texts(function_called["args"]["query"])
      results += "\nR√©sultat de la fonction: " + str(docs) + "\n"
  return results

Et enfin, nous pouvons lancer notre agent LLM.

In [None]:
# Initialisation du pre-prompt
messages = [
    {
        "role": "user",
        "content": pre_prompt
    }
]

# Initialisation des param√®tres
generation_args = {
    "max_new_tokens": 500,
    "return_full_text": False,
    "do_sample": False,
    # pour utiliser le param√®tre "temperature", passer le param√®tre "do_sample" √† True
    #"temperature": float(SEED)
}

# Lancement de l'agent
usr_input = ""
while usr_input != "fin":
  # On recupere le texte genere par l'agent
  output = text_generator(messages, **generation_args)
  messages.append({"role": "assistant", "content": output[0]['generated_text']})

  # On affiche le r√©sultat
  print("\nChatBot:", output[0]['generated_text'], "\n")

  # On appelle les fonctions si besoin
  usr_input = call_functions(output[0]["generated_text"])

  # Si aucune fonction n'a ete appele on recupere l'entree de l'utilisateur
  if usr_input != "":
    print("\nSystem:", usr_input, "\n")
  else:
    usr_input = input("Utilisateur:")

  messages.append({"role": "user", "content": usr_input})


Pour des raisons p√©dagogiques, nous avons coder nous m√™me les fonctionnalit√©s de cette agent. Il existe cependant des librairies telles que [LangChain](https://python.langchain.com/v0.1/docs/get_started/introduction/) qui vous permetteront de d√©velopper plus efficacement un agent LLM.

Vous connaissez maintenant les principes de base vous permettant de construire un assistant personnel bas√© sur un LLM.

N‚Äôh√©sitez pas √† modifier ce notebook selon vos envies et vos besoins üòÄ

Et si ce notebook vous a √©t√© utile, n‚Äôoubliez pas qu‚Äôil est sous licence [BeerWare](https://fr.wikipedia.org/wiki/Beerware) üòè