# 📝 Pattern Recognition & Biometrics. TP Traitement du Langage Naturel ou *NLP (Natural Language Processing)*

Par Omar Galarraga et Sonia Garcia

Dans ce travail pratique, nous constituerons un *pipeline* de traitement du langage naturel avec différents modèles pour analyser le chapitre I du roman "Le Petit Prince" d'Antoine de Saint-Exupéry

In [None]:
#Modifiez votre chemin d'accès si besoin
with open('lepetitprince_chap1.txt') as f:
    sentences = f.readlines()

## Partie I. *Word embeddings* ou la modélisation des mots

Nous utiliserons les libraries *nltk* et *gensim* pour créer des modèles *word2vec*

* I.1) Convertissez le texte (phrases) en tokens
* I.2) Construisez un modèle *CBOW* et un *skip-gram* avec le corpus du livre


In [None]:
from gensim.models import Word2Vec
import nltk
nltk.download('punkt')

#Ecrivez votre code ici


* I.3) Quel est le vecteur associé au mot "boa" ? Est-il le même dans les deux modèles (*CBOW* et *skip-gram*) ?
* I.4) Quels mots sont "similaires" au mot "boa" ? Sont-ils les mêmes dans les deux modèles ?

In [None]:
#Ecrivez votre code ici


* I.5) Affichez les graphiques des deux modèles en faisant une réduction de dimension à 2D par t-SNE (voir code d'exemple ci-dessous). Quelles sont les coordonnées en 2D du mot "boa" dans les deux modèles ?

In [None]:
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

# Affectez le nom de votre modèle Word2Vec à la variable model_w2v ci-dessous
model_w2v = #votre_model_w2v

# t-SNE pour réduire à 2 dimensions
word_vectors = model_w2v.wv.vectors
num_samples = len(word_vectors)
tsne_perplexity = min(30, num_samples - 1)  # Perplexity must be less than the number of samples

tsne = TSNE(n_components=2, perplexity=tsne_perplexity, random_state=0)
word_vectors_2d = tsne.fit_transform(word_vectors)

# Plot the vectors
plt.figure(figsize=(10, 10))
for i, word in enumerate(model_w2v.wv.index_to_key):
    plt.scatter(word_vectors_2d[i, 0], word_vectors_2d[i, 1])
    plt.annotate(word, xy=(word_vectors_2d[i, 0], word_vectors_2d[i, 1]), xytext=(5, 2),
                 textcoords='offset points', ha='right', va='bottom')
plt.show()

## Partie II. Réseaux de neurones et attention

* II.1) Construisez et entraînez un réseau de neurones dense pour prédire le cinquème token de chaque phrase en fonction des quatre premiers tokens d'un modèle Word2Vec. Quelle est l'erreur d'apprentissage ?
* II.2) Quelle est la dimension de la couche d'entrée ?
* II.3) Quelle est la dimension de la couche de sortie ?
* II.4) Quelle est l'erreur RMS pour la 10ème phrase ?


In [None]:
#Ecrivez votre code ici


## Partie III. Transformers


Pour cette partie, nous utiliserons le modèle *CamemBERT*, qui est modèle type BERT (Transformer) spécifique à la langue française. Ce modèle est disponible dans la librairie *Transformers* de *HuggingFace* (documentation disponible sur : https://huggingface.co/docs/transformers/model_doc/camembert). Nous travaillerons le fichier 'lepetitprince_chap1_masked.txt', qui contient des mots masqués.

* III.1) "Tokenisez" le texte. Quelle est la dimension du vecteur de modélisation des tokens ?

In [None]:
#Ecrivez votre code ici


* III.2) Prédisez les mots masqués. Donnez les 3 mots les plus probables pour les 10 premières phrases.

In [None]:
#Ecrivez votre code ici


## Partie IV. LLM

* IV.I) Réalisez à nouveau la partie III en utilisant cette fois-ci Llama2 ou Mixtral (modèles disponibles dans la librairie *Transformers* de *HuggingFace*). Llama2 est aussi téléchargeable sur https://llama-2.ai/download/
* IV.2) Faites un résumé automatique en 20 mots environ du chapitre I

In [None]:
#Ecrivez votre code ici
