<a href="https://colab.research.google.com/github/ferrorra/m2-mlsd/blob/main/TP_transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **KeyBERT**

KeyBERT est une méthode simple mais efficace pour extraire des mots-clés d'un document en utilisant des embeddings de phrases ou de mots. Voici une explication de son fonctionnement avec un exemple :

---

## **Document en entrée**
Le document d'entrée est :
> "Most microbats use echolocation to navigate and find food."

Ce texte sera utilisé pour extraire les mots-clés les plus représentatifs.

## **Étape 1 : tokenisation**
Le document est découpé en différents **tokens** (mots individuels) :
- "most", "microbats", "use", "echolocation", "navigate", "find", "food", etc.

KeyBERT utilise une matrice de comptage pour extraire des n-grams (mono-grammes, bi-grammes, etc.) à partir du texte (voir le premier TP).

## **Étape 2 : extraction des embeddings**
Chaque **token** ou le document entier est transformé en **embedding**, en utilisant **BERT**.

Ces embeddings permettent de représenter les similarités sémantiques entre les mots ou entre le document et les mots.

## **Étape 3 : calcul de la similarité cosinus**
Pour chaque **token**, on calcule la **similarité cosinus** entre son embedding et celui du document.

Exemple :
- Pour les mots "most" et "food", les similarités cosinus par rapport au document peuvent être respectivement de `0.08` et `0.73`. Plus le score est élevé, plus le mot est pertinent par rapport au document.

---

## **Résultat : extraction des mots-clés**
Les mots ayant les similarités cosinus les plus élevées sont considérés comme les mots-clés les plus représentatifs du document.

Dans cet exemple :
- "food" a une similarité élevée (0.73) et est un bon candidat comme mot-clé.


In [None]:
from IPython.display import Image, display

image_url = 'https://cifre.s3.eu-north-1.amazonaws.com/keybert.png'

# Afficher l'image.
display(Image(url=image_url, width=1000, height=500))

In [None]:
pip install keybert

Collecting keybert
  Downloading keybert-0.8.5-py3-none-any.whl.metadata (15 kB)
Collecting sentence-transformers>=0.3.8 (from keybert)
  Downloading sentence_transformers-3.2.0-py3-none-any.whl.metadata (10 kB)
Downloading keybert-0.8.5-py3-none-any.whl (37 kB)
Downloading sentence_transformers-3.2.0-py3-none-any.whl (255 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m255.2/255.2 kB[0m [31m7.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sentence-transformers, keybert
Successfully installed keybert-0.8.5 sentence-transformers-3.2.0


In [None]:
from keybert import KeyBERT

doc = """
Supervised learning is the machine learning task of learning a function that maps an input to an output based on example input-output pairs.
It infers a function from labeled training data consisting of a set of training examples.
In supervised learning, each example is a pair consisting of an input object (typically a vector) and a desired output value (also called the supervisory signal).
A supervised learning algorithm analyzes the training data and produces an inferred function, which can be used for mapping new examples.
An optimal scenario will allow for the algorithm to correctly determine the class labels for unseen instances.
This requires the learning algorithm to generalize from the training data to unseen situations in a 'reasonable' way (see inductive bias).
"""
kw_model = KeyBERT()

In [None]:
kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 1), stop_words='english', top_n=10)

[('supervised', 0.6676),
 ('labeled', 0.4896),
 ('learning', 0.4813),
 ('training', 0.4134),
 ('labels', 0.3947),
 ('supervisory', 0.3297),
 ('data', 0.3136),
 ('algorithm', 0.298),
 ('class', 0.296),
 ('object', 0.2789)]

In [None]:
kw_model.extract_keywords(doc, keyphrase_ngram_range=(1, 2), stop_words='english', top_n=10)

[('supervised learning', 0.6779),
 ('supervised', 0.6676),
 ('signal supervised', 0.6152),
 ('examples supervised', 0.6112),
 ('labeled training', 0.6013),
 ('learning function', 0.5755),
 ('learning algorithm', 0.5632),
 ('learning machine', 0.5598),
 ('machine learning', 0.5555),
 ('training data', 0.5271)]

# **Exercice 1**

Utiliser KeyBERT pour extraire les mots-clés de chaque document de BBC News, puis essayer de représenter les topics par les termes les plus fréquents en ne comptant que les mots qui apparaissent souvent dans les documents. Comparez ce résultat avec celui obtenu lors du premier TP.

In [None]:
# A vous de jouer

# **Exercice 2**

1. Récupérez les vecteurs de ces mots-clés en utilisant le modèle BERT.
2. Appliquez ACP et UMAP sur les vecteurs obtenus et colorez les points en fonction de la colonne `topic_id`.
3. Interprétez les résultats et comparez-les avec ceux obtenus avec Word2Vec.

In [None]:
# A vous de jouer

# **Exercice 3**

1. Créez les vecteurs des documents en utilisant la somme et la moyenne des tokens.
2. Lancez KMeans sur les deux représentations avec 5 clusters. Veillez bien à augmenter le nombre d'itérations et d'initialisations.
3. Visualisez les clusters formés avec UMAP et ACP, et interprétez les résultats.
4. Visualisez les matrices de confusion et interprétez-les.

In [None]:
pip install sentence-transformers



In [None]:
from sentence_transformers import SentenceTransformer
import numpy as np


# Charger le modèle.
model = SentenceTransformer("paraphrase-MiniLM-L6-v2")

def compute_embeddings(text: str,
                       model,
                       mode: str = 'mean'):
    """
    Calcule les embeddings d'un texte en utilisant Sentence Transformers.

    Args:
        text: Le texte pour lequel calculer les embeddings.
        model: Le modèle Sentence Transformer à utiliser.
        mode: 'mean' pour calculer la moyenne des embeddings ou 'sum' pour calculer la somme.

    Returns:
        numpy.array: Les embeddings calculés.
    """

    # Extraire les embeddings des tokens.
    token_embeddings = model.encode(text, output_value='token_embeddings')

    # Calculer la somme ou la moyenne des embeddings en fonction du mode.
    if mode == 'sum':
        result = np.sum(np.array(token_embeddings), axis=0)
    elif mode == 'mean':
        result = np.mean(np.array(token_embeddings), axis=0)
    else:
        raise ValueError("Le mode doit être 'sum' ou 'mean'.")

    return result

In [None]:
# Un exemple d'utilisation.
compute_embeddings("Most microbats use echolocation to navigate and find food",
                   model,
                   mode="mean")

array([ 1.98215619e-01, -4.52998668e-01,  4.13115248e-02, -4.18869853e-01,
       -2.55439937e-01, -4.89993721e-01,  5.78509748e-01, -5.18633127e-01,
        2.68343002e-01,  2.27568552e-01,  3.65751475e-01, -1.01040006e-01,
       -3.52763534e-01, -1.39901847e-01,  1.84774578e-01, -5.09136796e-01,
        6.94051981e-01, -4.04877871e-01,  1.66499346e-01, -4.66199405e-02,
        9.31270793e-02,  3.48095247e-03, -1.57704353e-01, -2.04838663e-01,
       -3.76696372e-03, -4.17477489e-02, -6.76662385e-01, -3.61268967e-01,
       -2.37830095e-02, -2.68759161e-01,  3.44662279e-01,  9.03420523e-02,
        1.42782435e-01, -3.44587266e-01,  3.31288092e-02, -1.24259003e-01,
       -9.43850055e-02, -2.72919629e-02, -6.98226616e-02, -1.97882742e-01,
       -1.68647870e-01,  1.21065816e-02,  2.84547448e-01, -1.35192379e-01,
       -6.25326633e-02, -3.32675129e-01, -5.95693171e-01,  1.40114605e-01,
        3.27405483e-01, -4.07840498e-02, -6.19338810e-01, -4.99174930e-02,
       -2.99792260e-01,  

# **Exercice 4**
1. Utiliser PCA et UMAP pour réduire la dimension des embeddings avant le clustering.
2. Reprenez les étapes 2, 3 et 4 de l'exercice 3.

In [None]:
# A vous de jouer.

# **Exercice 5: Clustering avec le modèle InstructorEmbedding**

1. Créer des paires **instruction-texte** pour chaque article, puis générer les embeddings (voir code).
2. Utiliser PCA et UMAP pour réduire la dimensionnalité des embeddings avant le clustering.
3. Appliquer l'algorithme de KMeans pour regrouper les articles en clusters.
4. Visualiser les clusters avec ACP et UMAP.
5. Affichez la matrice de confusion et interprétez-la.




In [None]:
pip install InstructorEmbedding

In [None]:
# Pour charger le modèle.
from InstructorEmbedding import INSTRUCTOR
model = INSTRUCTOR('hkunlp/instructor-large')

In [None]:
# Préparation des paires instruction-texte.
text_instruction_pairs = [
    {"instruction": "Represent the News article:", "text": article} for article in bbc_df['text']
]

# Génération des embeddings.
embeddings = model.encode([[pair['instruction'], pair['text']] for pair in text_instruction_pairs])

# **Exercice 6**
Essayez de trouver une instruction plus pertinente qui permet d'améliorer le clustering.


In [None]:
# A vous de jouer.

# **Exercice 7**
Reprenez les étapes 1, 2, 3 et 4 de l'exercice 4 sur les deux représentations suivantes : la première obtenue avec GPT et la deuxième avec JoSE.


In [None]:
import pickle
import requests

# Download the dataset.
url = "https://cifre.s3.eu-north-1.amazonaws.com/bbc_dataset.pickle"
response = requests.get(url)

bbc_gpt = pickle.loads(response.content)

bbc_gpt.keys()

dict_keys(['embeddings', 'labels'])

In [None]:
from scipy.io import loadmat

url_mat = "https://cifre.s3.eu-north-1.amazonaws.com/BBC_JOSE.mat"
response_mat = requests.get(url_mat)
with open("./BBC_JOSE.mat", 'wb') as f:
    f.write(response_mat.content)
bbc_jose = loadmat("./BBC_JOSE.mat")

bbc_jose.keys()

dict_keys(['__header__', '__version__', '__globals__', 'embeddings', 'labels'])

In [None]:
# A vous de jouer.

# **Instructions pour le rendu**

Pour le rendu, vous devez le déposer sur le drive suivant : https://drive.google.com/drive/folders/1ao78S52_D5vpbNj9h4QD1jBlY0_jODq8?usp=drive_link(URL_DU_DRIVE).


### **Veuillez préciser les noms et prénoms des monomes/binomes dans la première cellule du notebook.**