# TP : Représentation et Visualisation de mots avec Word2Vec et t-SNE

Objectifs 
1. Extraire et tokeniser le texte d'un document PDF.
2. Représenter les mots de façon vectorielle (embeddings).
3. Visualiser ces représentations en 2D avec **t-SNE**.
4. Entraîner notre propre modèle Word2Vec et comparer avec un modèle pré-entraîné.
5. Ajouter une classification non supervisée pour faire apparaître des classes de mots.

Packages Nécessaires : 
```
pip install gensim
pip install matplotlib
pip install scikit-learn 
pip install nltk 
pip install PyMuPDF
```

In [None]:
import fitz
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import numpy as np
import matplotlib.pyplot as plt
import gensim.downloader as api
from sklearn.manifold import TSNE
from sklearn.cluster import KMeans
from gensim.models import Word2Vec

## Partie 1 : Extraction et Visualisation avec un modèle pré-entraîné

Dans cette première partie :
- Charger un fichier PDF
- Tokeniser le texte en mots
- Utiliser le modèle **Word2Vec Google News** pré-entraîné
- Réduire la dimension avec t-SNE
- Visualiser les mots en 2D


In [None]:
nltk.download("punkt")

In [None]:
# 1. Extraction du texte PDF
def extract_text_from_pdf(pdf_path):
    """Extrait le texte brut d'un fichier PDF.

    Args:
        pdf_path (str): Chemin vers le fichier PDF.

    Returns:
        str: Texte concaténé de toutes les pages du PDF.
    """
    return text

In [None]:
# 2. Tokenisation simple
def tokenize(text):
    """Tokenise un texte en mots, en supprimant la ponctuation et les chiffres.

    Args:
        text (str): Texte à tokeniser.

    Returns:
        list: Liste des mots en minuscules, uniquement alphabétiques.
    """
    return tokens

In [None]:
# 3. Charger un modèle pré-entraîné (Google News)
model = api.load("word2vec-google-news-300")

In [None]:
# 4. Générér les Embeddings
def generates_embeddings(tokens):
    """Génère les vecteurs d'embedding pour une liste de tokens en utilisant un modèle Word2Vec existant.

    Args:
        tokens (list): Liste de mots (tokens) extraits d'un texte.

    Returns:
        tuple:
            - embeddings (list): Liste des vecteurs d'embedding pour les mots présents dans le modèle.
            - words_in_model (list): Liste des mots qui existent dans le vocabulaire du modèle.
    """
    return embeddings, words_in_model

In [None]:
# 4. Pipeline
pdf_path = "./cours_LLM.pdf"
text = extract_text_from_pdf(pdf_path)
tokens = tokenize(text)
embeddings, words_in_model = generates_embeddings(tokens)

In [None]:
# 5. Réduction de dimension : Entraîner un modèle type TSNE pour récupérer la représentation 2D des embeddings

In [47]:
# 6. Visualisation : Représenter les 100 premiers mots des embeddings

## Partie 2 : Entraîner un modèle Word2Vec (CBOW) sur le PDF

Dans cette partie :
- Améliorer la tokenisation (enlever les stop words, ...) 
- Entraîner un modèle **Word2Vec CBOW** directement sur le contenu du PDF
- Visualiser les résultats

In [None]:
nltk.download("stopwords")

In [None]:
# 1. Tokenisation + nettoyage
def tokenize_text(text):
    """Tokenise et nettoie un texte en supprimant la ponctuation, les chiffres et les stopwords.

    Args:
        text (str): Texte brut à tokeniser.

    Returns:
        list: Liste des mots en minuscules, uniquement alphabétiques et sans stopwords.
    """
    return tokens

In [None]:
# 2. Entraînement Word2Vec (CBOW)
def train_word2vec(tokens):
    """Entraîne un modèle Word2Vec en utilisant l'architecture CBOW sur une liste de tokens.

    Args:
        tokens (list): Liste de mots (tokens) prétraités.

    Returns:
        gensim.models.Word2Vec: Modèle Word2Vec entraîné.
    """
    return model

In [None]:
# 3. Extraire embeddings
def get_embeddings(model, top_n=100):
    """Extrait les embeddings des mots les plus fréquents du modèle Word2Vec.

    Args:
        model (gensim.models.Word2Vec): Modèle Word2Vec entraîné.
        top_n (int, optional): Nombre maximum de mots à extraire. 
            Par défaut 100.

    Returns:
        tuple:
            - words (list): Liste des mots extraits.
            - vectors (numpy.ndarray): Matrice des vecteurs correspondants (shape: top_n x dimension).
    """
    return words, vectors

In [None]:
# 4. Réduction et visualisation
def reduce_with_tsne(vectors, words):
   """Réduit la dimension des embeddings de mots en 2D avec t-SNE.

    Args:
        vectors (numpy.ndarray): Matrice des vecteurs de mots.
        words (list): Liste des mots correspondants aux vecteurs.

    Returns:
        numpy.ndarray: Coordonnées 2D des mots après réduction (shape: n_words x 2).
    """
    return representation

In [None]:
def plot_embeddings(reduced, words, title="t-SNE (Word2Vec CBOW)"):
    """Affiche une projection 2D des mots après réduction de dimension.

    Args:
        reduced (numpy.ndarray): Coordonnées 2D des mots (shape: n_words x 2).
        words (list): Liste des mots correspondants aux coordonnées.
        title (str, optional): Titre du graphique. 
    """

In [None]:
# Pipeline Finale
text = extract_text_from_pdf(pdf_path) 
tokens = tokenize_text(text)
model = train_word2vec(tokens)
words, vectors = get_embeddings(model, top_n=100)
reduced = reduce_with_tsne(vectors, words)
plot_embeddings(reduced, words, "Projection t-SNE (Word2Vec CBOW, PDF)")

## Partie 3 : Classification non supervisée des mots

Pour mieux comprendre la structure des mots :
- Entraînement d'un clustering **KMeans** sur les vecteurs Word2Vec


In [None]:
# 1. Clustering
def cluster_embeddings(vectors, n_clusters=5):
    """Applique un clustering KMeans sur les vecteurs de mots.

    Args:
        vectors (numpy.ndarray): Matrice des vecteurs de mots (shape: n_words x dimension).
        n_clusters (int, optional): Nombre de clusters à générer. 
            Défaut = 5.

    Returns:
        numpy.ndarray: Tableau des labels de clusters attribués à chaque mot (shape: n_words,).
    """
    return kmeans.fit_predict(vectors)

In [None]:
# 2. Visualisation avec couleurs par cluster
def plot_embeddings_clusters(reduced, words, labels, title="t-SNE avec clustering"):
    """Affiche la projection 2D des mots avec une coloration par cluster.

    Args:
        reduced (numpy.ndarray): Coordonnées 2D des mots (shape: n_words x 2).
        words (list): Liste des mots correspondants aux coordonnées.
        labels (numpy.ndarray): Tableau des labels de clusters attribués à chaque mot (shape: n_words,).
        title (str, optional): Titre du graphique. 
    """

In [None]:
# Pipeline Finale
labels = cluster_embeddings(vectors, n_clusters=5)
plot_embeddings_clusters(reduced, words, labels, "Projection t-SNE (Word2Vec CBOW + KMeans)")