# 1. Préparation et chargement des données

In [1]:
import gensim 
import numpy as np 
from gensim.models import Word2Vec 
from gensim.models import FastText 

In [2]:
documents = [ 
"Je suis heureux d'être ici.", 
"L'apprentissage automatique est fascinant.", 
"Les modèles de langage sont importants pour le NLP.", 
"Le NLP se concentre sur le traitement du langage naturel.", 
"Les embeddings de mots capturent le sens des mots." 
] 
# Prétraitement : Tokenisation de chaque phrase 
tokenized_docs = [doc.lower().split() for doc in documents]

# 2. Implémentation des techniques statistiques

## A. Word2Vec

In [3]:
import string
from nltk.corpus import stopwords
import nltk
nltk.download('stopwords')

stop_words = set(stopwords.words('french'))

def preprocess(doc):
    # Supprimer la ponctuation et convertir en minuscules
    doc = doc.lower()
    doc = doc.translate(str.maketrans('', '', string.punctuation))
    # Tokenisation
    tokens = doc.split()
    # Supprimer les mots vides
    tokens = [word for word in tokens if word not in stop_words]
    return tokens

tokenized_docs = [preprocess(doc) for doc in documents]

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [4]:
# CBOW Model 
cbow_model = Word2Vec(sentences=tokenized_docs, vector_size=100, window=5, min_count=1, sg=0) 
cbow_vector = cbow_model.wv['heureux']  # Exemple d'embedding pour un mot 
print("Embedding CBOW pour 'heureux':", cbow_vector) 

Embedding CBOW pour 'heureux': [ 1.30016683e-03 -9.80430283e-03  4.58776252e-03 -5.38222783e-04
  6.33209571e-03  1.78347470e-03 -3.12979822e-03  7.75997294e-03
  1.55466562e-03  5.52093989e-05 -4.61295387e-03 -8.45352374e-03
 -7.76683213e-03  8.67050979e-03 -8.92496016e-03  9.03471559e-03
 -9.28101782e-03 -2.76756298e-04 -1.90704700e-03 -8.93114600e-03
  8.63005966e-03  6.77781366e-03  3.01943906e-03  4.83345287e-03
  1.12190246e-04  9.42468084e-03  7.02128746e-03 -9.85372625e-03
 -4.43322072e-03 -1.29011157e-03  3.04772262e-03 -4.32395237e-03
  1.44916656e-03 -7.84589909e-03  2.77807354e-03  4.70269192e-03
  4.93731257e-03 -3.17570218e-03 -8.42704065e-03 -9.22061782e-03
 -7.22899451e-04 -7.32746487e-03 -6.81496272e-03  6.12000562e-03
  7.17230327e-03  2.11741915e-03 -7.89940078e-03 -5.69898821e-03
  8.05184525e-03  3.92084382e-03 -5.24047017e-03 -7.39190448e-03
  7.71554711e-04  3.46375466e-03  2.07919348e-03  3.10080405e-03
 -5.62050007e-03 -9.88948625e-03 -7.02083716e-03  2.3030876

Le vecteur pour "heureux" est une représentation d'un mot dans un espace vectoriel de 100 dimensions, capturant ses relations sémantiques et contextuelles dans le corpus d'entraînement. Les valeurs du vecteur sont des coefficients appris par le modèle et ne portent pas de signification directe, mais elles permettent de calculer la similarité entre ce mot et d'autres mots. Par exemple, des mots ayant une signification similaire à "heureux" (comme "content" ou "joyeux") seront représentés par des vecteurs proches dans cet espace.

Le temps d'exécution de **0.0s** est très rapide en raison de la petite taille du corpus (seulement 5 phrases), ce qui rend l'entraînement du modèle très rapide. Sur un plus grand corpus, le temps d'exécution serait plus long.

In [5]:
# Skip-gram Model 
skip_gram_model = Word2Vec(sentences=tokenized_docs, vector_size=100, window=5, min_count=1, 
sg=1) 
skip_gram_vector = skip_gram_model.wv['heureux'] 
print("Embedding Skip-gram pour 'heureux':", skip_gram_vector)

Embedding Skip-gram pour 'heureux': [ 1.30016683e-03 -9.80430283e-03  4.58776252e-03 -5.38222783e-04
  6.33209571e-03  1.78347470e-03 -3.12979822e-03  7.75997294e-03
  1.55466562e-03  5.52093989e-05 -4.61295387e-03 -8.45352374e-03
 -7.76683213e-03  8.67050979e-03 -8.92496016e-03  9.03471559e-03
 -9.28101782e-03 -2.76756298e-04 -1.90704700e-03 -8.93114600e-03
  8.63005966e-03  6.77781366e-03  3.01943906e-03  4.83345287e-03
  1.12190246e-04  9.42468084e-03  7.02128746e-03 -9.85372625e-03
 -4.43322072e-03 -1.29011157e-03  3.04772262e-03 -4.32395237e-03
  1.44916656e-03 -7.84589909e-03  2.77807354e-03  4.70269192e-03
  4.93731257e-03 -3.17570218e-03 -8.42704065e-03 -9.22061782e-03
 -7.22899451e-04 -7.32746487e-03 -6.81496272e-03  6.12000562e-03
  7.17230327e-03  2.11741915e-03 -7.89940078e-03 -5.69898821e-03
  8.05184525e-03  3.92084382e-03 -5.24047017e-03 -7.39190448e-03
  7.71554711e-04  3.46375466e-03  2.07919348e-03  3.10080405e-03
 -5.62050007e-03 -9.88948625e-03 -7.02083716e-03  2.30

Le modèle CBOW (Continuous Bag of Words) prédit le mot cible à partir de son contexte, tandis que le modèle Skip-gram prédit les mots contextuels à partir du mot cible. Le vecteur Skip-gram pour "heureux" est similaire à celui de CBOW, mais Skip-gram tend à être plus précis pour capturer des relations rares, car il apprend à partir des mots voisins de manière plus détaillée. Cependant, il est plus lent à entraîner, car il nécessite plus de calculs pour chaque mot cible. Par exemple, pour des mots peu fréquents comme "satisfaction", Skip-gram peut mieux capturer les relations contextuelles, mais prendra plus de temps que CBOW.

## B. GloVe

In [10]:
import gensim.downloader as api 
 
# Charger les embeddings de GloVe directement de gensim's API  
glove_model = api.load("glove-wiki-gigaword-100")  # "100" denotes 100-dimensional embeddings 
 
# Example: Retrouver l’embedding pour word 
word = "heureux" 
if word in glove_model: 
    embedding = glove_model[word] 
    print(f"GloVe Embedding for '{word}':", embedding) 
 
# Find similar words 
similar_words = glove_model.most_similar("heureux") 
print(f" Mots similaires à 'word':", similar_words) 

GloVe Embedding for 'heureux': [-0.22915  -0.65614  -0.44358   0.029588 -0.47647  -0.11944   0.7095
  0.21255   0.60578  -0.226     0.053652  0.44703   0.26775  -0.053877
 -0.13464   0.21553  -0.54511   0.10145  -0.369     0.021499  0.29016
 -0.17675  -0.72958  -0.51357  -0.088472  0.15428   0.18378   0.10976
  0.48002   0.15699  -0.1702   -0.67175  -0.48325  -0.19794   0.52859
 -0.23422  -0.027806 -0.26104  -0.29968  -0.40698  -0.16376   0.001507
  0.15769   0.62273  -0.069709 -0.59361  -0.94486   0.54378  -0.15915
  0.52915  -0.39988   0.55962   0.18667  -0.1351   -0.071653  0.56986
  0.4166    0.28237  -0.78725  -0.42032   0.017283 -0.58799  -0.65441
  0.10836   0.14421   0.24287  -0.56625  -0.56778   0.22266  -0.19948
 -0.021628  0.31603   0.40921   0.2794    0.27607   0.75458   0.1013
  0.40477   0.29041   0.029665 -0.11493  -0.14274   0.12472   0.064805
  0.41909  -0.45244   0.15588   0.13639  -0.37713   0.17289  -0.48795
  0.24      0.49909  -0.091215  0.57424   0.12799   0.2054

### Comparaison des tailles des vecteurs :
GloVe : Vecteur de dimension 100.
Word2Vec (CBOW/Skip-gram) : Vecteur de dimension 100.

### Comparaison des embeddings :
Les valeurs des vecteurs GloVe sont plus grandes en magnitude (ex. -0.22915 à 0.7095), tandis que celles de Word2Vec (CBOW et Skip-gram) sont plus petites (proches de zéro, ex. 0.0013 à -0.0098).
GloVe capture des co-occurrences globales, tandis que Word2Vec est basé sur un contexte local.

## C. FastText

In [7]:
fasttext_model = FastText(sentences=tokenized_docs, vector_size=100, window=3, min_count=1, sg=1, 
epochs=10) 
# # Exemple d'embedding pour un mot 
embedding_fasttext = fasttext_model.wv['word'] 
print("Embedding FastText pour ''heureux'':", embedding_fasttext) 

Embedding FastText pour ''heureux'': [ 1.5102547e-03  1.5297874e-03  5.0949125e-04  1.5477291e-03
  6.1322114e-04 -3.3465200e-03  2.1629718e-03  5.0185376e-04
 -1.5412853e-03 -8.8890287e-04 -7.2054751e-04 -5.9478084e-04
 -1.1453654e-03  2.2913993e-04 -5.1365923e-03  2.0210396e-03
  3.8804200e-03 -2.2704499e-03  2.0007330e-03  2.0561130e-03
 -1.4081963e-03 -1.1745071e-03 -3.6445227e-03  4.8637716e-04
 -1.0660794e-03 -6.4542772e-05  1.8681042e-03 -1.7196456e-03
  2.6108227e-03 -3.7981363e-04 -3.2549177e-03 -5.2663992e-04
  6.2893050e-05  1.1939853e-03 -3.7030116e-04  4.8628813e-04
  2.1966894e-03  1.8661494e-03 -1.3891333e-03  1.9020773e-03
 -9.2450704e-04 -2.0607989e-04  2.7609160e-04 -2.3982310e-04
 -3.8618266e-03  3.0112448e-03 -1.1309056e-03  3.8316909e-03
  2.6609763e-04  5.1402132e-04 -2.8808047e-03 -3.9501907e-03
 -1.4878053e-03  2.0369259e-03  2.4707885e-03  6.6925318e-04
  8.9598243e-04 -7.6899381e-04  1.3666723e-03 -4.2575095e-03
 -7.2096380e-05  5.9888570e-04  2.5178350e-03 -3

In [8]:
# Trouver les mots similaires à " heureux " 
similar_words_fasttext = fasttext_model.wv.most_similar(' heureux ') 
print("Mots similaires à ' heureux ' utilisant FastText:", similar_words_fasttext) 

Mots similaires à ' heureux ' utilisant FastText: [('heureux', 0.5331311821937561), ('nlp', 0.2674098014831543), ('importants', 0.200381338596344), ('mots', 0.10518591850996017), ('capturent', 0.08989571779966354), ('naturel', 0.047531139105558395), ('ici', 0.008579511195421219), ('traitement', -0.003684221999719739), ('embeddings', -0.02063317596912384), ('sens', -0.02793550118803978)]


FastText est particulièrement adapté aux langues riches en morphologie et aux mots rares grâce à son utilisation des sous-mots. Cela le rend efficace pour gérer les mots inconnus (out-of-vocabulary, OOV). Cependant, cette méthode demande plus de ressources computationnelles, ce qui peut être un inconvénient dans des environnements contraints. 

Word2Vec, en revanche, est simple et rapide, mais il ne gère pas les mots inconnus, limitant son efficacité pour les corpus avec des termes peu fréquents ou absents du vocabulaire d’entraînement. Malgré cela, il reste performant pour des corpus bien structurés où les mots rares sont moins problématiques.

GloVe excelle dans la capture des relations sémantiques globales grâce à son approche basée sur les cooccurrences. Bien qu’il ne gère pas non plus les mots inconnus, il offre une performance équilibrée avec des besoins computationnels modérés.

Ainsi, FastText est recommandé pour des textes variés et des langues complexes, tandis que Word2Vec et GloVe conviennent mieux aux corpus standards, avec une préférence pour GloVe si les relations globales sont essentielles.

# 3. Analyse des résultats

1. Forces et limites des modèles :
    FastText : Précis pour les mots rares et composés, mais plus lent en calcul.
    Word2Vec : Rapide avec une précision élevée pour les mots fréquents, mais inefficace pour les mots rares.
    GloVe : Captures globalement les relations sémantiques, mais moins performant pour les mots inconnus.

2. Pourquoi FastText pour les langues complexes ?
FastText utilise des sous-mots, permettant de gérer efficacement les mots rares ou inconnus, essentiels pour les langues morphologiquement riches.

3. Différence conceptuelle entre GloVe et Word2Vec :
GloVe utilise des cooccurrences globales dans le corpus, tandis que Word2Vec se base sur des contextes locaux des mots (fenêtres d’apparition).

4. Cas d’usage de CBOW et Skip-gram :
CBOW : Rapide, adapté pour des corpus larges et prédictions générales.
Skip-gram : Plus précis pour les mots rares et contextes spécifiques.

# 4. Extension du Corpus avec NLTK et Analyse des Temps d'Exécution

In [1]:
import nltk 
nltk.download('movie_reviews') 
from nltk.corpus import movie_reviews 

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package movie_reviews is already up-to-date!


In [2]:
# Charger les phrases du corpus 
corpus = [" ".join(movie_reviews.words(fileid)) for fileid in movie_reviews.fileids()] 

In [3]:
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string

In [4]:
def preprocess_corpus(corpus):
    stop_words = set(stopwords.words('english'))
    preprocessed_corpus = []
    for text in corpus:
        tokens = word_tokenize(text.lower())  # Convertir en minuscules et tokeniser
        tokens = [word for word in tokens if word not in stop_words and word not in string.punctuation]  # Suppression stop words et ponctuation
        preprocessed_corpus.append(tokens)
    return preprocessed_corpus

# Préparer le corpus
preprocessed_corpus = preprocess_corpus(corpus)

In [6]:
from gensim.models import Word2Vec

# Entraîner le modèle Word2Vec
word2vec_model = Word2Vec(sentences=preprocessed_corpus, vector_size=100, window=5, min_count=2, workers=4)

# Obtenir l'embedding d'un mot
embedding_word2vec = word2vec_model.wv['happy']  # Exemple avec le mot "happy"

In [15]:
print(embedding_word2vec)

[-0.22634144  0.36658475  0.38456032  0.33503675 -0.44472966 -0.81369466
  0.13317102  0.88921183 -0.06517924 -0.37211624 -0.1187766  -0.9068398
 -0.07966147  0.0981816   0.2157285  -0.2570504   0.25583804 -0.9008905
  0.01104465 -1.0535442   0.2577613   0.26995233  0.8430826  -0.15455064
 -0.04965321  0.07999973 -0.46574187 -0.35755718 -0.28785053  0.27197433
  0.45745715  0.25736237  0.04997671 -0.42251438 -0.02859682  0.47991294
  0.5217633  -0.40840212 -0.2420582  -0.6748591   0.2710632  -0.22154191
 -0.38934365  0.04312353  0.4348115  -0.22503722 -0.17942905  0.12972534
  0.07271142  0.80456764  0.22129586 -0.52708393 -0.11539223 -0.18184316
 -0.24300233  0.17456838  0.29951748 -0.04330263 -0.52410537  0.4701127
  0.04840739  0.15137617  0.13131836 -0.1377962  -0.6760656   0.49838474
  0.25881925  0.5436593  -0.550566    0.78370047 -0.27625212  0.32381722
  0.5323234  -0.01632714  0.10587885  0.4782794   0.22353889  0.02111039
 -0.32004344  0.10535039 -0.18611637 -0.17227475  0.01

In [12]:
import numpy as np

# Fonction pour obtenir l'embedding d'un mot
def get_word_embedding(word, model):
    return model[word] if word in model else np.zeros(model.vector_size)

# Obtenir les embeddings pour chaque phrase
def get_sentence_embedding(sentence, model):
    embeddings = [get_word_embedding(word, model) for word in sentence]
    if embeddings:  # Moyenne des vecteurs pour représenter la phrase
        return np.mean(embeddings, axis=0)
    else:
        return np.zeros(model.vector_size)

# Générer les embeddings pour le corpus
corpus_embeddings = [get_sentence_embedding(sentence, glove_model) for sentence in preprocessed_corpus]

In [14]:
word = "heureux"
if word in glove_model:
    similar_words = glove_model.most_similar(word)
    print(f"Mots similaires à '{word}':", similar_words)

Mots similaires à 'heureux': [('egyptienne', 0.7946601510047913), ('psyché', 0.7924875020980835), ('mutine', 0.7839182019233704), ('topaze', 0.782024085521698), ('warramunga', 0.7792785167694092), ('uranami', 0.7778733372688293), ('curieux', 0.7731819152832031), ('edaphosaurus', 0.7705174088478088), ('sémillante', 0.7680737376213074), ('raisonnable', 0.7665330171585083)]


In [13]:
from gensim.models import FastText

# Entraîner le modèle FastText
fasttext_model = FastText(sentences=preprocessed_corpus, vector_size=100, window=5, min_count=2, workers=4)

# Obtenir l'embedding d'un mot
embedding_fasttext = fasttext_model.wv['happy']  # Exemple avec le mot "happy"

In [16]:
print(embedding_fasttext)

[-3.2328138e-01  9.8402694e-02 -5.8627713e-01  2.1383159e-01
  2.9167512e-01  6.9047397e-01 -9.0338761e-01  3.8167211e-01
  1.0629005e+00 -8.4670402e-02 -4.3252411e-01  3.5405390e-02
 -5.3349484e-02  4.6524683e-01  3.4900028e-01  2.2641460e-03
 -3.4510292e-02 -8.0749822e-01 -3.1985405e-01 -5.9283310e-01
 -9.0390223e-01 -1.4241166e-01 -5.5265880e-01 -5.1646835e-01
 -2.8719634e-01 -3.7077728e-01  6.5048449e-02  2.5472134e-01
  6.5454072e-01  1.2151333e-01 -1.3821451e-01  9.9874705e-02
 -4.3321189e-02  7.3669441e-02  1.7232794e-01  4.9178770e-01
  4.2714527e-01  1.0523230e+00 -5.5913162e-01 -3.1619892e-01
  3.7020452e-02  1.1021802e-01 -3.7913308e-02 -4.8233813e-01
 -9.6696448e-01 -5.7944852e-01 -4.1664027e-02 -4.6984950e-04
  6.1652827e-01  7.3949319e-01  2.9008725e-01  5.1252049e-01
  5.9232628e-01  4.5207236e-02  2.3520637e-01 -4.0608945e-01
 -8.4129596e-01  7.4522778e-02 -2.2772101e-01  3.5830311e-02
  3.2047310e-01  8.5679434e-02 -1.1635340e+00  1.0147573e+00
 -4.7988892e-01  4.91753

# 4. Analyse

Question 1 :
Plus rapide : Word2Vec CBOW, grâce à sa prédiction rapide des mots centraux.
Plus lente : FastText, car il génère des embeddings pour les sous-mots, augmentant le temps de calcul.

Question 2 :
Techniques avancées (Word2Vec, GloVe, FastText) : Le temps augmente avec la taille du corpus, car l'entraînement est plus complexe et itératif.
Techniques classiques (One-Hot Encoding, TF-IDF, BoW, N-grams) : L'impact est linéaire, dépendant uniquement de la taille des données et de la mémoire utilisée.

Question 3 :
Fortement affectées : Word2Vec et FastText, car elles nécessitent plusieurs passes sur le corpus pour ajuster les poids.
Raison : Leur entraînement repose sur des itérations (epochs) et des calculs complexes.

Question 4 :
Différences observées : Avec un grand corpus, les vecteurs sont plus riches et capturent mieux les relations sémantiques. Les embeddings pour les mots rares ou inconnus sont particulièrement améliorés dans FastText.
Améliorations : Meilleure généralisation et représentations plus précises.

Question 5 :
Techniques classiques : Leur temps d'exécution augmente proportionnellement à la taille du corpus, car elles traitent chaque mot ou document séparément.
Techniques avancées : Elles nécessitent des ressources importantes initialement (entraînement), mais sont rapides à utiliser une fois pré-entraînées.