# 1. Préparation des données

In [1]:
import pandas as pd 
import numpy as np 
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer 

In [2]:
documents = [ 
"Je suis heureux d'être ici.", 
"L'apprentissage automatique est fascinant.", 
"Les modèles de langage sont importants pour le NLP.", 
"Le NLP se concentre sur le traitement du langage naturel.", 
"Les embeddings de mots capturent le sens des mots." 
] 

# 2. Implémentation des techniques classiques

## A. One Hot Encoding

In [3]:
import re
from sklearn.preprocessing import LabelBinarizer

In [4]:
preprocessed_docs = []
for doc in documents:
    # Conversion en minuscules
    doc = doc.lower()
    # Suppression de la ponctuation
    doc = re.sub(r'[^\w\s]', '', doc)
    # Tokenization (division en mots)
    tokens = doc.split()
    preprocessed_docs.extend(tokens)

# Création d'un dictionnaire pour chaque mot unique
unique_words = list(set(preprocessed_docs))
word_to_index = {word: idx for idx, word in enumerate(unique_words)}

# Attribution d'un vecteur binaire unique à chaque mot
label_binarizer = LabelBinarizer()
binary_vectors = label_binarizer.fit_transform(unique_words)

# Affichage des mots uniques avec leur vecteur binaire
for word, vector in zip(unique_words, binary_vectors):
    print(f"Mot: {word}, Vecteur binaire: {vector}")

Mot: ici, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: automatique, Vecteur binaire: [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: capturent, Vecteur binaire: [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: modèles, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0]
Mot: le, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: lapprentissage, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: suis, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0]
Mot: pour, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0]
Mot: sont, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0]
Mot: importants, Vecteur binaire: [0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: du, Vecteur binaire: [0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
Mot: f

In [5]:
def one_hot_encoding(docs): 
    vocab = set(word for doc in docs for word in doc.split()) 
    vocab = {word: i for i, word in enumerate(vocab)} 
     
    one_hot_vectors = [] 
    for doc in docs: 
        vector = [0] * len(vocab) 
        for word in doc.split(): 
            if word in vocab: 
                vector[vocab[word]] = 1 
        one_hot_vectors.append(vector) 
    return one_hot_vectors, vocab 

In [6]:
one_hot_vectors, vocab = one_hot_encoding(preprocessed_docs) 
print("Vocabulaire:", vocab) 
print("One-Hot Encodings:", one_hot_vectors)

Vocabulaire: {'ici': 0, 'automatique': 1, 'capturent': 2, 'modèles': 3, 'le': 4, 'lapprentissage': 5, 'suis': 6, 'pour': 7, 'sont': 8, 'importants': 9, 'du': 10, 'fascinant': 11, 'langage': 12, 'concentre': 13, 'dêtre': 14, 'sens': 15, 'de': 16, 'traitement': 17, 'sur': 18, 'heureux': 19, 'naturel': 20, 'nlp': 21, 'embeddings': 22, 'les': 23, 'mots': 24, 'est': 25, 'je': 26, 'des': 27, 'se': 28}
One-Hot Encodings: [[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0], [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

## BOW

In [7]:
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer
from sklearn.feature_extraction.text import CountVectorizer
import nltk

stemmer = PorterStemmer()

# Liste des stopwords en français
stop_words = set(stopwords.words('french'))

In [8]:
def preprocess_text(text):
    text = text.lower()
    # Supprimer la ponctuation et les chiffres
    text = re.sub(r'[^a-zéàèùâêîôûëïöüç]', ' ', text) 
    tokens = text.split()
    # Suppression des stopwords et stemming
    tokens = [stemmer.stem(word) for word in tokens if word not in stop_words]
    # Rejoindre les mots traités pour reformer le texte
    return ' '.join(tokens)

In [9]:
# Appliquer le prétraitement à chaque document
documents_preprocessed = [preprocess_text(doc) for doc in documents]

# Initialiser le CountVectorizer pour créer un modèle BOW
vectorizer = CountVectorizer(binary=True)  # On choisit un modèle binaire pour le vecteur présence/absence
X = vectorizer.fit_transform(documents_preprocessed)

In [10]:
# Affichage du vocabulaire (dictionnaire des mots uniques)
vocabulaire = vectorizer.get_feature_names_out()
print("Vocabulaire (mots uniques) :")
print(vocabulaire)

Vocabulaire (mots uniques) :
['apprentissag' 'automatiqu' 'captur' 'concentr' 'embed' 'fascin'
 'heureux' 'ici' 'import' 'langag' 'modèl' 'mot' 'naturel' 'nlp' 'sen'
 'traitement' 'être']


In [11]:
# Affichage des vecteurs binaires (matrice de présence/absence)
print("\nVecteurs binaires pour chaque document :")
print(X.toarray())


Vecteurs binaires pour chaque document :
[[0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1]
 [1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 1 1 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 1 0]
 [0 0 1 0 1 0 0 0 0 0 0 1 0 0 1 0 0]]


In [12]:
vectorizer = CountVectorizer() 
bow_matrix = vectorizer.fit_transform(documents_preprocessed) 
print("Vocabulaire:", vectorizer.get_feature_names_out()) 
print("Matrice BoW:\n", bow_matrix.toarray()) 

Vocabulaire: ['apprentissag' 'automatiqu' 'captur' 'concentr' 'embed' 'fascin'
 'heureux' 'ici' 'import' 'langag' 'modèl' 'mot' 'naturel' 'nlp' 'sen'
 'traitement' 'être']
Matrice BoW:
 [[0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1]
 [1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 1 1 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 1 0]
 [0 0 1 0 1 0 0 0 0 0 0 2 0 0 1 0 0]]


# C. Term Frequency - Inverse Document Frequency (TF-IDF) 

In [14]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents_preprocessed)
print("Vocabulaire TF-IDF:", tfidf_vectorizer.get_feature_names_out())

Vocabulaire TF-IDF: ['apprentissag' 'automatiqu' 'captur' 'concentr' 'embed' 'fascin'
 'heureux' 'ici' 'import' 'langag' 'modèl' 'mot' 'naturel' 'nlp' 'sen'
 'traitement' 'être']


In [15]:
print("Matrice TF-IDF:\n", tfidf_matrix.toarray())

Matrice TF-IDF:
 [[0.         0.         0.         0.         0.         0.
  0.57735027 0.57735027 0.         0.         0.         0.
  0.         0.         0.         0.         0.57735027]
 [0.57735027 0.57735027 0.         0.         0.         0.57735027
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.55032913 0.44400208 0.55032913 0.
  0.         0.44400208 0.         0.         0.        ]
 [0.         0.         0.         0.48214012 0.         0.
  0.         0.         0.         0.38898761 0.         0.
  0.48214012 0.38898761 0.         0.48214012 0.        ]
 [0.         0.         0.37796447 0.         0.37796447 0.
  0.         0.         0.         0.         0.         0.75592895
  0.         0.         0.37796447 0.         0.        ]]


In [16]:
# Initialiser le CountVectorizer pour créer un modèle BOW
bow_vectorizer = CountVectorizer()
bow_matrix = bow_vectorizer.fit_transform(documents_preprocessed)

# Affichage du vocabulaire (dictionnaire des mots uniques)
print("Vocabulaire BoW:", bow_vectorizer.get_feature_names_out())

Vocabulaire BoW: ['apprentissag' 'automatiqu' 'captur' 'concentr' 'embed' 'fascin'
 'heureux' 'ici' 'import' 'langag' 'modèl' 'mot' 'naturel' 'nlp' 'sen'
 'traitement' 'être']


In [17]:
# Affichage des vecteurs de fréquence des mots pour chaque document
print("Matrice BoW:\n", bow_matrix.toarray())

Matrice BoW:
 [[0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 1]
 [1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 1 1 0 0 1 0 0 0]
 [0 0 0 1 0 0 0 0 0 1 0 0 1 1 0 1 0]
 [0 0 1 0 1 0 0 0 0 0 0 2 0 0 1 0 0]]


In [18]:
# --- Analyse des différences ---
# Vérifier les mots avec des vecteurs TF-IDF égal à 0
print("Mots avec TF-IDF égal à 0:")
for word, index in tfidf_vectorizer.vocabulary_.items():
    if all(tfidf_matrix[:, index].toarray() == 0):
        print(word)

Mots avec TF-IDF égal à 0:


In [19]:
tfidf_vectorizer = TfidfVectorizer() 
tfidf_matrix = tfidf_vectorizer.fit_transform(documents_preprocessed) 
print("Vocabulaire:", tfidf_vectorizer.get_feature_names_out()) 
print("Matrice TF-IDF:\n", tfidf_matrix.toarray())

Vocabulaire: ['apprentissag' 'automatiqu' 'captur' 'concentr' 'embed' 'fascin'
 'heureux' 'ici' 'import' 'langag' 'modèl' 'mot' 'naturel' 'nlp' 'sen'
 'traitement' 'être']
Matrice TF-IDF:
 [[0.         0.         0.         0.         0.         0.
  0.57735027 0.57735027 0.         0.         0.         0.
  0.         0.         0.         0.         0.57735027]
 [0.57735027 0.57735027 0.         0.         0.         0.57735027
  0.         0.         0.         0.         0.         0.
  0.         0.         0.         0.         0.        ]
 [0.         0.         0.         0.         0.         0.
  0.         0.         0.55032913 0.44400208 0.55032913 0.
  0.         0.44400208 0.         0.         0.        ]
 [0.         0.         0.         0.48214012 0.         0.
  0.         0.         0.         0.38898761 0.         0.
  0.48214012 0.38898761 0.         0.48214012 0.        ]
 [0.         0.         0.37796447 0.         0.37796447 0.
  0.         0.         0.     

# D. N-Grams

In [20]:
bigram_vectorizer = CountVectorizer(ngram_range=(2, 2)) 
bigram_matrix = bigram_vectorizer.fit_transform(documents_preprocessed) 
print("Bigrams Vocabulaire:", bigram_vectorizer.get_feature_names_out()) 
print("Matrice Bigram:\n", bigram_matrix.toarray())

Bigrams Vocabulaire: ['apprentissag automatiqu' 'automatiqu fascin' 'captur sen'
 'concentr traitement' 'embed mot' 'heureux être' 'import nlp'
 'langag import' 'langag naturel' 'modèl langag' 'mot captur'
 'nlp concentr' 'sen mot' 'traitement langag' 'être ici']
Matrice Bigram:
 [[0 0 0 0 0 1 0 0 0 0 0 0 0 0 1]
 [1 1 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 1 1 0 1 0 0 0 0 0]
 [0 0 0 1 0 0 0 0 1 0 0 1 0 1 0]
 [0 0 1 0 1 0 0 0 0 0 1 0 1 0 0]]


In [21]:
trigram_vectorizer = CountVectorizer(ngram_range=(3, 3)) 
trigram_matrix = trigram_vectorizer.fit_transform(documents_preprocessed) 
print("Trigrams Vocabulaire:", trigram_vectorizer.get_feature_names_out()) 
print("Matrice Trigram:\n", trigram_matrix.toarray()) 

Trigrams Vocabulaire: ['apprentissag automatiqu fascin' 'captur sen mot'
 'concentr traitement langag' 'embed mot captur' 'heureux être ici'
 'langag import nlp' 'modèl langag import' 'mot captur sen'
 'nlp concentr traitement' 'traitement langag naturel']
Matrice Trigram:
 [[0 0 0 0 1 0 0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 1 1 0 0 0]
 [0 0 1 0 0 0 0 0 1 1]
 [0 1 0 1 0 0 0 1 0 0]]


# 3. Analyse des Résultats 

## Analyse de la structure des matrices obtenues avec chaque technique

### Bag of Words (BoW) :
La matrice est clairsemée, avec une dimension de 5×n (où n est le nombre total de mots uniques dans les documents). Chaque ligne représente un document, et chaque colonne une occurrence des mots. Cette structure ne capture pas le contexte sémantique.

### TF-IDF :
Semblable à BoW mais avec des poids attribués aux termes en fonction de leur fréquence dans un document et dans le corpus entier. Les valeurs non nulles indiquent les mots discriminants. La matrice reste clairsemée et ne prend pas en compte l'ordre des mots ni le contexte.

### Word Embeddings (Word2Vec/GloVe) :
Les matrices générées ici sont denses, chaque mot étant représenté par un vecteur de dimension fixe (ex. 100 ou 300 dimensions). Ces vecteurs capturent les similarités sémantiques : des mots proches dans le sens auront des vecteurs proches dans l’espace vectoriel.

## Comparaison des tailles des matrices et interprétation

### BoW et TF-IDF :
La dimension dépend directement du vocabulaire, ici un corpus restreint génère une matrice de petite taille mais très clairsemée. L’interprétation est simple, mais ces représentations souffrent d’une perte de sémantique et sont inefficaces pour les corpus volumineux.

### Word2Vec/GloVe :
Les dimensions des vecteurs sont constantes (fixées lors de l’entraînement ou via des modèles pré-entraînés comme GloVe). Dans ce cas, la matrice est denses et de taille N×d, où N est le nombre de mots uniques et d la dimension des vecteurs (ex. 100 ou 300). Cela améliore la généralisation et la capture de relations contextuelles et sémantiques.

## Limitations du One-Hot Encoding et du BoW :

One-Hot Encoding :
Matrices très clairsemées pour les grands vocabulaires.
Perte totale du contexte et des relations sémantiques entre les mots.
BoW :
Ignore l'ordre des mots et le contexte.
Sensible aux mots fréquents non informatifs (ex. articles).

## Améliorations apportées par le TF-IDF :

Réduit l’importance des mots courants non informatifs en pondérant leur fréquence inversement à leur présence dans le corpus.
Met en valeur les mots rares et discriminants pour chaque document, améliorant ainsi la qualité des représentations.

## Apport des n-grams :

Capturent les séquences de mots (ex. bigrams, trigrams) pour inclure une partie du contexte.
Révèlent des relations syntaxiques et sémantiques non accessibles avec des mots isolés.

# 4. Extension du Corpus avec NLTK et Analyse des Temps d'Exécution 

In [22]:
nltk.download('movie_reviews') 
from nltk.corpus import movie_reviews 
# Charger les phrases du corpus 
corpus = [" ".join(movie_reviews.words(fileid)) for fileid in movie_reviews.fileids()] 

[nltk_data] Downloading package movie_reviews to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\movie_reviews.zip.


In [23]:
nltk.download('stopwords')
nltk.download('punkt')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Admin\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [24]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import string

def preprocess_text(text):
    # Tokenization
    tokens = word_tokenize(text)
    
    # Conversion en minuscules
    tokens = [word.lower() for word in tokens]
    
    # Suppression des stop words et de la ponctuation
    stop_words = set(stopwords.words('english'))
    tokens = [word for word in tokens if word not in stop_words and word not in string.punctuation]
    
    return tokens

# Appliquer le pré-traitement sur le corpus
processed_corpus = [preprocess_text(text) for text in corpus]


In [25]:
# Rejoindre les tokens traités en textes
processed_texts = [" ".join(text) for text in processed_corpus]

# Initialiser CountVectorizer pour One-Hot Encoding
vectorizer = CountVectorizer(binary=True)
one_hot_matrix = vectorizer.fit_transform(processed_texts)

# Convertir en tableau dense pour visualisation
one_hot_array = one_hot_matrix.toarray()

In [None]:
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(processed_texts)

# Convertir en tableau dense pour visualisation
tfidf_array = tfidf_matrix.toarray()

In [None]:
bow_vectorizer = CountVectorizer()
bow_matrix = bow_vectorizer.fit_transform(processed_texts)

# Convertir en tableau dense pour visualisation
bow_array = bow_matrix.toarray()

In [28]:
ngram_vectorizer = CountVectorizer(ngram_range=(2, 2))
ngram_matrix = ngram_vectorizer.fit_transform(processed_texts)

# Convertir en tableau dense pour visualisation
ngram_array = ngram_matrix.toarray()

## Questions d'analyse

Question 1 :
Méthode la plus rapide : One-Hot Encoding, car elle crée un vecteur binaire sans calcul complexe.
Méthode la plus lente : N-gram.

Question 2 :
La taille du corpus augmente la complexité des méthodes. Le One-Hot Encoding et le BoW deviennent plus lents à mesure que le vocabulaire augmente. TF-IDF et N-grams sont également plus lents, particulièrement avec des grands corpus, en raison du calcul des fréquences.

Question 3 :
TF-IDF et N-grams sont particulièrement affectés par l'augmentation de la taille du corpus, car ces méthodes nécessitent des calculs plus complexes (comptage de fréquence et pondération) et des mémoires plus importantes pour stocker les informations.

Question 4 :
Avec un grand corpus, les vecteurs obtenus devraient être plus dispersés et mieux capturer les relations entre les mots. On peut observer des améliorations dans les représentations, mais aussi une augmentation de la sparsité et des variations dans les poids (pour TF-IDF).