# Représentation vectorielle (Vectorisation & Embeddings)

La représentation vectorielle consiste à transformer du texte (mots ou documents) en vecteurs numériques afin de pouvoir appliquer des méthodes mathématiques et algorithmiques en NLP.

In [1]:
import json

with open("corpus.json", "r", encoding="utf-8") as f:
    data = json.load(f)

corpus = data["corpus"]

## 1. Bag of Words (BoW)

Le modèle **Bag of Words** représente un document par un vecteur de comptage de mots.

- Chaque dimension correspond à un mot du vocabulaire

- La valeur indique le nombre d’occurrences du mot

- L’ordre des mots est ignoré

**Avantages**
- Simple à comprendre et à implémenter

- Efficace pour des tâches basiques (classification, clustering)

**Limites**

- Pas de sémantique

- Vecteurs très creux (sparse)

- Sensible à la longueur du document

In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer

vectorizer = CountVectorizer()

X = vectorizer.fit_transform(corpus)

print("Vocabulaire (Features) :", vectorizer.get_feature_names_out())
print("\nMatrice BoW :\n", X.toarray())

df = pd.DataFrame(X.toarray(), columns=vectorizer.get_feature_names_out())
print(df)

Vocabulaire (Features) : ['abilities' 'active' 'adaptive' 'adapts' 'additional' 'adjust' 'age'
 'algorithms' 'align' 'allows' 'amounts' 'an' 'analytics' 'and' 'another'
 'application' 'apply' 'are' 'artificial' 'assessment' 'at' 'auditory'
 'automatically' 'available' 'based' 'be' 'become' 'been' 'behavioral'
 'better' 'between' 'blended' 'both' 'by' 'challenging' 'changing'
 'children' 'clearly' 'collaborative' 'combines' 'connects' 'continuous'
 'course' 'curve' 'dashboard' 'data' 'datasets' 'deep' 'defined' 'develop'
 'development' 'diagnosed' 'difficulty' 'disabilities' 'disabled'
 'discovers' 'domain' 'during' 'early' 'educational' 'emphasizes'
 'enables' 'encourages' 'engagement' 'ensemble' 'environment' 'error'
 'essential' 'examples' 'expedition' 'experiential' 'exploration'
 'federated' 'few' 'field' 'for' 'formats' 'from' 'gained' 'gap' 'happens'
 'has' 'have' 'her' 'hidden' 'his' 'historical' 'how' 'imitation'
 'improve' 'improvement' 'improves' 'in' 'increasingly' 'individu

*Soucrce code : `BoW.py`*

## 2. TF-IDF (Term Frequency – Inverse Document Frequency)

TF-IDF pondère les mots selon :

- leur fréquence dans un document (TF)

- leur rareté dans l’ensemble du corpus (IDF)

Objectif : **réduire l’importance des mots fréquents et non informatifs.**

**Avantages**

- Plus informatif que BoW

- Très utilisé en recherche d’information

- Fonctionne bien avec la similarité cosinus

**Limites**

- Toujours aucune compréhension du sens

- Ne capture pas les relations entre mots

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf = TfidfVectorizer()
X = tfidf.fit_transform(corpus)

df = pd.DataFrame(
    X.toarray(),
    columns=tfidf.get_feature_names_out(),
    index=[f"Doc{i+1}" for i in range(len(corpus))]
)

print("Matrice TF-IDF :")
print(df)

Matrice TF-IDF :
       abilities    active  adaptive    adapts  additional    adjust  \
Doc1    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc2    0.366283  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc3    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc4    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc5    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc6    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc7    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc8    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc9    0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc10   0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc11   0.000000  0.000000  0.000000  0.000000    0.000000  0.000000   
Doc12   0.000000  0.417146  0.000000  0.000000    0.000000  0.000000   
Doc13   0.000000  0.000000  0.000000  0.000000 

*Source code : `tf_idf.py`*

## 3. Word2Vec (Embeddings)

Word2Vec apprend des **vecteurs denses** à partir du contexte des mots.

- Mots proches sémantiquement → vecteurs proches

- Basé sur des réseaux de neurones

- Deux architectures : CBOW et Skip-gram

**Avantages**

- Capture la sémantique

- Vecteurs compacts et continus

- Permet des analogies (king − man + woman ≈ queen)

**Limites**

- Un mot = un vecteur (pas de contexte)

- Nécessite un corpus conséquent

In [4]:
from gensim.models import Word2Vec
from nltk.tokenize import word_tokenize

tokenized_corpus = [word_tokenize(sentence.lower()) for sentence in corpus]

model = Word2Vec(sentences=tokenized_corpus, vector_size=20, window=5, min_count=1, workers=4)

print("\nMots les plus proches de 'learning':")
print(model.wv.most_similar('learning', topn=5))


Mots les plus proches de 'learning':
[('repetition', 0.5863352417945862), ('time', 0.47172510623931885), ('predictions', 0.4542635679244995), ('challenging', 0.44870778918266296), ('learn', 0.44382014870643616)]


*Source code : `word_vec.py`*

## 4. Similarité cosinus

La similarité cosinus mesure l’angle entre deux vecteurs.

$$
\text{cosine}(x, y) = \frac{x \cdot y}{\|x\| \|y\|}
$$

- Valeur proche de 1 → textes similaires

- Indépendante de la longueur des documents

**Pourquoi l’utiliser en NLP ?**

- Adaptée aux vecteurs haute dimension

- Standard pour TF-IDF et embeddings

In [5]:
from sklearn.metrics.pairwise import cosine_similarity

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(corpus)

cosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)

df_sim = pd.DataFrame(cosine_sim, index=[f"Doc{i+1}" for i in range(len(corpus))], columns=[f"Doc{i+1}" for i in range(len(corpus))])
print("Matrice de Similarité :\n")
print(df_sim)

Matrice de Similarité :

           Doc1      Doc2      Doc3      Doc4      Doc5      Doc6      Doc7  \
Doc1   1.000000  0.008872  0.048421  0.113601  0.090069  0.151585  0.010183   
Doc2   0.008872  1.000000  0.009020  0.008805  0.064782  0.008812  0.009527   
Doc3   0.048421  0.009020  1.000000  0.009568  0.102121  0.173240  0.110110   
Doc4   0.113601  0.008805  0.009568  1.000000  0.009372  0.112836  0.010106   
Doc5   0.090069  0.064782  0.102121  0.009372  1.000000  0.009381  0.010141   
Doc6   0.151585  0.008812  0.173240  0.112836  0.009381  1.000000  0.010114   
Doc7   0.010183  0.009527  0.110110  0.010106  0.010141  0.010114  1.000000   
Doc8   0.009525  0.008911  0.102997  0.009453  0.009486  0.009461  0.108782   
Doc9   0.050941  0.069577  0.051790  0.010066  0.074064  0.050597  0.010892   
Doc10  0.009997  0.009353  0.010164  0.009921  0.009956  0.009930  0.010735   
Doc11  0.007381  0.006905  0.007504  0.077901  0.007350  0.007331  0.007925   
Doc12  0.010104  0.009453  

*Source code : `cos_sim.py`*

## Résumé

| Méthode | Type | Usage principal |
|------|-----|----------------|
| BoW | Sparse | Baseline NLP |
| TF-IDF | Sparse | Recherche d’information |
| Word2Vec | Dense | Similarité sémantique |
| Cosine similarity | Mesure | Comparaison de vecteurs |
