# M√©thodes de vectorisation : comptages et word embeddings

Lino Galiana  
2024-09-23

<p class="badges">

<a href="https://github.com/linogaliana/python-datascientist-notebooks/blob/main/notebooks/NLP/04_word2vec.ipynb" class="github"><i class="fab fa-github"></i></a>
<a href="https://downgit.github.io/#/home?url=https://github.com/linogaliana/python-datascientist-notebooks/blob/main/notebooks/NLP/04_word2vec.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/Download-Notebook-important?logo=Jupyter" alt="Download"></a>
<a href="https://nbviewer.jupyter.org/github/linogaliana/python-datascientist-notebooksblob/main/notebooks/NLP/04_word2vec.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/Visualize-nbviewer-blue?logo=Jupyter" alt="nbviewer"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/jupyter-pytorch?autoLaunch=true&onyxia.friendlyName=%C2%AB04_word2vec%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-jupyter.sh%C2%BB&init.personalInitArgs=%C2%ABNLP%2004_word2vec%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSP%20Cloud-Tester_avec_Jupyter-orange?logo=Jupyter&logoColor=orange" alt="Onyxia"></a>
<a href="https://datalab.sspcloud.fr/launcher/ide/vscode-pytorch?autoLaunch=true&onyxia.friendlyName=%C2%AB04_word2vec%C2%BB&init.personalInit=%C2%ABhttps%3A%2F%2Fraw.githubusercontent.com%2Flinogaliana%2Fpython-datascientist%2Fmaster%2Fsspcloud%2Finit-vscode.sh%C2%BB&init.personalInitArgs=%C2%ABNLP%2004_word2vec%C2%BB&security.allowlist.enabled=false" target="_blank" rel="noopener"><img src="https://img.shields.io/badge/SSP%20Cloud-Tester_avec_VSCode-blue?logo=visualstudiocode&logoColor=blue" alt="Onyxia"></a><br>
<a href="https://colab.research.google.com/github/linogaliana/python-datascientist-notebooks/blob/main/notebooks/NLP/04_word2vec.ipynb" target="_blank" rel="noopener"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>
<a href="https://github.dev/linogaliana/python-datascientist-notebooks/notebooks/NLP/04_word2vec.ipynb" target="_blank" rel="noopener"><img src="https://img.shields.io/static/v1?logo=visualstudiocode&label=&message=Open%20in%20Visual%20Studio%20Code&labelColor=2c2c32&color=007acc&logoColor=007acc" alt="githubdev"></a>

</p>

</p>

<div class="alert alert-danger" role="alert">
<h3 class="alert-heading"><i class="fa-solid fa-triangle-exclamation"></i> Warning</h3>

Ce chapitre va √©voluer prochainement.

</div>

Cette page approfondit certains aspects pr√©sent√©s dans la
[partie introductive](../../content/NLP/02_exoclean.qmd). Apr√®s avoir travaill√© sur le
*Comte de Monte Cristo*, on va continuer notre exploration de la litt√©rature
avec cette fois des auteurs anglophones :

-   Edgar Allan Poe, (EAP) ;
-   HP Lovecraft (HPL) ;
-   Mary Wollstonecraft Shelley (MWS).

Les donn√©es sont disponibles sur un CSV mis √† disposition sur [`Github`](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/blob/master/data/spooky.csv). L‚ÄôURL pour les r√©cup√©rer directement est
<https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv>.

Le but va √™tre dans un premier temps de regarder dans le d√©tail les termes les plus fr√©quents utilis√©s par les auteurs et de les repr√©senter graphiquement, puis on va ensuite essayer de pr√©dire quel texte correspond √† quel auteur √† partir de diff√©rents mod√®les de vectorisation, notamment les *word embeddings*.

Ce chapitre s‚Äôinspire de plusieurs ressources disponibles en ligne:

-   Un [premier *notebook* sur `Kaggle`](https://www.kaggle.com/enerrio/scary-nlp-with-spacy-and-keras)
    et un [deuxi√®me](https://www.kaggle.com/meiyizi/spooky-nlp-and-topic-modelling-tutorial/notebook) ;
-   Un [d√©p√¥t `Github`](https://github.com/GU4243-ADS/spring2018-project1-ginnyqg) ;

# 1. Packages √† installer

Comme dans la [partie pr√©c√©dente](../../content/NLP/02_exoclean.qmd), il faut t√©l√©charger des librairies
sp√©cialis√©ees pour le NLP, ainsi que certaines de leurs d√©pendances.

In [2]:
!pip install scipy==1.12 gensim sentence_transformers pandas matplotlib seaborn

Ensuite, comme nous allons utiliser la librairie `SpaCy` avec un corpus de textes
en Anglais, il convient de t√©l√©charger le mod√®le NLP pour l‚ÄôAnglais. Pour cela,
on peut se r√©f√©rer √† [la documentation de `SpaCy`](https://spacy.io/usage/models),
extr√™mement bien faite.

In [3]:
!python -m spacy download en_core_web_sm

In [4]:
from collections import Counter

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import gensim

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import GridSearchCV, cross_val_score

from gensim.models.word2vec import Word2Vec
import gensim.downloader
from sentence_transformers import SentenceTransformer


# 2. Nettoyage des donn√©es

Nous allons ainsi √† nouveau utiliser le jeu de donn√©es `spooky` :

In [5]:
data_url = "https://github.com/GU4243-ADS/spring2018-project1-ginnyqg/raw/master/data/spooky.csv"
spooky_df = pd.read_csv(data_url)


Le jeu de donn√©es met ainsi en regard un auteur avec une phrase qu‚Äôil a √©crite :

In [6]:
spooky_df.head()


## 2.1 Preprocessing

En NLP, la premi√®re √©tape est souvent celle du *preprocessing*, qui inclut notamment les √©tapes de tokenization et de nettoyage du texte. Comme celles-ci ont √©t√© vues en d√©tail dans le pr√©c√©dent chapitre, on se contentera ici d‚Äôun *preprocessing* minimaliste : suppression de la ponctuation et des *stop words* (pour la visualisation et les m√©thodes de vectorisation bas√©es sur des comptages).

Jusqu‚Äô√† pr√©sent, nous avons utilis√© principalement `nltk` pour le
*preprocessing* de donn√©es textuelles. Cette fois, nous proposons
d‚Äôutiliser la librairie `spaCy` qui permet de mieux automatiser sous forme de
*pipelines* de *preprocessing*.

Pour initialiser le processus de nettoyage,
on va utiliser le corpus `en_core_web_sm` (voir plus
haut pour l‚Äôinstallation de ce corpus):

In [7]:
import spacy

nlp = spacy.load("en_core_web_sm")


On va utiliser un `pipe` `spacy` qui permet d‚Äôautomatiser, et de parall√©liser,
un certain nombre d‚Äôop√©rations. Les *pipes* sont l‚Äô√©quivalent, en NLP, de
nos *pipelines* `scikit` ou des *pipes* `pandas`. Il s‚Äôagit donc d‚Äôun outil
tr√®s appropri√© pour industrialiser un certain nombre d‚Äôop√©rations de
*preprocessing* :

In [8]:
def clean_docs(texts, remove_stopwords=False, n_process=4):

    docs = nlp.pipe(
        texts, n_process=n_process, disable=["parser", "ner", "lemmatizer", "textcat"]
    )
    stopwords = nlp.Defaults.stop_words

    docs_cleaned = []
    for doc in docs:
        tokens = [tok.text.lower().strip() for tok in doc if not tok.is_punct]
        if remove_stopwords:
            tokens = [tok for tok in tokens if tok not in stopwords]
        doc_clean = " ".join(tokens)
        docs_cleaned.append(doc_clean)

    return docs_cleaned


On applique la fonction `clean_docs` √† notre colonne `pandas`.
Les `pandas.Series` √©tant it√©rables, elles se comportent comme des listes et
fonctionnent ainsi tr√®s bien avec notre `pipe` `spacy`.

In [9]:
spooky_df["text_clean"] = clean_docs(spooky_df["text"])


In [10]:
spooky_df.head()


## 2.2 Encodage de la variable √† pr√©dire

On r√©alise un simple encodage de la variable √† pr√©dire :
il y a trois cat√©gories (auteurs), repr√©sent√©es par des entiers 0, 1 et 2.

Pour cela, on utilise le `LabelEncoder` de `scikit` d√©j√† pr√©sent√©
dans la [partie mod√©lisation](#preprocessing). On va utiliser la m√©thode
`fit_transform` qui permet, en un tour de main, d‚Äôappliquer √† la fois
l‚Äôentra√Ænement (`fit`), √† savoir la cr√©ation d‚Äôune correspondance entre valeurs
num√©riques et *labels*, et l‚Äôappliquer (`transform`) √† la m√™me colonne.

In [11]:
le = LabelEncoder()
spooky_df["author_encoded"] = le.fit_transform(spooky_df["author"])


On peut v√©rifier les classes de notre `LabelEncoder` :

In [12]:
le.classes_


## 2.3 Construction des bases d‚Äôentra√Ænement et de test

On met de c√¥t√© un √©chantillon de test (20 %) avant toute analyse (m√™me descriptive).
Cela permettra d‚Äô√©valuer nos diff√©rents mod√®les toute √† la fin de mani√®re tr√®s rigoureuse,
puisque ces donn√©es n‚Äôauront jamais utilis√©es pendant l‚Äôentra√Ænement.

In [13]:
y = spooky_df["author_encoded"]
X = spooky_df["text_clean"]
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)


Notre √©chantillon initial n‚Äôest pas √©quilibr√© (*balanced*) : on retrouve plus d‚Äôoeuvres de
certains auteurs que d‚Äôautres. Afin d‚Äôobtenir un mod√®le qui soit √©valu√© au mieux, nous allons donc stratifier notre √©chantillon de mani√®re √† obtenir une r√©partition similaire d‚Äôauteurs dans nos
ensembles d‚Äôentra√Ænement et de test.

Aper√ßu du premier √©l√©ment de `X_train` :

In [14]:
X_train[0]


On peut aussi v√©rifier qu‚Äôon est capable de retrouver
la correspondance entre nos auteurs initiaux avec
la m√©thode `inverse_transform` :

In [15]:
print(y_train[0], le.inverse_transform([y_train[0]])[0])


# 3. Statistiques exploratoires

## 3.1 R√©partition des labels

Refaisons un graphique que nous avons d√©j√† produit pr√©c√©demment pour voir
la r√©partition de notre corpus entre auteurs :

In [16]:
fig = pd.Series(le.inverse_transform(y_train)).value_counts().plot(kind="bar")
fig


On observe une petite asym√©trie : les passages des livres d‚ÄôEdgar Allen Poe sont plus nombreux que ceux des autres auteurs dans notre corpus d‚Äôentra√Ænement, ce qui peut √™tre probl√©matique dans le cadre d‚Äôune t√¢che de classification.
L‚Äô√©cart n‚Äôest pas dramatique, mais on essaiera d‚Äôen tenir compte dans l‚Äôanalyse en choisissant une m√©trique d‚Äô√©valuation pertinente.

## 3.2 Mots les plus fr√©quemment utilis√©s par chaque auteur

On va supprimer les *stop words* pour r√©duire le bruit dans notre jeu
de donn√©es.

In [18]:
# Suppression des stop words
X_train_no_sw = clean_docs(X_train, remove_stopwords=True)
X_train_no_sw = np.array(X_train_no_sw)


Pour visualiser rapidement nos corpus, on peut utiliser la technique des
nuages de mots d√©j√† vue √† plusieurs reprises.

Vous pouvez essayer de faire vous-m√™me les nuages ci-dessous
ou cliquer sur la ligne ci-dessous pour afficher le code ayant
g√©n√©r√© les figures :

<details><summary><code>Cliquer pour afficher le code</code> üëá</summary>

``` python
def plot_top_words(initials, ax, n_words=20):
    # Calcul des mots les plus fr√©quemment utilis√©s par l'auteur
    texts = X_train_no_sw[le.inverse_transform(y_train) == initials]
    all_tokens = " ".join(texts).split()
    counts = Counter(all_tokens)
    top_words = [word[0] for word in counts.most_common(n_words)]
    top_words_counts = [word[1] for word in counts.most_common(n_words)]

    # Repr√©sentation sous forme de barplot
    ax = sns.barplot(ax=ax, x=top_words, y=top_words_counts)
    ax.set_title(f"Most Common Words used by {initials_to_author[initials]}")
```

``` python
initials_to_author = {
    "EAP": "Edgar Allen Poe",
    "HPL": "H.P. Lovecraft",
    "MWS": "Mary Wollstonecraft Shelley",
}

fig, axs = plt.subplots(3, 1, figsize=(12, 12))

plot_top_words("EAP", ax=axs[0])
plot_top_words("HPL", ax=axs[1])
plot_top_words("MWS", ax=axs[2])
```

</details>

Beaucoup de mots se retrouvent tr√®s utilis√©s par les trois auteurs.
Il y a cependant des diff√©rences notables : le mot *‚Äúlife‚Äù*
est le plus employ√© par MWS, alors qu‚Äôil n‚Äôappara√Æt pas dans les deux autres tops.
De m√™me, le mot *‚Äúold‚Äù* est le plus utilis√© par HPL
l√† o√π les deux autres ne l‚Äôutilisent pas de mani√®re surrepr√©sent√©e.

Il semble donc qu‚Äôil y ait des particularit√©s propres √† chacun des auteurs
en termes de vocabulaire,
ce qui laisse penser qu‚Äôil est envisageable de pr√©dire les auteurs √† partir
de leurs textes dans une certaine mesure.

# 4. Pr√©diction sur le set d‚Äôentra√Ænement

Nous allons √† pr√©sent v√©rifier cette conjecture en comparant
plusieurs mod√®les de vectorisation,
*i.e.* de transformation du texte en objets num√©riques
pour que l‚Äôinformation contenue soit exploitable dans un mod√®le de classification.

## 4.1 D√©marche

Comme nous nous int√©ressons plus √† l‚Äôeffet de la vectorisation qu‚Äô√† la t√¢che de classification en elle-m√™me,
nous allons utiliser un algorithme de classification simple (un SVM lin√©aire), avec des param√®tres non fine-tun√©s (c‚Äôest-√†-dire des param√®tres pas n√©cessairement choisis pour √™tre les meilleurs de tous).

In [22]:
clf = LinearSVC(max_iter=10000, C=0.1, dual="auto")


Ce mod√®le est connu pour √™tre tr√®s performant sur les t√¢ches de classification de texte, et nous fournira donc un bon mod√®le de r√©f√©rence (*baseline*). Cela nous permettra √©galement de comparer de mani√®re objective l‚Äôimpact des m√©thodes de vectorisation sur la performance finale.

Pour les deux premi√®res m√©thodes de vectorisation
(bas√©es sur des fr√©quences et fr√©quences relatives des mots),
on va simplement normaliser les donn√©es d‚Äôentr√©e, ce qui va permettre au SVM de converger plus rapidement, ces mod√®les √©tant sensibles aux diff√©rences d‚Äô√©chelle dans les donn√©es.

On va √©galement *fine-tuner* via *grid-search*
certains hyperparam√®tres li√©s √† ces m√©thodes de vectorisation :

-   on teste diff√©rents *ranges* de `n-grams` (unigrammes et unigrammes + bigrammes)
-   on teste avec et sans *stop-words*

Afin d‚Äô√©viter le surapprentissage,
on va √©valuer les diff√©rents mod√®les via validation crois√©e, calcul√©e sur 4 blocs.

On r√©cup√®re √† la fin le meilleur mod√®le selon une m√©trique sp√©cifi√©e.
On choisit le `score F1`,
moyenne harmonique de la pr√©cision et du rappel,
qui donne un poids √©quilibr√© aux deux m√©triques, tout en p√©nalisant fortement le cas o√π l‚Äôune des deux est faible.
Pr√©cis√©ment, on retient le `score F1 *micro-averaged*` :
les contributions des diff√©rentes classes √† pr√©dire sont agr√©g√©es,
puis on calcule le `score F1` sur ces donn√©es agr√©g√©es.
L‚Äôavantage de ce choix est qu‚Äôil permet de tenir compte des diff√©rences
de fr√©quences des diff√©rentes classes.

## 4.2 Pipeline de pr√©diction

On va utiliser un *pipeline* `scikit` ce qui va nous permettre d‚Äôavoir
un code tr√®s concis pour effectuer cet ensemble de t√¢ches coh√©rentes.
De plus, cela va nous assurer de g√©rer de mani√®re coh√©rente nos diff√©rentes
transformations (cf.¬†[partie sur les pipelines](#pipelines))

Pour se faciliter la vie, on d√©finit une fonction `fit_vectorizers` qui
int√®gre dans un *pipeline* g√©n√©rique une m√©thode d‚Äôestimation `scikit`
et fait de la validation crois√©e en cherchant le meilleur mod√®le
(en excluant/incluant les *stop words* et avec unigrammes/bigrammes)

In [23]:
def fit_vectorizers(vectorizer):
    pipeline = Pipeline(
        [
            ("vect", vectorizer()),
            ("scaling", StandardScaler(with_mean=False)),
            ("clf", clf),
        ]
    )

    parameters = {
        "vect__ngram_range": ((1, 1), (1, 2)),  # unigrams or bigrams
        "vect__stop_words": ("english", None),
    }

    grid_search = GridSearchCV(
        pipeline, parameters, scoring="f1_micro", cv=4, n_jobs=4, verbose=1
    )
    grid_search.fit(X_train, y_train)

    best_parameters = grid_search.best_estimator_.get_params()
    for param_name in sorted(parameters.keys()):
        print("\t%s: %r" % (param_name, best_parameters[param_name]))

    print(f"CV scores {grid_search.cv_results_['mean_test_score']}")
    print(f"Mean F1 {np.mean(grid_search.cv_results_['mean_test_score'])}")

    return grid_search


# 5. Approche *bag-of-words*

On commence par une approche **‚Äúbag-of-words‚Äù**,
i.e.¬†qui revient simplement √† repr√©senter chaque document par un vecteur
qui compte le nombre d‚Äôapparitions de chaque mot du vocabulaire dans le document.

Illustrons d‚Äôabord le principe √† l‚Äôaide d‚Äôun exemple simple.

In [24]:
corpus = [
    "Un premier document √† propos des chats.",
    "Un second document qui parle des chiens.",
]

vectorizer = CountVectorizer()
vectorizer.fit(corpus)


L‚Äôobjet `vectorizer` a √©t√© ‚Äúentra√Æn√©‚Äù (*fit*) sur notre corpus d‚Äôexemple contenant deux documents. Il a notamment appris le vocabulaire complet du corpus, dont on peut afficher l‚Äôordre.

In [25]:
vectorizer.get_feature_names_out()


L‚Äôobjet `vectorizer` entra√Æn√© peut maintenant vectoriser le corpus initial, selon l‚Äôordre du vocabulaire affich√© ci-dessus.

In [26]:
X = vectorizer.transform(corpus)
print(X.toarray())


Quel score `F1` obtient-on finalement avec cette m√©thode de vectorisation sur notre probl√®me de classification d‚Äôauteurs ?

In [27]:
cv_bow = fit_vectorizers(CountVectorizer)


# 6. TF-IDF

On s‚Äôint√©resse ensuite √† l‚Äôapproche **TF-IDF**,
qui permet de tenir compte des fr√©quences *relatives* des mots.

Ainsi, pour un mot donn√©, on va multiplier la fr√©quence d‚Äôapparition du mot dans le document (calcul√© comme dans la m√©thode pr√©c√©dente) par un terme qui p√©nalise une fr√©quence √©lev√©e du mot dans le corpus. L‚Äôimage ci-dessous, emprunt√©e √† Chris Albon, illustre cette mesure:

![](https://minio.lab.sspcloud.fr/lgaliana/generative-art/pythonds/tfidf.png)

*Source: [Towards Data Science](https://towardsdatascience.com/tf-term-frequency-idf-inverse-document-frequency-from-scratch-in-python-6c2b61b78558)*

La vectorisation `TF-IDF` permet donc de limiter l‚Äôinfluence des *stop-words*
et donc de donner plus de poids aux mots les plus salients d‚Äôun document.
Illustrons cela √† nouveau avec notre corpus d‚Äôexemple de deux documents.

In [28]:
corpus = [
    "Un premier document √† propos des chats.",
    "Un second document qui parle des chiens.",
]

vectorizer = TfidfVectorizer()
vectorizer.fit(corpus)


L√† encore, le vectoriseur a ‚Äúappris‚Äù le vocabulaire du corpus.

In [29]:
vectorizer.get_feature_names_out()


Et peut √™tre utilis√© pour calculer les scores TF-IDF de chacun des termes des documents.

In [30]:
X = vectorizer.transform(corpus)
print(X.toarray())


On remarque que ‚Äúchats‚Äù et ‚Äúchiens‚Äù poss√®dent les scores les plus √©lev√©s, ce sont bien les termes les plus distinctifs. A l‚Äôinverse, les termes qui reviennent dans les deux documents (‚Äúun‚Äù, ‚Äúdocument‚Äù, ‚Äúdes‚Äù) ont un score inf√©rieur, car ils sont beaucoup pr√©sents dans le corpus relativement.

Quel score `F1` obtient-on avec cette m√©thode de vectorisation sur notre probl√®me de classification d‚Äôauteurs ?

In [31]:
cv_tfidf = fit_vectorizers(TfidfVectorizer)


On observe clairement que la performance de classification est bien sup√©rieure,
ce qui montre la pertinence de cette technique.

# 7. Word2vec avec averaging

On va maintenant explorer les techniques de vectorisation bas√©es sur les
*embeddings* de mots, et notamment la plus populaire : `Word2Vec`.

L‚Äôid√©e derri√®re est simple, mais a r√©volutionn√© le NLP :
au lieu de repr√©senter les documents par des
vecteurs *sparse* de tr√®s grande dimension (la taille du vocabulaire)
comme on l‚Äôa fait jusqu‚Äô√† pr√©sent,
on va les repr√©senter par des vecteurs *dense* (continus)
de dimension r√©duite (en g√©n√©ral, autour de 100-300).

Chacune de ces dimensions va repr√©senter un facteur latent,
c‚Äôest √† dire une variable inobserv√©e,
de la m√™me mani√®re que les composantes principales produites par une ACP.

![](https://minio.lab.sspcloud.fr/lgaliana/generative-art/pythonds/w2v_vecto.png)

*Source: [Medium](https://medium.com/@zafaralibagh6/simple-tutorial-on-word-embedding-and-word2vec-43d477624b6d)*

**Pourquoi est-ce int√©ressant ?**
Pour de nombreuses raisons, mais pour r√©sumer :
cela permet de beaucoup mieux capturer la similarit√© s√©mantique entre les documents.

Par exemple, un humain sait qu‚Äôun document contenant le mot *‚ÄúRoi‚Äù*
et un autre document contenant le mot *‚ÄúReine‚Äù* ont beaucoup de chance
d‚Äôaborder des sujets semblables.

Pourtant, une vectorisation de type comptage ou TF-IDF
ne permet pas de saisir cette similarit√© :
le calcul d‚Äôune mesure de similarit√© (norme euclidienne ou similarit√© cosinus)
entre les deux vecteurs ne prendra en compte la similarit√© des deux concepts, puisque les mots utilis√©s sont diff√©rents.

A l‚Äôinverse, un mod√®le `word2vec` bien entra√Æn√© va capter
qu‚Äôil existe un facteur latent de type *‚Äúroyaut√©‚Äù*,
et la similarit√© entre les vecteurs associ√©s aux deux mots sera forte.

La magie va m√™me plus loin : le mod√®le captera aussi qu‚Äôil existe un
facteur latent de type *‚Äúgenre‚Äù*,
et va permettre de construire un espace s√©mantique dans lequel les
relations arithm√©tiques entre vecteurs ont du sens ;
par exemple :
$$\text{king} - \text{man} + \text{woman} ‚âà \text{queen}$$

**Comment ces mod√®les sont-ils entra√Æn√©s ?**
Via une t√¢che de pr√©diction r√©solue par un r√©seau de neurones simple.

L‚Äôid√©e fondamentale est que la signification d‚Äôun mot se comprend
en regardant les mots qui apparaissent fr√©quemment dans son voisinage.

Pour un mot donn√©, on va donc essayer de pr√©dire les mots
qui apparaissent dans une fen√™tre autour du mot cible.

En r√©p√©tant cette t√¢che de nombreuses fois et sur un corpus suffisamment vari√©,
on obtient finalement des *embeddings* pour chaque mot du vocabulaire,
qui pr√©sentent les propri√©t√©s discut√©es pr√©c√©demment.

In [32]:
X_train_tokens = [text.split() for text in X_train]
w2v_model = Word2Vec(X_train_tokens, vector_size=200, window=5, min_count=1, workers=4)


In [33]:
w2v_model.wv.most_similar("mother")


On voit que les mots les plus similaires √† *‚Äúmother‚Äù*
sont souvent des mots li√©s √† la famille, mais pas toujours.

C‚Äôest li√© √† la taille tr√®s restreinte du corpus sur lequel on entra√Æne le mod√®le,
qui ne permet pas de r√©aliser des associations toujours pertinentes.

L‚Äô*embedding* (la repr√©sentation vectorielle) de chaque document correspond √† la moyenne des *word-embeddings* des mots qui le composent :

In [34]:
def get_mean_vector(w2v_vectors, words):
    words = [word for word in words if word in w2v_vectors]
    if words:
        avg_vector = np.mean(w2v_vectors[words], axis=0)
    else:
        avg_vector = np.zeros_like(w2v_vectors["hi"])
    return avg_vector


def fit_w2v_avg(w2v_vectors):
    X_train_vectors = np.array(
        [get_mean_vector(w2v_vectors, words) for words in X_train_tokens]
    )

    scores = cross_val_score(
        clf, X_train_vectors, y_train, cv=4, scoring="f1_micro", n_jobs=4
    )

    print(f"CV scores {scores}")
    print(f"Mean F1 {np.mean(scores)}")
    return scores


In [35]:
cv_w2vec = fit_w2v_avg(w2v_model.wv)


La performance chute fortement ;
la faute √† la taille tr√®s restreinte du corpus, comme annonc√© pr√©c√©demment.

# 8. Word2vec pr√©-entra√Æn√© + averaging

Quand on travaille avec des corpus de taille restreinte,
c‚Äôest g√©n√©ralement une mauvaise id√©e d‚Äôentra√Æner son propre mod√®le `word2vec`.

Heureusement, des mod√®les pr√©-entra√Æn√©s sur de tr√®s gros corpus sont disponibles.
Ils permettent de r√©aliser du *transfer learning*,
c‚Äôest-√†-dire de b√©n√©ficier de la performance d‚Äôun mod√®le qui a √©t√© entra√Æn√© sur une autre t√¢che ou bien sur un autre corpus.

L‚Äôun des mod√®les les plus connus pour d√©marrer est le `glove_model` de
`Gensim` (Glove pour *Global Vectors for Word Representation*)[1]:

> GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.
>
> *Source* : https://nlp.stanford.edu/projects/glove/

On peut le charger directement gr√¢ce √† l‚Äôinstruction suivante :

[1] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. *GloVe: Global Vectors for Word Representation*.

In [36]:
glove_model = gensim.downloader.load("glove-wiki-gigaword-200")


Par exemple, la repr√©sentation vectorielle de roi est l‚Äôobjet
multidimensionnel suivant :

In [37]:
glove_model["king"]


Comme elle est peu intelligible, on va plut√¥t rechercher les termes les
plus similaires. Par exemple,

In [38]:
glove_model.most_similar("mother")


On peut retrouver notre formule pr√©c√©dente

$$\text{king} - \text{man} + \text{woman} ‚âà \text{queen}$$
dans ce plongement de mots:

In [39]:
glove_model.most_similar(positive=["king", "woman"], negative=["man"])


Vous pouvez vous r√©f√©rer √† [ce tutoriel](https://jalammar.github.io/illustrated-word2vec/)
pour en d√©couvrir plus sur `Word2Vec`.

Faisons notre apprentissage par transfert :

In [40]:
cv_w2vec_transfert = fit_w2v_avg(glove_model)


La performance remonte substantiellement.
Cela √©tant, on ne parvient pas √† faire mieux que les approches basiques,
on arrive √† peine aux performances de la vectorisation par comptage.

En effet, pour rappel, les performances sont les suivantes :

In [41]:
perfs = pd.DataFrame(
    [
        np.mean(cv_bow.cv_results_["mean_test_score"]),
        np.mean(cv_tfidf.cv_results_["mean_test_score"]),
        np.mean(cv_w2vec),
        np.mean(cv_w2vec_transfert),
    ],
    index=[
        "Bag-of-Words",
        "TF-IDF",
        "Word2Vec non pr√©-entra√Æn√©",
        "Word2Vec pr√©-entra√Æn√©",
    ],
    columns=["Mean F1 score"],
).sort_values("Mean F1 score", ascending=False)
perfs


Les performences limit√©es du mod√®le *Word2Vec* sont cette fois certainement dues √† la mani√®re dont
les *word-embeddings* sont exploit√©s : ils sont moyenn√©s pour d√©crire chaque document.

Cela a plusieurs limites :

-   on ne tient pas compte de l‚Äôordre et donc du contexte des mots
-   lorsque les documents sont longs, la moyennisation peut cr√©er
    des repr√©sentation bruit√©es.

# 9. Contextual embeddings

Les *embeddings* contextuels visent √† pallier les limites des *embeddings*
traditionnels √©voqu√©es pr√©c√©demment.

Cette fois, les mots n‚Äôont plus de repr√©sentation vectorielle fixe,
celle-ci est calcul√©e dynamiquement en fonction des mots du voisinage, et ainsi de suite.
Cela permet de tenir compte de la structure des phrases
et de tenir compte du fait que le sens d‚Äôun mot est fortement d√©pendant des mots
qui l‚Äôentourent.
Par exemple, dans les expressions ‚Äúle pr√©sident Macron‚Äù et ‚Äúle camembert Pr√©sident‚Äù le mot pr√©sident n‚Äôa pas du tout le m√™me r√¥le.

Ces *embeddings* sont produits par des architectures tr√®s complexes,
de type Transformer (`BERT`, etc.).

*TODO: approfondir le sujet*

In [42]:
model = SentenceTransformer("all-mpnet-base-v2")


Verdict : on fait tr√®s l√©g√®rement mieux que la vectorisation TF-IDF.
On voit donc l‚Äôimportance de tenir compte du contexte.

**Mais pourquoi, avec une m√©thode tr√®s compliqu√©e, ne parvenons-nous pas √† battre une m√©thode toute simple ?**

On peut avancer plusieurs raisons :

-   le `TF-IDF` est un mod√®le simple, mais toujours tr√®s performant
    (on parle de *‚Äútough-to-beat baseline‚Äù*).
-   la classification d‚Äôauteurs est une t√¢che tr√®s particuli√®re et tr√®s ardue,
    qui ne fait pas justice aux *embeddings*. Comme on l‚Äôa dit pr√©c√©demment, ces derniers se r√©v√®lent particuli√®rement pertinents lorsqu‚Äôil est question de similarit√© s√©mantique entre des textes (*clustering*, etc.).

Dans le cas de notre t√¢che de classification, il est probable que
certains mots (noms de personnage, noms de lieux) soient suffisants pour classifier de mani√®re pertinente,
ce que ne permettent pas de capter les *embeddings* qui accordent √† tous les mots la m√™me importance.

# 10. Aller plus loin

-   Nous avons entra√Æn√© diff√©rents mod√®les sur l‚Äô√©chantillon d‚Äôentra√Ænement par validation crois√©e, mais nous n‚Äôavons toujours pas utilis√© l‚Äô√©chantillon test que nous avons mis de c√¥t√© au d√©but. R√©aliser la pr√©diction sur les donn√©es de test, et v√©rifier si l‚Äôon obtient le m√™me classement des m√©thodes de vectorisation.
-   Faire un *vrai* split train/test : faire l‚Äôentra√Ænement avec des textes de certains auteurs, et faire la pr√©diction avec des textes d‚Äôauteurs diff√©rents. Cela permettrait de neutraliser la pr√©sence de noms de lieux, de personnages, etc.
-   Comparer avec d‚Äôautres algorithmes de classification qu‚Äôun SVM
-   (Avanc√©) : fine-tuner le mod√®le d‚Äôembeddings contextuels sur la t√¢che de classification