# Introduction à la réduction de la dimensionnalité

Notre parcours dans la définition du modèle vectoriel nous a conduit·e de la constitution d’un sac de mots par divers procédés à l’établissement d’une matrice d’occurrences. Nous avons d’ailleur quitté le chapitre précédent avec un double problème : d’une part la seule approche fréquentielle était incapable de rendre compte de l’importance relative d’un terme dans un document et encore moins dans un corpus ; d’autre part la constitution d’une matrice d’occurrences nous avait rapidement amené·e, en raison de la taille du vocabulaire commun à considérer, à évoluer dans des espaces en très haute dimension qui sont majoritairement remplis de vide.

Dans ce chapitre, nous allons remédier au premier et dessiner l’ébauche d’une méthode pour projeter les documents dans un espace réduit.

## Évaluer l’importance d’un terme dans un document (TF-IDF)

Nous l’avons vu précédemment, certains termes dans un corpus sont plus importants que d’autres pour caractériser un texte par rapport à un autre, et leur importance n’est souvent pas proportionnelle à leur fréquence. De là découle la nécessité de repérer les mots vides de sens, les *stopwords*, pour les retirer du sac de mots (BoW) qui le représente. Pour autant, la méthode BoW se contente d’une mesure fréquentielle sans établir de rapport d’importance entre les termes. La matrice d’occurrences reste ainsi assez pauvre pour rendre compte de sémantique.

Une autre approche, largement répandue dans le traitement automatique du langage naturel, parvient à inférer, de l’analyse fréquentielle, une certaine valeur d’importance aux termes contenus dans le sac de mots. Cette approche repose sur deux principes : la fréquence du terme (TF) et la fréquence du terme dans le corpus (IDF) qui prêtent une signification à la rareté d’un terme.

Sans parler de robustesse, la justification de cette approche repose sur la loi de Zipf qui prévoit que la fréquence d’un terme dans un texte est liée à son rang dans l’ordre des fréquences : le mot le plus fréquent apparaîtrait dix fois plus souvent que le dixième mot le plus fréquent, cent fois plus que le centième etc. En grande partie pour cette raison, la méthode TF-IDF ne souffre pas de la présence des mots vides dans le sac de mots.

### La fréquence du terme (TF)

De l’anglais *term frequency*, la fréquence du terme établit un rapport entre le nombre d’occurrences d’un mot ($w$) dans un document et le nombre total de mots dans ce document ($n$) :

$$
\text{TF}(w, n) = \frac{w}{n}
$$

Prenons un corpus constitué de trois textes :

```txt
(A) Le petit chat boit du lait. Le lait n’est pas bon pour les chats.
(B) Les petits chiens boivent de l’eau. L’eau irait aussi aux chats.
(C) À partir d’un moment, eau ou lait, ils peuvent bien boire ce qu’ils veulent.
```

La taille en mots du document *A* est de 15, quand elle est de 13 pour le document *B* et de 16 pour le document *C*. Intéressons-nous au mot *lait* ($1$) qui apparaît deux fois dans *A* et une fois dans *C*, mais jamais dans *B*. Ses fréquences seront :

$$
\begin{align}
    \text{TF}_{1, A} &= \frac{2}{15} = 0,1333 \\
    \text{TF}_{1, B} &= \frac{0}{13} = 0 \\
    \text{TF}_{1, C} &= \frac{1}{16} = 0,0625 \\
\end{align}
$$

### La fréquence inverse de document (IDF)

Quand la mesure TF s’attachait au terme dans un document, la mesure IDF (*inverse document frequency*) va s’intéresser à la présence du terme dans le corpus entier selon la relation suivante où $d$ représente le nombre de documents où le terme apparaît et $N$ le nombre total de documents :

$$
\text{IDF}(d, N) = \ln{\frac{N}{d}}
$$

Dans notre exemple, la mesure IDF pour le mot *lait* vaut :

$$
\text{IDF}_1 = \ln{\frac{3}{2}} \approx 0.4055
$$

Le calcul du logarithme permet de pondérer le rapport entre $N$ et $d$ dans la mesure où, lors de l’obtention de TF, le résultat était situé dans un intervalle $[0, 1]$.

### La mesure TF-IDF

Au final, la formule TF-IDF est un produit entre TF et IDF. Pour notre exemple avec le mot *lait* :

$$
\begin{align}
    \text{TFIDF}_{1, A} &= \frac{2}{15} \cdot ln \frac{3}{2} \approx 0,0541 \\
    \text{TFIDF}_{1, B} &= \frac{0}{13} \cdot ln \frac{3}{2} = 0 \\
    \text{TFIDF}_{1, C} &= \frac{1}{16} \cdot ln \frac{3}{2} \approx 0,0253 \\
\end{align}
$$

Au regard du mot *lait*, le document *A* apparaît ainsi comme plus pertinent.

### Limitations du modèle

Quoique très largement utilisé pour sa facilité de mise en œuvre en dépit du coût en termes de calcul machine, la mesure TF-IDF souffre principalement de son incapacité à traiter la sémantique du terme.

Gardons par ailleurs à l’esprit que la formule accordera mécaniquement davantage d’importance aux documents très volumineux, aussi faudra-t-il penser à les pénaliser ou bien à ne travailler que sur des corpus équilibrés.