# Une matrice de distances

Le calcul des fréquences statistiques est souvent la première mesure à réaliser sur un corpus. Elle ouvre ensuite la porte à de nombreuses analyses qui peuvent par exemple aboutir à établir un coefficient de similarité entre les textes qui le composent, à les regrouper par des méthodes de partitionnement ou encore à les comparer à des modèles de langage.

## Calculer la distance entre deux textes

Prenons un corpus constitué de deux textes :

> (A) Le petit chat boit du lait. Le lait n’est pas bon pour les chats.  
> (B) Les petits chiens boivent de l’eau. L’eau irait aussi aux chats.

Comment mesurer la similitude entre les textes (A) et (B) ?

### Un exemple trivial

Une solution courante consiste à calculer la distance qui les sépare, et qui dit distance suppose un point de référence. Si, sur un plan quadrillé de Paris, nous positionnons d’une part le Palais Garnier à deux cases vers l’est et deux vers le nord, et, d’autre part les Halles à cinq cases vers l’est et une vers le sud, nous le faisons par rapport à un point de référence aux coordonnées 0,0 sur les deux axes. Dans notre cas, ce serait alors la place de la Concorde.

Or, si se diriger vers l’est d’une case consiste à se déplacer d’une unité vers la droite sur l’axe horizontal du plan ; et que d’autant vers le nord correspond à monter d’une unité sur l’axe vertical, nous pouvons modéliser les informations ainsi :

$$
\text{Le Palais Garnier} = \begin{pmatrix}
    \text{axe horizontal : 2} \\
    \text{axe vertical : 2}
\end{pmatrix}
\hspace{2em}
\text{Les Halles} = \begin{pmatrix}
    \text{axe horizontal : 5} \\
    \text{axe vertical : -1}
\end{pmatrix}
$$

Ou, sachant que $x$ représente l’axe des abscisses et $y$ celui des ordonnées :

$$
\text{Le Palais Garnier} = \begin{pmatrix}
    \text{x : 2} \\
    \text{y : 2}
\end{pmatrix}
\hspace{2em}
\text{Les Halles} = \begin{pmatrix}
    \text{x : 5} \\
    \text{y : -1}
\end{pmatrix}
$$

Les coordonnées étant positionnées dans le même ordre, nous avons ici deux vecteurs $\vec{A}$ et $\vec{B}$ dotés de deux attributs (ou dimensions) :

$$
\vec{A} = \begin{pmatrix}
    2 \\
    2
\end{pmatrix}
\hspace{2em}
\vec{B} = \begin{pmatrix}
    5 \\
    -1
\end{pmatrix}
$$

Pour connaître la distance qui les sépare, il suffit maintenant de compter le nombre de cases pour aller de l’un à l’autre sur les deux axes. Pour rejoindre les Halles à partir du Palais Garnier, nous devons nous déplacer de trois cases vers l’est et trois vers le sud. Une soustraction suffit :

$$
\delta x = 2 - 5 = -3
$$

$$
\delta y = 2 - (-1) = 3
$$

Nous connaissons la quantité de déplacement sur les deux axes, mais comment faire pour connaître la distance totale ? La première intuition serait de les additionner :

$$
-3 + 3 = 0
$$

Il n’y aurait donc aucune distance qui sépare les deux monuments ? Comme nous savons que cet énoncé est faux, nous allons plutôt améliorer le calcul en ne considérant que les valeurs absolues :

$$
\lvert -3 \rvert + \lvert 3 \rvert = 6
$$

Nous pouvons maintenant estimer la quantité de déplacement entre les deux monuments à 6. Du moment que nous conservons la même règle de calcul pour tous les points de notre plan quadrillé et que nous ne modifions pas le point de référence, nous aurons la possibilité d’effectuer des comparaisons sur le seul critère de la distance.

### Vectorisation du corpus

Si nous considérons les textes (A) et (B) comme deux vecteurs, dans quel espace sont-ils situés et comment trouver leurs coordonnées afin de les placer sur les deux axes ?

Commençons par constituer un sac de mots à partir de notre corpus :

$$
\text{BOW} = \text{aller}, \text{aussi}, \text{boire}, \text{bon}, \text{chat}, \text{chien}, \text{eau}, \text{lait}, \text{petit}
$$

L’étape suivante est de compter, pour chacun des textes, le nombre d’occurrences des éléments du sac de mots :

$$
\begin{align}
\vec{A} = \begin{pmatrix}
    \text{(aller :) } &0 \\
    \text{(aussi :) } &0 \\
    \text{(boire :) } &1 \\
    \text{(bon :) } &1 \\
    \text{(chat :) } &2 \\
    \text{(chien :) } &0 \\
    \text{(eau :) } &0 \\
    \text{(lait :) } &2 \\
    \text{(petit :) } &1 \\
\end{pmatrix}
\hspace{5em}
\vec{B} = \begin{pmatrix}
    \text{(aller :) } &1 \\
    \text{(aussi :) } &1 \\
    \text{(boire :) } &1 \\
    \text{(bon :) } &0 \\
    \text{(chat :) } &1 \\
    \text{(chien :) } &1 \\
    \text{(eau :) } &2 \\
    \text{(lait :) } &0 \\
    \text{(petit :) } &1 \\
\end{pmatrix}
\end{align}
$$

Nous remarquons que nos textes ont été modélisés sur davantage de dimensions que les monuments du premier exemple. C’est l’inconvénient de travailler avec le langage, il requiert souvent un espace à très haute dimensionnalité. Deux autres remarques, les vecteurs sont de mêmes dimensions et leurs attributs sont positionnés dans le même ordre.

Il nous reste à calculer la somme de leurs différences, ce qui revient, en langage mathématique, à définir **la norme du vecteur** $\vec{AB}$ :

$$
\| \vec{AB} \| = \sqrt{(A_1 - B_1)^2 + (A_2 - B_2)^2 \dots (A_n - B_n)^2}
$$

En appliquant la formule d’Euclide, nous trouvons une distance entre les deux vecteurs avoisinant 3,6056 :

$$
\begin{align}
    \| \vec{AB} \| &= \sqrt{(0 - 1)^2 + (0 - 1)^2 + (1 - 1)^2 + (1 - 0)^2 + (2 - 1)^2 + (0 - 1)^2 + (0 - 2)^2 + (2 - 0)^2 + (1 - 1)^2} \\
    &= \sqrt{1 + 1 + 0 + 1 + 1 + 1 + 4 + 4 + 0} \\
    &= 3,6056
\end{align}
$$

Il peut paraître déroutant d’annoncer que la distance entre les deux textes est de 3,6056 sans savoir dans quelle unité on parle, mais nous avons établi un système qui nous permettra de comparer les distances entre tous les textes d’un même corpus sur la seule base du calcul de fréquences de certains tokens. Tout l’art sera de parvenir à dégager des traits linguistiques dont il sera intéressant de compter les occurrences.

Dernière remarque à ne pas sous-estimer, les calculs effectués ne valent que dans l’espace vectoriel de notre corpus et pour les traits retenus. Si ces paramètres venaient à changer, les mesures ne seraient sans doute pas les mêmes. On peut trouver une forte distance entre deux textes en regard des mots-formes qu’ils emploient, mais une très forte similitude dans l’utilisation des adjectifs en position postnominale par exemple.

## Étude d’un cas fictif

Considérons un corpus d’une cinquantaine de textes pour lesquels nous avons calculé un score dans cinq catégories à des fins de classification : *Sciences*, *Politique*, *Littérature*, *Journalisme*, *Philosophie*. Ces catégories peuvent être comprises comme les cinq dimensions qui constituent les attributs des vecteurs textes.

Pour réaliser notre analyse, nous nous appuierons sur les bibliothèques logicielles *Numpy* pour certains calculs et *Pandas* pour l’affichage des données :

In [None]:
import pandas as pd
import numpy as np

Grâce à la méthode `.randint()` du package `.random` de *Numpy*, générons une cinquantaine de scores aléatoires entre 0 et 20 dans cinq catégories :

In [None]:
scores = np.random.randint(0, 21, size=(50, 5))

Intégrons à présent les données dans un *data frame* :

In [None]:
# 50 texts with a score on 5 categories
df = pd.DataFrame(
    data=scores,
    columns=["Sciences", "Politique", "Littérature", "Journalisme", "Philosophie"]
)

Consultons les premières lignes :

In [None]:
df.head()

Calculons à présent les normes de tous les vecteurs 2 à 2, ce qui représente un total de $50^2$ combinaisons possibles, avec la méthode `.norm()` du package `.linalg` de *Numpy* qui gère les opérations relatives à l’algèbre linéaire. À noter que pourrions faire l’impasse de calculer la distance d’un vecteur avec lui-même – le résultat attendu étant 0, mais il est plus simple de réaliser la totalité des opérations afin de disposer d’une matrice carrée sans donnée manquante.

Première étape, créer une matrice de taille $50 \times 50$ remplie de 0 :

In [None]:
pairwise_distances = np.zeros((len(df), len(df)))

Nous parcourons ensuite deux fois la liste afin d’assurer la combinatoire et rangeons le résultat du calcul de chaque distance aux indices appropriés :

In [None]:
for i, row_i in enumerate(df.values):
    for j, row_j in enumerate(df.values):
        pairwise_distances[i, j] = np.linalg.norm(row_i - row_j)

Il ne reste plus qu’à installer ces données dans un nouveau *data frame* afin de les visualiser :

In [None]:
distances_df = pd.DataFrame(pairwise_distances, index=df.index, columns=df.index)

# print the five first rows and columns
distances_df.iloc[:5, :5]

Si nous zoomons sur le premier document, lequel parmi les autres lui est le plus proche ?

In [None]:
# first document
first_doc = distances_df[0]

# the lowest non-zero distance
mask = first_doc != 0

print(f"Document {np.argmin(first_doc[mask]) + 1} is the nearest from the first document with a score of {np.min(first_doc[mask]):.4f}",)