# Évaluer la similitude entre documents

## La similarité cosinus

Lorsque l’on parle de similarité de deux vecteurs en traitement automatique du langage naturel, on désigne la **similarité cosinus**, une mesure par laquelle on détermine le cosinus de leur angle dans un intervalle $[-1 , 1]$, où -1 qualifie deux vecteurs opposés, 0 deux vecteurs indépendants et 1 deux vecteurs colinéaires (il serait possible de tracer une droite pour les relier).

La formule pour définir la similarité cosinus vaut :

$$
\cos \theta = \frac{\vec{A} \cdot \vec{B}}{\| \vec{A} \| \| \vec{B} \|}
$$

Où $\| \vec{A} \| = \sqrt{\vec{A} \cdot \vec{A}}$

Prenons deux vecteurs de dimension 3 :

$$
\vec{A} = \begin{pmatrix}
    7 \\
    32 \\
    10
\end{pmatrix}
\hspace{2em}
\vec{B} = \begin{pmatrix}
    11 \\
    4 \\
    8
\end{pmatrix}
$$

Calculons leur similarité :

$$
\begin{align}
    \cos \theta &= \frac{ (A_1 \cdot B_1) + (A_2 \cdot B_2) + (A_3 \cdot B_3) }{ (\sqrt{\vec{A} \cdot \vec{A}}) \times (\sqrt{\vec{B} \cdot \vec{B}}) } \\
    \cos \theta &= \frac{ (7 \times 11) + (32 \times 4) + (10 \times 8) }{ (\sqrt{7^2 + 32^2 + 10^2}) \times (\sqrt{11^2 + 4^2 + 8^2}) } \\
    \cos \theta &= \frac{77 + 128 + 80}{ 34,2491 \times 14,1774 } \\
    \cos \theta &= \frac{285}{ 485,5632 } \\
    \cos \theta &\approx 0,5869
\end{align}
$$

Selon la nature de $\vec{A}$ et $\vec{B}$, nous pourrions avancer que 0,5869 est la mesure de l’indice de ressemblance entre les mots *A* et *B*, ou entre les documents *A* et *B* etc. Une application pratique serait de résoudre par exemple une tâche de classification en effectuant des regroupements.

### Vérification dans le triangle quelconque

Considérons à présent $\vec{A}$ et $\vec{B}$ comme des points dans un espace vectoriel reliés à l’origine tel que :

$$
\vec{O} = \begin{pmatrix}
    0 \\
    0 \\
    0
\end{pmatrix}
$$

Nous pouvons estimer la distance de vecteurs passant par $\vec{OA}$, $\vec{OB}$ et $\vec{AB}$ grâce au théorème de Pythagore :

$$
\begin{align}
    \vec{OA} &= \sqrt{(O_1 - A_1)^2 + (O_2 - A_2)^2 + (O_3 - A_3)^2} \\
    &= \sqrt{(0 - 7)^2 + (0 - 32)^2 + (0 - 10)^2} \\
    &= \sqrt{49 + 1024 + 100} \\
    &= \sqrt{1173} \\
    &\approx 34,2491 \\
    \vec{OB} &=\sqrt{(0 - 11)^2 + (0 - 4)^2 + (0 - 8)^2} \\
    &= \sqrt{121 + 16 + 64} \\
    &\approx 14,1774 \\
    \vec{AB} &=\sqrt{(7 - 11)^2 + (32 - 4)^2 + (10 - 8)^2} \\
    &= \sqrt{16 + 784 + 4} \\
    &\approx 28,3549 \\
\end{align}
$$

À partir de là, pour trouver $\cos(O)$, nous pouvons invoquer la loi des cosinus dans un triangle quelconque, de telle manière que :

$$
\cos(c) = \frac{a^2 + b^2 - c^2}{2ab}
$$

Appliquée à notre exemple, la formule nous donne :

$$
\begin{align}
    \cos(O) &= \frac{\vec{OA}^2 + \vec{OB}^2 - \vec{AB}^2}{2 \cdot \vec{OA} \cdot \vec{OB}} \\
    &= \frac{34,2491^2 + 14,1774^2 - 28,3549^2}{2 \cdot 34,2491 \cdot 14,1774} \\
    &= \frac{1173 + 201 - 804}{2 \cdot 485,5631} \\
    &= \frac{570}{971,1262} \\
    &\approx 0,5869
\end{align}
$$

## Similarité de vecteurs binaires : l’indice de Jaccard

Dans l’exemple précédent, les attributs des vecteurs $\vec{A}$ et $\vec{B}$ étaient représentés par des nombres pouvant prendre leur valeur dans l’ensemble $\mathbb{R}$. Et si les possibilités pour les valeurs se limitaient à *0* et *1*, comme dans le cas d’une épreuve de Bernoulli ? Dans ce cas particulier, la similarité peut se calculer avec l’indice de Jaccard :

$$
J = \frac{M_{11}}{M_{01} + M_{10} + M_{11}}
$$

Ou, sachant que *n* est le nombre d’attributs :

$$
J = \frac{M_{11}}{n - M_{00}}
$$

Dans ces formules, les quantités valent :

- $M_{00}$ pour le nombre d’attributs qui valent $0$ dans $\vec{A}$ et $0$ dans $\vec{B}$ ;
- $M_{01}$ pour le nombre d’attributs qui valent $0$ dans $\vec{A}$ et $1$ dans $\vec{B}$ ;
- $M_{10}$ pour le nombre d’attributs qui valent $1$ dans $\vec{A}$ et $0$ dans $\vec{B}$ ;
- $M_{11}$ pour le nombre d’attributs qui valent $1$ dans $\vec{A}$ et $1$ dans $\vec{B}$.

Prenons les deux vecteurs suivants :

$$
\vec{A} = \begin{pmatrix}
    0 \\
    0 \\
    1 \\
    1 \\
    1
\end{pmatrix}
\hspace{2em}
\vec{B} = \begin{pmatrix}
    1 \\
    0 \\
    1 \\
    0 \\
    0
\end{pmatrix}
$$

Après application de la formule, nous obtenons :

$$
\begin{align}
    J &= \frac{1}{1 + 2 + 1} \\
    J &= \frac{1}{4} \\
    J &= 0,25
\end{align}
$$

## Étude d’un cas fictif

Prenons une vingtaine de documents avec une analyse fréquentielle de la longueur de leurs énoncés : phrases de moins de dix mots, phrases de dix à vingt mots et phrases de vingt-et-un mots et plus.

Nous utiliserons à nouveau *Pandas* et *Numpy* pour faciliter l’analyse :

In [None]:
import pandas as pd
import numpy as np

Générons des données aléatoires et rangeons-les dans un *data frame* :

In [None]:
scores = np.random.randint(10, 150, size=(20, 3))

df = pd.DataFrame(
    data=scores,
    columns=["< 10 mots", "10 à 20 mots", "21 mots et +"]
)

Jetons un œil aux données :

In [None]:
df.head()

Comme ces documents ne sont pas constitués du même nombre de phrases, nous avons besoin de trouver une manière de ramener les fréquences absolues à une même échelle. Pour cela, nous décidons de calculer les fréquences relatives sur 100 phrases :

In [None]:
row_sums = df.sum(axis=1)

# divide each value by its corresponding row sum
# then multiply by 100
relative_frequencies = df.div(row_sums, axis=0) * 100

À présent, les fréquences sont toutes normalisées, comme si les documents avaient tous exactement compté 100 phrases.

Pour calculer la similarité cosinus entre tous les vecteurs, nous instancions une matrice vide de taille $20 \times 20$ et la remplissons avec le résultat de la formule vue plus haut :

In [None]:
cosine_similarities = np.zeros((len(df), len(df)))

for i, row_i in enumerate(df.values):
    for j, row_j in enumerate(df.values):
        cosine_similarities[i, j] = np.dot(row_i, row_j) / np.dot(np.linalg.norm(row_i), np.linalg.norm(row_j))

Reste à créer un *data frame* avec la matrice obtenue :

In [None]:
similarities_df = pd.DataFrame(cosine_similarities, index=df.index, columns=df.index)

# print the five first rows and columns
similarities_df.iloc[:5, :5]

Intéressons-nous au premier document. Lequel parmi les autres lui est le plus similaire en termes de distribution des longueurs de phrases ?

In [None]:
# first document
first_doc = similarities_df[0]

# the greatest non-1 score
mask = first_doc < 1

# max index
index_max = first_doc[mask].idxmax()

print(f"Document {index_max + 1} is the most similar with a score of {first_doc[index_max]:.4f}",)