# Un espace vectoriel pour des documents

Le changement de paradigme s’est opéré sans le voir, dans un certain enthousiasme pour le progrès technologique : alors que nous avions créé les machines pour nous alléger la tâche, nous voilà maintenant à les servir dans le même but.

Avec le développement du *machine learning* et ses prouesses que l’on vante quotidiennement dans la presse, les réseaux autorisés ou encore dans les cercles d’amis, la notion d’entraînement supervisé ou non-supervisé nous est devenue familière : pour qu’un algorithme d’apprentissage fonctionne bien, il faut le nourrir avec une quantité proverbiale de données.

Comment, alors, procéder ? Pour qu’une machine comprenne le sens d’un texte, suffit-il de lui dire qu’elle peut trouver ici un verbe conjugué, là le sujet, et que tout le reste sert à définir des circonstances ? Comment parvenir à lui dire que *un chat* et *un miaou* désignent la même réalité, et en même temps pas tout à fait ?

Le procédé repose sur la nécessité de présenter à la machine un objet sous forme numérique. L’idée n’est pas nouvelle. Déjà au IVe siècle avant J.-C, l’inscription « Que nul n’entre ici s’il n’est géomètre » que Platon aurait fait graver au fronton de l’Académie d’Athènes, supposait l’ambition de faire la synthèse entre le monde sensible et celui des idées pures. Plus tard, Galilée affirmait que « la nature est un livre écrit en langage mathématique ». Que dire aussi de la méthode de Descartes ou encore de l’*Éthique* de Spinoza, qui emprunte sa forme à la déduction mathématique ?

Et c’est bien un objet issu des mathématiques, le vecteur, qui sert aujourd’hui de support à la traduction des mots dans le langage des machines. Il a cela de commode qu’il se laisse facilement manipuler par des opérations pour le comparer à d’autres vecteurs, autorisant de répondre à une question aussi essentielle que par exemple calculer la distance entre le vecteur $chat$ et le vecteur $miaou$.

Les outils mathématiques existant déjà, tout l’art est celui de l’alchimiste : découvrir le nombre secret de l’objet. Alors, comment fait-on pour représenter un document dans un format numérique qui ne trahisse pas son sens ?

## Définitions

Avant de commencer, chargeons *NumPy* (*Numerical Python*), une bibliothèque spécialisée dans la manipulation de tableaux multidimensionnels qui est très largement utilisée dans l’ingénierie et dans le milieu scientifique. Elle met notamment à disposition une nouvelle structure de données, le `ndarray` pour *N-dimensional array*.

In [None]:
import numpy as np

### Scalaire

Un scalaire est simplement un nombre unidimensionnel ($2$, $-\frac{2}{3}$, $\pi$) faisant partie de l’ensemble $\mathbb{R}$ lorsqu’il est utilisé pour multiplier un vecteur.

### Vecteur

Un vecteur est un tableau unidimensionnel de valeurs appelées composantes :

$$
\vec{A} = \begin{pmatrix}
  2 \\
  -\frac{2}{3} \\
  \pi
\end{pmatrix}
$$

Un vecteur se situe dans un espace vectoriel dont le nombre de dimensions détermine le nombre de ses composantes. Dans l’exemple précédent, le vecteur $\vec{A}$ appartient à un espace tridimensionnel. Un vecteur est par ailleurs décrit par trois caractéristiques :

- **Sa norme.** Elle représente la longueur du vecteur, c’est-à-dire la distance entre l’origine dans l’espace vectoriel et son point terminal. La norme (ou magnitude) se calcule par la formule : $\| \vec{v} \| = \sqrt{\vec{v} \cdot \vec{v}}$, ce qui donne pour notre exemple : $\| \vec{v} \| = \sqrt{2^2 + (-\frac{2}{3})^2 + \pi^2}$
- **Sa direction.** Elle décrit la droite sur laquelle le vecteur se situe, indépendamment de son sens et se calcule par la formule $\hat{v} = \frac{\vec{v}}{\|\vec{v}\|}$ où $\hat{v}$ représente son vecteur unitaire, un vecteur qui pointe dans la même direction mais dont la norme est égale à 1.
- **Son sens.** Il s’agit de l’orientation du vecteur sur cette droite (vers le haut ou vers le bas).

On utilise la méthode `.array()` de *Numpy* pour instancier un vecteur avec en entrée une listes de valeurs :

In [None]:
A = np.array([2, -2/3, np.pi])

### Matrice

Une matrice se conçoit comme un tableau bidimensionnel de *m* lignes et *n* colonnes servant à enregistrer des valeurs. Elle se note $A \in \mathbb{R}^{m \times n}$. Une matrice $A$ d’ordre $(3, 2)$ se représente par exemple ainsi :

$$
A = \begin{bmatrix}
    2 & 0.667 \\
    -1.432 & 1.81 \\
    0.1 & -2.908
\end{bmatrix}
$$

La méthode `.array()` de *NumPy* prend en entrée une liste de listes pour former une matrice :

In [None]:
A = np.array([
    [2, 0.667],
    [-1.432, 1.81],
    [0.1, -2.908]
])

L’attribut `.shape` permet à tout moment de connaître ses dimensions :

In [None]:
display(A.shape)

### Tenseur

Un tenseur est une généralisation des vecteurs et des matrices à des dimensions supérieures. Il peut être vu comme un tableau multidimensionnel de valeurs. Un tenseur à trois dimensions se représente comme un empilement de plusieurs matrices, elles-mêmes constituées de plusieurs vecteurs :

$$
\begin{pmatrix}
  \begin{pmatrix}
    \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix},
    \begin{pmatrix} 5 & 6 \\ 7 & 8 \end{pmatrix}
  \end{pmatrix},
  \begin{pmatrix}
    \begin{pmatrix} 9 & 10 \\ 11 & 12 \end{pmatrix},
    \begin{pmatrix} 13 & 14 \\ 15 & 16 \end{pmatrix}
  \end{pmatrix}
\end{pmatrix}
$$

Avec *NumPy*, un tenseur se crée toujours avec la méthode `.array()` :

In [None]:
tensor = np.array([
    [[1, 2], [3, 4]],
    [[5, 6], [7, 8]],
    [[9, 10], [11, 12]]
])

display(tensor.shape)

## Les vecteurs et l’espace vectoriel

Un espace vectoriel se conçoit comme une structure en *n* dimensions où évoluent un ensemble d’objets mathématiques, les vecteurs, que l’on peut combiner grâce à des opérations algébriques parce qu’ils sont constitués de composantes dans chacune des dimensions de l’espace. Selon cette définition, il ne nous est pas permis de combiner un vecteur en trois dimensions et un autre en deux dimensions, à moins de passer par des techniques de réduction de la dimensionnalité qui impliquent souvent une perte d’information.

### Les propriétés de base

- **L’addition vectorielle :** additionner deux vecteurs dans l’espace produit un autre vecteur dans cet espace. Si $\vec{u} = (1, 2)$ et $\vec{v} = (3, 4)$, alors $\vec{u} + \vec{v} = (4, 6)$
- **La multiplication par un scalaire :** le produit d’un vecteur par un scalaire est un autre vecteur dans le même espace. Exemple : $\vec{u} \times 3 = (3, 6)$
- **L’élément neutre de l’addition :** le vecteur nul (0) ne change rien au résultat d’une combinaison lorsqu’il est ajouté à un vecteur. Si $\vec{o} = (0, 0)$ alors $\vec{u} + \vec{o} = \vec{u}$
- **L’élément inverse :** chaque vecteur a un vecteur opposé qui, lorsqu’il lui est ajouté, donne le vecteur nul. Exemple : $\vec{u} + (-\vec{u}) = \vec{o}$
- **L’associativité et la commutativité de l’addition :**
    - Associativité : $(\vec{u} + \vec{v}) + \vec{w} = \vec{u} + (\vec{v} + \vec{w})$
    - Commutativité : $\vec{u} + \vec{v} = \vec{v} + \vec{u}$
- **La distributivité :**
    - Relative à l’addition des vecteurs : $\vec{c} \cdot (\vec{u} + \vec{v}) = \vec{c} \cdot \vec{u} + \vec{c} \cdot \vec{v}$
    - Relative à l’addition des scalaires : $(a + b) \cdot u = a \cdot \vec{u} + b \cdot \vec{u}$
- **Compatibilité avec la multiplication scalaire :** $(a \cdot b) \cdot \vec{u} = a \cdot (b \cdot \vec{u})$
- **L’unité scalaire :** multiplier un vecteur par 1 ne change pas le vecteur. Exemple : $\vec{u} \times 1 = \vec{u}$

### Opérations de base

#### L’addition

Additionner deux vecteurs de *n* dimensions donne un vecteur de *n* dimensions et se calcule en additionnant les composantes sur la même dimension :

$$
\begin{align*}
    \vec{u} &= \begin{pmatrix}
        1 \\
        2 
    \end{pmatrix}, \quad
    \vec{v} = \begin{pmatrix}
        3 \\
        4
    \end{pmatrix} \\
    \vec{u} + \vec{v} &= \begin{pmatrix}
        1 + 3 \\
        2 + 4 
    \end{pmatrix} =
    \begin{pmatrix}
        4 \\
        6
    \end{pmatrix}
\end{align*}
$$

Illustrons avec *Numpy* :

In [None]:
u, v = np.array([1, 2]), np.array([3, 4])

display(u + v)

#### La multiplication scalaire

Multiplier un vecteur par un nombre revient à multiplier chaque attribut du vecteur par ce nombre et ainsi à le **mettre à l’échelle** en l’étirant ou en le réduisant dans l’espace vectoriel sans pour autant modifier sa direction :

$$
\begin{align*}
    \vec{u} &= \begin{pmatrix}
        1 \\
        2 
    \end{pmatrix}, \quad
    \lambda = 3 \\
    \lambda \cdot \vec{u} &= \begin{pmatrix}
        1 \times 3 \\
        2 \times 3 
    \end{pmatrix} =
    \begin{pmatrix}
        3 \\
        6
    \end{pmatrix}
\end{align*}
$$

Si $\lambda$ est supérieur à 1, le vecteur est étiré ; s’il est compris entre 0 et 1, il est plutôt réduit. Et dans le cas de figure où la multiplication se fait par un nombre négatif, le vecteur pointera désormais dans le sens opposé.

En utilisant *Numpy*, nous obtenons :

In [None]:
u = np.array([1, 2])

display(u * 3)

#### Le produit scalaire

Multiplier un vecteur par un autre vecteur consiste à additionner le produit de leurs composantes :

$$
\begin{align*}
    \vec{u} &= \begin{pmatrix}
        1 \\
        2 
    \end{pmatrix}, \quad
    \vec{v} = \begin{pmatrix}
        3 \\
        4
    \end{pmatrix} \\
    \vec{u} \cdot \vec{v} &= 1 \times 3 + 2 \times 4 \\
    &= 11
\end{align*}
$$

Le produit scalaire se calcule avec la méthode `.dot()` de *Numpy* :

In [None]:
u, v = np.array([1, 2]), np.array([3, 4])

display(np.dot(u, v))

#### La norme

La norme d’un vecteur représente sa longueur et se calcule comme la racine carrée de la somme des carrés de ses composantes selon la formule :

$$
\| \vec{v} \| = \sqrt{\vec{v} \cdot \vec{v}}
$$

Elle sert à exprimer **la magnitude** ou l’intensité du vecteur. D’un point de vue strictement géométrique, elle représente la distance entre l’origine de l’espace et le vecteur lui-même. Exemple :

$$
\begin{align*}
    \vec{v} &= \begin{pmatrix}
        3 \\
        4 
    \end{pmatrix} \\
    \| \vec{v} \| &= \sqrt{3^2 + 4^2} \\
    &= \sqrt{9 + 16} \\
    &= \sqrt{25} \\
    &= 5
\end{align*}
$$

La norme se calcule avec *Numpy* grâce à la méthode `.linalg.norm()` :

In [None]:
v = np.array([3, 4])

display(np.linalg.norm(v))

#### La similarité

Lorsque l’on parle de similarité de deux vecteurs en traitement automatique du langage naturel, on désigne la **similarité cosinus**, une mesure par laquelle on détermine le cosinus de leur angle dans un intervalle $[-1 , 1]$, où -1 qualifie deux vecteurs opposés, 0 deux vecteurs orthogonaux qui n’ont aucune similarité entre eux et 1 deux vecteurs colinéaires (il serait possible de tracer une droite pour les relier). Toutefois, en TALN, on s’intéresse souvent plus à la valeur absolue de $\cos \theta$.

La formule pour définir la similarité cosinus vaut :

$$
\cos \theta = \frac{\vec{A} \cdot \vec{B}}{\| \vec{A} \| \| \vec{B} \|}
$$

Exemple avec deux vecteurs :

$$
\vec{u} = \begin{pmatrix}
        7 \\
        32 \\
        10
    \end{pmatrix}, \quad \vec{v} = \begin{pmatrix}
        11 \\
        4 \\
        8
    \end{pmatrix}
$$

La similarité cosinus vaut :

$$
\begin{align*}
    \cos \theta &= \frac{ (u_1 \cdot v_1) + (u_2 \cdot v_2) + (u_3 \cdot v_3) }{ (\sqrt{\vec{u} \cdot \vec{u}}) \times (\sqrt{\vec{v} \cdot \vec{v}}) } \\
    \cos \theta &= \frac{ (7 \times 11) + (32 \times 4) + (10 \times 8) }{ (\sqrt{7^2 + 32^2 + 10^2}) \times (\sqrt{11^2 + 4^2 + 8^2}) } \\
    \cos \theta &= \frac{77 + 128 + 80}{ 34,2491 \times 14,1774 } \\
    \cos \theta &= \frac{285}{ 485,5632 } \\
    \cos \theta &\approx 0,5869
\end{align*}
$$

Selon la nature de $\vec{u}$ et $\vec{v}$, nous pourrions avancer que 0,5869 est la mesure de l’indice de ressemblance entre les mots *u* et *v*, ou entre les documents *u* et *v* etc. Une application pratique serait de résoudre par exemple une tâche de classification en effectuant des regroupements.

Il n’existe pas de fonction spécifique dans *Numpy*, mais l’intégration de la formule est linéaire :

In [None]:
u, v = np.array([7, 32, 10]), np.array([11, 4, 8])

cosine = np.dot(u, v) / (np.linalg.norm(u) * np.linalg.norm(v))

display(cosine)

#### La similarité de vecteurs binaires : l’indice de Jaccard

Dans l’exemple précédent, les attributs des vecteurs $\vec{u}$ et $\vec{v}$ étaient représentés par des nombres pouvant prendre leur valeur dans l’ensemble $\mathbb{R}$. Et si les valeurs se limitaient à *0* et *1* ? Dans ce cas particulier, la similarité peut se calculer avec l’indice de Jaccard :

$$
J = \frac{M_{11}}{M_{01} + M_{10} + M_{11}}
$$

Ou, sachant que *n* est le nombre d’attributs :

$$
J = \frac{M_{11}}{n - M_{00}}
$$

Dans ces formules, les quantités valent :

- $M_{00}$ pour le nombre d’attributs qui valent $0$ dans $\vec{A}$ et $0$ dans $\vec{B}$ ;
- $M_{01}$ pour le nombre d’attributs qui valent $0$ dans $\vec{A}$ et $1$ dans $\vec{B}$ ;
- $M_{10}$ pour le nombre d’attributs qui valent $1$ dans $\vec{A}$ et $0$ dans $\vec{B}$ ;
- $M_{11}$ pour le nombre d’attributs qui valent $1$ dans $\vec{A}$ et $1$ dans $\vec{B}$.

L’indice de Jaccard s’exprime également en termes ensemblistes :

$$
\text{J} = \frac{|A \cap B|}{|A \cup B|}
$$

Où :

- $|A \cap B|$ représente le nombre de composantes où les deux vecteurs ont une valeur de 1 ;
- $|A \cup B|$ figure le nombre de composantes où au moins l’un des deux vecteurs a une valeur de 1.

Prenons les deux vecteurs suivants :

$$
\vec{u} = \begin{pmatrix}
    0 \\
    0 \\
    1 \\
    1 \\
    1
\end{pmatrix}, \quad
\vec{v} = \begin{pmatrix}
    1 \\
    0 \\
    1 \\
    0 \\
    0
\end{pmatrix}
$$

Après application de la formule, nous obtenons :

$$
\begin{align}
    J &= \frac{1}{1 + 2 + 1} \\
    J &= \frac{1}{4} \\
    J &\approx 0,25
\end{align}
$$

L’indice de Jaccard se situe dans un intervalle $[0, 1]$ où :

- 0 représente deux vecteurs sans aucun élément en commun ;
- 1 représente deux vecteurs identiques.

Si nous utilisons la bibliothèque *Numpy*, nous devons faire appel à des méthodes logiques :

In [None]:
u, v = np.array([0, 0, 1, 1, 1]), np.array([1, 0, 1, 0, 0])

intersection = np.sum(np.logical_and(u, v))
union = np.sum(np.logical_or(u, v))

display(intersection / union)

### Représentations vectorielles

Dans l’espace euclidien, un vecteur peut représenter une position, soit dans un plan pour un vecteur 2D, soit dans l’espace pour un vecteur 3D. Établir que, dans un plan de Paris dont la Concorde serait le point d’origine, le Palais Garnier est représenté par un vecteur $(2, 2)$ c’est lui attribuer les coordonnées 2 et 2 sur les dimensions horizontale et verticale. Et si l’on rajoute une coordonnée *y* pour l’élévation, on bascule dans un espace tridimensionnel.

Pour les textes, la représentation passe par l’application d’une méthode qui le transforme en nombres. Par exemple, il est possible de dire qu’un texte active ou non un certain nombre de classificateurs binaires, afin d’obtenir un vecteur uniquement composé de 0 et de 1. Une autre méthode pourrait se reposer sur la fréquence d’apparition des mots, et encore une autre sur un indice de leur significativité etc.

## Calculer la distance entre des vecteurs

La distance est une longueur strictement positive qui exprime une quantité séparant deux vecteurs de l’espace. On la note par la fonction $d(\mathbf{X}, \mathbf{Y})$ qui se calcule de différentes façons selon l’objectif à atteindre.

### La distance euclidienne

La plupart du temps, lorsque l’on évoque la distance entre des vecteurs, on fait référence à la distance euclidienne. On la trouve parfois aussi sous la dénomination de *distance de Pythagore* parce qu’elle peut se calculer à partir des coordonnées des points. Elle s’exprime mathématiquement par la formule :

$$
d(\mathbf{X}, \mathbf{Y}) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}
$$

Prenons deux vecteurs en trois dimensions :

$$
\vec{u} = \begin{pmatrix}
    3 \\
    -1 \\
    6
\end{pmatrix}, \quad \vec{v} = \begin{pmatrix}
    0 \\
    2 \\
    -3
\end{pmatrix}
$$

Et calculons la distance qui les sépare :

$$
\begin{align*}
    d(\vec{u}, \vec{v}) &= \sqrt{(3 - 0)^2 + (-1 - 2)^2 + (6 - (-3))^2} \\
    &= \sqrt{3^2 + (-3)^2 + 9^2} \\
    &= \sqrt{9 + 9 + 81} \\
    &= \sqrt{99} \\
    &\approx 9.9499
\end{align*}
$$

La distance euclidienne peut également se concevoir comme la norme du vecteur différence entre deux vecteurs :

$$
d(\mathbf{X}, \mathbf{Y}) = \|\mathbf{X} - \mathbf{Y}\|
$$

Avec cette formule, notre exemple devient :

$$
\begin{align*}
    d(\vec{u}, \vec{v}) &= \|\begin{pmatrix} 3 - 0 \\ -1 - 2 \\ 6 - (-3) \end{pmatrix}\| \\
    &= \|\begin{pmatrix} 3 \\ -3 \\ 9 \end{pmatrix}\| \\
    &= \sqrt{3^2 + (-3)^2 + 9^2} \\
    &\approx 9.9499
\end{align*}
$$

Si elle est facilement calculable, la distance euclidienne perd de sa pertinence dans les cas suivants :

- Les vecteurs sont dominés par des composantes de grandes valeurs qui sont elles-mêmes favorisées par l’élévation au carré ;
- les vecteurs sont dans un espace de très grande dimension ;
- les vecteurs sont bruités par des composantes influentes.

À noter également qu’elle exprime un écart en termes de magnitude sans capturer la direction relative entre les vecteurs.

### La distance de Manhattan

Aussi appelée distance *taxicab*, la distance de Manhattan repose sur l’idée que la distance entre deux points est la somme des quantités de déplacements dans toutes les dimensions. Dans un plan représentant le réseau des rues de Manhattan, un taxi souhaitant transporter son passager d’un point A vers un point B peut emprunter dans la représentation ci-dessous les chemins rouge, jaune ou bleu, quand le chemin vert figure la distance euclidienne :

![La distance de Manhattan](./images/manhattan-distance.png)

Psychonaut, Public domain, via *Wikimedia Commons*.

Elle a été définie par Hermann Minkowski selon la formule :

$$
d(\mathbf{X}, \mathbf{Y}) = \sum_{i=1}^{n} |x_i - y_i|
$$

Reprenons les vecteurs $\vec{u}$ et $\vec{v}$ précédemment définis afin d’effectuer le calcul :

$$
\begin{align*}
    d(\vec{u}, \vec{v}) &= |3-0| + |-1 - 2| + |6 - (-3)| \\
    &= |3| + |-3| + |9| \\
    &= 3 + 3 + 9 \\
    &= 15
\end{align*}
$$

Comme la formule évite une élévation au carré, elle devient moins sensible au bruit (données aberrantes) ou aux composantes de grandes valeurs, même si dans ce dernier cas on va tout de même préférer passer par une étape de normalisation avant de la calculer. Elle est également parfaitement adaptée à des déplacements contraints par les axes d’une grille (labyrinthe, réseau, carte urbaine…) mais sans doute moins intuitive que la distance euclidienne en termes d’interprétation.

### La distance cosinus

Le calcul de la distance cosinus est associé à la similarité cosinus par la relation suivante :

$$
d(\mathbf{X}, \mathbf{Y}) = 1 - \cos \theta
$$

Le résultat est situé dans un intervalle $[0, 2]$ qui mesure l’éloignement des vecteurs en termes de direction et non pas de magnitude.

### La distance de Jaccard

Elle se calcule sans surprise grâce à l’indice de Jaccard selon l’expression mathématique :

$$
d(\mathbf{X}, \mathbf{Y}) = 1 - \frac{|A \cap B|}{|A \cup B|}
$$

Les valeurs restent dans l’intervalle $[0, 1]$ mais s’interprètent comme le complément de l’indice de Jaccard. Dans l’exemple plus haut, les vecteurs $\vec{u}$ et $\vec{v}$ avaient un indice de Jaccard de 0,25 et, partant, une distance de Jaccard de 0,75.