# Comparer des vecteurs

Rappelons-nous que les vecteurs sont décrits par trois caractéristiques :
- **Le sens.** Il s’agit de l’orientation du vecteur dans l’espace (vers le haut, vers le bas…).
- **La direction.** Elle décrit la manière dont le vecteur s’oriente relativement à un axe de référence.
- **La norme.** Elle représente la longueur du vecteur et se calcule par la formule $\| \vec{v} \| = \sqrt{\vec{v} \cdot \vec{v}}$

Prenons un ensemble de discours prononcés par deux organisations non gouvernementales aux 25e et 26e conférences des parties (COP 25 et 26) organisées par l'Organisation des Nations unies pour le Climat pour lesquels nous avons vectorisé des mots-clés (*action* et *biodiversity*) afin de représenter la manière dont ils ont été utilisés :

In [None]:
import numpy as np
import pandas as pd

data = {
    'action': [np.array([-0.019834073, 0.033105727, -0.038958885]), np.array([-0.12261222, 0.018286489, 0.4407857])],
    'biodiversity': [np.array([0.005329255, 0.03490175, 0.008037926]), np.array([-0.025283445, 0.03169255, 0.19881622])]
}
index = ['EDF', 'EJF']

df = pd.DataFrame(data, index=index)

display(df)

De là, trois approches sont possibles :

- obtenir une mesure de tendance centrale des vecteurs afin de comparer les discours ;
- évaluer l’intensité des mots-clés en comparant la norme de leurs vecteurs ;
- trouver une mesure angulaire pour avoir une idée de l’orientation des vecteurs.

## Comparaison de documents

Le plus souvent lorsque l’objectif est d’évaluer rapidement la similarité entre deux documents, on va retenir une mesure comme la distance euclidienne. Dans notre exemple, une première opération serait de simplifier la représentation des vecteurs en retenant une mesure de tendance centrale.

**1e étape :** calculez la moyenne de chaque vecteur mot-clé :

In [None]:
# your code here

# working copy
df_mean = df.copy()

# vectors are represented by their mean
df_mean.action = df_mean.action.apply(np.mean)
df_mean.biodiversity = df_mean.biodiversity.apply(np.mean)

display(df_mean)

**2e étape :** calculer la distance entre les documents :

In [None]:
# your code here

print(np.linalg.norm(df_mean.loc['EDF'] - df_mean.loc['EJF']))

**3e étape :** calculer la distance entre les mots-clés :

In [None]:
# your code here

print(np.linalg.norm(df_mean.action - df_mean.biodiversity))

## Analyse de thèmes

Si la question est plutôt d’évaluer la force d’un mot-clé dans les discours d’une ONG, on souhaitera plutôt comparer des magnitudes.

**1e étape :** calculer la norme des vecteurs :

In [None]:
# your code here

# working copy
df_norm = df.copy()

# vectors are represented by their mean
df_norm.action = df_norm.action.apply(np.linalg.norm)
df_norm.biodiversity = df_norm.biodiversity.apply(np.linalg.norm)

display(df_norm)

**2e étape :** calculer la distance entre les documents :

In [None]:
# your code here

print(np.linalg.norm(df_norm.loc['EDF'] - df_norm.loc['EJF']))

**3e étape :** calculer la distance entre les mots-clés :

In [None]:
# your code here

print(np.linalg.norm(df_norm.action - df_norm.biodiversity))

## Évaluer la similarité directionnelle

Deux vecteurs ayant une orientation dans l’espace, une autre mesure proposée va s’attacher à l’angle qu’ils forment entre eux afin de distinguer à quel point ils se ressemblent : la similarité cosinus.

**1e étape :** combiner les vecteurs de mots-clés :

In [None]:
# your code here

df['combined'] = df.apply(lambda row: np.concatenate([row.action, row.biodiversity]), axis=1)

**Remarque :** l’avantage de combiner les vecteurs de mots-clés dans un objet à plus haute dimensionnalité plutôt que de calculer une tendance centrale permet de préserver toute l’information originale (direction et orientation des vecteurs). En linguistique, l’intérêt est certain quand l’objectif est de conserver le sens sémantique des unités analysées.

**2e étape :** créer une fonction `cosine()` pour calculer la similarité cosinus entre deux vecteurs :

In [None]:
# your code here

def cosine(vectors):
    """Compute the cosine similarity between two vectors:
    scalar product between v1 and v2 divised by the product of their norms
    """
    v1, v2 = vectors
    norm_v1 = np.linalg.norm(v1)
    norm_v2 = np.linalg.norm(v2)
    score = np.dot(v1, v2) / (norm_v1 * norm_v2)
    return score

**3e étape :** calculer la similarité cosinus des discours des deux ONG :

In [None]:
# your code here

similarity = cosine(df.combined.tolist())

print(similarity)

Vous devriez trouver un score de -0,3514, qui s’interprète difficilement. Dans ce contexte, les discours des deux ONG sont modérément opposés mais avec un certain degré de relation. On ne peut juger ni de leur discordance totale ni de leur identité : il existe une certaine interaction entre eux, peut-être due au contexte thématique des conférences.