## Cours et après Code

## Cosine similarity

La similarité cosinus donne la similarité de deux vecteurs à n dimensions en déterminant le cosinus de leur angle. Ce score est fréquemment utilisé en fouille de textes¹.

Soit deux vecteurs **A** et **B**, le cosinus de leur angle θ s'obtient en prenant leur produit scalaire divisé par le produit de leurs normes :

$$\cos \theta = \frac{\mathbf{A} \cdot \mathbf{B}}{\|\mathbf{A}\| \|\mathbf{B}\|} $$

La valeur d'un cosinus, donc celle calculée ici pour cos θ, est comprise dans l'intervalle \([-1, 1]\). La valeur de -1 indique des vecteurs opposés, la valeur de 0 des vecteurs indépendants (orthogonaux) et la valeur de 1 des vecteurs colinéaires de coefficient positif. Les valeurs intermédiaires permettent d'évaluer le degré de similarité.

¹ Source: Wikipedia - Cosine similarity


### Exemple de Calcul du Produit Scalaire et des Normes

Considérons deux vecteurs en deux dimensions :

$$ \mathbf{A} = [2, 3] $$
$$ \mathbf{B} = [4, 1] $$

#### Calcul du Produit Scalaire

Le produit scalaire de deux vecteurs $\mathbf{A}$ et $\mathbf{B}$ se calcule en multipliant les composantes correspondantes et en additionnant les résultats :

$$ \mathbf{A} \cdot \mathbf{B} = (2 \times 4) + (3 \times 1) $$
$$ \mathbf{A} \cdot \mathbf{B} = 8 + 3 $$
$$ \mathbf{A} \cdot \mathbf{B} = 11 $$

Donc, le produit scalaire $\mathbf{A} \cdot \mathbf{B}$ est égal à 11.

#### Calcul des Normes des Vecteurs

La norme d'un vecteur se calcule en prenant la racine carrée de la somme des carrés de ses composantes.

- Norme de $\mathbf{A}$ :

$$ \|\mathbf{A}\| = \sqrt{2^2 + 3^2} $$
$$ \|\mathbf{A}\| = \sqrt{4 + 9} $$
$$ \|\mathbf{A}\| = \sqrt{13} $$
$$ \|\mathbf{A}\| \approx 3.6056 $$

- Norme de \(\mathbf{B}\) :

$$ \|\mathbf{B}\| = \sqrt{4^2 + 1^2} $$
$$ \|\mathbf{B}\| = \sqrt{16 + 1} $$
$$ \|\mathbf{B}\| = \sqrt{17} $$
$$ \|\mathbf{B}\| \approx 4.1231 $$

### Conclusion

Dans cet exemple, nous avons calculé le produit scalaire entre les vecteurs $\mathbf{A}$ et $\mathbf{B}$, qui est égal à 11. Nous avons également calculé les normes des vecteurs $\mathbf{A}$ et $\mathbf{B}$, qui sont approximativement 3.6056 et 4.1231 respectivement.


In [30]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Documents à comparer
document1 = "Un exemple de document."
document2 = "Ce texte est un exemple."

# Vectorisation des documents ensemble pour obtenir le même vocabulaire
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform([document1, document2])

# Affichage des vecteurs TF-IDF pour mieux comprendre
print("Vecteur TF-IDF du document 1:")
print(tfidf_matrix[0].toarray())
print("Vecteur TF-IDF du document 2:")
print(tfidf_matrix[1].toarray())

# Calcul de la similarité cosinus
cosine_sim = cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])
print("Similarité cosinus:", cosine_sim[0][0])


Vecteur TF-IDF du document 1:
[[0.         0.57615236 0.57615236 0.         0.40993715 0.
  0.40993715]]
Vecteur TF-IDF du document 2:
[[0.49922133 0.         0.         0.49922133 0.35520009 0.49922133
  0.35520009]]
Similarité cosinus: 0.29121941856368966
