# ðŸ§® Vecteurs & Distances en Python (Mini-tutoriel 30 min)

Ce notebook propose un rappel mathÃ©matique des vecteurs et des principales distances/similaritÃ©s,
avec des exemples concrets en **NumPy**. IdÃ©al comme prÃ©ambule avant un TP sur **ChromaDB**.

## Objectifs
- ReprÃ©senter des vecteurs avec **NumPy**
- Calculer des **normes** et **distances** (euclidienne, Manhattan)
- Calculer la **similaritÃ©** et la **distance** cosinus
- Comparer les distances retournÃ©es par **ChromaDB** avec un calcul **NumPy**
- Visualiser intuitivement en 2D


## 1) PrÃ©liminaires

In [1]:
import numpy as np
np.set_printoptions(precision=3, suppress=True)
print('NumPy version:', np.__version__)

NumPy version: 2.3.4


## 2) ReprÃ©sentation des vecteurs
Deux vecteurs dans $\mathbb{R}^3$.

In [2]:
v1 = np.array([1, 2, 3])
v2 = np.array([4, 0, 8])
print('v1 =', v1)
print('v2 =', v2)

v1 = [1 2 3]
v2 = [4 0 8]


## 3) Norme d'un vecteur
$$\|v\| = \sqrt{\sum_i v_i^2}$$

In [None]:
# Calculez les normes de v1 et v2
# TODO

## 4) Distances entre vecteurs
### a) Distance euclidienne
$$d_{euclid}(x, y) = \sqrt{\sum_i (x_i - y_i)^2}$$

In [None]:
# Calculez la distance euclidienne entre v1 et v2
# TODO

### b) Distance de Manhattan (L1)
$$d_{manhattan}(x, y) = \sum_i |x_i - y_i|$$

In [None]:
# Calculez la distance de Manhattan entre v1 et v2
# TODO

## 5) SimilaritÃ© cosinus
La similaritÃ© cosinus mesure l'**alignement** entre deux vecteurs :
$$\cos(\theta) = \frac{x \cdot y}{\|x\|\,\|y\|}$$
Comprise entre -1 et 1 (en pratique des embeddings, souvent [0,1]).

In [None]:
# Calculez la similaritÃ© cosinus entre v1 et v2
# TODO

## 6) Distance cosinus
La **distance cosinus** transforme la similaritÃ© en distance :

$$d_{\text{cos}}(x, y) = 1 - \frac{x \cdot y}{\|x\|\,\|y\|}$$

- 0 â‡’ vecteurs alignÃ©s (trÃ¨s proches)
- Plus grand â‡’ vecteurs plus dissemblables

De nombreux outils (dont **ChromaDB** en espace `cosine`) renvoient cette **distance** (et non la similaritÃ©).

In [None]:
# Calculez la distance cosinus entre v1 et v2
# TODO

## 7) Entrer ces distances dans ChromaDB et comparer
CrÃ©ons une collection **ChromaDB** en espace `cosine`, insÃ©rons `v1` et `v2`,
faisons une requÃªte et comparons la **distance** renvoyÃ©e par ChromaDB avec `1 - cos` calculÃ©e Ã  la main.

> Si nÃ©cessaire : `pip install chromadb` (Ã  exÃ©cuter dans votre environnement local).

In [None]:
# CrÃ©ez un client chromadb et une collection en spÃ©cifiant l'utilisation de la distance cosine
# TODO

In [None]:
# Ajoutez les vecteurs v1 et v2 en tant qu'embeddings dans cette collection
# TODO

In [None]:
# Calculez la distance entre v1 et v2 avec collection.query
# TODO

## 8) Mini-exercice
GÃ©nÃ©rez 3 vecteurs alÃ©atoires de dimension 5, calculez les **distances euclidiennes** et les **similaritÃ©s cosinus**
pour chaque paire, puis identifiez la paire **la plus proche** (euclidienne minimale / cosinus maximal).

In [None]:
# TODO

## 9) Visualisation (2D)

In [None]:
# Avec matplotlib visualisez les vecteurs dans un plan 2D
# TODO

## 10) Lien avec ChromaDB
- Les **embeddings** sont des vecteurs $x \in \mathbb{R}^n$.
- Une requÃªte devient un vecteur $q$ ; on cherche les vecteurs stockÃ©s **les plus proches**.
- En espace `cosine`, Chroma renvoie des **distances** (petit = similaire).
- Les index ANN accÃ©lÃ¨rent ces recherches.

---
### Bonus : fonctions utilitaires

In [None]:
def euclidean_distance(x: np.ndarray, y: np.ndarray) -> float:
    return float(np.linalg.norm(x - y))

def manhattan_distance(x: np.ndarray, y: np.ndarray) -> float:
    return float(np.sum(np.abs(x - y)))

def cosine_similarity(x: np.ndarray, y: np.ndarray) -> float:
    denom = np.linalg.norm(x) * np.linalg.norm(y)
    if denom == 0:
        return 0.0
    return float(np.dot(x, y) / denom)
