# Normalisation

![Enoncé Exercice 2 (normalisation)](exercice-2-normalisation.png)

- Nous avons un dataset contenant le poids et la taille des individus.
- Le poids est exprimé en kg.
- La taille est exprimée :
  - En m dans le 1er cas.
  - En cm dans le 2e cas.
  - Il s'agit bien sûr des mêmes tailles !
- Les données ont été séparées en 2 groupes (bleus et rouges), et on a introduit une nouvelle observation (vert).
- L'objectif est de déterminer de quel groupe ce nouveau point se rapproche le plus.
- Pour ce faire, nous comparerons la distance de Manhatthan entre le point bleu le plus proche, et le point rouge le plus proche (knn, k=1).
- Pour chacun des scénarios (taille en m et en cm), nous ferons le calcul avec et sans normalisation MinMax. Nous supposons que :
  - Le poids en kg varie entre 0 et 100.
  - La taille en m varie entre 0 et 2.
  - La taille en cm varie entre 0 et 200.
- Etant donné ces intervalles, il suffira, pour normaliser les données, de diviser par :
  - 100 le poids.
  - 2 la taille en m.
  - 200 la taille en cm.

In [1]:
# Distance de Manhattan dans le plan
def distance(a, b):
    return round(abs(a[0] - b[0]) + abs(a[1] - b[1]), 3)

In [2]:
# 1. La taille est exprimée en m
data = {
    "bleu": [70, 1.75],  # poids, taille
    "rouge": [90, 1.60],
    "vert": [78, 1.63],
}
print("Sans normalisation")
print("Données:", data)
print("Distance bleu-vert:", distance(data["bleu"], data["vert"]))
print("Distance rouge-vert:", distance(data["rouge"], data["vert"]))

print()

normalized_data = {
    key: [weight / 100, height / 2] for key, (weight, height) in data.items()
}

print("Avec normalisation")
print("Données:", normalized_data)
print("Distance bleu-vert:", distance(normalized_data["bleu"], normalized_data["vert"]))
print(
    "Distance rouge-vert:", distance(normalized_data["rouge"], normalized_data["vert"])
)

Sans normalisation
Données: {'bleu': [70, 1.75], 'rouge': [90, 1.6], 'vert': [78, 1.63]}
Distance bleu-vert: 8.12
Distance rouge-vert: 12.03

Avec normalisation
Données: {'bleu': [0.7, 0.875], 'rouge': [0.9, 0.8], 'vert': [0.78, 0.815]}
Distance bleu-vert: 0.14
Distance rouge-vert: 0.135


In [3]:
# 2. La taille est exprimée en cm
data = {
    "bleu": [70, 175],  # poids, taille
    "rouge": [90, 160],
    "vert": [78, 163],
}
print("Sans normalisation")
print("Données:", data)
print("Distance bleu-vert:", distance(data["bleu"], data["vert"]))
print("Distance rouge-vert:", distance(data["rouge"], data["vert"]))

print()

normalized_data = {
    key: [weight / 100, height / 200] for key, (weight, height) in data.items()
}

print("Avec normalisation")
print("Données:", normalized_data)
print("Distance bleu-vert:", distance(normalized_data["bleu"], normalized_data["vert"]))
print(
    "Distance rouge-vert:", distance(normalized_data["rouge"], normalized_data["vert"])
)

Sans normalisation
Données: {'bleu': [70, 175], 'rouge': [90, 160], 'vert': [78, 163]}
Distance bleu-vert: 20
Distance rouge-vert: 15

Avec normalisation
Données: {'bleu': [0.7, 0.875], 'rouge': [0.9, 0.8], 'vert': [0.78, 0.815]}
Distance bleu-vert: 0.14
Distance rouge-vert: 0.135


- Sans normalisation, le nouveau point est :
  - plus proche des bleus dans le 1er cas, mais
  - plus proche des rouges dans le 2e,
  - ce qui crée un incohérence du simple fait du changement d'unité de mesure.
- Avec des données normalisées :
  - dans les 2 cas les valeurs sont les mêmes, le calcul est donc plus robuste,
  - et les résultats plus fiables (le nouveau point est plus proche des rouges).
- D'où l'importance d'avoir des données à la même échelle lorsque l'on travaille sur des projets data.