# Mise à l'échelle des caractéristiques

La mise à l'échelle des caractéristiques, également appelée normalisation, est une étape cruciale dans le prétraitement des données. Elle consiste à ajuster les valeurs de différentes caractéristiques à une échelle commune, généralement entre 0 et 1, afin d'éviter que certaines caractéristiques avec des valeurs numériques plus grandes ne dominent injustement l'analyse. Cela améliore la performance des algorithmes d'apprentissage automatique qui sont sensibles à l'échelle des données, tels que les méthodes basées sur la distance, comme les algorithmes de regroupement (clustering) et les méthodes de régression. En mettant à l'échelle les caractéristiques, nous permettons à ces algorithmes de traiter les données de manière équitable, garantissant ainsi des résultats plus précis et cohérents, indépendamment de la magnitude initiale des valeurs.

Il existe plusieurs méthodes de mise à l'échelle des caractéristiques, chacune adaptée à des scénarios spécifiques. Voici quelques-unes des méthodes couramment utilisées :

 * **Min-Max Scaling (Normalisation)** : Cette méthode redimensionne les valeurs d'une caractéristique pour qu'elles se situent dans une plage spécifiée, généralement entre 0 et 1. Cela se fait en soustrayant la valeur minimale et en divisant par la plage des valeurs.


 * **Standard Scaling (Standardisation)** : Cette méthode transforme les valeurs en utilisant la moyenne et l'écart-type, de sorte qu'elles aient une moyenne de zéro et un écart-type de un. Cela permet de centrer les données autour de zéro et de leur donner une unité d'écart-type.

## Données test

In [18]:
import pandas as pd

datas = {'Salarié': ['Samir', 'Sofien', 'Sarra', 'Aymen'],
         'Age': [35,33,41,39],
         'Salaire': [1200.000, 1500.000, 950.000, 1450.000]}
data = pd.DataFrame.from_dict(datas)
data

Unnamed: 0,Salarié,Age,Salaire
0,Samir,35,1200.0
1,Sofien,33,1500.0
2,Sarra,41,950.0
3,Aymen,39,1450.0


## Min-Max Scaling (Normalisation)

« Normaliser » un vecteur signifie le plus souvent diviser par une norme du vecteur. Il fait également souvent référence à la remise à l’échelle par le minimum et la plage du vecteur, pour que tous les éléments se situent entre 0 et 1, amenant ainsi toutes les valeurs des colonnes numériques de l’ensemble de données à une échelle commune.

Pour ce faire rien de plus simple, la formule est la suivante : 

![normalsation](./images/normalisation_func.png)

In [30]:
# Sélectionner les colonnes numériques
numeric_cols = ['Age', 'Salaire']
data[numeric_cols] = (data[numeric_cols] - data[numeric_cols].min())/(data[numeric_cols].max() - data[numeric_cols].min())
data

Unnamed: 0,Salarié,Age,Salaire
0,Samir,0.25,0.454545
1,Sofien,0.0,1.0
2,Sarra,1.0,0.0
3,Aymen,0.75,0.909091


## Standard Scaling (Standardisation)

« Standardiser » un vecteur signifie le plus souvent soustraire une mesure de localisation et diviser par une mesure d’échelle. Par exemple, si le vecteur contient des valeurs aléatoires avec une distribution gaussienne, vous pouvez soustraire la moyenne et diviser par l’écart type, obtenant ainsi une variable aléatoire « normale standard » avec une moyenne de 0 et un écart type de 1.

La transformation est plus subtile que simplement ramener l’ensemble des valeurs entre 0 et 1, elle a pour but de ramener la moyenne μ à 0 et l’écart-type σ à 1.

Encore une fois, le procédé n’est pas sorcier si on a à disposition la moyenne μ et l’écart-type σ d’une variable X = x1 x2 xn donnée, alors la variable standardisée s’écrira : 

![Standardisation](./images/standardisation_func.png)

In [28]:
# Sélectionner les colonnes numériques
numeric_cols = ['Age', 'Salaire']
data[numeric_cols] = (data[numeric_cols] - data[numeric_cols].mean()) / data[numeric_cols].std()
data

Unnamed: 0,Salarié,Age,Salaire
0,Samir,-0.547723,-0.296078
1,Sofien,-1.095445,0.888235
2,Sarra,1.095445,-1.283006
3,Aymen,0.547723,0.690849


In [29]:
data.describe()

Unnamed: 0,Age,Salaire
count,4.0,4.0
mean,0.0,0.0
std,1.0,1.0
min,-1.095445,-1.283006
25%,-0.684653,-0.54281
50%,0.0,0.197386
75%,0.684653,0.740196
max,1.095445,0.888235
