# <span style='color:SteelBlue'>Normalisation et standardisation avec Scikit-Learn</span>

- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html
- https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

## <span style='background:GreenYellow'>Normalisation avec MinMaxScaler</span>

> - Plutôt que d’appliquer directement la fonction de normalisation, il est préférable d’utiliser une fonctionnalité de Scikit-Learn appelée __Transformer API__, qui vous permettra __d’ajuster (fit)__ une étape de preprocessing en utilisant __les données d’entraînement.__
> - Ainsi lorsque la normalisation, par exemple, sera appliquée à de nouvelles données (par exemple celles de test), elle utilisera __les mêmes moyennes et écart-types sauvegardés.__
> - Pour créer cette étape de preprocessing ‘ajustée’ il suffit d’utiliser la fonction Min MaxScaler puis de l’ajuster grâce aux données d’entraînement. 
> - Enfin pour l’appliquer à un tableau de données par la suite il faudra simplement lui appliquer __scaler.transform().__
> __fit_transform() :__
> - la méthode fit_transform() est essentiellement la combinaison de la méthode fit et de la méthode transform, elle est équivalente à __fit().transform()__. 
> - Cette méthode effectue un __ajustement et une transformation sur les données d'entrée en une seule fois__ et convertit les points de données. 

In [1]:
# Exemple de normalisation
from numpy import asarray
from sklearn.preprocessing import MinMaxScaler
# Définissons les données
data = asarray([[100, 0.001],
                [8, 0.05],
                [50, 0.005],
                [88, 0.07],
                [4, 0.1]])
print("Données")
print(data)
print("")
# Fonction min max scaler
scaler = MinMaxScaler()
# On transforme les données
scaled = scaler.fit_transform(data)
print("Données normalisées")
print(scaled)

Données
[[1.0e+02 1.0e-03]
 [8.0e+00 5.0e-02]
 [5.0e+01 5.0e-03]
 [8.8e+01 7.0e-02]
 [4.0e+00 1.0e-01]]

Données normalisées
[[1.         0.        ]
 [0.04166667 0.49494949]
 [0.47916667 0.04040404]
 [0.875      0.6969697 ]
 [0.         1.        ]]


In [2]:
# Normalisation
# Nouvelles données
data_new = asarray([[97, 0.005],
                    [6, 0.06],
                    [40, 0.003]])
print("Nouvelles données")
print(data_new)
print("")

# Attention pas de fit!
new_scaled = scaler.transform(data_new)
print("Nouvelles données normalisées")
print(new_scaled)

Nouvelles données
[[9.7e+01 5.0e-03]
 [6.0e+00 6.0e-02]
 [4.0e+01 3.0e-03]]

Nouvelles données normalisées
[[0.96875    0.04040404]
 [0.02083333 0.5959596 ]
 [0.375      0.02020202]]


## <span style='background:GreenYellow'>Standardisation (normalisation standard) avec StandardScaler</span>

In [3]:
# Exemple de standardisation
from sklearn.preprocessing import StandardScaler
# Définissons les données
data = asarray([[100, 0.001],
                [8, 0.05],
                [50, 0.005],
                [88, 0.07],
                [4, 0.1]])
print("Données")
print(data)
print("")
# Fonction min max scaler
scaler = StandardScaler()
# On transforme les données
scaled = scaler.fit_transform(data)
print("Données normalisées")
print(scaled)

Données
[[1.0e+02 1.0e-03]
 [8.0e+00 5.0e-02]
 [5.0e+01 5.0e-03]
 [8.8e+01 7.0e-02]
 [4.0e+00 1.0e-01]]

Données normalisées
[[ 1.26398112 -1.16389967]
 [-1.06174414  0.12639634]
 [ 0.         -1.05856939]
 [ 0.96062565  0.65304778]
 [-1.16286263  1.44302493]]


In [4]:
# Standardisation
# Moyenne et écart-type
scaled.mean(), scaled.std()

(-2.2204460492503132e-17, 1.0)

In [5]:
# Standardisation
# Nouvelles données
data_new = asarray([[97, 0.005],
                    [6, 0.06],
                    [40, 0.003]])
print("Nouvelles données")
print(data_new)
print("")

# Attention pas de fit!
new_scaled = scaler.transform(data_new)
print("Nouvelles données standardisées")
print(new_scaled)

Nouvelles données
[[9.7e+01 5.0e-03]
 [6.0e+00 6.0e-02]
 [4.0e+01 3.0e-03]]

Nouvelles données standardisées
[[ 1.18814225 -1.05856939]
 [-1.11230338  0.38972206]
 [-0.25279622 -1.11123453]]
