<a href="https://colab.research.google.com/github/artificialrick79/Studiare-AI/blob/Machine-Learning-con-python/3_Normalizzazione_e_Standardizzazione_di_un_Dataset_con_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Avere valori su uno stesso range numerico può velocizzare anche di molto la fase di addestramento di un modello di machine learning.<br>
Vediamo due metodi per portare il dataset sulla stessa scala: **Normalizzazione** e **Standardizzazione**.<br>

In [1]:
import pandas as pd
import numpy as np

Carichiamo il file scegliendo le colonne da utilizzare con usecols e assegnandogli dei nomi

In [2]:
wines = pd.read_csv("https://raw.githubusercontent.com/artificialrick79/Studiare-AI/datasets/wine.data", usecols=[0,1,7], names=['classe','alcol','flavonoidi'])

In [3]:
wines.head()

Unnamed: 0,classe,alcol,flavonoidi
0,1,14.23,3.06
1,1,13.2,2.76
2,1,13.16,3.24
3,1,14.37,3.49
4,1,13.24,2.69


Creiamo due array numpy uno corrispondente alle features ed uno alla classe

In [4]:
Y = wines["classe"].values
X = wines.drop("classe", axis=1).values

In [5]:
Y[:10]

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [6]:
X[:10]

array([[14.23,  3.06],
       [13.2 ,  2.76],
       [13.16,  3.24],
       [14.37,  3.49],
       [13.24,  2.69],
       [14.2 ,  3.39],
       [14.39,  2.52],
       [14.06,  2.51],
       [14.83,  2.98],
       [13.86,  3.15]])

Usiamo describe per vedere i range di valori delle features da cui si vede che alcol ha min e max molto differenti da flavonoidi

In [7]:
wines.describe()

Unnamed: 0,classe,alcol,flavonoidi
count,178.0,178.0,178.0
mean,1.938202,13.000618,2.02927
std,0.775035,0.811827,0.998859
min,1.0,11.03,0.34
25%,1.0,12.3625,1.205
50%,2.0,13.05,2.135
75%,3.0,13.6775,2.875
max,3.0,14.83,5.08


## Normalizzazione
La normalizzazione porta il range di valori in una scala compresa tra 0 ed uno, si esegue applicando ad ogni elemento da normalizzare la seguente formula.<br>
$$x^{(i)}_{norm}= \frac{x^{i}-x_{min}}{x_{max}-x_{min}}$$
dove $x$ è un vettore che corrisponde alla colonna da normalizzare.

Pandas non ha un metodo per la normalizzazione ma possiamo eseguirla tramite il calcolo della suddetta formula e la successiva sostituzione dei dati. Creiamo quindi una copia del dataframe, creiamo un'istanza delle sole colonne che intendiamo normalizzare e poi effettuiamo la sostizione.

In [19]:
wines_norm = wines.copy()
features = ["alcol","flavonoidi"]
to_norm = wines_norm[features]
wines_norm[features] = (to_norm-to_norm.min())/(to_norm.max()-to_norm.min())

Invece per normalizzare un'array numpy possiamo utilizzare la classe MinMaxScaler di Scikit-learn

In [12]:
from sklearn.preprocessing import MinMaxScaler

In [14]:
mms = MinMaxScaler()
X_norm = mms.fit_transform(X)

Controlliamo ora che effettivamente l'array X sia stato normalizzato

In [17]:
X_norm[:5]

array([[0.84210526, 0.57383966],
       [0.57105263, 0.51054852],
       [0.56052632, 0.61181435],
       [0.87894737, 0.66455696],
       [0.58157895, 0.49578059]])

## Standardizzazione
La standardizzazione crea una distribuzione normale, ovvero una distribuzione con media 0 e deviazione standard 1, quindi il range di valori sarà compreso tra -1 e 1.<br>
La standardizzazione si esegue applicando la seguente formula
<br>
$$x^{(i)}_{std}= \frac{x^{i}-x_{mean}}{x_{sd}}$$
<br>
dove $x$ è un vettore che corrisponde alla colonna da standardizzare, $x_{mean}$ è il valore medio nella colonna e $x_{sd}$ la deviazione standard.

Anche per la Standardizzazione non esiste un metodo specifico in Pandas e quindi bisogna calcolare e sostituire i valori nel dataframe. Quindi effettuiamo una copia del dataframe, creiamo un'istanza con le sole colonne che intendiamo standardizzare, calcoliamo e sostituiamo i valori in tabella.

In [23]:
wines_std = wines.copy()
features = ["alcol","flavonoidi"]
to_std = wines_std[features]
wines_std[features] = (to_std - to_std.mean())/to_std.std()

Controlliamo che i dati siano stati effettivamente standardizzati

In [24]:
wines_std[:5]

Unnamed: 0,classe,alcol,flavonoidi
0,1,1.514341,1.031908
1,1,0.245597,0.731565
2,1,0.196325,1.212114
3,1,1.686791,1.462399
4,1,0.294868,0.661485


Invece per standardizzare un'array numpy possiamo utilizzare la classe StandardScaler di Scikit-learn

In [20]:
from sklearn.preprocessing import StandardScaler

In [21]:
ss = StandardScaler()
X_std = ss.fit_transform(X)

Controlliamo se la standardizzazione è stata effettuata

In [22]:
X_std[0:5]

array([[1.51861254, 1.03481896],
       [0.24628963, 0.73362894],
       [0.19687903, 1.21553297],
       [1.69154964, 1.46652465],
       [0.29570023, 0.66335127]])

NOTA BENE 
Se osservi attentamente la standardizzazione eseguita con Pandas ha tornato un risultato leggermente diverso rispetto a quella eseguita con scikit-learn, questo accade perchè scikit-learn utilizza internamente la funzione std di Numpy, che calcola la deviazione standard in maniera diversa rispetto al metodo std del DataFrame.
Per approfondire vedi qui.
https://stackoverflow.com/questions/44220290/sklearn-standardscaler-result-different-to-manual-result/44220374#44220374