# Feature scaling
Avere valori su uno stesso range numerico può velocizzare anche di molto la fase di addestramento di un modello di machine learning.<br>
Vediamo due metodi per portare il dataset sulla stessa scala: **Normalizzazione** e **standardizzazione**.<br>
Per provare questi due metodi utilizzeremo il Wines Dataset, un dataset di vini utilizzato per testare modelli di machine learning, selezionando solo le features inerenti alla percentuale alcolica e ai flavonoidi.

In [2]:
import pandas as pd

wines = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data", names=['class','alcol','flavonoidi'], 
                    usecols=[0,1,7])
wines.head()

Unnamed: 0,class,alcol,flavonoidi
0,1,14.23,3.06
1,1,13.2,2.76
2,1,13.16,3.24
3,1,14.37,3.49
4,1,13.24,2.69


**NOTA BENE**<br>
Dalla versione 0.19.2 di Pandas è possibile caricare un DataFrame direttamente da un URL remoto come fatto nell'esempio qui sopra.

## Normalizzazione
La normalizzazione porta il range di valori in una scala compresa tra 0 ed uno, si esegue applicando ad ogni elemento da normalizzare la seguente formula.<br>
$$x^{(i)}_{norm}= \frac{x^{i}-x_{min}}{x_{max}-x_{min}}$$
dove $x$ è un vettore che corrisponde alla colonna da normalizzare.

### Numpy e Scikit-learn

Per normalizzare un dataset presentato come un'array numpy possiamo utilizzare la classe MinMaxScaler di Scikit-learn

In [3]:
from sklearn.preprocessing import MinMaxScaler

mms = MinMaxScaler()
X = wines.drop("class",axis=1).values # la feature target presenta delle classi e non va normalizzata, quindi la rimuoviao dall'array
X_norm = mms.fit_transform(X)
X_norm[:5]

array([[0.84210526, 0.57383966],
       [0.57105263, 0.51054852],
       [0.56052632, 0.61181435],
       [0.87894737, 0.66455696],
       [0.58157895, 0.49578059]])

### Pandas
Pandas non ha un metododo per la normalizzazione, ma possiamo eseguirla semplicemente implementando l'algoritmo.

In [4]:
wines_norm = wines.copy()

features = ["alcol","flavonoidi"] # colonne del dataframe da normalizzare
to_norm = wines_norm[features]
wines_norm[features] = (to_norm-to_norm.min())/(to_norm.max()-to_norm.min()) #implementiamo l'algoritmo della normalizzazione
                                                                             #e lo eseguiamo su tutte le colonne da normalizzare
wines_norm.head()

Unnamed: 0,class,alcol,flavonoidi
0,1,0.842105,0.57384
1,1,0.571053,0.510549
2,1,0.560526,0.611814
3,1,0.878947,0.664557
4,1,0.581579,0.495781


## Standardizzazione
La standardizzazione crea una distribuzione normale, ovvero una distribuzione con media 0 e deviazione standard 1, quindi il range di valori sarà compreso tra -1 e 1.<br>
La standardizzazione si esegue applicando la seguente formula
<br>
$$x^{(i)}_{std}= \frac{x^{i}-x_{mean}}{x_{sd}}$$
<br>
dove $x$ è un vettore che corrisponde alla colonna da standardizzare, $x_{mean}$ è il valore medio nella colonna e $x_{sd}$ la deviazione standard.

### Numpy e Scikit-learn
Per standardizzare un dataset sotto forma di array numpy possiamo utilizzare la classe StandardScaler di Scikit-learn

In [22]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
X = wines.drop("class",axis=1).values
X_std = ss.fit_transform(X)
X_std[:5]

array([[1.51861254, 1.03481896],
       [0.24628963, 0.73362894],
       [0.19687903, 1.21553297],
       [1.69154964, 1.46652465],
       [0.29570023, 0.66335127]])

### Pandas
Pandas non ha un metododo per la standardizzazione, ma possiamo eseguirla semplicemente implementando l'algoritmo.

In [23]:
wines_std = wines.copy()

features = ["alcol","flavonoidi"]
to_std = wines_std[features]
wines_std[features] = (to_std - to_std.mean())/to_std.std()
wines_std[:5]

Unnamed: 0,class,alcol,flavonoidi
0,1,1.514341,1.031908
1,1,0.245597,0.731565
2,1,0.196325,1.212114
3,1,1.686791,1.462399
4,1,0.294868,0.661485


**NOTA BENE**
Se osservi attentamente la standardizzazione eseguita con Pandas ha tornato un risultato leggermente diverso rispetto a quella eseguita con scikit-learn, questo accade perchè scikit-learn utilizza internamente la funzione std di Numpy, che calcola la deviazione standard in maniera diversa rispetto al metodo std del DataFrame.<br>
Per approfondire [vedi qui](https://stackoverflow.com/a/44220374).