Es posible encontrar conjuntos de datos con mucho ruido numérico incorporado, con mucha variación o datos de diferentes escala.

La solución para esta problema es la estandarización.

La estandarización es un método de procesamiento utilizado para transformar datos continuos para que parezcan distribución normal.

En scikit-learn asumimos normalidad en los datos, se puede correr el riesgo de sesgar el modelo.

En este cuaderno veremos 2 métodos : *normalización y escalado* (Datos númericos continuos)

Escenarios diferentes en los que deseamos estandarizar los datos : 
- Modelos que utilizan una métrica de distancia lineal (K-vecinos, regresión líneal, K-medias) ya que estos modelos asumen una relación líneal.
- Variaciones altas entre columnas, afecta en la capacidad del modelo para aprender de otras características en el conjunto de datos.
- Suposición de espacios lineales.

In [2]:
import pandas as pd

wine = pd.read_csv("https://assets.datacamp.com/production/repositories/1816/datasets/9bd5350dfdb481e0f94eeef6acf2663452a8ef8b/wine_types.csv")

wine.head()

Unnamed: 0,Type,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


Crearemos un modelo sencillo KNeigborsClassifier y veremos diferentes métodos para normalizar.

In [52]:
from sklearn.model_selection import train_test_split

#Necesitamos tener muestras balanceados.
#Podemos usar muestreo estratificado, tiene en cuenta la distribución de clases o características en el conjunto de datos.

wine_X =  wine.loc[:,['Proline', 'Total phenols', 'Hue', 'Nonflavanoid phenols']]
wine_y = wine.loc[:,'Type']

X_train, X_test, y_train, y_test = train_test_split(wine_X, wine_y, stratify = wine_y)

X_train.head()

Unnamed: 0,Proline,Total phenols,Hue,Nonflavanoid phenols
133,600,1.7,0.78,0.17
118,372,1.63,0.7,0.43
39,760,3.0,0.89,0.2
49,1260,2.88,1.12,0.32
16,1280,2.8,1.07,0.33


In [53]:
print("----Datos de entrenamiento----")
print(y_train.value_counts())
print("")
print("----Datos de test balanceados----")
print(y_test.value_counts())

----Datos de entrenamiento----
2    53
1    44
3    36
Name: Type, dtype: int64

----Datos de test balanceados----
2    18
1    15
3    12
Name: Type, dtype: int64


**Modelando sin normalizar**

In [54]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

print(knn.score(X_test, y_test))

0.6


**Log normalización** : Útil cuando una columna tiene una alta varianza, es buena estrategia cuando nos importan los cambios relativos en un modelo.

En nuestro modelo anterior podemos ver que la columna Propeline tiene una varianza muy alta, lo que está afectando al clasificador

In [55]:
import numpy as np

wine_X['log_Proline'] = np.log(wine_X['Proline'])
wine_X.var()

Proline                 99166.717355
Total phenols               0.391690
Hue                         0.052245
Nonflavanoid phenols        0.015489
log_Proline                 0.172314
dtype: float64

**Escalamiento de datos** : Útil cuando tenemos diferentes escalas, modelo que opera en algún espacio lineal.

El escalado transforma las características para tener media 0 y varianza 1.

In [56]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

wine_X = wine_X.drop("Proline", axis = 1)

wine_scaled = pd.DataFrame(scaler.fit_transform(wine_X), columns = wine_X.columns)

wine_scaled.head()

Unnamed: 0,Total phenols,Hue,Nonflavanoid phenols,log_Proline
0,0.808997,0.362177,-0.659563,1.063991
1,0.568648,0.406051,-0.820719,1.029723
2,0.808997,0.318304,-0.498407,1.321922
3,2.491446,-0.427544,-0.981875,1.858956
4,0.808997,0.362177,0.226796,0.168063


Este método funciona eliminando la media y escalando cada característica para tener una varianza unitaria.

In [57]:
wine_scaled.var()

Total phenols           1.00565
Hue                     1.00565
Nonflavanoid phenols    1.00565
log_Proline             1.00565
dtype: float64

In [60]:
#Modelando con datos escalados.
X_train, X_test, y_train, y_test = train_test_split(wine_scaled, y)

# Fit the k-nearest neighbors model to the training data.
knn.fit(X_train, y_train)

# Score the model on the test data.
print(knn.score(X_test, y_test))

0.8888888888888888


**El primer modelo sin estandarizar nos dio una presición de .6 con los datos escalados se vio un incremento al .88**