In [8]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Normalizer, Binarizer

# Introducción 

Muchos algoritmos hacen asunciones sobre los datos. A menudo es una buena idea preparar nuestros datos de forma que estén expuestos de la mejor forma posible a las necesidades de cada algoritmo.

# Reescalando Datos

Cuando los datos están compuestos de una gran variedad de atributos con diferentes escalas, muchos algoritmos se pueden beneficiar de reescalar estos atributos y poner todos ellos en la misma escala. Este se conoce como normalización de atributos ya que estos son reescalados en el rango 0,1. Esto es realmente útil para optimizar algoritmos que hacen uso de gradientes como la regresión, o algoritmos que hacen uso de pesos como las redes neuronales, o algoritmos que se basan en distancias como el algoritmo de K vecinos más cercano. Podemos reescalar nuestros datos a partir de la clase **MinMaxScaler** de sckit-learn.

In [2]:
#Cargamos los datos
col_names = [ ' preg ' , ' plas ' , ' pres ' , ' skin ' , ' test ' , ' mass ' , ' pedi ' , ' age ' , ' class ' ]
df = pd.read_csv('pima-indians-diabetes.data.csv', names = col_names)
df.head()

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
#Obtenemos el numpy array
df_array = df.values

#Separamos entre los predictores y la clase
X = df_array[:, 0:8]
Y = df_array[:,8]

#Configuramos el scaler
scaler = MinMaxScaler(feature_range = (0,1))
#Hacemos el fit y el transform
rescaledX = scaler.fit_transform(X)

#Configuramos para mostrar los datos con tres decimales
np.set_printoptions(precision = 3)

#Vemos el resultado
print(rescaledX[0:5,:])

[[0.353 0.744 0.59  0.354 0.    0.501 0.234 0.483]
 [0.059 0.427 0.541 0.293 0.    0.396 0.117 0.167]
 [0.471 0.92  0.525 0.    0.    0.347 0.254 0.183]
 [0.059 0.447 0.541 0.232 0.111 0.419 0.038 0.   ]
 [0.    0.688 0.328 0.354 0.199 0.642 0.944 0.2  ]]


# Estandarizando datos

La estandarización es una técnica útil para transformar atributos con una distribución gaussiana con media y desviación diferentes a cero y la unidad a una distribución gaussiana estándar con  media 0 y desviación estándar 1. Es una técnica adecuada para algoritmos que asumen una distribución gaussiana en las variables de entrada y trabajan mejor con datos reescalados, como por ejemplo, regresión lineal, regresión logística o análisis de discriminación lineal. Podemos estandarizar nuestros datos haciendo uso de la clase **StandardScaler** de sckit learn.

In [4]:
#Hacemos el fit y el transform
scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)

#FIjamos la precisión
np.set_printoptions(precision = 3)
print(rescaledX[0:5, :])

[[ 0.64   0.848  0.15   0.907 -0.693  0.204  0.468  1.426]
 [-0.845 -1.123 -0.161  0.531 -0.693 -0.684 -0.365 -0.191]
 [ 1.234  1.944 -0.264 -1.288 -0.693 -1.103  0.604 -0.106]
 [-0.845 -0.998 -0.161  0.155  0.123 -0.494 -0.921 -1.042]
 [-1.142  0.504 -1.505  0.907  0.766  1.41   5.485 -0.02 ]]


# Normalizando datos

La normalización en scikit-learn es referida a reescalar cada observación. Cada muestra (cada fila de nuestra matriz de datos) con al menos un componente diferente de cero se reescala independientemente de otras muestras, de modo que se norma sea igual a la unidad. Este método de pre-procesamiento puede ser muy útil para datos esparcidos (con muchos ceros) con atributos de diferentes escalas cuando usamos algoritmos donde sus valores de entrada son pesos como ocurre en redes neuronales y algoritmos que se basan en distancias como es el caso de K-vecinos más cercanos (KNN). Podemos normalizar nuestros datos haciendo uso de la clase **Normalizer** de la librería scikit-learn.

In [6]:
#Hacemos el fit y el transform
scaler = Normalizer().fit(X)
normalizedX = scaler.transform(X)

#Fijamos la precisión
np.set_printoptions(precision = 3)
print(normalizedX[0:5,:])

[[0.034 0.828 0.403 0.196 0.    0.188 0.004 0.28 ]
 [0.008 0.716 0.556 0.244 0.    0.224 0.003 0.261]
 [0.04  0.924 0.323 0.    0.    0.118 0.003 0.162]
 [0.007 0.588 0.436 0.152 0.622 0.186 0.001 0.139]
 [0.    0.596 0.174 0.152 0.731 0.188 0.01  0.144]]


# Binarizando datos

Podemos binarizar nuestros datos haciendo uso de un umbral. Todos los valores por debajo de ese umbral se marcarán como uno y los que sean menores o iguales se marcarán como cero. Esto puede ser útilcuando tenemos probabilidades y queremos conseguir valores nítidos. También, puede ser útil para añadir nuevas características que indiquen algo significativo. Podemos binarizar nuestro conjunto de datos haciendo uso de la clase **Binarizer** de scikit-learn.

In [10]:
#Hacemos el fit y el transform
scaler = Binarizer(threshold= 0.0).fit(X)
binarizerX = scaler.transform(X)

#Fijamos la precisión
np.set_printoptions(precision = 3)
print(binarizerX[0:5,:])

[[1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 1. 0. 1. 1. 1.]
 [1. 1. 1. 0. 0. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1. 1.]
 [0. 1. 1. 1. 1. 1. 1. 1.]]
