### Preparación de Datos.

Ahora veremos como preparar las distintas variables para ser utilizadas.
Esto implica procesos como:

-Normalización.

-Codificación de variables categóricas

-Estandarización.

-Discretización.


### ¿Por qué necesitamos esta transformación?

Los distintos modelos de Machine Learning funcionan de mejor manera al tener las variables en cierta forma, donde la distribución valores máximos y mínimos y el cambio de variables categóricas por numéricas ayudan a mejorar de gran manera el desempeño de nuestro modelo.


In [26]:
#Normalizacion
'''
La normalización es el proceso de llevar todos los datos 
de una variable a un rango uniforme (-1,0,1)
'''
from sklearn import *

X = [[ 1., -1.,  2.],
     [ 2.,  0.,  0.],
     [ 0.,  1., -1.]]
x_normalizado = preprocessing.normalize(X, norm='l1')

x_normalizado

array([[ 0.25, -0.25,  0.5 ],
       [ 1.  ,  0.  ,  0.  ],
       [ 0.  ,  0.5 , -0.5 ]])

In [25]:
#Codificacion de variables categoricas
'''
Las variables categóricas en si mismas no pueden ser procesadas
directamente por los modelos, ya que esperan como input 
variables numéricas, para poder utilizarlas creamos lo que 
se conoce como Dummy variables para representarlas.
'''


from sklearn.preprocessing import OrdinalEncoder
enc = OrdinalEncoder()
X = [['Male', 1], ['Female', 3], ['Female', 2]]
enc.fit(X)
enc.categories_
enc.transform([['Female', 3], ['Male', 1]])

array([[0., 2.],
       [1., 0.]])

In [21]:
#Estandarizacion
'''
La mayoría de los modelos no se desempañan bien si los 
datos no están en distribución normal.

Para ello utilizamos scale
'''

from sklearn import preprocessing
import numpy as np

X_train = [[ 1., -1.,  2.],
           [ 2.,  0.,  0.],
           [ 0.,  1., -1.]]

x_scaled = preprocessing.scale(X_train)

x_scaled

array([[ 0.        , -1.22474487,  1.33630621],
       [ 1.22474487,  0.        , -0.26726124],
       [-1.22474487,  1.22474487, -1.06904497]])

In [24]:
#Discretizacion
'''
La discretización nos ayuda con los valores continuos,
ya que muchas veces el total de los valores no aporta 
mucha información, la discretización nos permite agruparlos.
'''

X = np.array([[-3., 5., 15],
             [0., 6.0, 14],
             [6., 3., 11]])
est = preprocessing.KBinsDiscretizer(n_bins=[3,2,2], encode='ordinal').fit(X)

est.transform(X)

array([[0., 1., 1.],
       [1., 1., 1.],
       [2., 0., 0.]])