# Curso de Machine Learning Aplicado con Python

![Machine-Learning](assets/Machine-Learning.jpg)

## Escalamiento de los datos

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Diversos algoritmos son sensibles a la escala en la que viene cada feature. **Re-escalarlos** puede traer significativas mejoras de rendimiento. 

Existen distintas estrategias de escalamiento de tus features, **pero la más común es la estandarización** donde convertimos la variable para que la distribución de esta siga una distribución que es Gaussiana de media 0 y de desviación estandar 1.

En nuestro caso haremos la estandarizacion, por lo que haremos una resta del promedio(media)(este proceso se llama llevarlo a cero, o centrarlo en cero) y el otro es dividir por la desviacion estandar(Lo cual singnifica que haremos cambio de escala, y estaremos compantando nuestros datos en el espacio)

In [2]:
from sklearn.model_selection import train_test_split

X = pd.read_csv('X.csv')
y = X['Worldwide Gross']
X = X.drop('Worldwide Gross',axis=1)
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [3]:
X.head()

Unnamed: 0,Production Budget,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_1_facebook_likes,gross,num_voted_users,cast_total_facebook_likes,facenumber_in_poster,num_user_for_reviews,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,425000000.0,723.0,178.0,0.0,855.0,1000.0,760505800.0,886204.0,4834.0,0.0,3054.0,237000000.0,2009.0,936.0,79.0,178.0,33000.0
1,410600000.0,448.0,136.0,252.0,1000.0,40000.0,241063900.0,370704.0,54083.0,4.0,484.0,250000000.0,2011.0,11000.0,67.0,235.0,58000.0
2,330600000.0,635.0,141.0,0.0,19000.0,26000.0,458991600.0,462669.0,92000.0,4.0,1117.0,250000000.0,2015.0,21000.0,75.0,235.0,118000.0
3,306000000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0
4,300000000.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0


In [4]:
# Con esto reescalaremos nuestras features
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [5]:
#Este scaler tiene un promedio para cada feature
scaler.mean_

array([ 33478231.23229023,  13268011.51751692,  13296337.25153134,
        13266972.59207025,  13270823.47770806,  13272292.80316278,
        49169081.25653887,  13339085.19398616,  13274974.29457158,
        13307437.27003667,  13267052.80221749,  40732385.93361535,
        13267931.33794572,  13267895.48277959,  13266410.81293241,
        13332781.66614841,  13272715.97977648])

In [6]:
#Scale que posee la desviación estandar de cada feature
scaler.scale_

array([ 41356849.9237843 ,  56012181.59079051,  56031565.34095719,
        56012397.92356259,  56011763.67957454,  56011139.94201123,
        77340540.72308433,  55995474.07151392,  56010505.70691894,
        56031532.42475814,  56012385.95927721,  69478396.76066345,
        56012170.7877817 ,  56012179.49700035,  56012530.91361116,
        56027449.6885215 ,  56011040.62466475])

In [7]:
#Con el metodo transform transformamos por medio de la estandarización
scaler.transform(X_train)
# Al comparar con los datos de el dataset de X_train(sgte celda) vemos que los valores realmente
# se centraron en cero y que son diferentes

array([[ 2.57567414, -0.23687241, -0.23729828, ..., -0.23684575,
        -0.23796455, -0.23678753],
       [ 0.66547063, -0.23687384, -0.23729918, ..., -0.23684607,
        -0.23796544, -0.23696607],
       [-0.74904717, -0.23687686, -0.23729894, ..., -0.23684609,
        -0.23796455, -0.23696607],
       ..., 
       [ 0.39949292, -0.23687559, -0.23729871, ..., -0.23684612,
        -0.23796544, -0.23695325],
       [ 0.13351522, -0.23687232, -0.23729871, ..., -0.23684577,
        -0.23796455, -0.23671612],
       [-0.56769873, -0.23687595, -0.23729885, ..., -0.23684589,
        -0.23796455, -0.23695991]])

In [8]:
X_train.values

array([[  1.40000000e+08,   2.71000000e+02,   1.43000000e+02, ...,
          8.10000000e+01,   2.35000000e+02,   1.00000000e+04],
       [  6.10000000e+07,   1.91000000e+02,   9.30000000e+01, ...,
          6.30000000e+01,   1.85000000e+02,   0.00000000e+00],
       [  2.50000000e+06,   2.20000000e+01,   1.06000000e+02, ...,
          6.20000000e+01,   2.35000000e+02,   0.00000000e+00],
       ..., 
       [  5.00000000e+07,   9.30000000e+01,   1.19000000e+02, ...,
          6.00000000e+01,   1.85000000e+02,   7.18000000e+02],
       [  3.90000000e+07,   2.76000000e+02,   1.19000000e+02, ...,
          8.00000000e+01,   2.35000000e+02,   1.40000000e+04],
       [  1.00000000e+07,   7.30000000e+01,   1.11000000e+02, ...,
          7.30000000e+01,   2.35000000e+02,   3.45000000e+02]])

In [9]:
# Probaremos reescalar los datasets, y entrenaremos nuevamente el modelo
X_train_scaled, X_test_scaled = (scaler.transform(X_train), scaler.transform(X_test))

In [10]:
# Hacemos todo el respectivo proceso para entrenar de nuevo nuestro modelo
from sklearn.linear_model import Lasso

model = Lasso()
model_scaled = Lasso()

model.fit(X_train,y_train)
model_scaled.fit(X_train_scaled,y_train)




Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [11]:
# Imprimimos nuestros resultados
print("modelo normal  ",model.score(X_test,y_test))
print("modelo escalado",model_scaled.score(X_test_scaled,y_test))

modelo normal   0.904716470205
modelo escalado 0.904716464098


### El escalamiento es muy importante pero hay una clase de algoritmos de ML que no se ven afectados que son lo de regresion, esta claro que los de clasificacion SI.

## Simplificar las transformaciones con pipelines

Para hacer tu código más reproducible, y para evitar tener que aplicar multiples veces una misma transformación te recomendamos utilizar  `sklearn.pipeline.make_pipeline` que permite encadenar transformaciones a tus modelos.

In [12]:
# Importamos los pipelines de SKlearn
from sklearn.pipeline import make_pipeline

model_scaled = make_pipeline(StandardScaler(),
                            Lasso())
model_scaled.fit(X_train, y_train)



Pipeline(memory=None,
     steps=[('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('lasso', Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False))])

In [13]:
print("El score con pipeline {}".format(model_scaled.score(X_test, y_test)))

El score con pipeline 0.9047164640982722


## Crear nuevas features de forma automática

In [14]:
# Creamos 6 numeros y los reformamos creando una matrix
A = np.arange(6).reshape(3,2)
A

array([[0, 1],
       [2, 3],
       [4, 5]])

In [15]:
from sklearn.preprocessing import PolynomialFeatures
#transformer = PolynomialFeatures(grado del polinomio)
transformer = PolynomialFeatures(2)
transformer.fit(A)
transformer.transform(A)

array([[  1.,   0.,   1.,   0.,   0.,   1.],
       [  1.,   2.,   3.,   4.,   6.,   9.],
       [  1.,   4.,   5.,  16.,  20.,  25.]])

PolynomialFeatures transforma una matriz (A1,A2) a (1,A1,A2,$A1^2$,A1*A2,$A2^2$)

In [16]:
X.shape

(5011, 17)

In [17]:
trnasformer = PolynomialFeatures(2)
XTransformer=transformer.fit_transform(X)

In [18]:
XTransformer.shape

(5011, 171)

Una creacion de features muy grandes no es buena, hasta 36 todavia esta bien

In [19]:
#Con pipelines
model_poly = make_pipeline(PolynomialFeatures(2),
                          Lasso())
model_poly.fit(X_train,y_train)
model_poly.score(X_test,y_test)



0.88167637640473007

In [20]:
model = Lasso()
model.fit(X_train,y_train)
model.score(X_test,y_test)



0.90471647020454815

## Crear features categóricas

En terminos de Machine Learning a las features que pueden tomar un número finito de valores se les llama categóricas. Ejemplos para esto són: género, páis, grado académico, etc. 

Un mapeo del tipo *{Perú,Chile,Colombia,Venezuela}→{1,2,3,4}* tiene el problema de asignarle un ordén a los valores posibles de la categoría. Este orden impacta de distintas maneras los algoritmos de Machine Learning, por ejemplo aquellos que dependen de la topología de $R^n$

y de la función de distancia entre puntos en este espacio, considerarán que ciertas categorías se encuentran más cercanas unas de otras, siendo que esto es generado puramente artificialmente por el encoding, y no por las datos per se.

Para no introducir información falsa o erronéa en nuestro modelos existen formas más inteligentes de encodear nuestros datos.

***Encoding one-hot***

Este encoding consiste en asignarle una columna a cada categoría y rellenarla con 0 y 1 de la forma siguiente:

In [22]:
d = pd.DataFrame([['Chile','Colombia','Colombia','Venezuela'],['hombre','mujer','hombre','mujer']])
d = d.T
d.columns = pd.Index(['pais','genero'])
d

Unnamed: 0,pais,genero
0,Chile,hombre
1,Colombia,mujer
2,Colombia,hombre
3,Venezuela,mujer


In [23]:
pd.get_dummies(d)

Unnamed: 0,pais_Chile,pais_Colombia,pais_Venezuela,genero_hombre,genero_mujer
0,1,0,0,1,0
1,0,1,0,0,1
2,0,1,0,1,0
3,0,0,1,0,1
