# Curso de Machine Learning Aplicado con Python

![Machine-Learning](assets/Machine-Learning.jpg)

## Escalamiento de los datos

In [1]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Diversos algoritmos son sensibles a la escala en la que viene cada feature. **Re-escalarlos** puede traer significativas mejoras de rendimiento. 

Existen distintas estrategias de escalamiento de tus features, **pero la más común es la estandarización** donde convertimos la variable para que la distribución de esta siga una distribución que es Gaussiana de media 0 y de desviación estandar 1.

En nuestro caso haremos la estandarizacion, por lo que haremos una resta del promedio(media)(este proceso se llama llevarlo a cero, o centrarlo en cero) y el otro es dividir por la desviacion estandar(Lo cual singnifica que haremos cambio de escala, y estaremos compantando nuestros datos en el espacio)

In [2]:
from sklearn.model_selection import train_test_split

X = pd.read_csv('X.csv')
y = X['Worldwide Gross']
X = X.drop('Worldwide Gross',axis=1)
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [3]:
X.head()

Unnamed: 0,Production Budget,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_1_facebook_likes,gross,num_voted_users,cast_total_facebook_likes,facenumber_in_poster,num_user_for_reviews,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,425000000.0,723.0,178.0,0.0,855.0,1000.0,760505800.0,886204.0,4834.0,0.0,3054.0,237000000.0,2009.0,936.0,79.0,178.0,33000.0
1,410600000.0,448.0,136.0,252.0,1000.0,40000.0,241063900.0,370704.0,54083.0,4.0,484.0,250000000.0,2011.0,11000.0,67.0,235.0,58000.0
2,330600000.0,635.0,141.0,0.0,19000.0,26000.0,458991600.0,462669.0,92000.0,4.0,1117.0,250000000.0,2015.0,21000.0,75.0,235.0,118000.0
3,306000000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0,1182331000.0
4,300000000.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0,631710200.0


In [4]:
# Con esto reescalaremos nuestras features
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X_train)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [5]:
#Este scaler tiene un promedio para cada feature
scaler.mean_

array([ 33221635.28568267,  13370520.51006713,  13419652.27281048,
        13369516.17642363,  13377289.96879919,  13374405.13152893,
        47906187.60455537,  13439142.98483236,  13376973.32410857,
        13371846.34658946,  13369162.06707741,  41673395.38166273,
        13370496.99361362,  13370384.4559036 ,  13368982.82783395,
        13450506.07320325,  13375187.58116019])

In [6]:
#Scale que posee la desviación estandar de cada feature
scaler.scale_

array([ 41568033.38859654,  56597304.79020395,  56625633.11883712,
        56597513.9526988 ,  56596413.69949395,  56596360.08179743,
        75995004.32471675,  56581207.41958504,  56595754.20923752,
        56597210.23999845,  56597597.53671691,  87312035.44323926,
        56597282.21729369,  56597309.00593046,  56597639.87358741,
        56619987.40130648,  56596177.04120433])

In [7]:
#Con el metodo transform transformamos por medio de la estandarización
scaler.transform(X_train)
# Al comparar con los datos de el dataset de X_train(sgte celda) vemos que los valores realmente
# se centraron en cero y que son diferentes

array([[-0.43835692, -0.23623878, -0.23698739, ..., -0.23621008,
        -0.23755429, -0.23632233],
       [-0.70298335, -0.23623631, -0.23698752, ..., -0.23620978,
        -0.23755341, -0.2363267 ],
       [-0.12561661,  0.21307937,  0.21210511, ...,  0.21310528,
         0.21158133,  0.21300115],
       ..., 
       [-0.52255624, -0.23623674, -0.23698708, ..., -0.2362099 ,
        -0.23755341, -0.23613234],
       [ 0.47580708, -0.23623815, -0.23698596, ..., -0.23620992,
        -0.23755429, -0.23631163],
       [-0.7270403 , -0.20546122, -0.2062261 , ..., -0.20543284,
        -0.20679159, -0.20554778]])

In [8]:
X_train.values

array([[  1.50000000e+07,   4.20000000e+01,   9.10000000e+01, ...,
          5.00000000e+01,   1.85000000e+02,   2.47000000e+02],
       [  4.00000000e+06,   1.82000000e+02,   8.40000000e+01, ...,
          6.70000000e+01,   2.35000000e+02,   0.00000000e+00],
       [  2.80000000e+07,   2.54302385e+07,   2.54302385e+07, ...,
          2.54302385e+07,   2.54302385e+07,   2.54302385e+07],
       ..., 
       [  1.15000000e+07,   1.58000000e+02,   1.09000000e+02, ...,
          6.00000000e+01,   2.35000000e+02,   1.10000000e+04],
       [  5.30000000e+07,   7.80000000e+01,   1.72000000e+02, ...,
          5.90000000e+01,   1.85000000e+02,   8.53000000e+02],
       [  3.00000000e+06,   1.74196900e+06,   1.74196900e+06, ...,
          1.74196900e+06,   1.74196900e+06,   1.74196900e+06]])

In [9]:
# Probaremos reescalar los datasets, y entrenaremos nuevamente el modelo
X_train_scaled, X_test_scaled = (scaler.transform(X_train), scaler.transform(X_test))

In [10]:
# Hacemos todo el respectivo proceso para entrenar de nuevo nuestro modelo
from sklearn.linear_model import Lasso

model = Lasso()
model_scaled = Lasso()

model.fit(X_train,y_train)
model_scaled.fit(X_train_scaled,y_train)




Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False)

In [11]:
# Imprimimos nuestros resultados
print("modelo normal  ",model.score(X_test,y_test))
print("modelo escalado",model_scaled.score(X_test_scaled,y_test))

modelo normal   0.901819282634
modelo escalado 0.901819288345


### El escalamiento es muy importante pero hay una clase de algoritmos de ML que no se ven afectados que son lo de regresion, esta claro que los de clasificacion SI.

## Simplificar las transformaciones con pipelines

Para hacer tu código más reproducible, y para evitar tener que aplicar multiples veces una misma transformación te recomendamos utilizar  `sklearn.pipeline.make_pipeline` que permite encadenar transformaciones a tus modelos.

In [13]:
# Importamos los pipelines de SKlearn
from sklearn.pipeline import make_pipeline

model_scaled = make_pipeline(StandardScaler(),
                            Lasso())
model_scaled.fit(X_train, y_train)



Pipeline(memory=None,
     steps=[('standardscaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('lasso', Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
   normalize=False, positive=False, precompute=False, random_state=None,
   selection='cyclic', tol=0.0001, warm_start=False))])

In [15]:
print("El score con pipeline {}".format(model_scaled.score(X_test, y_test)))

El score con pipeline 0.9018192883451379


## Crear nuevas features de forma automática

In [17]:
# Creamos 6 numeros y los reformamos creando una matrix
A = np.arange(6).reshape(3,2)
A

array([[0, 1],
       [2, 3],
       [4, 5]])

In [18]:
from sklearn.preprocessing import PolynomialFeatures
#transformer = PolynomialFeatures(grado del polinomio)
transformer = PolynomialFeatures(2)
transformer.fit(A)
transformer.transform(A)

array([[  1.,   0.,   1.,   0.,   0.,   1.],
       [  1.,   2.,   3.,   4.,   6.,   9.],
       [  1.,   4.,   5.,  16.,  20.,  25.]])

PolynomialFeatures transforma una matriz (A1,A2) a (1,A1,A2,$A1^2$,A1*A2,$A2^2$)

In [19]:
X.shape

(5011, 17)

In [22]:
trnasformer = PolynomialFeatures(2)
XTransformer=transformer.fit_transform(X)

In [24]:
XTransformer.shape

(5011, 171)

Una creacion de features muy grandes no es buena, hasta 36 todavia esta bien

In [25]:
#Con pipelines
model_poly = make_pipeline(PolynomialFeatures(2),
                          Lasso())
model_poly.fit(X_train,y_train)
model_poly.score(X_test,y_test)



0.92373311585222129