In [57]:
import warnings
warnings.simplefilter("ignore")

## Escalamiento de los datos

In [58]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<div class="alert alert-success">
  Diversos algoritmos son sensibles a la escala en la que viene cada feature. **Re-escalarlos** puede traer significativas mejoras de rendimiento.
</div>

Existen distintas estrategias de escalamiento de tus features, pero **la más común es la estandarización** donde convertimos la variable para que la distribución de esta siga una distribución que es Gaussiana de media 0 y de desviación estandar 1.

El reescalamiento es muy importante en el machine learning

Hay algoritmos que dependen mucho del escalamiento de los datos como los clasificadores.

Pero hay otro tipo de algoritmos como la regresión que no depende del escalamiento 

Se usa este ejemplo para ver como funcionan los escaladores con fines didacticos, pero para la regresion no es necesaria

In [68]:
from sklearn.model_selection import train_test_split

X = pd.read_csv('X_opening.csv')
y = X['worldwide_gross']
X = X.drop('worldwide_gross',axis=1)
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [69]:
from sklearn.preprocessing import StandardScaler    #Hay una forma mas sencilla de ejecutar el escalamiento, para no generar tanto codigo y esta abajo por medio de pipeline

scaler = StandardScaler()
scaler.fit(X_train)

StandardScaler(copy=True, with_mean=True, with_std=True)

In [70]:
scaler.mean_    #El promedio de cada feature

array([5.08760040e+07, 2.00617235e+03, 2.15447512e+00, 1.10225944e+02,
       1.33672333e+04, 5.32222153e+07, 6.33489647e+00, 1.78226615e+07,
       2.23414982e+03])

In [71]:
scaler.scale_     #La desviación estandar de cada feature

array([4.60397145e+07, 5.48978815e+00, 2.53293040e-01, 2.01231769e+01,
       2.35229840e+04, 6.92857358e+07, 1.03325651e+00, 2.25758212e+07,
       1.20779745e+03])

In [72]:
X#.values

Unnamed: 0,production_budget,title_year,aspect_ratio,duration.1,cast_total_facebook_likes,budget,imdb_score,opening_gross,screens
0,425000000,2009,1.780000,178,4834,2.370000e+08,7.9,77025481,3452
1,300000000,2007,2.350000,169,48350,3.000000e+08,7.1,139802190,4362
2,300000000,2015,2.350000,148,11700,2.450000e+08,6.8,70403148,3929
3,275000000,2012,2.350000,164,106759,2.500000e+08,8.5,160887295,4404
4,275000000,2013,2.350000,150,45757,2.150000e+08,6.5,29210849,3904
...,...,...,...,...,...,...,...,...,...
2185,10800000,2006,2.350000,118,378,1.500000e+07,6.4,28298,6
2186,10600000,2013,2.350000,98,2271,7.000000e+06,5.5,4608,3
2187,10500000,2007,2.350000,97,20312,1.000000e+07,6.5,4712341,2155
2188,10100000,2010,2.156462,144,1121,5.317254e+07,5.3,642156,82


In [73]:
scaler.transform(X_train)    #Los valores anteriores se centran en 0 

array([[-0.77924037, -0.21355119,  0.7719315 , ...,  1.22438476,
        -0.78145558, -1.8431483 ],
       [-0.4534347 ,  0.87938716, -1.20206669, ...,  1.32116615,
        -0.76292501, -1.84480421],
       [-0.23623092, -0.0313948 , -1.20206669, ..., -1.19514995,
         0.99222143,  1.1325162 ],
       ...,
       [-0.12762903,  1.06154355,  0.7719315 , ...,  0.74047782,
        -0.51135108,  0.22507928],
       [ 0.52398231, -0.94217676,  0.7719315 , ...,  0.25657088,
        -0.21137488,  0.80547461],
       [ 0.6325842 ,  0.87938716,  0.7719315 , ...,  0.15978949,
         3.01754837,  1.1432796 ]])

In [74]:
X_train_scaled, X_test_scaled = (scaler.transform(X_train), scaler.transform(X_test))     #Se hace un escalamiento de las features 

In [56]:
#df = pd.DataFrame(X_train_scaled, columns = X.columns)     #Para sacar el df completo escalado 
#df2 = pd.DataFrame(X_test_scaled, columns = X.columns)
#df3 = pd.concat([df,df2],axis = 0)
#df3.head()

In [75]:
from sklearn.linear_model import Lasso

model = Lasso()
model_scaled = Lasso()

model.fit(X_train,y_train)
model_scaled.fit(X_train_scaled,y_train)

Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
      normalize=False, positive=False, precompute=False, random_state=None,
      selection='cyclic', tol=0.0001, warm_start=False)

In [76]:
print(model.score(X_test,y_test))                #Obtenemos los mismos resultados porque los escaladores no impactan en la regresion 
print(model_scaled.score(X_test_scaled,y_test))

0.7738933666956317
0.7738933644841197


<div class="alert alert-success">
  Los modelos de regresión no se ven afectados por el escalamiento de las features. Los de clasificación sí. 
</div>

## Simplificar las transformaciones con pipelines

<div class="alert alert-info">
  Para hacer tu código más reproducible, y para evitar tener que aplicar multiples veces una misma transformación te recomendamos utilizar <code> sklearn.pipeline.make_pipeline </code> que permite encadenar transformaciones a tus modelos.
</div>

In [43]:
from sklearn.pipeline import make_pipeline

model_scaled = make_pipeline(StandardScaler(),      #Encadena los dos metodos de sklearn, para evitar hacer todo el codigo de arriba
                            Lasso())

model_scaled.fit(X_train,y_train)

Pipeline(memory=None,
         steps=[('standardscaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('lasso',
                 Lasso(alpha=1.0, copy_X=True, fit_intercept=True,
                       max_iter=1000, normalize=False, positive=False,
                       precompute=False, random_state=None, selection='cyclic',
                       tol=0.0001, warm_start=False))],
         verbose=False)

In [44]:
print(model_scaled.score(X_test,y_test))

0.7717836135339877


## Crear nuevas features de forma automática

In [14]:
A = np.arange(6).reshape(3, 2)    #Creamos un array 
A

array([[0, 1],
       [2, 3],
       [4, 5]])

In [15]:
from sklearn.preprocessing import PolynomialFeatures        #Modificamos el array y lo volvemos polinomial 

transformer = PolynomialFeatures(2)    #2 es igual al grado de los polinomios que queremos utilizar
transformer.fit_transform(A)           

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

``PolynomialFeatures`` transforma una matriz $(A1,A2)$ a $(1,A1,A2,A1^2,A1\cdot A2,A2^2)$

In [16]:
X.shape

(2190, 9)

In [17]:
transformer = PolynomialFeatures(2)        #Genera 55 features de las 9 que teniamos, 55 features ya no es razonable (36 si)
transformer.fit_transform(X).shape

(2190, 55)

In [18]:
model_poly = make_pipeline(PolynomialFeatures(2),
                          Lasso())
model_poly.fit(X_train,y_train)
model_poly.score(X_test,y_test)

0.7734991624240977

In [19]:
model = Lasso()                 #Nos sigue saliendo un puntaje mas alto en el normal, sin polinomial
model.fit(X_train,y_train)
model.score(X_test,y_test)

0.7936383956731677

## Crear features categóricas

<div class="alert alert-success">
  En terminos de Machine Learning a las features que pueden tomar un número finito de valores se les llama categóricas. Ejemplos para esto són: género, páis, grado académico, etc.
</div>

Un mapeo del tipo $\{Perú, Chile, Colombia, Venezuela\} \rightarrow \{1, 2, 3, 4\}$ tiene el problema de asignarle un ordén a los valores posibles de la categoría. Este orden impacta de distintas maneras los algoritmos de Machine Learning, por ejemplo aquellos que dependen de la topología de $R^n$ y de la función de distancia entre puntos en este espacio, considerarán que ciertas categorías se encuentran más cercanas unas de otras, siendo que esto es generado puramente artificialmente por el encoding, y no por las datos per se. 

Para no introducir información falsa o erronéa en nuestro modelos existen formas más inteligentes de encodear nuestros datos.

_**Encoding one-hot**_

Este encoding consiste en asignarle una columna a cada categoría y rellenarla con 0 y 1 de la forma siguiente:

In [20]:
d = pd.DataFrame([['Chile','Colombia','Colombia','Venezuela'],['hombre','mujer','hombre','mujer']])
d = d.T
d.columns = pd.Index(['pais','genero'])
d

Unnamed: 0,pais,genero
0,Chile,hombre
1,Colombia,mujer
2,Colombia,hombre
3,Venezuela,mujer


In [21]:
pd.get_dummies(d)

Unnamed: 0,pais_Chile,pais_Colombia,pais_Venezuela,genero_hombre,genero_mujer
0,1,0,0,1,0
1,0,1,0,0,1
2,0,1,0,1,0
3,0,0,1,0,1


Sklearn también ofrece un objeto OneHotEncoder pero es un poco más díficil de utilizar, así que por criterios pedagogicos hemos elegido ``pd.get_dummies``. Sin embargo el objeto de sklearn tiene la ventaja de ser pipeable, por lo que es bueno considerarlo para ciertos casos de uso.

Cuantas columnas generaríamos con un one-hot encoding de nuestras features categóricas?

In [35]:
movies_obj = pd.read_csv('movies_obj.csv')    #Columnas Cualitativas

In [36]:
movies_obj.apply(pd.Series.nunique).sort_values()    #Se podria utilizar el top 20 en actor, pero para esto el actor tendria que salir en mas 50% de los datos lo cual no pasa 

color                2
content_rating      18
language            47
country             65
genres             914
actor_1_name      2095
director_name     2397
actor_2_name      3030
actor_3_name      3519
plot_keywords     4757
movie_title       4917
dtype: int64

Las features más informativas son las del casting. Sin embargo haciendo un one-hot encoding de estas estaríamos aumentando la dimensión por 2000 y algo!!

## Encoding Binario

Esta técnica no es canónica por lo que tendremos que buscarla en otra librería. Sin embargo el autor tuvo la buena idea de hacer su API compatible con la de sklearn, así que no tendremos ninguna dificultad en usarla.

$$ Categoria \rightarrow Numero \rightarrow Binario \rightarrow Columnas $$

In [7]:
!pip install category_encoders



In [37]:
categoricals = pd.read_csv('categoricals.csv').set_index('Unnamed: 0')

In [38]:
categoricals.head(2)

Unnamed: 0_level_0,actor_1_name,director_name
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1
0,CCH Pounder,James Cameron
1,Doug Walker,Doug Walker


In [39]:
categoricals = categoricals.reset_index(drop=True).fillna(0)  #Resetea el index y se llenan algunos espacios que habian nulos con 0 (función pandas)
categoricals.head()

Unnamed: 0,actor_1_name,director_name
0,CCH Pounder,James Cameron
1,Doug Walker,Doug Walker
2,Johnny Depp,Gore Verbinski
3,Christoph Waltz,Sam Mendes
4,Tom Hardy,Christopher Nolan


In [40]:
X_binenc = pd.concat([X,categoricals],axis=1)

In [41]:
X_binenc.head()

Unnamed: 0,production_budget,title_year,aspect_ratio,duration.1,cast_total_facebook_likes,budget,imdb_score,opening_gross,screens,actor_1_name,director_name
0,425000000.0,2009.0,1.78,178.0,4834.0,237000000.0,7.9,77025481.0,3452.0,CCH Pounder,James Cameron
1,300000000.0,2007.0,2.35,169.0,48350.0,300000000.0,7.1,139802190.0,4362.0,Doug Walker,Doug Walker
2,300000000.0,2015.0,2.35,148.0,11700.0,245000000.0,6.8,70403148.0,3929.0,Johnny Depp,Gore Verbinski
3,275000000.0,2012.0,2.35,164.0,106759.0,250000000.0,8.5,160887295.0,4404.0,Christoph Waltz,Sam Mendes
4,275000000.0,2013.0,2.35,150.0,45757.0,215000000.0,6.5,29210849.0,3904.0,Tom Hardy,Christopher Nolan


In [42]:
X_binenc.shape

(2190, 11)

In [43]:
import category_encoders as ce
encoder = ce.BinaryEncoder(cols=['actor_1_name','director_name'])  #Especificamos las variables que queremos que convierta en binary encoding

In [44]:
encoder.fit_transform(X_binenc).shape        #31 columnas es razonable

(2190, 31)

In [45]:
X_binenc = encoder.fit_transform(X_binenc)

In [46]:
X_binenc.head()

Unnamed: 0,production_budget,title_year,aspect_ratio,duration.1,cast_total_facebook_likes,budget,imdb_score,opening_gross,screens,actor_1_name_0,...,director_name_1,director_name_2,director_name_3,director_name_4,director_name_5,director_name_6,director_name_7,director_name_8,director_name_9,director_name_10
0,425000000.0,2009.0,1.78,178.0,4834.0,237000000.0,7.9,77025481.0,3452.0,0,...,0,0,0,0,0,0,0,0,0,1
1,300000000.0,2007.0,2.35,169.0,48350.0,300000000.0,7.1,139802190.0,4362.0,0,...,0,0,0,0,0,0,0,0,1,0
2,300000000.0,2015.0,2.35,148.0,11700.0,245000000.0,6.8,70403148.0,3929.0,0,...,0,0,0,0,0,0,0,0,1,1
3,275000000.0,2012.0,2.35,164.0,106759.0,250000000.0,8.5,160887295.0,4404.0,0,...,0,0,0,0,0,0,0,1,0,0
4,275000000.0,2013.0,2.35,150.0,45757.0,215000000.0,6.5,29210849.0,3904.0,0,...,0,0,0,0,0,0,0,1,0,1


In [47]:
Xb_train, Xb_test, y_train, y_test = train_test_split(X_binenc,y)

In [48]:
X_train, X_test = (Xb_train[X.columns],Xb_test[X.columns])   #Se ajustan los df

In [49]:
from sklearn.linear_model import Lasso
model_binenc = Lasso()
model = Lasso()

In [50]:
model_binenc.fit(Xb_train,y_train)
model.fit(X_train,y_train)

Lasso(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=1000,
      normalize=False, positive=False, precompute=False, random_state=None,
      selection='cyclic', tol=0.0001, warm_start=False)

In [51]:
print(model_binenc.score(Xb_test,y_test))
print(model.score(X_test,y_test))

0.7552424618208615
0.7568291497842697


Aumentamos el rendimiento de nuestro algoritmo pero no de forma significativa. Mantengamos entonces la dimensionalidad de nuestro espacio de features baja, y vamos a buscar modelos más complejos.

## Conocimiento experto      

<div class="alert alert-success">
  Una grán parte del diseño de las features pasa por un **conocimiento espécifico del dominio en el que se esta trabajando**. <br>
  Por ejemplo para analizar una imagen nuestro cerebro no se concentra en los millones de pixeles de una imagen, pero sólo en algunos relevantes como la de los contornos. Durante un buen tiempo **los sistemas de visión de computadores encodeaban features que traducían este conocimiento experto (contornos).** <br>
  Una de las únicas formas de obtener este conocimiento de forma sistemática es ir a bucear en repositorios de papers de Machine Learning como Arxiv, y estudiar la investigación que se ha hecho sobre el dominio específico.
</div>

## Más datos de calidad

Nada le gana conseguir más datos que sean encodeables en features de calidad.   Mientras mejor esten nuestros datos mejor podremos hacer una selección de features y podremos entrenar mejor a nuestro modelo 

_**Píramide de Maslow del Machine Learning**_

<img src="img/maslow.png">

Contamos con la base de datos de ganancias de las péliculas el primer fin de semana de exhibición, así como la cantidad de cines en la que fue estrenada.

In [52]:
pd.read_csv('opening_df.csv').head()

Unnamed: 0.1,Unnamed: 0,movie_title,opening_gross,screens
0,0,10 Days in a Madhouse,2451.0,10.0
1,1,10 Things I Hate About You,8330681.0,2271.0
2,2,102 Dalmatians,19883351.0,2704.0
3,3,12 Rounds,5329240.0,2331.0
4,4,12 Years a Slave,923715.0,19.0


Podra mejorar considerablemente nuestra predicción? Si lo unimos a nuestros datos