In [2]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
%matplotlib inline

## Métodos de evaluación 

Por ahora hemos visto que:
    
- Se necesita **separar de forma aleatoria** en datos de entrenamiento y testeo para poder evaluar performance del algoritmo
- Existen diversas **métricas para evaluar rendimiento**, y elegimos la nuestra según las caracteristicas de nuestro problema
- Es útil **apoyar la evaluación con visualizaciones de errores**, como por ejemplo scatterplots de residuales

Sin embargo nuestro método hasta ahora tiene una falla. Este depende de la forma en que fueron elegidos nuestros datos de forma aleatoria:

- Podemos tener suerte y caer en un train set y test set que sea ideal para nuestro modelo.
- Podemos tener pésima performance con esa separación de datos pero no en otros.

** Controlar la aleatoridad en train_test_split**

train_test_split separa cada vez que lo llamamos los datos de forma diferente. Para poder comparar modelos, hacer un código más limpio y compacto y para poder hacer nuestros experimentos reproducibles utilizaremos el parametro *random_state*.

In [4]:
X = pd.read_csv('vol/intermediate_results/X_opening.csv')
y = X['worldwide_gross']
X = X.drop('worldwide_gross',axis=1)

In [12]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=1)
X2_train,X2_test, y2_train,y2_test = train_test_split(X,y, random_state=1)

In [13]:
pd.DataFrame.equals(X_train,X2_train)

True

**Cross Validation**

In [15]:
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import Lasso
scores = cross_val_score(Lasso(),X,y,cv=5,scoring='r2')
scores

  positive)


array([0.59316596, 0.68931527, 0.55383855, 0.18147236, 0.23040894])

In [16]:
scores.mean()

0.4496402174579181

In [17]:
Lasso().fit(X_train,y_train).score(X_test,y_test)

0.7926190294963362

## Selección de modelos

** Overfitting o underfitting?**

Recuerden que para saber si estamos en overfitting o en underfitting necesitamos los scores de entrenamiento y test.

In [19]:
from sklearn.model_selection import cross_validate

results = cross_validate(Lasso(),X,y,return_train_score= True,cv = 5)
results

  positive)


{'fit_time': array([0.02294493, 0.01895976, 0.07178926, 0.02472329, 0.00926685]),
 'score_time': array([0.00540352, 0.00640011, 0.00488806, 0.00273347, 0.00260973]),
 'test_score': array([0.59316596, 0.68931527, 0.55383855, 0.18147236, 0.23040894]),
 'train_score': array([0.68988012, 0.77004932, 0.76604995, 0.76123379, 0.75837599])}

In [None]:
test_scores = results['test_score']
train_scores = results['train_score']
print(np.mean(test_scores))