# Evaluación y mejoras

## Cross-validation

Una de las formas más comunes para evaluar qué tan bien se desempeña un modelo es utilizar un cross-validation test. Este consiste en entrenar y evaluar a un modelo con distintas partes de la base de datos, tratando de obtener una estimación "general" a partir de la estimación de varios modelos.

Vamos a ver un ejemplo evaluando un modelo logit

In [84]:
from sklearn.model_selection import cross_val_score 
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

In [87]:
iris = load_iris() # Leo base de datos
print(iris.data)
logreg = LogisticRegression(solver='liblinear', multi_class='ovr') # Importo modelo logit

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]
 [5.4 3.9 1.7 0.4]
 [4.6 3.4 1.4 0.3]
 [5.  3.4 1.5 0.2]
 [4.4 2.9 1.4 0.2]
 [4.9 3.1 1.5 0.1]
 [5.4 3.7 1.5 0.2]
 [4.8 3.4 1.6 0.2]
 [4.8 3.  1.4 0.1]
 [4.3 3.  1.1 0.1]
 [5.8 4.  1.2 0.2]
 [5.7 4.4 1.5 0.4]
 [5.4 3.9 1.3 0.4]
 [5.1 3.5 1.4 0.3]
 [5.7 3.8 1.7 0.3]
 [5.1 3.8 1.5 0.3]
 [5.4 3.4 1.7 0.2]
 [5.1 3.7 1.5 0.4]
 [4.6 3.6 1.  0.2]
 [5.1 3.3 1.7 0.5]
 [4.8 3.4 1.9 0.2]
 [5.  3.  1.6 0.2]
 [5.  3.4 1.6 0.4]
 [5.2 3.5 1.5 0.2]
 [5.2 3.4 1.4 0.2]
 [4.7 3.2 1.6 0.2]
 [4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.

In [88]:
scores = cross_val_score(logreg, iris.data, iris.target, cv=3)
print("Cross-validation scores: {}".format(scores)) # Por defaul divide 3 veces la base, 
                                                    # es decir, hace un "loop" 3 veces,
                                                    # y nos reporta el accuracy.

Cross-validation scores: [0.96078431 0.92156863 0.95833333]


In [89]:
# Podemos mover el número de folds/grupos moviendo cv
scores = cross_val_score(logreg, iris.data, iris.target, cv=5)
print("Cross-validation scores: {}".format(scores))

Cross-validation scores: [1.         0.96666667 0.93333333 0.9        1.        ]


In [90]:
#  la medida genral? podemos sacar el promedio de estos 5 
print("Average cross-validation score: {:.2f}".format(scores.mean()))

Average cross-validation score: 0.96


In [91]:
# Y con 10 folds?
scores = cross_val_score(logreg, iris.data, iris.target, cv=10)
print("Cross-validation scores: {}".format(scores))
print("Average cross-validation score: {:.2f}".format(scores.mean()))

Cross-validation scores: [1.         1.         1.         0.93333333 0.93333333 0.93333333
 0.8        0.93333333 1.         1.        ]
Average cross-validation score: 0.95


¿Qué hacemos si tenemos etiquetas ordenadas en nuestros datos para no entrenar un modelo muy sesgado?

In [92]:
from sklearn.datasets import load_iris
iris = load_iris()
print("Iris labels:\n{}".format(iris.target))

Iris labels:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [93]:
# No existe una forma de aplicar un cross-validation estratificado en sklearn, pero podemos hacer un shuffle de observaciones
from sklearn.model_selection import KFold
kfold = KFold(n_splits=5, shuffle=True, random_state=0) 
print("Cross-validation scores:\n{}".format(cross_val_score(logreg, iris.data, iris.target, cv=kfold)))
print("Average cross-validation score: {:.2f}".format(scores.mean()))

Cross-validation scores:
[0.96666667 0.9        0.96666667 0.96666667 0.93333333]
Average cross-validation score: 0.95


Se acuerdan que hablamos de un cross-validation con grupos?

In [94]:
from sklearn.model_selection import GroupKFold
from sklearn.datasets.samples_generator import make_blobs

# Creamos una base random
X, y = make_blobs(n_samples=12, random_state=0)

# Asumimos que los grupos en los datos tienen la siguiente distribución 
groups=[0,0,0,1,1,1,1,2,2,3,3,3]
scores = cross_val_score(logreg, X, y, groups, cv=GroupKFold(n_splits=3)) 
print("Cross-validation scores:\n{}".format(scores))
print("Average cross-validation score: {:.2f}".format(scores.mean()))

Cross-validation scores:
[0.75       0.8        0.66666667]
Average cross-validation score: 0.74


## Grid Search

Cuál es la forma rupestre de hacer un grid search? Metiendo los parámetros en loops.

Hagamos un SVM, donde los parámetros que se pueden mover son gamma (cuando tenemos kernels que no son lineales) y C
Se acuerdan?

In [95]:
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.svm import SVC

iris = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)
print("Size of training set: {} size of test set: {}".format(X_train.shape[0], X_test.shape[0]))

best_score = 0
for gamma in [0.001, 0.01, 0.1, 1, 10, 100]: 
    for C in [0.001, 0.01, 0.1, 1, 10, 100]:
        # entrenar un SVC para cada combinación de parámetros
        svm = SVC(gamma=gamma, C=C)
        svm.fit(X_train, y_train)
        # evaluar el SVC
        score = svm.score(X_test, y_test)
        # si el score es mejor, guardarlo con los parámetros
        if score > best_score: 
            score = svm.score(X_test, y_test)
            best_score = score
            best_parameters = {'C': C, 'gamma': gamma}

print("Best score: {:.2f}".format(best_score)) 
print("Best parameters: {}".format(best_parameters))

Size of training set: 112 size of test set: 38
Best score: 0.97
Best parameters: {'C': 100, 'gamma': 0.001}


Al ser una forma tan común, scikit-learn tiene una implementación que nos permite no sólo hacer un grid search, si no combinarlo con un cross validation para que nuestra evaluación sea mucho más completa

In [77]:
from sklearn.model_selection import GridSearchCV 
from sklearn.svm import SVC

# Creo primero un diccionario de parámetros a evaluar
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100],
                  'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
print("Parameter grid:\n{}".format(param_grid))

grid_search = GridSearchCV(SVC(), param_grid, cv=5, iid=True, return_train_score=True) # Le digo que va a hacer 5 folds en el cross-validation, 
                                                    # y utilizar los parámetros que le di en el diccionario,
                                                    # Además de que lo que evaluará es un SVM. 
                                                    # Es muy importante porque depende el modelo son los parámetros

Parameter grid:
{'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}


In [68]:
# Divido mi base
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=0)

In [78]:
# Hago el grid search con CV
grid_search.fit(X_train, y_train)

GridSearchCV(cv=5, error_score='raise-deprecating',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='rbf', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=None,
       param_grid={'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score=True,
       scoring=None, verbose=0)

In [70]:
print("Test set score: {:.2f}".format(grid_search.score(X_test, y_test)))

Test set score: 0.97


In [71]:
# Puedo ver cuáles fueron mis mejores parámetros y el merjor score
print("Best parameters: {}".format(grid_search.best_params_))
print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))

Best parameters: {'C': 100, 'gamma': 0.01}
Best cross-validation score: 0.97


In [72]:
# También puedo ver cuál fue el modelo completo que mejor ajustó
print("Best estimator:\n{}".format(grid_search.best_estimator_))

Best estimator:
SVC(C=100, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)


In [79]:
# Podemos ver los resultados desagregados del cross-validation
import pandas as pd
results = pd.DataFrame(grid_search.cv_results_)
print(results.head())

   mean_fit_time  std_fit_time  mean_score_time  std_score_time param_C  \
0       0.001709      0.000559         0.000601        0.000132   0.001   
1       0.001211      0.000303         0.000526        0.000156   0.001   
2       0.000962      0.000318         0.000373        0.000163   0.001   
3       0.000807      0.000105         0.000374        0.000189   0.001   
4       0.000743      0.000007         0.000279        0.000006   0.001   

  param_gamma                        params  split0_test_score  \
0       0.001  {'C': 0.001, 'gamma': 0.001}              0.375   
1        0.01   {'C': 0.001, 'gamma': 0.01}              0.375   
2         0.1    {'C': 0.001, 'gamma': 0.1}              0.375   
3           1      {'C': 0.001, 'gamma': 1}              0.375   
4          10     {'C': 0.001, 'gamma': 10}              0.375   

   split1_test_score  split2_test_score       ...         mean_test_score  \
0           0.347826           0.363636       ...                0.366071  

Ahora, mucho cuidado con qué evaluamos. Recuerden que cada cosa que evaluamos ocupa recursos computacionales, y la computadora va a probar lo que nosotros le digamos, sin importantel mucho si lo que nos dice tiene o no sentido.

Por ejemplo, en un SVM, si el kernel es lineal, gamma es una constante, por lo que no tendría sentido probar distintos gammas si nuestro kernel es lineal; en cambio si usamos un rbf u otro, sí tiene sentido cambiar gamma.

In [80]:
# Lo que hacemos para solucionar lo anterior es hacer una lista de diccionarios, en vez de un diccionario
param_grid = [{'kernel': ['rbf'],
               'C': [0.001, 0.01, 0.1, 1, 10, 100],
               'gamma': [0.001, 0.01, 0.1, 1, 10, 100]},
              {'kernel': ['linear'],
               'C': [0.001, 0.01, 0.1, 1, 10, 100]}]

print("List of grids:\n{}".format(param_grid))

List of grids:
[{'kernel': ['rbf'], 'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}, {'kernel': ['linear'], 'C': [0.001, 0.01, 0.1, 1, 10, 100]}]


In [81]:
# Y ahora sí, podemos probar todo: kernel, parámetros y score
grid_search = GridSearchCV(SVC(), param_grid, cv=5, iid=True)
grid_search.fit(X_train, y_train)
print("Best parameters: {}".format(grid_search.best_params_))
print("Best cross-validation score: {:.2f}".format(grid_search.best_score_))

Best parameters: {'C': 100, 'gamma': 0.01, 'kernel': 'rbf'}
Best cross-validation score: 0.97


Recuerden que no siempre el "score" que nos da el accuracy es lo mejor, hay veces que lo que bucamos es más bien evitar errores tipo 1 o errores tipo 2, por lo que utilizaríamos la precisión o el recall para evaluar mejor nuestro modelo (como lo hablamos en la clase 1).

El chiste es sólo cambiar score por lo que necesitemos, que ya hemos visto como sacar