In [1]:
# Load libraries
import pandas as pd;
import numpy as np;
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score as metric
from sklearn.model_selection import validation_curve
from sklearn.metrics import make_scorer
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV

# Model Validation

En este notebook volveremos a trabajar con el dataset iris contenido en scikit-learn.

In [2]:
from sklearn.datasets import load_iris;
iris = load_iris();
dat = iris.data;
target = iris.target;
target_names = iris.target_names;

## 1. Data Splitting

Para poder realizar una correcta validación de un modelo de machine learning necesitamos dividir el conjunto de datos en varios subdatasets. Optamos en esta ocasión por usar **cross-validation**, es decir, dividimos el dataset en dos subconjuntos: train y test. Para realizar la metamodelización haremos cross-validation sobre el conjunto de train.

Utilizaremos a modo de ejemplo los siguientes ratios:

- **Train**: 85%.


- **Test**: 15%.


In [3]:
perc_values = [0.85, 0.15];

Ahora usemos estos porcentajes y la función  train_test_split de scikit-learn.

In [4]:
X_train_cross, X_test_cross, y_train_cross, y_test_cross = train_test_split(dat, target, test_size = perc_values[1], random_state=1);

Veamos las dimensiones de los dos conjuntos

In [5]:
print('Train data size = ' + str(X_train_cross.shape))
print('Ttrain target size = ' + str(y_train_cross.shape))
print('Test data size = ' + str(X_test_cross.shape))
print('Test target size = ' + str(y_test_cross.shape))

Train data size = (127, 4)
Ttrain target size = (127,)
Test data size = (23, 4)
Test target size = (23,)


## 5. Random Grid Search

El método de grid search anterior suele llamarse también Exhaustive Grid Search, porque prueba todos los posibles valores para la rejilla especificada. Cuándo se trabaja con un alto número de hiperparámetros, el uso de este método puede suponer probar un alto número de posibles combinaciones de valores.

Por este motivo surgió una variante, llamada Random Grid Search, en la que no se prueban todas las posibles combinaciones indicadas en la rejilla, sino que se prueban puntos aleatorios que estén dentro de los rangos especificados. 

<img src="figures/grid_2.png" width="50%">

El método Random Grid Search permite obtener un ahorro computacional y, en algunos casos como los de la imagen anterior, puede llevar también a conseguir mejores resultados.

Implementar el método Random Grid Search usando scikit-learn es muy sencillo, ya que disponemos de la función RandomizedSearchCV.

In [6]:
help(RandomizedSearchCV)

Help on class RandomizedSearchCV in module sklearn.model_selection._search:

class RandomizedSearchCV(BaseSearchCV)
 |  RandomizedSearchCV(estimator, param_distributions, *, n_iter=10, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', random_state=None, error_score=nan, return_train_score=False)
 |  
 |  Randomized search on hyper parameters.
 |  
 |  RandomizedSearchCV implements a "fit" and a "score" method.
 |  It also implements "score_samples", "predict", "predict_proba",
 |  "decision_function", "transform" and "inverse_transform" if they are
 |  implemented in the estimator used.
 |  
 |  The parameters of the estimator used to apply these methods are optimized
 |  by cross-validated search over parameter settings.
 |  
 |  In contrast to GridSearchCV, not all parameter values are tried out, but
 |  rather a fixed number of parameter settings is sampled from the specified
 |  distributions. The number of parameter settings that are tried is
 |  

Definimos los rangos de valores sobre los que queremos escoger puntos de forma aleatoria.

In [7]:
k_values = np.arange(1, 21);
param_grid = {'n_neighbors': k_values}

Y llamamos a RandomizedSearchCV donde el parametro n_iter indica cuantos valores del hiperparámetro k, elegidos de forma aleatoria, queremos probar.

In [11]:
grid_results_cv = RandomizedSearchCV(KNeighborsClassifier(), param_grid, n_iter = 2, cv = 5, random_state = 0)
grid_results_cv.fit(X_train_cross, y_train_cross)
print('Values validated for k hyperparameter: ' + str(grid_results_cv.cv_results_['param_n_neighbors']))
print('Validation accuracy: ' + str(grid_results_cv.cv_results_['mean_test_score']))
print('Best score ' + str(grid_results_cv.best_score_))
print('Best k: ' + str(grid_results_cv.best_estimator_.n_neighbors))

Values validated for k hyperparameter: [19 2]
Validation accuracy: [0.96       0.92830769]
Best score 0.96
Best k: 19


En este caso el valor elegido será k = 18.