# Kfolding i Gridsearch

Hemos descrito el proceso entero de entrenamiento y evaluación de la siguiente manera:

1. Separación del conjunto de datos: entrenamiento y test.
2. Definición de los parámetros a ajustar. El formato de la parrilla es un diccionario donde la clave es el nombre del parámetro y el valor una lista con todos los valores a probar.
3. Aplicamos la búsqueda exhaustiva (_grid search_) junto con _k-folding_. Usaremos la función _GridSearchCV_ [enlace](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html?highlight=gridsearchcv#sklearn.model_selection.GridSearchCV): `GridSearchCV(estimator, param cv=None, verbose=0)`.
4. Entrenamos con el mejor modelo obtenido y el conjunto de entrenamiento entero. Podemos obtener el mejor modelo resultante
del paso anterior con el atributo `best_estimator_` del objeto `GridSearchCV`.
5. Obtener los resultados finales con el conjunto de _test_.

Vamos a ver como reproducirlo con Scikit:

In [1]:
# Como siempre empezaremos importando las librerias necesarias
from sklearn.datasets import load_breast_cancer
from sklearn.metrics import classification_report, confusion_matrix 
from sklearn.datasets import load_breast_cancer 
from sklearn.svm import SVC 
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split 

Usaremos un conjunto de datos propio de Scikit: _breast cancer dataset_

In [2]:
dataset = load_breast_cancer()
X=dataset.data
Y=dataset.target

Ahora empezaremos a realizar los pasos que hemos descrito:
1. Separa los datos _X_ en entrenamiento y test (30% test, random_state=101)

Realiza una clasificación usando una SVM Lineal y imprime el resultado de la función `classification_report` que recibe las etiquetas predichas y la etiquetas verdaderas del conjunto de test.

In [10]:
X_train, X_test, y_train, y_test = train_test_split( 
                        X,Y,test_size = 0.30, random_state = 101) 

svm = SVC()
svm.fit(X_train, y_train)
y_predict = svm.predict(X_test)

print(classification_report(y_test, y_predict))

              precision    recall  f1-score   support

           0       0.95      0.85      0.90        66
           1       0.91      0.97      0.94       105

    accuracy                           0.92       171
   macro avg       0.93      0.91      0.92       171
weighted avg       0.93      0.92      0.92       171



2. Definición de los parámetros a ajustar.

Se definen mediante un dicconario de pares clave (nombre del parámetro) - valor (lista de valores).

In [4]:
param_grid = {'C': [0.1, 1, 10, 100],  
              'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
              'kernel': ['linear','rbf']}

3. Aplicamos la búsqueda exhaustiva

In [5]:
grid = GridSearchCV(SVC(), param_grid, refit = True, verbose = 3) 

4. Entrenamos con el mejor modelo obtenido y el conjunto de entrenamiento entero.

In [6]:
# fitting the model for grid search 
grid.fit(X_train, y_train) 

Fitting 5 folds for each of 40 candidates, totalling 200 fits
[CV 1/5] END .....C=0.1, gamma=1, kernel=linear;, score=0.950 total time=   0.0s
[CV 2/5] END .....C=0.1, gamma=1, kernel=linear;, score=0.925 total time=   0.0s
[CV 3/5] END .....C=0.1, gamma=1, kernel=linear;, score=0.988 total time=   0.0s
[CV 4/5] END .....C=0.1, gamma=1, kernel=linear;, score=0.937 total time=   0.0s
[CV 5/5] END .....C=0.1, gamma=1, kernel=linear;, score=0.962 total time=   0.0s
[CV 1/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.637 total time=   0.0s
[CV 2/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.637 total time=   0.0s
[CV 3/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.625 total time=   0.0s
[CV 4/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.633 total time=   0.0s
[CV 5/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.633 total time=   0.0s
[CV 1/5] END ...C=0.1, gamma=0.1, kernel=linear;, score=0.950 total time=   0.0s
[CV 2/5] END ...C=0.1, gamma=0.1, kernel=linear

[CV 2/5] END ......C=10, gamma=1, kernel=linear;, score=0.938 total time=   0.8s
[CV 3/5] END ......C=10, gamma=1, kernel=linear;, score=1.000 total time=   1.4s
[CV 4/5] END ......C=10, gamma=1, kernel=linear;, score=0.949 total time=   3.3s
[CV 5/5] END ......C=10, gamma=1, kernel=linear;, score=0.987 total time=   2.8s
[CV 1/5] END .........C=10, gamma=1, kernel=rbf;, score=0.637 total time=   0.0s
[CV 2/5] END .........C=10, gamma=1, kernel=rbf;, score=0.637 total time=   0.0s
[CV 3/5] END .........C=10, gamma=1, kernel=rbf;, score=0.625 total time=   0.0s
[CV 4/5] END .........C=10, gamma=1, kernel=rbf;, score=0.633 total time=   0.0s
[CV 5/5] END .........C=10, gamma=1, kernel=rbf;, score=0.633 total time=   0.0s
[CV 1/5] END ....C=10, gamma=0.1, kernel=linear;, score=0.938 total time=   3.0s
[CV 2/5] END ....C=10, gamma=0.1, kernel=linear;, score=0.938 total time=   0.9s
[CV 3/5] END ....C=10, gamma=0.1, kernel=linear;, score=1.000 total time=   1.4s
[CV 4/5] END ....C=10, gamma

GridSearchCV(estimator=SVC(),
             param_grid={'C': [0.1, 1, 10, 100],
                         'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
                         'kernel': ['linear', 'rbf']},
             verbose=3)

In [7]:
# print best parameter after tuning 
print(grid.best_params_)

{'C': 100, 'gamma': 1, 'kernel': 'linear'}


5. Obtener los resultados finales con el conjunto de _test_ usando la función _classification\_report_

In [8]:
grid_predictions = grid.predict(X_test) 
print(classification_report(y_test, grid_predictions)) 

              precision    recall  f1-score   support

           0       0.95      0.89      0.92        66
           1       0.94      0.97      0.95       105

    accuracy                           0.94       171
   macro avg       0.94      0.93      0.94       171
weighted avg       0.94      0.94      0.94       171

