# Pràctica 6 - Ajustam els hiperparametres de manera automàtica

## Validació creuada per avaluar el rendiment del nostre model

### Mètode _holdout_

Aquest mètode consisteix en separar el conjunt de dades en tres subconjunts diferents: entrenament, validació i _test_.
El conjunt d'entrenament s'usa com és habitual és a dir per entrenar els diferents models. El conjunt de validació s'usa
per seleccionar el millor dels models. El conjunt de _test_, que no usam en cap cas durant el procés d'entrenament, ens
servirà per obtenir una idea poc esbiaixada de la capacitat del model d'adaptar-se a noves mostres, sobre aquest conjunt
de dades serà sobre el qual obtindrem les mètriques finals del model.

El procés d'aplicació d'aquesta tècnica es pot veure en el següent gràfic:

![](imatges/holdout.png)

Aquest mètode encara que senzill d'emprar té un desavantatge, ja que el rendiment del model depén de com hem fet la
partició de les dades.

### Mètode _K-Fold_

Aquesta tècnica és més robusta que ja que repetim el mètode anterior _k_ vegades en _k_ subconjunts
del conjunt d'entrenament, per tant obtenim _k_ models i el mateix nombre de mesures de rendiment. El resultat
final s'obtè amb la mitjana de cada una de les repeticions realitzades, d'aquesta manera els resultats obtinguts depenen
manco de les particions que realitzem.

Aquesta tècnica normalment s'usa per obtenir els millors paràmetres del model a aplicar, es a dir trobar aquells paràmetres
que maximitzen el rendiment de la mètrica que volem usar. Un cop que tenim els millors paràmetres, reentrenam el model usant
el conjunt d'entrenament complet i obtenim les mètriques amb el conjunt de _test_.

El procés d'aplicació d'aquesta tècnica es pot veure en el següent gràfic:

<img src="imatges/Kfold.png" alt="kfold" width="600"/>

La pregunta que ens podem fer és: Com seleccionar aquest paràmetre _k_ de forma correcta?

Finalment, existeix una variant d'aquesta tècnica anomenada _stratified k-fold_ en el que les proporcions entre classes
es mantenen a cada una de les iteracions, això és important quan tenim problemes desbalancejats.


## Ajustam el model usant una cerca exhaustiva (_Grid Search_)

Els paràmetres del nostre model que podem ajustar manualment, es a dir que no són apresos de les dades d'entrenament,
s'anomenen hiper-paràmetres. Ajustar el seu valor de manera intuïtiva o mitjançant succesions de proves i errors pot ser
una tasca llarga, per no dir impossible en el cas de models amb molts paràmetres com poden ser els _Random Forests_.
Existeix una tècnica de cerca exhaustiva dels valors òptims dels hiper-paràmetres coneguda amb el nom de _Grid Search_ que ens permet automatitzar aquesta cerca
penalitzant el cost temporal del procés d'entrenament.


## Combinació de _K-Fold_ amb _Grid Search_

La combinació de les dues tècniques explicades anteriorment és una de les més emprades, és coneix amb el nom de
_nested cross-validation_. En aquest cas tenim dos bucles anidats: el més extern en el que es dividiex el conjunt
d'entrenament usant K-folding i un altre d'intern en el qual es realitza la cerca dels millors hiper-paràmetres.

L'esquema que es segueix és el següent:

<img src="imatges/grid_search_k_fold.png" width="600"/>

## Ajustament i Avaluació del model

En sessions anteriors havíem descrit el fluxe del procés d'aprenentatge, les darreres passes que formaven part del
procés eren l'ajustament i l'avaluació del model. En aquesta pràctica aplicarem l'explicat fins ara usant les eines que
_Scikit_ posa al nostre abast.

Les passes a seguir són:

1. Separació del conjunt de dades: entrenament i test.
2. Definició dels paràmetres a ajustar. El format de la graella és un diccionari on la clau és el nom del paràmetre i
el valor una llista amb tots els valors a provar.
3. Aplicam la cerca exhaustiva (_grid search_) juntament amb _k-folding_. Usarem la funció _GridSearchCV_ [enllaç](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html?highlight=gridsearchcv#sklearn.model_selection.GridSearchCV): `GridSearchCV(estimator, param_grid, cv=None, verbose=0)`.
4. Entrenam amb el millor model obtingut i el conjunt d'entrenament sencer. Podem obtenir el millor model resultant
de la passa anterior amb l'atribut `best_estimator_` de l'objecte `GridSearchCV`._Nota:_ Si mirau la documentació observareu
que podem obtenir altres informacions del procés de la cerca exhaustiva.
5. Obtenir els resultats finals amb el conjunt de _test_.

## Feina a fer

En resum, aplicarem el procés explicat anteriorment per un conjunt de dades reals. En concret farem feina amb el dataset
extret del sistema de bicicletes compartides de Washington D.C. [Bike Sharing Dataset](https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset#)
en el que intentarem predir el nombre de bicicletes usades durant *un dia* (només heu d'usar el fitxer _day.csv_).

Teniu a la vostra disposició un fitxer anomenat _main.py_ en el que es realitza la carrega de dades i la selecció de les
característiques del dataset que podeu emprar. Si us fixau s'empra la llibreria [Pandas](https://pandas.pydata.org) per
fer aquest procés, el tipus de dades bàsic d'aquesta llibreria és el _dataframe_ en teniu més informació al següent
[enllaç](https://pandas.pydata.org/docs/getting_started/intro_tutorials/01_table_oriented.html).


