# Pràctica 1 - El procés de l'aprenentatge automàtic:
Fins ara hem treballat amb problemes de classificació de conjunts que tenien 2 classes i que estaven generats de manera artificial. En aquesta pràctica començarem a fer feina amb conjunts de dades reals que a més tenen més d'una classe.

El procés d'aplicar tècniques d'aprenentatge és un procés que consta de cinc parts:

- **Tractament de les dades: preparació del conjunt de dades, selecció de característiques, obtenció dels conjunts d'entrenament / test**.

- **Selecció de la / les mètriques adients**.

- **Selecció de la tècnica d'aprenentatge automàtic**.

- **Avaluació del model**.

- **Ajustament del model**.

## Tractament de dades: selecció de característiques

## Separació del conjunt de dades: validació creuada per avaluar el rendiment del nostre model

### Mètode _holdout_

Aquest mètode consisteix a separar el conjunt de dades en tres subconjunts diferents: entrenament, validació i _test_. El conjunt d'entrenament s'usa com és habitual, és a dir per entrenar els diferents models. El conjunt de validació s'usa per seleccionar el millor dels models. El conjunt de _test_, que no usem en cap cas durant el procés d'entrenament, ens servirà per obtenir una idea poc esbiaixada de la capacitat del model d'adaptar-se a noves mostres, sobre aquest conjunt de dades serà sobre el qual obtindrem les mètriques finals del model.

El procés d'aplicació d'aquesta tècnica es pot veure en el següent gràfic:

![](imatges/holdout.png)

Aquest mètode encara que senzill d'emprar té un desavantatge, el rendiment del model depèn de com hem fet la partició de les dades.

### Mètode _K-Fold_

Aquesta tècnica és més robusta, ja que repetim el mètode anterior _k_ vegades en _k_ subconjunts del conjunt d'entrenament, per tant, obtenim _k_ models i el mateix nombre de mesures de rendiment. El resultat final s'obtè amb la mitjana de cada una de les repeticions realitzades, d'aquesta manera els resultats depenen manco de les particions que realitzem.

Aquesta tècnica normalment s'usa per obtenir els millors paràmetres del model a aplicar, es a dir trobar aquells paràmetres que maximitzen el rendiment de la mètrica que volem usar. Un cop que tenim els millors paràmetres, reentrenam el model emprant el conjunt d'entrenament complet i obtenim les mètriques amb el conjunt de _test_.

El procés d'aplicació d'aquesta tècnica es pot veure en el següent gràfic:

<img src="imatges/Kfold.png" alt="kfold" width="600"/>

La pregunta que ens podem fer és: Com seleccionar aquest paràmetre _k_ de forma correcta?

Finalment, existeix una variant d'aquesta tècnica anomenada _stratified k-fold_ en el que les proporcions entre classes es mantenen a cada una de les iteracions, això és important quan tenim problemes desbalancejats.

## Selecció de mètriques

Un cop entrenat el nostre model, tenim la necessitat d'avaluar els resultats obtinguts amb aquest amb alguna mesura que sigui objectiva. Les mesures que explicarem en aquesta secció es calculen a partir d'una matriu de confusió que ens permet guardar quatre mesures bàsiques a partir de considerar que una de les classes és la positiva i l'altra és la negativa.

- _True Positives_ (TP): L'algorisme classifica una mostra de la classe positiva com a membre de la classe positiva.
- _True Negatives_ (TN): L'algorisme classifica una mostra de la classe negativa com a membre de la classe negativa.
- _False Positives_ (FP): L'algorisme classifica una mostra de la classe negativa com a membre de la classe positiva.
- _False Negatives_ (FN): L'algorisme classifica una mostra de la classe positiva com a membre de la classe negativa.

Podem observar la matriu de confusió en el següent esquema:

![image](imatges/confusion_matrix.png "font: Python Machine Learning")

Aquesta matriu es pot obtenir de manera senzilla usant la funció `confusion_matrix` de la llibreria [scikit-learn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html?highlight=confusion%20matrix#sklearn-metrics-confusion-matrix)
i es pot visualitzar amb la funció [ConfusionMatrixDisplay](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.ConfusionMatrixDisplay.html?highlight=confusion%20matrix#sklearn-metrics-confusionmatrixdisplay)

A partir d'aquestes mesures de primer ordre en podem treure d'altres més completes com l'error o l'exactitud, també es coneix amb el nom de _Accuracy_.

$$ Error = \frac{FP+FN}{FP+FN+TP+TN}$$
<br>
$$ Exactitut = \frac{TP+TN}{FP+FN+TP+TN} = 1 - Error$$

Per altra banda, tenim les mesures Rati de Vertaders Positius (_True Positive Rate_, TPR) i la Ratio de Falsos Positius (_False Positive Rate_, FPR) que estan dissenyades per problemes on hi ha una classe amb més mostres que l'altra:

$$ FPR = \frac{FP}{N} = \frac{FP}{FP+TN} $$
<br>
$$ TPR = \frac{TP}{P} = \frac{TP}{FN+TP} $$

Finalment, parlarem de precisió (_precision_) i la sensibilitat (_recall_) relacionades amb les ratios de vertaders positius i vertaders negatius:

$$ Precisio = \frac{TP}{TP+FP}$$
<br>
 $$ Sensibilitat = TPR = \frac{TP}{FN+TP} $$

Tenim una mesura que engloba aquestes mesures anteriors:

$$ F1 = 2 \frac{Precisio \times Sensibilitat}{Precisio + Sensibilitat}$$

Per sort tenim un mòdul anomenat [_metrics_](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics) on hi ha totes aquestes (i d'altres) mètriques ja implementades.

### Qué passa si tenim més de dues classes?

Podem generalitzar el que ja sabem per a dues classes a problemes amb tres o més classes, fixem-nos en la imatge següent:

![image](imatges/confusion_matrix_multi.png "font: Researchgate")

Una de les funcions que poden ser més pràctiques en casos multi-classe serà el [classification report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html#sklearn.metrics.classification_report).

## Un exemple complet

A continuació teniu un exemple que resumeix el procés sencer emprant la llibreria `Scikit-learn`: