# 2 - Clasificación

**Sumario**

1. Introducción
2. Funciones de pérdida
3. Métricas
4. Clasificación binaria
5. Clasificación multiclase
6. Clasificación multietiqueta
7. Optimización de hiperparámetros

## 2.1 - Introducción

En tareas de clasificación, nuestro objetivo es construir un modelo capaz de **predecir correctamente una o varias etiquetas para cada uno de las instancias de entrada**. 

En la siguiente figura se presenta uno de los problemas más comunes de clasificación: se quiere construir un modelo capaz de clasificar un conjunto de *emails* cuya clase está formada por dos etiquetas: 
1. correo válido
2. correo spam

El tipo de comportamiento del modelo vendrá definido por la estructura de la clase mediante la que están definidos los diferentes ejemplos. En función del tipo de clase que hayamos definido, podemos diferenciar tres tipos de modelos:
* **Clasificación binaria** (una etiqueta, dos clases).
* **Clasificación multiclase** (una etiqueta, múltiples clases).
* **Clasificación multietiqueta** (múltiples etiquetas, dos clases).

## 2.2 - Funciones de pérdida (*loss*)

A la hora de efectuar un proceso de clasficación, podemos aplicar diferentes funciones de pérdida dependiendo del tipo de salida que queramos obtener. Asi pues:
* **Clasificación binaria**
    * Binary crossentropy loss
* **Clasificación multiclase**
    * Multiclass crossentropy loss
    * Sparse multiclass crossentropy loss
* **Clasificación multietiqueta**
    * Binary crossentropy loss

### 2.2.1 - Binary crossentropy

La **entropía cruzada binaria** (binary crossentropy) es un tipo de función de pérdida utilizada para la construcción de modelos de **clasificación binaria**. Se calcula mediante la siguiente fórmula:

$$
f(y_{i}, \hat{y}_{i}) = -\frac{1}{n} \sum_{i=1}^{n} y_{i} \log(\hat{y}_{i}) + (1 - y_{i}) \log(1 - \hat{y}_{i})
$$

donde
* $n$ es el número de instancias de entrenamiento utilizadas para calcular el valor de pérdida.
* $y_{i}$ es el valor de salida esperado
* $\hat{y}_{i}$ es el valor de salida real

Para poder utilizar este tipo de función de pérdida es necesario recurrir a la **función sigmoidea como función de activación de la última capa de la red**, ya que es la única compatible con esta función de pérdida. Esto se debe a que la función de pérdida debe calcular el logaritmo de $y_{i}$, que solo existe cuando el valor de $\hat{y}_{i}$ se sitúa entre $0$
y $1$.

<img src="images_2/binary_crossentropy.png" width="700" data-align="center">

**Nota:** La función softmax (con 2 valores) también valdría en este caso ya que al fin y al cabo **la función sigmoidea no es más que una versión binaria de la función softmax**.

**Extra:** [**Derivación de la función de pérdida para su aplicación con el descenso por gradiente**](https://www.python-unleashed.com/post/derivation-of-the-binary-cross-entropy-loss-gradient)

### 2.2.2 - Multiclass crossentropy

La **entropía cruzada multiclase o categórica**  (multiclass crossentropy or categorical crossentropy) es un tipo de función de pérdida utilizada para la construcción de modelos de **clasificación multiclase**. Se calcula mediante la siguiente fórmula:

$$
f(y_{i}, \hat{y}_{i}) = - \sum_{i}^{n} y_{i} \log \hat{y}_{i}
$$

donde
* $n$ es el número de instancias de entrenamiento utilizadas para calcular el valor de pérdida.
* $y_{i}$ es el valor de salida esperado
* $\hat{y}_{i}$ es el valor de salida real

Para poder utilizar este tipo de función de pérdida, se recomienda usar la **función softmax como función de activación de la última capa de la red**, pues esta solo **necesita que la salida del modelo sea positiva** (por el logaritmo). Por tanto, la función softmax se adapta perfectamente, ya que efectúa una reescalada de la salida, de manera que todos los valores son expresados entre $0$ y $1$.

<img src="images_2/multiclass_crossentropy.png" width="700" data-align="center">

**Extra:** [**Derivación de la función de multiclass crossentropy loss para su aplicación con el descenso por gradiente**](https://towardsdatascience.com/derivative-of-the-softmax-function-and-the-categorical-cross-entropy-loss-ffceefc081d1)

### 2.2.3 - Sparse multiclass crossentropy

La **entropía cruzada multiclase dispersa** (sparse multiclass crossentropy) es un tipo de función de pérdida utilizada para la construcción de modelos de **clasificación multiclase cuando el número de clases es muy elevado**. 

Existen situaciones donde el número posible de clases es muy grande,. or ejemplo, si tenemos que clasificar marcas a partir de una descripción de producto (hay millones de marcas en el mundo). Esta función de pérdida **realiza el mismo cálculo que la función de entropía cruzada multiclase**, pero **sin necesidad de que el vector de entrada sea una codificación de tipo one-hot**. Por tanto, se calcula mediante la siguiente fórmula:

$$
f(y_{i}, \hat{y}_{i}) = - \sum_{i}^{n} y_{i} \log \hat{y}_{i}
$$


<img src="images_2/sparse_multiclass_crossentropy.png" width="700" data-align="center">

## 2.3 - Métricas

Para evaluar los modelos de clasificación, existen diferentes tipos de métricas de "bondad".

La **matriz de confusión** (confusion matrix) es un procedimiento para extraer la información necesaria y calcular las diferentes métricas de "bondad" utilizadas por los algoritmos de clasificación. Consiste en una matriz $n \times n$, donde $n$ es el número de clases, que describe el rendimiento del modelo a partir de los datos del conjunto de
test. Su denominación alude a su finalidad: **identificar dónde está confundiendo las clases el modelo**.

En el caso más básico, se aplica a una clasificación binaria una matriz de confusión formada por cuatro características:
* **Verdaderos positivos (VP)**. Aquellos ejemplos del conjunto de test cuya clase esperada es 1 (verdadero) y el resultado generado por el modelo de aprendizaje es 1 (verdadero).
* **Verdaderos negativos (VN)**. Aquellos ejemplos del conjunto de test cuya clase esperada es 0 (negativo) y el resultado generado por el modelo de aprendizaje es 0 (negativo).
* **Falsos positivos (FP)**. Aquellos ejemplos del conjunto de test cuya clase esperada es 0 (falso) y el resultado generado por el modelo de aprendizaje es 1 (verdadero).
* **Falsos negativos (FN)**. Aquellos ejemplos del conjunto de test cuya clase esperada es 1 (Verdadero) y el resultado generado por el modelo de aprendizaje es 0 (Falso).

A continuación, vamos a definir las diferentes métricas de bondad que se obtienen a través de la matriz de confusión a partir del siguiente ejemplo:

<table>
    <tr>
        <th>Matriz de confusión binaria</th>
        <th>Ejemplo</th>
    </tr>
    <tr>
        <td><img src="images_2/matriz_confusion_1.png" width="500" data-align="center"></td>
        <td><img src="images_2/matriz_confusion_3.png" width="500" data-align="center"></td>
    </tr>
</table>

**Nota:** Esta representación también se puede aplicar a modelos de clasificación no binaria como, por ejemplo, aquellos que presentan tres clases:

<img src="images_2/matriz_confusion_2.png" width="500" data-align="center">

### 2.3.1 - Accuracy

La **exactitud** (**accuracy** en inglés) se define como **el grado de concordancia entre el resultado generado por el modelo y el resultado real**. Se obtiene a través de la siguiente fórmula:

$$
A = \frac{VN + VP}{VP + VN +FP + FN}
$$

Con respecto a los datos del ejemplo definido anteriormente, obtendríamos un accuracy de $0.92$:

$$
A = \frac{87 + 5}{87 + 5 + 2 + 6} = 0.92
$$

El accuracy **no es una métrica adecuada para situaciones donde las clases (labels) del conjunto de datos se encuentran desbalanceadas**. En estos casos, resulta mucho más conveniente usar las métricas de precision, recall o F1-Score.

### 2.3.2 - Precision

La **precisión** (**precision** en ingles) es una medida centrada en el modelo porque nos indica **el grado de precision del modelo cuando predice una determinada clase**. Por ejemplo, en el caso de las imagenes de animales, cuando nuestro modelo que una imagen es un perro, cual es la probabilidad de que sea esto cierto. Se obtiene a través de la siguiente fórmula (ejemplo para 2 clases, centrándonos en la clase "positivo"):

$$
\text{Precision} = \frac{VP}{VP + FP}
$$

Con respecto a los datos del ejemplo definido anteriormente, obtendríamos una precision de $0.45$:

$$
\text{Precision} = \frac{5}{5 + 6} = 0.45
$$

### 2.3.3 - Recall

La **exhaustividad** (**recall** en inglés) es una medida centrada en los datos porque nos indica **como de bien se predice una clase de los datos**. Por ejemplo, en el caso de las imagenes de animales, cómo de bien identifica nuestro modelo a los perros. Se obtiene a través de la siguiente fórmula ejemplo para 2 clases, centrándonos en la clase "positivo"):

$$
\text{Recall} = \frac{VP}{VP + FN}
$$

Con respecto a los datos del ejemplo definido anteriormente, obtendríamos una precision de $0.62$:

$$
\text{Recall} = \frac{5}{2 + 6} = 0.62
$$

### 2.3.4 - F1 score

La **puntuación F1** (**F1-score**) es la **media harmónica de la precisón y de la exhaustividad (recall)**. Así esta métrica es útil ya que nos permite combinar ambas métricas:

$$
\text{F1-score} = 2 * \frac{P * R}{P + R}
$$

Con respecto a los datos del ejemplo definido anteriormente, obtendríamos una F1-score de $0.52$:

$$
\text{F1-score} = 2 * \frac{0.45 * 0.62}{0.45 + 0.62} = 0.52
$$

### 2.3.5 - F$\beta$ score

La puntuación F$\beta$ (**F$\beta$ score**) es una métrica que **combina la precisión y la exhaustividad (recall) con un factor de variación** $\beta$ que permite modificar el grado de importancia que deseamos asigna a cada una de estas métricas. **Cuanto más elevado el valor de $\beta$, mayor es la importancia que concedemos al *recall***:

$$
\text{F1-score} = (1 + \beta^{2}) * \frac{P * R}{(\beta * P) + R}
$$

## 2.4 - Clasificación binaria

A continuación vamos a describir cómo construir una red neuronal para un problema de clasificación binaria.

### 2.4.1 - Preparación de datos

La primera fase de todo proceso de ML es la preparación de los datos. En este caso, vamos a utilizar el conjunto de datos sobre pruebas diagnósticas para la detección del cáncer de mama

In [26]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import tensorflow as tf

data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data", header=None)
data.columns = [
    "Sample_code_number",
    "Clump_Thickness",
    "Uniformity_of_Cell_Size",
    "Uniformity_of_Cell_Shape",
    "Marginal_Adhesion",
    "Single_Epithelial_Cell_Size",
    "Bare_Nuclei",
    "Bland_Chromatin",
    "Normal_Nucleoli",
    "Mitoses",
    "Class"
]

Una vez realizada la carga de los datos, debemos llevar a cabo una serie de transformaciones y modificaciones en la información del conjunto de datos con el objetivo de adecuarlos y poder construir nuestra red de neuronas:

In [27]:
# Eliminación de la columna que contiene el id de las muestras 
data.drop("Sample_code_number", axis="columns", inplace=True)

# Modificación de los valores ? que existen en la columna Bare Nuclei (en este caso por el valor -1)
data["Bare_Nuclei"] = data['Bare_Nuclei'].replace('?', '-1')

# Modificación de las etiquetas para que los valores sean 0 y 1 
data["Class"] = data["Class"].map(lambda x: 1 if x == 4 else 0)

# Generación de los conjuntos de entrenamiento y test split_handler (en este caso no vamos a generar de validación aqui, lo haremos mas adelante)
# split proportion: 0.88 train, 0.12 test
train_set, test_set = train_test_split(data, test_size=0.12, random_state=0, stratify=data["Class"])

# Transformación del conjunto de entrenamiento en tensores 
X_train = tf.convert_to_tensor (train_set.iloc[:, :9], np.int32) 
y_train = tf.convert_to_tensor (train_set.iloc[:, 9:], np.int8)

# Transformación del conjunto de test en tensores 
X_test = tf.convert_to_tensor (test_set.iloc[:, :9], np.float32)
y_test = tf.convert_to_tensor (test_set.iloc[:, 9:], np.int8)

**Transformamos los conjuntos de datos en tensores porque ese es el formato esperado por la red para los datos**

### 2.4.2 - Construcción de la red

Una vez preparados los datos, podemos construir nuestra red de neuronas. Para ello, vamos a crear una red formada por tres capas mediante Keras:

* Una capa de entrada que acepte tensores unidimensionales de tamaño 9. Para ello vamos a usar `keras.layers.Flatten`.
* Una capa densa con 18 neuronas cuya función de activación sea una ReLU.
* Una capa densa con una sola neurona con una función de activación de tipo sigmoidea, de manera que nos devuelva un valor comprendido entre 0 y 1 que se corresponderá con una de las dos clases que podemos obtener.

In [32]:
from tensorflow import keras

# Creación de las capas que forman la estructura de la red
layers = [keras.layers.Flatten(input_shape=(9,)),
          keras.layers.Dense(18, activation=tf.nn.relu),
          keras.layers.Dense(1, activation=tf.nn.sigmoid),
         ]

# Compilación de la red de neuronas, agrupando las diferentas capas de forma secuencial
model = keras.Sequential(layers, name="binary_classification_model")

# Configuración del algoritmo de optimización y de la función de loss
model.compile(optimizer="sgd",
              loss="binary_crossentropy",
              metrics=["accuracy"]
             )

Tras la compilación, podemos comprobar la estructura de nuestra red mediante la función `summary`

In [31]:
model.summary()

Model: "binary_classification_model"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten_1 (Flatten)         (None, 9)                 0         
                                                                 
 dense_2 (Dense)             (None, 18)                180       
                                                                 
 dense_3 (Dense)             (None, 1)                 19        
                                                                 
Total params: 199
Trainable params: 199
Non-trainable params: 0
_________________________________________________________________


Con respecto a los parámetros observamos lo siguiente:
* La capa de entrada `flatten_1` no tiene parámetros ya que simplemente nos sirve para introducir información en la red.
* La capa densa `dense_2` está formada por 18 neuronas, cada una de ellas con 9 parámetros de entrada y un parámetro de *bias*, haciendo un total de **180**.
* La capa densa `dense_3` está formada por 1 neurona con 18 parámetros de entrada y un parámetro de *bias*, haciendo un total de **19**.

### 2.4.3 - Entrenamiento

Una vez compilada nuestra red de neuronas, podemos abordar el proceso de entrenamiento mediante la función `fit`. En este caso, hemos seleccionado las siguientes opciones:
* Número de iteraciones (*epochs*): 25
* Tamaño del batch de entrenamiento: 100 ejemplos
* Tamaño del conjunto de validación: 8% del conjunto de entrenamiento

In [39]:
import datetime
from time import time
from keras.callbacks import TensorBoard

# Definición de los callback de TF Board
tensorboard_callback = TensorBoard(log_dir="logs/{}".format(time()))

# Ejecución del proceso de aprendizaje
model.fit(
    X_train,
    y_train,
    epochs=25, # Numero de iteraciones
    batch_size=100, # Tamaño de los batches
    validation_split=0.08, # Tamaño del conjunto de validación
    callbacks=[tensorboard_callback]
)

# Evaluación del modelo mediante el conjunto de test
test_loss, test_acc = model.evaluate(X_test, y_test)

Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


### 2.4.4 - Inferencia y visualización

Una vez finalizado el proceso de aprendizaje, podemos recurrir a TensorBoard para comprobar la evolución del proceso de entrenamiento.

**Nota:** Dado el rapido aprendizaje del modelo, TensorBoard se confunde un poco al generar los gráficos ya que está acostumbrado a que se siga un proceso con forma "logarítmica". [Para ver un ejemplo más "común", podemos ejecutar el siguiente notebook en Google Colab.](https://colab.research.google.com/github/tensorflow/tensorboard/blob/master/docs/tensorboard_in_notebooks.ipynb#scrollTo=ixZlmtWhMyr4)


#### Ejecución en local

En caso de que estemos ejecutando el notebook en nuestra máquina local, simplemente tendríamos que situarnos con la terminal en el directorio del notebook y correr el siguiente comando:
```
tensorboard --logdir logs
```
Se nos indicará entonces cual es la dirección local a la que tenemos que acceder y mostrará la aplicación de TensorBoard con los logs de la ejecución actual:

<img src="images_2/tensorboard.png" width="800" data-align="center">

#### Ejecución en Google Colab

En caso de que estemos ejecutando este notebook en Google Colab, no podriamos acceder al directorio local y en su lugar deberiamos utilizar una extensiónde que nos permitiría generar TensorBoard dentro de Jupyter

In [None]:
# Solo en Google Colab
# %load_ext tensorboard

In [None]:
# %tensorboard --logdir logs

## 2.5 - Clasificación multiclase

### 2.5.1 - Preparación de datos

### 2.5.2 - Construcción de la red

### 2.5.3 - Entrenamiento

### 2.5.4 - Inferencia

## 2.6 - Clasificación multietiqueta

### 2.6.1 - Preparación de datos

### 2.6.2 - Construcción de la red

### 2.6.3 - Entrenamiento

### 2.6.4 - Inferencia

## 2.7 - Optimización de parámetros

### 2.7.1 - Preparación de datos

### 2.7.2 - Definición de hiperparámetros

### 2.7.3 - Definición del proceso de búsqueda

### 2.7.4 - Ejecución del proceso de búsqueda

### 2.7.5 - Selección del la configuración final