# 2 - Clasificación

**Sumario**

1. Introducción
2. Funciones de pérdida
3. Métricas
4. Clasificación binaria
5. Clasificación multiclase
6. Clasificación multietiqueta
7. Optimización de hiperparámetros

## 2.1 - Introducción

En tareas de clasificación, nuestro objetivo es construir un modelo capaz de **predecir correctamente una o varias etiquetas para cada uno de las instancias de entrada**. 

En la siguiente figura se presenta uno de los problemas más comunes de clasificación: se quiere construir un modelo capaz de clasificar un conjunto de *emails* cuya clase está formada por dos etiquetas: 
1. correo válido
2. correo spam

El tipo de comportamiento del modelo vendrá definido por la estructura de la clase mediante la que están definidos los diferentes ejemplos. En función del tipo de clase que hayamos definido, podemos diferenciar tres tipos de modelos:
* **Clasificación binaria** (una etiqueta, dos clases).
* **Clasificación multiclase** (una etiqueta, múltiples clases).
* **Clasificación multietiqueta** (múltiples etiquetas, dos clases).

## 2.2 - Funciones de pérdida (*loss*)

A la hora de efectuar un proceso de clasficación, podemos aplicar diferentes funciones de pérdida dependiendo del tipo de salida que queramos obtener. Asi pues:
* **Clasificación binaria**
    * Binary crossentropy loss
* **Clasificación multiclase**
    * Multiclass crossentropy loss
    * Sparse multiclass crossentropy loss
* **Clasificación multietiqueta**
    * Binary crossentropy loss

### 2.2.1 - Binary crossentropy

La **entropía cruzada binaria** (binary crossentropy) es un tipo de función de pérdida utilizada para la construcción de modelos de **clasificación binaria**. Se calcula mediante la siguiente fórmula:

$$
f(y_{i}, \hat{y}_{i}) = -\frac{1}{n} \sum_{i=1}^{n} y_{i} \log(\hat{y}_{i}) + (1 - y_{i}) \log(1 - \hat{y}_{i})
$$

donde
* $n$ es el número de instancias de entrenamiento utilizadas para calcular el valor de pérdida.
* $y_{i}$ es el valor de salida esperado
* $\hat{y}_{i}$ es el valor de salida real

Para poder utilizar este tipo de función de pérdida es necesario recurrir a la **función sigmoidea como función de activación de la última capa de la red**, ya que es la única compatible con esta función de pérdida. Esto se debe a que la función de pérdida debe calcular el logaritmo de $y_{i}$, que solo existe cuando el valor de $\hat{y}_{i}$ se sitúa entre $0$
y $1$.

<img src="images_2/binary_crossentropy.png" width="700" data-align="center">

**Nota:** La función softmax (con 2 valores) también valdría en este caso ya que al fin y al cabo **la función sigmoidea no es más que una versión binaria de la función softmax**.

**Extra:** [**Derivación de la función de pérdida para su aplicación con el descenso por gradiente**](https://www.python-unleashed.com/post/derivation-of-the-binary-cross-entropy-loss-gradient)

### 2.2.2 - Multiclass crossentropy

La **entropía cruzada multiclase o categórica**  (multiclass crossentropy or categorical crossentropy) es un tipo de función de pérdida utilizada para la construcción de modelos de **clasificación multiclase**. Se calcula mediante la siguiente fórmula:

$$
f(y_{i}, \hat{y}_{i}) = - \sum_{i}^{n} y_{i} \log \hat{y}_{i}
$$

donde
* $n$ es el número de instancias de entrenamiento utilizadas para calcular el valor de pérdida.
* $y_{i}$ es el valor de salida esperado
* $\hat{y}_{i}$ es el valor de salida real

Para poder utilizar este tipo de función de pérdida, se recomienda usar la **función softmax como función de activación de la última capa de la red**, pues esta solo **necesita que la salida del modelo sea positiva** (por el logaritmo). Por tanto, la función softmax se adapta perfectamente, ya que efectúa una reescalada de la salida, de manera que todos los valores son expresados entre $0$ y $1$.

<img src="images_2/multiclass_crossentropy.png" width="700" data-align="center">

**Extra:** [**Derivación de la función de multiclass crossentropy loss para su aplicación con el descenso por gradiente**](https://towardsdatascience.com/derivative-of-the-softmax-function-and-the-categorical-cross-entropy-loss-ffceefc081d1)

### 2.2.3 - Sparse multiclass crossentropy

La **entropía cruzada multiclase dispersa** (sparse multiclass crossentropy) es un tipo de función de pérdida utilizada para la construcción de modelos de **clasificación multiclase cuando el número de clases es muy elevado**. 

Existen situaciones donde el número posible de clases es muy grande,. or ejemplo, si tenemos que clasificar marcas a partir de una descripción de producto (hay millones de marcas en el mundo). Esta función de pérdida **realiza el mismo cálculo que la función de entropía cruzada multiclase**, pero **sin necesidad de que el vector de entrada sea una codificación de tipo one-hot**. Por tanto, se calcula mediante la siguiente fórmula:

$$
f(y_{i}, \hat{y}_{i}) = - \sum_{i}^{n} y_{i} \log \hat{y}_{i}
$$


<img src="images_2/sparse_multiclass_crossentropy.png" width="700" data-align="center">

### 2.3 - Métricas