# Medidas de rendimiento

## Tipos de problemas de aprendizaje automático

Antes de poder definir las medidas de rendimiento de los modelos de Aprendizaje Automático realizaremos una división de los tipos de problemas que pueden resolver:

**Regresión**

En los problemas de regresión el objetivo es aproximar una función continua, es decir, el valor de salida deseada es un valor contínuo. Por ejemplo, si queremos predecir el precio de un producto. 

**Clasificación**

En este caso, el valor de salida deseada es una etiqueta o clase. El ejemplo de predicción de género sería un problema de clasificación ya que la salida deseada sería “hombre” o “mujer”.

Dependiendo del tipo de problema, las medidas de rendimiento son diferentes.

## Medidas de rendimiento de problemas de regresión

Las medidas de rendimiento de los problemas de regresión simplemente se basan la diferencia numérica entre el valor de predicción y el valor real. Las más comunes en los problemas de regresión son el **error cuadrático** y el **error absoluto**, y sus distintas modificaciones.

### Errores cuadráticos

El **error cuadrático (Squared Error)** de un valor predicho con respecto al valor real, se calcula cómo:

$$ SE = \sum_j\left[f(X_{j}) - y_j\right]^2$$


**Error cuadrático medio (Mean Squared Error)** Da una idea del error de nuestras predicciones dando más peso a los errores grandes.

$$ MSE = \frac{1}{m}\sum_j^m \left[f(X_{j \cdot}) - y_j\right]^2 $$

**Raiz del error cuadrático medio (Root Mean Square Error)** La raíz cuadrada del MSE produce el error de la raíz cuadrada de la media o la desviación de la raíz cuadrada media (RMSE o RMSD). Tiene las mismas unidades que la cantidad que estima. Para un estimador sin sesgo (bies), el RMSE es la raíz cuadrada de la varianza, es decir la desviación estandar.

$$ RMSE = \sqrt{\frac{1}{m}\sum_j^m \left[f(X_{j \cdot}) - y_j\right]^2} $$

A pesar de ser una de las métricas más utilizadas, tiene el inconveniente de ser sensible a los valores extremos (outliers). Cuando este comportamiento pueda suponer un problema, los **errores absolutos** pueden darnos una mejor medida de rendimiento.

### Errores absolutos

El **error absoluto** (Absolute Error) se define cómo:

$$ AE = \sum_j \left|f(X_{j \cdot}) - y_j\right| $$

**Error absoluto medio (Mean Absolute Error)** Es más robusto a los valores extremos y su interpretabilidad es más alta que la del RMSE ya que también está en las unidades de la variable a predecir con la ventaja de que el dato no ha sufrido ninguna transformación.

$$ MAE = \frac{1}{m} \sum_j^m \left|f(X_{j \cdot}) - y_j\right| $$

**Error absoluto medio porcentual (Mean Average Percentage Error)**
A pesar de su simpleza, presenta varios inconvenientes a la hora de usarlo de forma práctica. Por ejemplo, no puede usarse cuando el valor de referencia es 0. Además, si se usa para elegir métodos predictivos seleccionará de forma sistemática un metodo que prediga valores bajos.
[wiki](https://en.wikipedia.org/wiki/Mean_absolute_percentage_error)

$$ MAPE = \frac{1}{m} \sum_j^m \left|\frac{f(X_{j \cdot}) - y_j}{y_j}\right| $$


### A considerar...

Cómo hemos comentado, las métricas expuestas anteriormente pueden considerarse como distancias entre el vector de valores reales y el predicho. De hecho, el RMSE corresponde a la **distancia euclidiana**, también conocida como norma $l_2$ o $\lVert{v}\rVert_2$.
Por otro lado, el MAE corresponde a la norma $l_1$ o $\lVert{v}\rVert_1$. A esta distancia se la conoce como **distancia de manhattan**, porque sólo se puede viajar de un bloque a otro de la ciudad a traves de calles ortogonales.

De forma general, una norma $l_k$ o $\lVert{v}\rVert_k$ se calcula:

$$\lVert{v}\rVert_k = \left(|v_0|^k + ...+ |v_m|^k \right)^\frac{1}{k}$$

## Medidas de rendimiento para problemas de clasificación

Cuando hablamos de problemas de clasificación, existe una gran variedad de métricas que nos permiten determinar cómo de bueno es nuestro clasificador.

### Tipos de error de clasificacion

En el caso de los problemas de clasificación la medida de rendimiento es más compleja por que podemos tener 4 casos distintos.

**Verdadero Positivo (TP)**: Un acierto, el valor de predicción es igual al valor real.  

**Verdadero Negativo (TN)**: Un acierto, el valor de predicción es igual al valor real, la diferencia entre los dos tipos de verdadero es la pregunta que queremos resolver. Por ejemplo, si queremos encontrar mujeres en nuestro problema de reconocimiento de género, un verdadero positivo sería que una mujer es reconocida como mujer, y un verdadero negativo, sería un hombre reconocido como hombre.

**Falso Positivo (FP)**: Una “falsa alarma”, es decir, un error donde un valor de predicción no es el valor real. En el problema de género sería reconocer como mujer a un hombre.

**Falso Negativo (FN)**: Un “error”, es decir, un error donde un valor real no es reconocido. En el problema de género sería no reconocer a una mujer (o reconocer una mujer como hombre).


### Matriz de confusión

Antes de empezar, consideremos el caso básico de una clasificación binaria en el que intentamos predecir una clase. Imagina que hemos entrenado un modelo y realizado una serie de predicciones. Es fácil entonces crear una tabla que contenga la siguiente información.

|                      | Predicción: Perro                | Predicción: Gato                 |
|--------------------- |:---------------------------------:|:---------------------------------:|
| **Observación Perro** |<span style='color:green'>25</span>|<span style='color:red'>3</span>   |
| **Observación Gato**  |<span style='color:red'>9</span>   |<span style='color:green'>19</span>|

Esta tabla se conoce cómo matriz de confusión (en ingles, confusion matrix) y es facilmente extendible a problemas de clasificación de varias categorías.

Lo que nos dice esta matriz de forma simplificada es:

1. En total tenemos 25+3+9+19 = 56 muestras sobre las que hemos realizado predicciones
1. De las 56, 25 + 9 = 34 pertenecen a la clase *perro* y 3+19 = 21 pertenecen a la clase *gato*
1. De los 34 *perros*, hemos predicho bien la categoría en 25 casos y mal en 9.
1. De los 21 *gatos*, hemos predicho bien la categoría gato en 19 casos y mal en 3



|                         | Prediction Positive     | Prediction Negative    |
|-------------------------|:------------------------:|:-----------------------:|
| **Observation Positive** |     True Positive        | False Positive (Type I) |
| **Observation Negative** | False Negative (Type II) |     True Negative       |


A partir de esta matriz, se construyen la mayoría de métricas asociadas con los problemas de clasificación.

### Métricas según clase predicha

![medidas-clasificacion](img/ch1-metricas-clasificacion.png)

**Accuracy**

De forma general, ¿cuantas veces predigo la clase correcta? La más común y muchas veces, la más susceptible a darnos un clasificador erroneo, sobre todo en sets de datos no balanceados.

$$Accuracy = \frac{TP+TN}{total} = \frac{25+19}{56} \sim 0.786$$

**Error Rate**

De similar modo, ¿Cuántas veces me equivoco?

$$ Error Rate = 1 - Accuracy = \frac{FP+FN}{total} = \frac{9+3}{56} \sim 0.214 $$

**Recall (sensitivity)**

Cuando es *perro*, ¿cuantas veces predecimos *perro*?

$$ Recall = \frac{TP}{actual Trues} = \frac{TP}{TP + FN} = \frac{25}{25 + 9} \sim 0.735 $$

**Specificity**

Cuando es *gato*, ¿cuántas veces predecimos *gato*?

$$ Specificity = \frac{TN}{actual Falses} = \frac{TN}{TN + FP} = \frac{21}{19 + 9} \sim 0.75 $$

**Precision**

Cuando predecimos *perro*, cuantas veces es correcto?

$$ Precision = \frac{TP}{predicted Trues} = \frac{TP}{TP + FP} = \frac{25}{25 + 3} \sim 0.892 $$

**F1-score**

A menudo es conveniente **combinar la precision y el recall en una sola métrica** para comparar de forma sencilla dos clasificadores. En vez de calcular una media de la precisión y el recall, se calcula su **media harmónica**. De esta forma se da más peso a los valores bajos por lo que sólo se conseguirá un F1-score alto si ambas, Precision y Recall, son altas.

$$F_1= \frac{1}{\frac{1}{precision} + \frac{1}{recall}} = 2 \times \frac{precision \times recall}{precision + recall} = \frac{TP}{TP + \frac{FN + FP}{2}} $$