# Investigación 2

## Tareas previas

### Selección de conjunto de datos

Para esta investigación se empleará el conjunto de datos obtenido en la investigación 1 tras procesar el juego de datos original. La investigación 1 se puede consultar en https://github.com/eliecer9000/investigacion-1-reconocimiento-patrones. Se procedió a exportar el conjunto de datos resultante por medio del método del marco de datos 'to_csv'.

### Métricas de evaluación

Estudiaremos algunas métricas empleadas para evaluar el desempeño de los algoritmos empleados para clasificación y regresión.

#### Clasificación

Antes de iniciar con las métricas más comunes es necesario describir brevemente un concepto muy empleado: la matriz de confusión.

##### Matriz de confusión

Esta matriz provee una manera de contrastar los resultados que predice el modelo contra los resultados de referencia.

<img src="./conf_matrix.png" width=40%, height=40%>
<h5><center>Figura 1. Matriz de confusión</h5></center>

La figura 1 presenta un ejemplo de esta matriz. Nótese que el título general de las columnas es "Referencia", mientras que el título general de las filas es "Predicción".
Dentro de la matriz de confusión se presentan cuatro conceptos clave, éstos son: falso positivo, falso negativo, verdadero positivo y verdadero negativo.

###### Falso positivo (FP)

Corresponde a la cantidad de predicciones que el modelo de clasificación categorizó como positivo ("Sí" en el caso de la figura 1) y según los valores de referencia, no lo era. En el caso de la figura 1, esto corresponde con 60 instancias.

###### Falso negativo (FN)

Corresponde a la cantidad de predicciones que el modelo de clasificación categorizó como negativo ("No" en el caso de la figura 1) y según los valores de referencia, no lo era. En el caso de la figura 1, esto corresponde con 40 instancias.

###### Verdadero positivo (TP)

Corresponde a la cantidad de predicciones que el modelo de clasificación categorizó como positivo (sí en el caso de la figura 1) y según los valores de referencia, están clasificados de esta manera. En el caso de la figura 1, esto corresponde con 460 instancias.

###### Verdadero negativo (TN)

Corresponde a la cantidad de predicciones que el modelo de clasificación categorizó como negativo (no en el caso de la figura 1) y según los valores de referencia, están clasificados de esta manera. En el caso de la figura 1, esto corresponde con 440 instancias.

##### Exactitud (accuracy)

Esta métrica se obtiene al sumar la cantidad de predicciones correctas del modelo y dividirlo por la cantidad de instancias.

$$
Exactitud = \frac{TP + TN}{n} * 100\%
$$


Por ejemplo: Tomando la matriz de confusión de la figura 1, se tiene que:

$$
Exactitud = \frac{440 + 460}{1000} * 100\% = 90\%
$$

##### Precisión (precision)

Existen casos en los que la exactitud no muestra correctamente el desempeño del modelo de clasificación. Esto se da cuando las instancias no se encuentran balanceadas según las clases. Por ejemplo, si se tiene un conjutno de datos para clasificar si una imagen corresponde con un gato o no, y se tienen 900 imágenes que son gatos y 100 que no lo son. Si el modelo predijese que todas las instancias son gatos, se tendría una exactitud del $90\%.$
Esto no tiene mucho sentido pues el modelo no está mostrando un comportamiento correcto al detectar las imágenes que no corresponden a gatos, aunque parece que lo está haciendo bien.

La precisión considera la proporción de la predicción verdadera (positiva o negativa) respecto a la suma de los verdaderos y falsos (positivos o negativos según corresponda). Es decir:

$$
Precisión = \frac{Verdadero}{Verdadero + Falso} * 100\%
$$

Al emplear esta métrica con los datos de la Figura 1 asumiendo que describen la clasificación binaria de gatos y no gatos, se tiene que:

$$
Precisión_{gatos} = \frac{460}{460 + 60} * 100\% = 88.46\%
$$

$$
Precisión_{no-gatos} = \frac{440}{40 + 440} * 100\% = 91.67\%
$$

##### Sensibilidad (recall)

Es la proporción de los verdaderos positivos respecto a todos los positivos en el conjunto de datos.

$$
Sensibilidad = \frac{TP}{TP + FN} * 100\%
$$

Al usar los datos de la figura 1, asumiendo que esta describe la clasificación binaria de gatos y no gatos en el conjunto de datos:

$$
Sensibilidad_{gatos} = \frac{460}{460 + 40} * 100\% = 92\%
$$

##### Especificidad

Si se calcula la misma razón, pero para los casos negativos, se denomina especificidad.

$$
Especificidad = \frac{TN}{TN + FP} * 100\%
$$

Al usar los datos de la figura 1, asumiendo que esta describe la clasificación binaria de gatos y no gatos en el conjunto de datos:

$$
Especifidad_{no-gatos} = \frac{440}{440 + 60} * 100\% = 88\%
$$

##### Puntuación F1 (F1 score)

Es posible que se desee dar prioridad a la precisión sobre la sensibilidad. Sin embargo, la puntuación F1 considera ambas métricas.
Esta se describe matemáticamente como:

$$
F_1 = \frac {2 * Precision * Sensibilidad}{Precision + Sensibilidad}
$$

Por lo que empleando los datos de la figura 1, tenemos:

$$
F_1 = \frac {2 * 88.46 * 92}{88.46 + 92} = 90.2\%
$$

#### Regresión

En el caso que el modelo se esté empleando para obtener una proyección de un valor contínuo, estamos hablando de modelos de regresión. Estos modelos se pueden evaluar con métricas como el error cuadrático medio y el error absoluto promedio.

##### Error cuadrático medio (MSE)

Este error se obtiene al calcular el cuadrado de la diferencia entre el valor esperado y el valor obtenido del modelo. Finalmente, se pondera dividiéndolo entre la cantidad de instancias.

$$
MSE = \frac{1}{n} \sum_{i=0}^n(y_i - \tilde{y_i})^2
$$

Así, por ejemplo, si nuestro modelo predice los datos $[15150, 300, 7542, 9584]$ y los datos esperados son $[15100, 302, 7535, 9575]$

El MSE viene dado por:
$$
MSE = \frac{1}{4} * \left((15150-15100)^2 + (300-302)^2 + (7542-7535)^2 + (9584-9575)^2\right)
$$

$$
MSE = 658.5
$$

##### Error absoluto medio (MAE)

Este error se obtiene al calcular el valor absoluto de la diferencia entre el valor esperado y el valor obtenido del modelo. Finalmente, se pondera dividiéndolo entre la cantidad de instancias.

$$
MAE = \frac{1}{n} \sum_{i=0}^n|y_i - \tilde{y_i}|
$$

Así, por ejemplo, si nuestro modelo predice los datos $[15150, 300, 7542, 9584]$ y los datos esperados son $[15100, 302, 7535, 9575]$

El MAE viene dado por:
$$
MAE = \frac{1}{4} * \left( |15150-15100| + |300-302| + |7542-7535| + |9584-9575| \right)
$$

$$
MAE = 17
$$

### Validación cruzada



## Referencias

1) https://towardsdatascience.com/metrics-to-evaluate-your-machine-learning-algorithm-f10ba6e38234
2) https://towardsdatascience.com/20-popular-machine-learning-metrics-part-1-classification-regression-evaluation-metrics-1ca3e282a2ce
3) https://www.tutorialspoint.com/machine_learning_with_python/machine_learning_algorithms_performance_metrics.htm
4) https://iopscience.iop.org/article/10.1088/1757-899X/263/4/042087/pdf