### Métricas de evaluación para un modelo de clasificación

Las métricas de evaluación se utilizan para evaluar el desempeño de un modelo clasificatorio sobre un conjunto de datos de prueba. Al tratarse de modelos de clasificación es indispensable contar con al menos una variable independiente de tipo categórico dentro del conjunto de datos (algoritmos supervisados), dicha variable fungirá como una etiqueta que nos permitirá construir el modelo a partir del conjunto de entrenamiento (calibrar pesos) y además conocer la clasificación verdadera de los datos del conjunto de prueba para así poder calcular dichas métricas de evaluación.

#### Matriz de confusión

Estas métricas se derivan de un arreglo tabular conocido como matriz de confusión. Dado un conjunto de datos y considerando una variable categórica de referencia con K posibles clases, niveles o categorías, definimos a la matriz de confusión como el arreglo tabular de K x K donde se contabiliza a las observaciones del conjunto de prueba haciendo referencia  en las columnas a la clasificación real de las mismas y en las filas a la clasificación predicha para éstas. 

Ej. Supongamos que deseamos conocer las métricas de evaluación para la prueba rápida de detección del Coronavirus-2019, dicha prueba de detección puede pensarse como un modelo clasificatorio que determina de manera rápida si la persona está enferma o no. Sin embargo, la única manera confiable de detectar al virus es mediante otro tipo de técnicas que toman más tiempo, a las cuales denominaremos como prueba lenta. Por lo tanto dada una población de N individuos que pueden caer en una de dos categorías (Infectado, Sano), tenemos la siguiente matriz de confusión hipotética:

Prueba rápida\Prueba lenta | Infectado | Sano
--- | --- | ---
**Infectado** | n_11 | n_12
**Sano** | n_21 | n_22

En general tenemos entonces que el diseño de cualquier matriz de confusión debería de ser el siguiente:

Predicción\Realidad | Categoría_1 | Categoría_2 | ... | Categoría K
--- | --- | --- | --- | ---
Categoria_1 | n_11 | n_12 | ... | n_1K
Categoria_2 | n_21 | n_22 | ... | n_2K
... | ... | ... | ... | ...
Categoria_K | n_K1 | n_K2 | ... | n_KK

<br></br>
Donde se cumple que:
<br></br>
<div align="center">$N = \sum_{i=1}^{k}\sum_{j=1}^{k} n_{ij}$</div>
<br></br>
y cada $n_{ij}$ representa el conteo de las observaciones que cayeron en la categoría $i$ y en la categoría $j$.

#### Métricas de evaluación

Dada la matriz de confusión podemos definir las siguientes métricas de evaluación considerando diversos cálculos posibles. Entraremos a detalle a discutir cada una de estas métricas sin embargo, es importante saber que muchas de las palabras que solemos utilzar indistintamente como "precission" y "accuracy" en realidad no son sinónimos, de igual manera las palabras "sensitivity" (sensibilidad) y "specificity" (especificidad) cobran un sentido diferente al tener una definicón matemática concreta.

La siguiente imagen fue tomada de https://en.wikipedia.org/wiki/Sensitivity_and_specificity , y nos permite conocer todas las métricas posibles que pueden derivarse de una matriz de confusión para una variable categórica con dos niveles o categorías, es decir para una variable binaria, booleana o de tipo Bernoulli, pero recordemos que todas estas métricas pueden redefinirse para variables con K niveles o categorías.

<br></br>
![confussion_matrix.png](attachment:confussion_matrix.png)
<br></br>

#### Ejercicio

El VIH o virus de inmuno deficiencia humana es un virus que puede promover la aparición de un padecimiento conocido como SIDA. Su origen ha sido rastreado a África Central y se cree que migró desde los chimpancés (VIH TIPO 1) o desde los monos mangabey grises (VIH tipo 2), los cuales suelen ser presas de los primeros. Dicho virus se ha propagado globalmente, por lo que califica como pandemia y actualmente existen diversos tipos de pruebas para su detección. La prueba más común se conoce como ELISA, y busca detectar la presencia de los anticuerpos que un individuo infectado con VIH típicamente comienza a generar después de un periodo de ventana que varía entre 1.5 y 3 meses para las pruebas de 4a generación. El periodo de ventana se define como el intervalo temporal que transcurre entre que un individuo se ve expuesto al VIH, se contagia y comienza a generar anticuerpos en una cantidad detectable por la prueba ELISA. Si una de estas pruebas sale Positiva, es decir, el individuo presenta la condición, se realiza una segunda prueba confirmatoria conocida como WesternBlot que implica detectar directamente al virus y no a los anticuerpos generados por el sistema inmune de un individuo en presencia de éste.

Una persona mexicana se ve envuelta en una situación de riesgo dentro de su país y decide practicarse la prueba del VIH.

Investiga:
1. ¿Cuál es la prevalencia del VIH en México?
2. ¿Cuál es la sensibilidad de las pruebas ELISA de 4a generación?
3. ¿Cuál es la especificidad de las pruebas ELISA de 4a generación?

Calcula:
4. ¿Si el individuo va a realizarse una prueba y la prueba da positivo, cuál es la probabilidad de que el individuo presente la enfermedad dados los datos anteriores?

**HINT: La pregunta 4 puede plantearse como una probabilidad condicional, y más aún, la Sensibilidad y la Especificidad también se pueden plantear como probabilidades condicionales, usando el teorema de Bayes intenta llegar a una fórmula que te permita calcular la probabilidad requerida en la pregunta 4.**

#### Respuesta

1. En 2016 se estimó la prevalencia de VIH en México en la población enre 15 y 49 años en 0.3%. Sin embargo, dicha prevalencia se encuentra concentrada en los grupos de riesgo: hombres que tienen sexo con hombres, usuarios de drogas intravenosas y trabajadores sexuales. Fuente: https://en.wikipedia.org/wiki/HIV/AIDS_in_Mexico

2. De acuerdo con: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC88179/ , la Sensibilidad de una ELISA de 4a generación es del 99.5%

3. De acuerdo con: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC88179/ , la Especificidad de una ELISA de 4a generación es del 99.7%

4. Utilizando el teorema de Bayes, esta pregunta puede plantearse de la siguiente manera:

Consideremos la siguiente notación:
<br></br>
* $E$: El individuo realmente tiene VIH.
* $E^c$: El individuo realmente NO tiene VIH.
* $P$: La prueba ELISA da Positiva al realizarse, sugiriendo que el individuo tiene VIH.
* $P^c$: La prueba ELISA da Negativa al realizarse, sugiriendo que el individuo NO tiene VIH.
<br></br>
<div align="center">$P(E|P) = \frac {P(E\cap P)}{P(P)} = {{P(P | E) P(E)} \over { P(P\cap E^c) + P(P\cap E)}} = {{P(P | E) P(E)} \over { P(P | E^c) P(E^c) + P(P | E) P(E)}}~~~~~(1)$</div>
<br></br>
Ahora bien, consideremos que la sensibilidad se define como el número de individuos diagnosticados Positivo que en realidad presentaban la condición
<br></br>
<div align="center">$ Sensibilidad = P(P | E) = 0.995$</div>
<br></br>
mientras que la especificidad se definiría como el número de individuos diagnosticados Negativo
<br></br>
<div align="center">$ Especificidad = P(P^c | E^c) = 0.997$</div>
<br></br>
si y sólo si
<br></br>
<div align="center">$ P(P | E^c) = 1 - Especificidad = 1 - P(P^c | E^c) = 0.003$</div>
<br></br>
por otra parte, la prevalencia de la enfermedad en el país es:
<br></br>
<div align="center">$ Prevalencia = P(E) = 0.003$</div>
<br></br>
por lo que
<br></br>
<div align="center">$ P(E^c) = 1 - P(E) = 0.997$</div>
<br></br>
con estas tres cantidades podemos sustituir en $(1)$:
<br></br>
<div align="center">$P(E|P) = {{(0.995)(0.003)} \over { (0.003)(0.997) + (0.995)(0.003)}} = 0.499498~~~~~(2)$</div>
<br></br>
por lo tanto podemos concluir que la probabilidad de que un mexicano cualquiera esté enfermo dado que vivió una situación de riesgo y su prueba salió positiva es casi de 0.5, lo cual sugiere que se requiere de más evidencia para concluir que verdaderamente tiene VIH. Este es un fenómeno que variará de país a país en función de la prevalencia de la enfermedad en cada territorio, por ejemplo, si en lugar de considerar a una persona en México consideramos a una persona en algún país de África Oriental o África Central como Swazilandia, cuya prevalencia de VIH para 2014 ronda el 27.73% ( https://en.wikipedia.org/wiki/Epidemiology_of_HIV/AIDS ) tendríamos un cálculo bastante diferente:
<br></br>
<div align="center">$P(E|P) = {{(0.995)(0.2773)} \over { (0.003)(0.7227) + (0.995)(0.2773)}} = 0.9922034~~~~~(2)$</div>
<br></br>
es importante notar que un detalle importante para poder calcular lo anterior radica en condicionar tanto especificidad como sensibilidad respecto a la prevalencia poblacional, la cual es un dato que casi siempre podremos conocer.