Teorema de Bayes y métricas de error en clasificadores ---
===

* 0:00 min | Ultima modificación: Octubre 15, 2021 | [YouTube]

Matriz de confusión
---

La matriz de confusión es una matriz que permite visualizar el desempeño de un clasificador. La organización típica es la presentada a continuación:

             | Pronóstico
             |  PP    PN
    ---------|------------
          P  |  TP    FN 
    Real     |
          N  |  FP    TN                        
    
    
     P - Positive                 TP - Verdadero positivo (correcto)
     N - Negative                 TN - Verdadero negativo (correcto)
    PP - Predicted Positive       FN - Falso negativo (mal clasificado)
    PN - Predicted Negative       FP - Falso positivo (mal clasificado)    

Considere la siguiente notación para los casos presentados:

* $+$ y $-$ son los eventos de que el pronóstico sea positivo o negativo respectivamente.

* $D$ y $D^c$ son los eventos reales positivos o negativos respectivamente.

Métricas derivadas de la matriz de confusión
---

**Sensitivity/recall/hit rate/true positive rate**: Es la probabilidad de que el pronóstico sea positivo dado que el valor real es positivo:

$$
\text{Pr}(+ \; | \; D) = \frac{\text{TP}}{\text{P}}  = \frac{\text{TP}}{\text{TP}+\text{FN}}
$$

**Specificity/selectivity/true negative rate** Es la probabilidad de que el pronóstico sea negativo dada que el valor real es negativo:

$$
\text{Pr}(- \; | \; D^c) = \frac{\text{TN}}{\text{N}}  = \frac{\text{TN}}{\text{FP}+\text{TN}}
$$

**Positive predictive value**: Es la probabilidad de que el valor real sea positivo dado que el pronóstico es positivo:

$$
\text{Pr}(D \; | \; +) = \frac{\text{TP}}{\text{PP}}  = \frac{\text{TP}}{\text{TP}+\text{FP}}
$$

**Negative predictive value**: Es la probabilidad de que el valor real sea negativo cuando el pronóstico es negativo:

$$
\text{Pr}(D^c \; | \; -) = \frac{\text{TN}}{\text{PN}}  = \frac{\text{TN}}{\text{FN}+\text{TN}}
$$

**Prevalencia** Es la probabilidad de $P$.

Radios de verosimilitud y su interpretación
---

**Radio de verosimilitud de un resultado positivo**

$$
\text{DLR}_+ = 
\frac{\text{Pr}(+ \; | \; D)}
{\text{Pr}(+ \; | \; D^c)} = 
\frac{\text{sensitivity}}{1 - \text{especifity}}
$$

Cuantas veces es más probable que se pronostique + si efectivamente es D respecto a no D.

**Radio de verosimilitud de un resultado negativo**

$$
\text{DLR}_- = 
\frac{\text{Pr}(- \; | \; D)}
{\text{Pr}(- \; | \; D^c)} = 
\frac{1 - \text{sensitivity}}{\text{especifity}}
$$

Se interpreta como la relación entre probabilidades.

Valores esperados ---
===

* 0:00 min | Ultima modificación: Octubre 15, 2021 | [YouTube]

Media poblacional para variables discretas
----

$$
\text{E}[X] = \sum_x x \cdot p(x)
$$

Media muestral
---

$$
\bar{X} = \sum_i^n = x_i \cdot p(x_i)
$$

con $p(x_i)=1/n$.

Calculo de la media para la tirada de una moneda

Experimentos de simulación
----

In [6]:
import numpy as np
import seaborn as sns

n_samples = 500
#
# Simulación de un gran número de normales
#
normal_sample = np.random.normal(size=n_samples)

#
# Simulación de el promedio de 10 normales u su histograma
#
sample_size = 10
means_sample = np.mean(np.random.normal(size=(n_samples, sample_size)), axis=1)

Object `sns.kde` not found.


Object `sns.kde` not found.


**Promedio de la tirada de datos**

In [None]:
#
# Gráfica de la frecuencia de cada tirada de datos