# Curvas ROC

Sea un problema de clasificación en una clase positiva ($1$) y otra negativa ($-1$ o $0$). Sea una regla de decisión dependiente de un umbral $\tau\in[0,1]$:
$$\hat{y}_{\tau}(\boldsymbol{x})=\mathbb{I}(p(y=1\mid\boldsymbol{x})\geq 1-\tau)$$
Según la teoria de la decisión Bayesiana, la minimización del riesgo esperado conduce a la elección de un valor para $\tau$; por ejemplo, $\tau=0.5$ con pérdida 01. Ahora bien, si variamos $\tau$ de $0$ a $1$, podemos estudiar el comportamiento del riesgo con más detalle. Por ejemplo, si $\tau=0$ (quizás $-\epsilon$), nunca clasificamos en la clase positiva, por lo que siempre fallamos con positivos y acertamos con negativos. Por el contrario, si $\tau=1$, siempre clasificamos en la clase positiva, por lo que siempre acertamos con positivos y fallamos con negativos. Aparte del $\tau$ de mínimo riesgo o de estos valores extremos, podemos encontrar valores de $\tau$ que resulten interesantes en la tarea considerada. Un buen ejemplo para tener en mente en este contexto consiste en asumir que $\boldsymbol{x}$ es el resultado de una prueba médica a partir de la cual se quiere confirmar o no un diagnóstico dado.

## Matrices de confusión

Llamamos **matriz de confusión (de clase)** a la matriz $M$ $2\times 2$ en la que $M_{ij}$ es el número de veces que una muestra de la clase $i$ se "confunde" como perteneciente a la clase $j$; obviamente, si $i=j$ no se trata de confusión, sino de acierto, mientras que, si $i\neq j$, sí se trata de una confusión o error de clasificación. Cada elemento de la matriz recibe un nombre específico:
<div align="center">

|           |                  $\hat{0}$ |                  $\hat{1}$ |             Suma fila |
|:---------:|:--------------------------:|:--------------------------:|:---------------------:|
|         0 | $\operatorname{TN}_{\tau}$ | $\operatorname{FP}_{\tau}$ |                   $N$ |
|         1 | $\operatorname{FN}_{\tau}$ | $\operatorname{TP}_{\tau}$ |                   $P$ |
| **Suma:** |                  $\hat{N}$ |                  $\hat{P}$ | $\hat{N}+\hat{P}=N+P$ |

</div>

* $\operatorname{TN}_{\tau}$ es el número de **true negatives**
* $\operatorname{FP}_{\tau}$ es el número de **false positives**
* $\operatorname{FN}_{\tau}$ es el número de **false negatives**
* $\operatorname{TP}_{\tau}$ es el número de **true positives**
* $P$ y $\hat{P}$ son los números verdadero y predicho de positivos
* $N$ y $\hat{N}$ son los números verdadero y predicho de negativos

La **matriz de confusión normalizada por filas** produce (una estimación empírica de) $p(\hat{y}\mid y)$:
<div align="center">

|              |                   $\hat{0}$ |                   $\hat{1}$ |             Suma fila |
|:------------:|:---------------------------:|:---------------------------:|:---------------------:|
|            0 | $\operatorname{TNR}_{\tau}$ | $\operatorname{FPR}_{\tau}$ |                 $1.0$ |
|            1 | $\operatorname{FNR}_{\tau}$ | $\operatorname{TPR}_{\tau}$ |                 $1.0$ |

</div>

* $\operatorname{TNR}_{\tau}=\operatorname{TN}_{\tau}/N$ es el **true negative (rate)** o **specificity**
* $\operatorname{FPR}_{\tau}=\operatorname{FP}_{\tau}/N$ es el **false positive (rate), false alarm, type I error** o **fallout**
* $\operatorname{FNR}_{\tau}=\operatorname{FN}_{\tau}/P$ es el **false negative (rate), miss** o **type II error**
* $\operatorname{TPR}_{\tau}=\operatorname{TP}_{\tau}/P$ es el **true positive (rate), hit, recall** o **sensitivity**

La **matriz de confusión normalizada por columnas** produce (una estimación empírica de) $p(y\mid \hat{y})$:
<div align="center">

|           |                   $\hat{0}$ |                   $\hat{1}$ |
|:---------:|:---------------------------:|:---------------------------:|
|         0 | $\operatorname{NPV}_{\tau}$ | $\operatorname{FDR}_{\tau}$ |
|         1 | $\operatorname{FOR}_{\tau}$ | $\operatorname{PPV}_{\tau}$ |
| **Suma:** |                       $1.0$ |                       $1.0$ |

</div>

* $\operatorname{NPV}_{\tau}=\operatorname{TN}_{\tau}/\hat{N}$ es el **negative predictive value**
* $\operatorname{FOR}_{\tau}=\operatorname{FN}_{\tau}/\hat{N}$ es el **false omission rate**
* $\operatorname{FDR}_{\tau}=\operatorname{FP}_{\tau}/\hat{P}$ es el **false discovery rate**
* $\operatorname{PPV}_{\tau}=\operatorname{TP}_{\tau}/\hat{P}$ es el **positive predictive value** o **precision**

Las matrices de confusión no se limitan a problemas de clasificación binaria y, de hecho, su uso en problemas de clasificación multi-clase es habitual. Si tenemos $C$ clases, $\mathcal{Y}=\{1,2,\dotsc,C\}$, llamamos **matriz de confusión (multi-clase)** a la matriz $M$ $C\times C$ en la que $M_{ij}$ es el número de veces que una muestra de la clase $i$ se "confunde" como perteneciente a la clase $j$; al igual que en el caso binario, los elementos de la diagonal son aciertos, mientras que los elementos de fuera de la diagonal son confusiones propiamente dichas (errores). Consideremos una matriz de confusión calculada tras clasificar $N$ muestras:
<div align="center">

|           | $\hat{1}$ | $\hat{2}$ |  $\cdots$ | $\hat{C}$ |  Suma fila |
|:---------:|:---------:|:---------:|:---------:|:---------:|:----------:|
|         1 | $N_{1,1}$ | $N_{1,2}$ |  $\cdots$ | $N_{1,C}$ |  $N_{1,:}$ |
|         2 | $N_{2,1}$ | $N_{2,2}$ |  $\cdots$ | $N_{2,C}$ |  $N_{2,:}$ |
|  $\vdots$ |  $\vdots$ |  $\vdots$ |  $\vdots$ |  $\vdots$ |   $\vdots$ |
|         C | $N_{C,1}$ | $N_{C,2}$ |  $\cdots$ | $N_{C,C}$ |  $N_{C,:}$ |
| **Suma:** | $N_{:,1}$ | $N_{:,2}$ |  $\cdots$ | $N_{:,C}$ |        $N$ |

</div>

Como en el caso binario, la matriz de confusión multi-clase puede normalizarse por filas, $p(\hat{y}\mid y)$, o por columnas, $p(y\mid\hat{y})$. No obstante, se suele normalizar por $N$ para producir una estimación empírica de $p(y, \hat{y})$ que nos ayude a identificar qué pares de clases se confunden más.

## Curvas ROC y resumen con un escalar

Llamamos **curva Receiver Operating Characteristic (ROC)** a la gráfica que muestra $\operatorname{TPR}_{\tau}$ en función de $\operatorname{FPR}_{\tau}$ para $\tau$ de $0$ a $1$:
<div align="center"><img width="500" src="ROChand.png"></div>
