# Medidas de rendimiento diangóstico

En esta libreta veremos cómo calcular algunas métricas claves de rendimiento diagnóstico como la `sensiblidad` y la `especificidad` entre otras.

:::{tip}
Podrás utilizar las funciones que utilizaremos en esta unidad en tus propios análisis ya que el objetivo es generar código reutilizable.
:::

Antes de comenzar, te recomiendo que revises el tema en [statpearls](https://www.ncbi.nlm.nih.gov/books/NBK557491/).

## Librerías y datos

Los datos que utilizaremos en esta libreta fueron simulados, el código para generarlos está al final de la libreta.

In [19]:
import pandas as pd
import scipy.stats as stats

url = 'https://raw.githubusercontent.com/chrisdewa/curso_python/refs/heads/main/docs_raw/unidad-5/datos_dx.csv'
datos = pd.read_csv(url)
datos.head()


Unnamed: 0.1,Unnamed: 0,Estándar,Test
0,0,0,0
1,1,0,0
2,2,1,1
3,3,0,0
4,4,0,0


Vemos que los datos están 
## Tablas de contingencia

En general, para todos los cálculos que realizaremos, asumimos que contamos con datos en una matriz de confusión de 1 grado de libertad, es decir, 2x2 y se estructura de la siguiente manera:

||Estándar de Oro positivo|Estándar de Oro negativo|
|---|---|---|
|Test positivo|Verdaderos positivos|Falsos positivos|
|Test negativo|Falsos negativos|Verdaderos negativos|

Veamos cómo generar esta tabla en python



## Nota sobre los datos

La base de datos utilizada en esta libreta fue generada con el siguiente código:

```python
import pandas as pd
import scipy.stats as stats
n = 100     # tamaño de muestra
prev = 0.15 # prevalencia
sens = 0.87 # sensibilidad
esp = 0.91  # especificidad
# El gold standar define la presencia de la enfermedad con 100% de precisión
# por lo que utilizamos la distribución bernoulli
gold = stats.bernoulli.rvs(prev, size=n)
test = [
    stats.bernoulli.rvs(sens) # en caso positivo usamos la sensibilidad
    if subj == 1 else # comparación si el sujeto fue positivo
    stats.bernoulli.rvs(1-esp)# en caso negativo usamos 1 - especificidad
    for subj in gold # por cada sujeto en "gold" (estándar de oro)
]
data = pd.DataFrame({'Estándar': gold, 'Test': test}) # convertimos ambas variables a un dataset
data.to_csv('datos_dx.csv')
```

Puedes generar tus propios datos imulados con estos datos.

El código usa una comprension de lista para generar la variable `test`, puedes leer al respecto [aquí](otras-lecciones\python-intermedio\comprensiones.md).

In [None]:
import pandas as pd
import scipy.stats as stats
n = 100     # tamaño de muestra
prev = 0.15 # prevalencia
sens = 0.87 # sensibilidad
esp = 0.91  # especificidad
# El gold standar define la presencia de la enfermedad con 100% de precisión
# por lo que utilizamos la distribución bernoulli
gold = stats.bernoulli.rvs(prev, size=n)
test = [
    stats.bernoulli.rvs(sens) # en caso positivo usamos la sensibilidad
    if subj == 1 else # comparación si el sujeto fue positivo
    stats.bernoulli.rvs(1-esp)# en caso negativo usamos 1 - especificidad
    for subj in gold # por cada sujeto en "gold" (estándar de oro)
]
data = pd.DataFrame({'Estándar': gold, 'Test': test}) # convertimos ambas variables a un dataset
data.to_csv('datos_dx.csv', index=False)