# Teorema de Bayes usando Python

## Problemas de Aplicación

### Análisis de una prueba de diagnóstico médico

- Un ejemplo muy utilizado de las ventajas del `Teorema de Bayes` es el análisis de una prueba de diagnóstico médico.

- `Escenario`: Considere una población humana que puede o no tener cáncer (Cáncer es `True` o `False`) y una prueba médica que da un resultado positivo o negativo para detectar el cáncer (La prueba es `Positive` o `Negative`), por ejemplo, como una mamografía para detectar el cáncer de mama.

> `Problema`: Si un paciente seleccionado al azar se somete a la prueba y ésta da un resultado `positivo`, ¿cuál es la probabilidad de que el paciente tenga cáncer?

#### Cálculo manual

- Las pruebas de diagnóstico médico no son perfectas; tienen errores. A veces, un paciente tendrá cáncer, pero la prueba no lo detectará. Esta capacidad de la prueba para detectar el cáncer se denomina `sensibilidad` o `tasa de verdaderos positivos`.

- En este caso, se calcula un valor de sensibilidad para la prueba. La prueba es buena, pero no excelente, con una tasa de verdaderos positivos o `sensibilidad del 85%`. Es decir, de todas las personas que tienen cáncer y se someten a la prueba, el `85% de ellas obtendrán un resultado positivo de la prueba`. Entonces

$$P(\textsf{Test=Positive} |  \textsf{Cancer=True}) = 0.85$$

- Dada esta información, nuestra intuición sugeriría que hay un 85% de probabilidad de que el paciente tenga cáncer. `Nuestras intuiciones sobre la probabilidad son erróneas.`

- Este tipo de error en la interpretación de las probabilidades es tan común que tiene su propio nombre; se denomina `falacia de la tasa base` [base rate fallacy](https://en.wikipedia.org/wiki/Base_rate_fallacy).

- Tiene este nombre porque el error en la estimación de la probabilidad de un suceso se debe a que se ignora la tasa base. Es decir, ignora la probabilidad de que una persona seleccionada al azar tenga cáncer, independientemente de los resultados de una prueba diagnóstica.

- En este caso, podemos suponer que la probabilidad de cáncer de mama es baja, y utilizar un valor de tasa base artificial de una persona de cada `5000, o (0.0002) = 0.02%`.

$$P(\textsf{Cancer=True}) = 0.02%$$

- Podemos calcular correctamente la probabilidad de que un paciente tenga cáncer dado un resultado positivo de la prueba utilizando el `Teorema de Bayes`. Traslademos nuestro escenario al siguiente sistema de ecuaciones

$$
\begin{align*}
P(A|B)&=\frac{P(A)\cdot P(B|A)}{P(B)}\\
P(\textsf{Cancer=True} | \textsf{Test=Positive}) &= \frac{P(\textsf{Cancer=True})\cdot P(\textsf{Test=Positive} | \textsf{Cancer=True})}{P(\textsf{Test=Positive})} 
\end{align*}
$$

- Sabemos que la probabilidad de que la prueba sea positiva dado que el paciente tiene cáncer es del `85%`, y sabemos que la tasa base o la probabilidad previa de que un determinado paciente tenga cáncer es del `0.02%`; podemos introducir estos valores:

$$
P(\textsf{Cancer=True} | \textsf{Test=Positive}) = \frac{0.85\cdot0.0002}{P(\textsf{Test=Positive})} 
$$

- Nótese que no conocemos $P(\textsf{Test=Positivo})$, no se da directamente. En cambio, podemos estimarlo utilizando:

$$
\begin{align*}
P(B) &= P(A)\cdot P(B|A) + P(A^{c})\cdot P(B|A^{c})\\
P(\textsf{Test=Positive}) &= P(\textsf{Cancer=True})\cdot P(\textsf{Test=Positive} | \textsf{Cancer=True})\\
&+ P(\textsf{Cancer=False})\cdot P(\textsf{Test=Positive} | \textsf{Cancer=False}) 
\end{align*}
$$

- En primer lugar, podemos calcular $P(\textsf{Cáncer=Falso})$ como el complemento de $P(\textsf{Cáncer=Verdadero})$, que ya conocemos


$$
P(\textsf{Cancer=False}) = 1 – P(\textsf{Cancer=True}) = 1 – 0.0002 = 0.9998
$$

- Vamos a complementar lo que tenemos. Podemos introducir nuestros valores conocidos de la siguiente manera

$$
P(\textsf{Test=Positive}) = 0.85\cdot 0.0002 + P(\textsf{Test=Positive} | \textsf{Cancer=False})\cdot 0.9998
$$

- Todavía no sabemos la probabilidad de un resultado positivo de la prueba si no hay cáncer. Esto requiere información adicional. En concreto, necesitamos saber que tan buena es la prueba para identificar correctamente a las personas que no tienen cáncer. Es decir, el resultado negativo de la prueba ($\textsf{Test=Negativo}$) cuando el paciente no tiene cáncer ($\textsf{Cáncer=Falso}$), lo que se llama la tasa de verdaderos negativos o la especificidad. Utilizaremos un valor de especificidad artificial del 95%.

$$
P(\textsf{Test=Negative} | \textsf{Cancer=False}) = 0.95
$$

- Con este último dato, podemos calcular la tasa de falsos positivos o de falsas alarmas como el complemento de la tasa de verdaderos negativos.

$$
P(\textsf{Test=Positive} | \textsf{Cancer=False}) = 1 – P(\textsf{Test=Negative} | \textsf{Cancer=False})= 1 – 0.95 = 0.05
$$

- Podemos introducir esta tasa de falsas alarmas en nuestro cálculo de $P(\textsf{Prueba=Positiva})$ de la siguiente manera

$$
\begin{align*}
P(\textsf{Test=Positive}) &= 0.85\cdot0.0002 + 0.05\cdot0.9998\\
&= 0.00017 + 0.04999\\
&= 0.05016\\
\end{align*}
$$

- Por lo que la probabilidad de que la prueba dé un resultado positivo, independientemente de si la persona tiene cáncer o no, es de aproximadamente el `5%`. Ahora tenemos suficiente información para aplicar el `Teorema de Bayes` y estimar la probabilidad de que una persona seleccionada al azar tenga cáncer si obtiene un resultado positivo en la prueba

$$
\begin{align*}
P(\textsf{Cancer=True} | \textsf{Test=Positive}) &= \frac{P(\textsf{Cancer=True})\cdot P(\textsf{Test=Positive} | \textsf{Cancer=True})}{P(Test=Positive)}\\
&= \frac{(0.0002)\cdot(0.85)}{0.05016}\\
&= \frac{0.00017}{0.05016}\\[2mm] 
&= 0.003389154704944
\end{align*}
$$

- El cálculo sugiere que si se informa al paciente de que tiene cáncer con esta prueba, sólo hay un `0.33%` de posibilidades de que lo tenga. Es una prueba de diagnóstico inadecuada.

- El ejemplo también muestra que el cálculo de la probabilidad condicional requiere bastante información. Por ejemplo, si ya tenemos los valores utilizados en el `Teorema de Bayes`, podemos utilizarlos directamente.

- Esto no suele ser así, y normalmente tenemos que calcular las partes que necesitamos y unirlos, como hicimos en este caso. En nuestro caso, se nos han dado tres datos: `la tasa base, la sensibilidad (o tasa de verdaderos positivos) y la especificidad (o tasa de verdaderos negativos).`

    - `Sensibilidad`: el 85% de las personas con cáncer obtendrán un resultado positivo en la prueba.
    - `Tasa base`: El 0.02% de las personas tienen cáncer.
    - `Especificidad`: el 95% de las personas sin cáncer obtendrán un resultado negativo en la prueba.

- No disponíamos de la $P(\textsf{Prueba=Positiva})$, pero la calculamos teniendo en cuenta lo que ya teníamos disponible.

- El `Teorema de Bayes` nos permite ser aún más precisos sobre un escenario dado. Por ejemplo, si tuviéramos más información sobre el paciente (por ejemplo, su edad) y sobre el ámbito (por ejemplo, las tasas de cáncer para los rangos de edad), podríamos ofrecer una estimación de la probabilidad aún más precisa.

- Veamos cómo podemos calcular este escenario exacto utilizando unas pocas líneas de código `Python`.

#### Cálculo usando Python

- El siguiente ejemplo realiza el mismo cálculo en `Python`, lo que le permite jugar con los parámetros y probar diferentes escenarios.
- Calculamos las probabilidades: $P(A|B)$ given $P(A)$, $P(B|A)$, $P(B|A^{c})$

In [3]:
def bayes_theorem(p_a, p_b_given_a, p_b_given_not_a):
    
    not_a = 1 - p_a # P(not A)
    p_b = p_b_given_a * p_a + p_b_given_not_a * not_a # P(B)
    p_a_given_b = (p_b_given_a * p_a) / p_b # P(A|B)
    
    return p_a_given_b

In [4]:
p_a = 0.0002 # P(A)
p_b_given_a = 0.85 # P(B|A)
p_b_given_not_a = 0.05 # P(B|not A)

result = bayes_theorem(p_a, p_b_given_a, p_b_given_not_a) # P(A|B)
print('P(A|B) = %.3f%%' % (result * 100))

P(A|B) = 0.339%


- Al ejecutar el ejemplo se calcula la probabilidad de que un paciente tenga cáncer si la prueba arroja un resultado positivo, lo que coincide con nuestro cálculo manual.

> $P(A|B)$ = 0.339%

- Este es un pequeño script útil que se puede adaptar a nuevos escenarios