# Estadística Bayesiana

> *Wikipedia*: 

> Bayesian statistics is a theory in the field of statistics based on the **Bayesian interpretation of probability** where probability expresses a degree of belief in an event. 

> The degree of belief may be based on prior knowledge about the event, such as the results of previous experiments, or on personal beliefs about the event. 

> This differs from a number of other interpretations of probability, such as the frequentist interpretation that views probability as the limit of the relative frequency of an event after many trials. 

## Fórmula de Bayes

El teorema de Bayes es un teorema fundamental en la estadística bayesiana. 

$$ P(H | E) = \frac{P(E | H)P(H)}{P(E)}$$

La fórmula de Bayes se puede utilizar en estadísticas frecuentistas para calcular **probabilidades condicionales**, pero en la estadística bayesiana se utiliza para calcular **probabilidades posteriores** (en contraposición a **probabilidades previas (a priori)**), dadas las observaciones.

> Por ejemplo, se observa que un paciente tiene cierto síntoma ($E$), y la fórmula de Bayes se puede usar para calcular la probabilidad de que un diagnóstico ($H$) sea correcto, dada esa observación.

La estadística bayesiana **interpreta las probabilidades como medidas de credibilidad** (qué tan seguros estamos) en un evento, y **no como la frecuencia de eventos a largo plazo**.

Las creencias se aplican a los individuos, no a la naturaleza, por lo que hay lugar para creencias conflictivas entre los individuos. Las diferentes creencias no se interpretan como errores, sino como **diferentes estados de conocimiento sobre un evento**.

La fórmula se interpreta como una **actualización de la creencia después de observar los datos**.

# Bayesian Data Analysis

### Probabilidades: bayesianismo

Imaginemos ahora el siguiente escenario. Queremos saber la *probabilidad* de conseguir el Oscar por la última película que ha protagonizado un actor.

En este caso, la noción *frecuentista* de  una **serie de juicios** no está bien definida: cada año la situación es diferente, no hay series de juicios idénticos a considerar. Podemos concluir que la noción clásica de probabilidad no se aplica a estas situaciones.

Pero el **bayesianismo** define la probabilidad de una manera diferente: **el grado de creencia de que ocurrirá un evento**.

## La regla de Bayes

La principal herramienta del análisis bayesiano es el teorema de Bayes, presentado en 1763:

Conocemos que: 
- P(AB) = P(A|B)P(B)
- P(BA) = P(B|A)P(A)
- P (BA) = P(AB) 

    - P(A) => Probabilidad a priori
    - P(B) => Probabilidad de salida
    - P(B/A)
    - P(A/B)

<b> Bayes Theorem </b> <br>
$$ P(A | B) = \frac{P(B | A)P(A)}{P(B)}$$
</div>   

Este teorema describe la relación entre las probabilidades condicionales de dos eventos.

Es fácil demostrar que esto es cierto. Es solo aritmética básica basada en reglas de probabilidad (regla de la cadena):

+ Sabemos que $ P(A \mbox{ and } B) = P(A)P(B | A) $.
+ Pero también es cierto que $ P(A \mbox{ and } B) = P(B)P(A | B)$.
+ Entonces, $ P(A)P(B | A) = P(B)P(A | B)$. 

Aunque esto se llama teorema de Bayes, la **forma general** del mismo, como se establece aquí, en realidad no fue escrita por primera vez por Thomas Bayes, sino por Pierre-Simon Laplace. Lo que hizo Bayes fue derivar el caso especial de esta fórmula para "invertir" la distribución binomial.

### Hipótesis y evidencias

La interpretación más común del Teorema de Bayes se basa en considerar que $ A $ es una hipótesis $H$, y $B$ una nueva evidencia $E$, que debería modificar nuestra creencia en $H$:

$$P(H | E) = P(H) \frac{P(E|H)}{P(E)}$$

Esto se denomina **interpretación diacrónica** porque describe cómo *una hipótesis debe actualizarse con el tiempo cada vez que se encuentra una nueva evidencia*.

+ $P(H | E)$ es denominada la **posterior**.
+ $P(H)$ es denominada la **prior probability** de la hipótesis.
+ $P(E | H)$ es denominada la **likelihood** de la evidencia.
+ $P(E)$ es una constante normalizadora. Si hay $n$ hipótesis que son **mutuamente excluyentes** y *colectivamente exhaustivas*, podemos calcular $P(E)$ como:

$$ P(E) = P(H_1)P(E|H_1) + \dots + P(H_n)P(E|H_n)$$


En general, $P(H | E), P(H), P(E|H), P(E)$ son funciones. Podemos extraer estimaciones puntuales, establecer estimaciones y proposiciones probabilísticas de $P(H | E)$.

### Visualización de la regla de Bayes<br>

Digamos $P(H_{yes})=5\%$ es la prevalencia de una enfermedad. 

A cada individuo se le hace una prueba con precisión $P(E_{yes}|H_{yes})=P(E_{no}|H_{no}) = 90\%$.  

Queremos saber la **probabilidad de tener la enfermedad si dio positivo**:

$$Pr(H_{yes}|E_{yes})$$. 

Podemos usar la regla de Bayes para calcular este valor posterior:

$$ P(H_{yes}|E_{yes}) = \frac{P(H_{yes}) P(E_{yes}|H_{yes}) }{P(E_{yes})} = $$

$$ = \frac{P(H_{yes})P(E_{yes}|H_{yes}) }{P(H_{yes})P(E_{yes}|H_{yes}) + P(H_{no})P(E_{yes}|H_{no})} $$

Es decir

$$ = \frac{0.05 \times 0.9}{0.05 \times 0.9 + 0.95 \times 0.1} \approx 0.32 $$

A muchos les resulta contradictorio que esta probabilidad sea mucho menor que $90\% $; este gif animado puede ayuda a comprender el fenómeno

![ChessUrl](https://raw.githubusercontent.com/simplystats/simplystats.github.io/master/_images/bayes.gif "chess")


### Ejemplo: Monty Hall Problem

> "*Let's Make a Deal*" is a television game show which originated in the United States and has since been produced in many countries throughout the world. The show is based around deals offered to members of the audience by the host. The traders usually have to weigh the possibility of an offer for valuable prizes, or undesirable items, referred to as "Zonks". 

>*Source: Wikipedia*.

Monty Hall fue el anfitrión original del juego. El problema de Monty Hall se basa en uno de los juegos habituales del programa. 
> Suponga que está en el programa de juegos y tiene la opción de elegir entre tres puertas: detrás de una puerta hay un automóvil; detrás de los demás, cabras.
> Eliges una puerta, dices la puerta A (la puerta no está abierta) y el anfitrión, que sabe qué hay detrás de las puertas, abre la puerta B, que tiene una cabra.
> Luego te dice: "¿Quieres elegir la Puerta C?" ¿Le conviene cambiar de elección?
> *Source: Wikipedia*

La mayoría de la gente piensa intuitivamente que no hay diferencia entre quedarse o cambiar, ¡pero esto está mal!

La verdad es que si te quedas, la probabilidad de ganar es de 1/3; si cambia sus posibilidades son 2/3.

Podemos utilizar el punto de vista bayesiano para resolver este problema. Al principio, hay diferentes hipótesis $H$ con sus correspondientes probabilidades **previas (a priori)**:

+ A: el auto está detrás de la puerta A; $P(H=\mbox{'A'}) = 1/3$
+ B: el auto está detrás de la puerta B; $P(H=\mbox{'B'}) = 1/3$
+ C: el auto está detrás de la puerta C; $P(H=\mbox{'C'}) = 1/3$

Eliges A al azar. Si te quedas con A después de que Monty abra la puerta B (esta es nuestra evidencia *E*). Podemos calcular $P(H=\mbox{'A'}|E)$:

$$ P(H=\mbox{'A'}|E) = \frac{P(H=\mbox{'A'})P(E|H=\mbox{'A'})}{P(E)} $$
$$= \frac{1/3 \times 1/2}{1/3 \times 1/2 + 1/3 \times 0 + 1/3 \times 1} = 1/3$$ 

El denominador se puede entender de esta manera: asumimos que inicialmente elegimos A. De ello se deduce que si el automóvil está detrás de A, Monty nos mostrará una cabra detrás de B la mitad del tiempo. Si el auto está detrás de B, Monty nunca nos muestra una cabra detrás de B. Finalmente, si el auto está detrás de C, Monty nos muestra una cabra detrás de B cada vez.

**¿Cuál es la probabilidad si cambiamos?**

Para saber $P(H=\mbox{'C'}|E)$ también puede aplicar el teorema de Bayes directamente, pero hay una forma más sencilla de calcularlo: dado que la probabilidad de que esté detrás de A es 1/3 y la suma de las dos probabilidades debe ser igual a 1, la probabilidad de que el automóvil esté detrás de C es 1−1/3 = 2/3.

Samuel Arbesman, Wired, 11.26.14: 

> De hecho, Paul Erdős, uno de los matemáticos más prolíficos y destacados involucrados en la probabilidad, cuando se le habló inicialmente del problema de Monty Hall también fue víctima de no entender por qué abrir una puerta debería hacer alguna diferencia. Incluso cuando se le dio la explicación matemática varias veces, no estaba realmente convencido. Pasaron varios días antes de que finalmente entendiera la solución correcta.

Hagamos una simulación del juego para calcular $P(H=\mbox{'C'}|E)$:

In [2]:
import random

iterations = 100000
doors = ["goat"] * 2 + ["car"]
change_wins = 0
change_loses = 0

for i in range(iterations):
    random.shuffle(doors)
    
    # escoges la puerta n:
    n = random.randrange(3)
    
    # monty escoge la puerta k, k!= n y puertas [k]!= "coche"
    sequence = list(range(3))
    random.shuffle(sequence)
    for k in sequence:
        if k == n or doors[k] == "car":
            continue
    
    # ahora si cambias, pierdes si puertas [n] == "car"
    if doors[n] == "car":
        change_loses += 1
    else:
        change_wins += 1

perc = (100.0 * change_wins) / (change_wins + change_loses)
print("cambiar tiene %s wins y %s losses: tu ganas %.1f%% del tiempo" % (change_wins, change_loses, perc))

cambiar tiene 66493 wins y 33507 losses: tu ganas 66.5% del tiempo
