# Estadísticas Bayesianas

> Las estadísticas Bayesianas son una teoría en el campo de la estadística basada en la **interpretación Bayesiana de la probabilidad** donde la probabilidad expresa un grado de creencia en un evento.
> El grado de creencia puede basarse en conocimientos previos sobre el evento, como los resultados de experimentos anteriores, o en creencias personales sobre el evento.
> Esto difiere de una serie de otras interpretaciones de la probabilidad, como la interpretación frecuentista que ve la probabilidad como el límite de la frecuencia relativa de un evento después de muchos ensayos.

>(Fuente: *Wikipedia*)

## La "fórmula" de Bayes

El teorema de Bayes es un teorema fundamental en las estadísticas Bayesianas.

$$ P(H | E) = \frac{P(E | H)P(H)}{P(E)}$$

La fórmula de Bayes se puede usar en estadísticas frecuentistas para calcular **probabilidades condicionales**, pero en estadísticas Bayesianas se usa para calcular **probabilidades posteriores** (en oposición a **probabilidades previas**), dadas las observaciones.

> Por ejemplo, se observa que un paciente tiene un cierto síntoma ($E$), y la fórmula de Bayes se puede usar para calcular la probabilidad de que un diagnóstico ($H$) sea correcto, dada esa observación.

Las estadísticas Bayesianas **interpretan las probabilidades como medidas de credibilidad** (qué tan confiados estamos) en un evento, **no como la frecuencia a largo plazo de los eventos**.

Las medidas de creencias se aplican a individuos, no a la naturaleza, por lo que hay espacio para creencias conflictivas entre individuos. Las diferentes creencias no se interpretan como errores, sino como **diferentes estados de conocimiento sobre un evento**.

La fórmula se interpreta como una **actualización de la creencia después de observar datos**.

### Una nota sobre la subjetividad Bayesiana

> Los métodos Bayesianos a menudo se caracterizan como “subjetivos” porque el usuario debe elegir una distribución previa, es decir, una expresión matemática de la información previa.

> La distribución previa requiere información y entrada del usuario, eso es seguro, pero no veo esto como algo más “subjetivo” que otros aspectos de un procedimiento estadístico, como la elección del modelo para los datos (por ejemplo, regresión logística) o la elección de qué variables incluir en una predicción, la elección de qué coeficientes deberían variar con el tiempo o entre situaciones, la elección de la prueba estadística, y así sucesivamente.

> De hecho, los métodos Bayesianos pueden de muchas maneras ser más “objetivos” que los enfoques convencionales en que la inferencia Bayesiana, con su suavizado y agrupación parcial, está bien adaptada para incluir diversas fuentes de información y así puede reducir el número de puntos de decisión de codificación de datos o exclusión de datos.

> *Andrew Gelman, Profesor de estadísticas y ciencia política y director del Centro de Estadísticas Aplicadas en la Universidad de Columbia*.

# Análisis de Datos Bayesianos

Imaginemos ahora el siguiente escenario: Queremos saber la *probabilidad* de que el último filme en el que un actor ha protagonizado gane un Oscar.

En este caso, la noción *frecuentista* de **serie de ensayos** no está bien definida: cada año la situación es diferente, no hay series de ensayos idénticos a considerar. Podemos concluir que la noción clásica de probabilidad no se aplica a estas situaciones.

Pero el **Bayesianismo** define la probabilidad de una manera diferente: **el grado de creencia de que un evento ocurrirá**.

¿Cuál es la probabilidad de que Bin Laden esté muerto? Para un frecuentista no hay probabilidad para este evento porque no hay ensayos posibles (Bin Laden está muerto o no lo está, no es una cuestión de probabilidad). Un Bayesianista asignaría una probabilidad a este evento basado en su **estado de conocimiento**. El estado de conocimiento cambia cuando hay nueva información disponible.

## La regla de Bayes

La principal herramienta del Análisis Bayesiano es el teorema de Bayes, presentado en 1763:

<b> Teorema de Bayes </b> <br>
$$ P(A | B) = \frac{P(B | A)P(A)}{P(B)}$$
</div>   

Este teorema describe la relación entre las probabilidades condicionales de dos eventos.

Es fácil demostrar que esto es cierto. Son solo aritmética básica basada en reglas de probabilidad (regla de la cadena):

+ Sabemos que $ P(A \mbox{ y } B) = P(A)P(B | A) $.
+ Pero también es cierto que $ P(A \mbox{ y } B) = P(B)P(A | B)$.
+ Entonces, $ P(A)P(B | A) = P(B)P(A | B)$. 

Aunque esto se llama teorema de Bayes, la **forma general** de este como se enuncia aquí fue en realidad escrita por primera vez no por Thomas Bayes, sino por Pierre-Simon Laplace. Lo que Bayes hizo fue derivar el caso especial de esta fórmula para "invertir" la distribución binomial.

### Hipótesis y evidencias.

La interpretación más común del Teorema de Bayes se basa en considerar que $A$ es una hipótesis $H$ y $B$ una nueva evidencia $E$ que debería modificar nuestra creencia en $H$:

$$P(H | E) = P(H) \frac{P(E|H)}{P(E)}$$

Esto se llama la **interpretación diacrónica** porque describe cómo *una hipótesis debe actualizarse con el tiempo cada vez que se encuentra una nueva evidencia*.


+ $P(H | E)$ se llama el **posterior**.
+ $P(H)$ se llama la **probabilidad previa** de la hipótesis.
+ $P(E | H)$ se llama la **verosimilitud** de la evidencia.
+ $P(E)$ es una constante de normalización. Si hay $n$ hipótesis que son *mutuamente excluyentes* y *exhaustivamente colectivas*, podemos calcular $P(E)$ como:

$$ P(E) = P(H_1)P(E|H_1) + \dots + P(H_n)P(E|H_n)$$


En general, $P(H | E), P(H), P(E|H), P(E)$ son funciones! 

Podemos extraer estimaciones puntuales, estimaciones de conjunto y proposiciones probabilísticas de $P(H | E)$.

### Ejemplo: Visualización de la regla de Bayes<br>

Supongamos que estamos viviendo una pandemia. Diga que $P(H_{yes})=5\%$ es la **prevalencia** de la enfermedad y que  
cada individuo de la población recibe una prueba con una precisión de $P(E_{yes}|H_{yes})=P(E_{no}|H_{no}) = 90\%$.  

Queremos saber la **probabilidad de tener la enfermedad si ha dado positivo**: 
$$Pr(H_{yes}|E_{yes})$$. 

Podemos usar la regla de Bayes para calcular este posterior:

$$ P(H_{yes}|E_{yes}) = \frac{P(H_{yes}) P(E_{yes}|H_{yes}) }{P(E_{yes})} = $$

$$ = \frac{P(H_{yes})P(E_{yes}|H_{yes}) }{P(H_{yes})P(E_{yes}|H_{yes}) + P(H_{no})P(E_{yes}|H_{no})} $$

Eso es

$$ = \frac{0.05 \times 0.9}{0.05 \times 0.9 + 0.95 \times 0.1} \approx 0.32 $$

Muchos encuentran contraintuitivo que esta probabilidad sea mucho menor que el $90\%$; este gif animado está destinado a ayudar.

El `O` en el medio se convierte en una `X` cuando la prueba falla. La tasa de `X`s es $1-Pr(E_{yes}|H_{yes})$. 

![ChessUrl](https://raw.githubusercontent.com/simplystats/simplystats.github.io/master/_images/bayes.gif "chess")

### Ejemplo: Problema de Monty Hall

> "*Let's Make a Deal*" es un programa de juegos de televisión que se originó en los Estados Unidos y desde entonces se ha producido en muchos países del mundo. El programa se basa en ofertas hechas a los miembros del público por el anfitrión. Los comerciantes generalmente tienen que sopesar la posibilidad de una oferta por premios valiosos, o artículos indeseables, denominados "Zonks".

>*Fuente: Wikipedia*.

Monty Hall fue el presentador original del juego. El problema de Monty Hall se basa en uno de los juegos regulares del programa. Es un problema de pegar o cambiar:
+ Supongamos que estás en el programa de juegos y te dan a elegir entre tres puertas: Detrás de una puerta hay un coche; detrás de los otros, cabras.
+ Eliges una puerta, digamos la Puerta A (la puerta no se abre), y el presentador, que sabe qué hay detrás de las puertas, abre la Puerta B, que tiene una cabra.
+ Luego te dice: "¿Quieres elegir la Puerta C?" ¿Te conviene cambiar tu elección?

<img src="./images/lets.jpg" width="400"/>

<img src="./images/monty.png" width="400"/>

La mayoría de la gente piensa intuitivamente que no hace ninguna diferencia si se cambia de elección o no, ¡pero esto es incorrecto!

La verdad es que si te quedas con tu elección original, la probabilidad de ganar es de 1/3; si cambias, tus probabilidades son de 2/3.

Podemos usar el punto de vista Bayesiano para resolver este problema. Al principio, hay diferentes hipótesis $H$ con sus correspondientes probabilidades **previas**:

+ A: el coche está detrás de la Puerta A; $P(H=\mbox{'A'}) = 1/3$
+ B: el coche está detrás de la Puerta B; $P(H=\mbox{'B'}) = 1/3$
+ C: el coche está detrás de la Puerta C; $P(H=\mbox{'C'}) = 1/3$

Eliges A al azar. Si te quedas con A después de que Monty abre la puerta B (esta es nuestra evidencia *E*). Podemos calcular $P(H=\mbox{'A'}|E)$:

$$ P(H=\mbox{'A'}|E) = \frac{P(H=\mbox{'A'})P(E|H=\mbox{'A'})}{P(E)} $$
$$= \frac{1/3 \times 1/2}{1/3 \times 1/2 + 1/3 \times 0 + 1/3 \times 1} = 1/3$$ 

El denominador se puede entender de esta manera: Estamos asumiendo que inicialmente elegimos A. Sigue que si el coche está detrás de A, Monty nos mostrará una cabra detrás de B la mitad del tiempo. Si el coche está detrás de B, Monty nunca nos mostrará una cabra detrás de B. Finalmente, si el coche está detrás de C, Monty nos mostrará una cabra detrás de B cada vez.

**¿Cuál es la probabilidad si cambiamos de elección?**

Para conocer $P(H=\mbox{'C'}|E)$ también podrías aplicar el Teorema de Bayes directamente, pero hay una forma más sencilla de calcularlo: Dado que la probabilidad de que esté detrás de A es de 1/3 y la suma de las dos probabilidades debe ser igual a 1, la probabilidad de que el coche esté detrás de C es 1−1/3=2/3. 


Samuel Arbesman, Wired, 11.26.14: 

> De hecho, Paul Erdős, uno de los matemáticos más prolíficos y destacados involucrados en probabilidad, cuando se le presentó inicialmente el problema de Monty Hall también cayó en la trampa de no entender por qué abrir una puerta debería hacer alguna diferencia. Incluso después de recibir la explicación matemática varias veces, no estaba realmente convencido. Le tomó varios días antes de que finalmente entendiera la solución correcta.

Hagamos una **simulación** del juego para calcular $P(H=\mbox{'C'}|E)$:

In [None]:
import random

iterations = 100000
doors = ["goat"] * 2 + ["car"]
change_wins = 0
change_loses = 0

for i in range(iterations):
    random.shuffle(doors)
    
    # you pick door n:
    n = random.randrange(3)
    
    # monty picks door k, k!=n and doors[k]!="car"
    sequence = list(range(3))
    random.shuffle(sequence)
    for k in sequence:
        if k == n or doors[k] == "car":
            continue
        else:
            break
    
    # now if you change, you lose iff doors[n]=="car"
    if doors[n] == "car":
        change_loses += 1
    else:
        change_wins += 1

perc = (100.0 * change_wins) / (change_wins + change_loses)
print("Switching has %s wins and %s losses: you win %.1f%% of the time" % (change_wins, change_loses, perc))

### Ejercicio: Regla de Bayes

Calcula \( P(H='C'|E) \) aplicando la Regla de Bayes y verifica el resultado.

In [None]:
# your solution here

P = 0
print(P)

### Ejercicio: Prueba Clínica

**¿Cuál es la evidencia de una enfermedad después de una prueba clínica?**

Datos:

+ El 1% de las mujeres de cuarenta años que participan en cribados rutinarios tienen cáncer de mama.
+ El 80% de las mujeres con cáncer de mama obtendrán mamografías positivas.
+ El 9.6% de las mujeres sin cáncer de mama también obtendrán mamografías positivas.

Una mujer de este grupo de edad obtuvo una mamografía positiva en un cribado rutinario.

- **¿Cuál es la probabilidad de que realmente tenga cáncer de mama?**

- **¿Es esta una "buena" prueba para detectar cáncer de mama?**

Para responder a estas preguntas, aplicamos la Regla de Bayes y consideramos lo siguiente:

+ \( P(\text{cáncer}) = 0.01 \) y \( P(\text{sin cáncer}) = 0.99 \).
+ Si obtienes \( + \), entonces \( P(+ | \text{cáncer}) = 0.8 \) y \( P(+ | \text{sin cáncer}) = 0.096 \).

Primero calculamos \( P(+) \), la probabilidad total de obtener un resultado positivo, utilizando la ley total de la probabilidad:

$$ P(+) = P(\text{cáncer}) \cdot P(+ | \text{cáncer}) + P(\text{sin cáncer}) \cdot P(+ | \text{sin cáncer}) $$
$$ P(+) = (0.01 \cdot 0.8) + (0.99 \cdot 0.096) $$
$$ P(+) = 0.008 + 0.09504 = 0.10304 $$

Aplicamos la Regla de Bayes para calcular \( P(\text{cáncer} | +) \):

$$ P(\text{cáncer} | +) = \frac{P(\text{cáncer}) \cdot P(+ | \text{cáncer})}{P(+)} $$
$$ P(\text{cáncer} | +) = \frac{0.01 \cdot 0.8}{0.10304} $$
$$ P(\text{cáncer} | +) \approx 0.0776 $$

**Respuesta a la primera pregunta:**

La probabilidad de que realmente tenga cáncer de mama después de obtener un resultado positivo es aproximadamente del 7.76%.

**Respuesta a la segunda pregunta:**

Para determinar si esta es una "buena" prueba, observamos la probabilidad de que no tenga cáncer a pesar de un resultado positivo, \( P(\text{sin cáncer} | +) \):

$$ P(\text{sin cáncer} | +) = \frac{P(\text{sin cáncer}) \cdot P(+ | \text{sin cáncer})}{P(+)} $$
$$ P(\text{sin cáncer} | +) = \frac{0.99 \cdot 0.096}{0.10304} $$
$$ P(\text{sin cáncer} | +) \approx 0.922 $$

A pesar de un resultado positivo, hay aproximadamente un 92.2% de probabilidad de no tener cáncer, lo que indica que la prueba produce un alto número de falsos positivos. Por lo tanto, esta no sería considerada una "buena" prueba para detectar cáncer de mama de manera eficaz.

In [None]:
# Your solution here.

### Ejercicio: Segunda prueba clínica

Supongamos que el resultado de una segunda prueba para una mujer determinada *es independiente* del primero (esto claramente es una suposición incorrecta en el mundo real, ¡pero vamos a suponer que es cierto!). **¿Cuál es la probabilidad de tener cáncer después de un resultado positivo en una segunda prueba?**

In [None]:
# Your solution here.

P2 = 0
print(P2)

## El problema de la locomotora.

Una compañía ferroviaria numera sus locomotoras en orden de $1 \dots N$. Un día ves una locomotora con el número 60. Estima cuántas locomotoras tiene la compañía ferroviaria.

> Durante la Segunda Guerra Mundial, la *División de Guerra Económica* de la Embajada Americana en Londres utilizó análisis estadístico para estimar la producción alemana de tanques y otros equipos.
Los Aliados Occidentales habían capturado libros de registro, inventarios y registros de reparaciones que incluían números de serie de chasis y motores para tanques individuales.

> El análisis de estos registros indicó que los números de serie se asignaban por fabricante y tipo de tanque en bloques de 100 números, que los números en cada bloque se usaban secuencialmente, y que no todos los números en cada bloque se utilizaban. Así que el problema de estimar la producción de tanques alemanes podría reducirse, dentro de cada bloque de 100 números, a una forma del problema de la locomotora.

> Basado en esta perspectiva, analistas estadounidenses y británicos produjeron estimaciones sustancialmente más bajas que las estimaciones de otras formas de inteligencia. Y después de la guerra, los registros indicaron que eran sustancialmente más precisos.

> *(Fuente: http://greenteapress.com/thinkbayes/html/thinkbayes004.html#toc24)*

Basado en la observación, sabemos que el ferrocarril tiene 60 o más locomotoras. ¿Pero cuántas más?

Para aplicar el razonamiento Bayesiano, podemos dividir este problema en dos pasos:

+ ¿Qué sabíamos sobre $N$ antes de ver los datos?
+ Para cualquier valor dado de $N$, ¿cuál es la probabilidad de ver los datos (una locomotora con número 60)?

La respuesta a la primera pregunta es el **prior**, $P(H)$. La respuesta a la segunda es la **verosimilitud**, $P(E|H)$.

No tenemos mucha base para elegir un prior, pero podemos comenzar con algo simple y luego considerar alternativas. Supongamos que $N$ puede ser cualquier valor de 1 a 1000 con un prior plano.

In [None]:
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

hypos = np.array(range(1, 1001))
priors = np.array([1.0/len(hypos) for hypo in hypos])

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(10,2))
    plt.plot(hypos, priors)
plt.show()

Ahora todo lo que necesitamos es una **función de verosimilitud**, $P(E|H)$.

En una flota hipotética de $N$ locomotoras, ¿cuál es la probabilidad de que viéramos el número 60?

Si asumimos que hay solo una compañía de trenes operando (o solo una que nos interesa) y que tenemos la misma probabilidad de ver cualquiera de sus locomotoras, entonces la posibilidad de ver una locomotora particular es $1/N$ y que hay al menos $N$ locomotoras.

In [None]:
def Likelihood(data, hypo):
    if hypo < data:
        return 0.0
    else:
        return 1.0/hypo

Vamos a incorporar nuestros datos en el modelo:

In [None]:
def Posterior(data, hypos, priors):
    import numpy as np
    posterior = np.array([Likelihood(data, hypo) for hypo in hypos]) * priors
    return posterior

# After an update, the distribution is no longer normalized, 
# but because these hypotheses are mutually exclusive and 
# collectively exhaustive, we can renormalize.

def Normalize(d):
    total = d.sum()
    factor = 1.0 / total
    for i in range(len(d)):
        d[i] *= factor
    return d

posterior = Normalize(Posterior(60, hypos, priors))

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(10,2))
    plt.ylim([-0.001,0.006])
    plt.plot(hypos, posterior)
plt.show()

El valor más probable, si tuvieras que adivinar, es 60. Eso podría no parecer una muy buena suposición; después de todo, ¿cuáles son las probabilidades de que justo hayas visto el tren con el número más alto?

Sin embargo, si quieres maximizar la posibilidad de acertar exactamente, deberías adivinar 60.

Pero quizás ese no sea el objetivo correcto. Una alternativa es calcular la estimación de Bayes, la **hipótesis que corresponde al valor medio de la distribución posterior**:

$\hat H (E) = \mathbb{E}[H | E] = \int H p(H | E) dH$

In [None]:
def Meanp(hypos, posterior):
    total = 0.0
    s = hypos * posterior
    return s.mean()*len(hypos)

print(int(Meanp(hypos, posterior)))

Si queremos aumentar nuestro conocimiento, hay dos maneras de proceder:

+ Obtener más datos.
+ Obtener más información de fondo.

Por ejemplo, supongamos que además del tren 60 también vemos los trenes 30 y 90.

In [None]:
hypos = range(1, 1001)
posterior =  Normalize(Posterior(60, hypos, priors))
posterior2 = Normalize(Posterior(30, hypos, posterior))
posterior3 = Normalize(Posterior(90, hypos, posterior2))

print(int(Meanp(hypos, posterior3)))

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(10,2))
    plt.ylim([-0.001,0.025])
    plt.plot(hypos, posterior3)
plt.show()

Podemos refactorizar nuestras funciones de la siguiente manera:

In [None]:
def Normalize(d):
    total = d.sum()
    factor = 1.0 / total
    for i in range(len(d)):
        d[i] *= factor
    return d

def Likelihood1(datum, hypo):
    if hypo < datum:
        return 0.0
    else:
        return 1.0/hypo
    
def Posterior(datum, hypos, priors, likelihood):
    import numpy as np
    posterior = np.array([likelihood(datum, hypo) for hypo in hypos]) * priors
    return posterior

def Posterior_n(data, hypos, priors, likelihood):
    p = priors
    for d in data:
        posterior =  Normalize(Posterior(d, hypos, p, likelihood))
        p = posterior
    return posterior

def Meanp(hypos, posterior):
    total = 0.0
    s = hypos * posterior
    return s.mean()*len(hypos)

hypos = np.array(range(1, 1001))
priors = np.array([1.0/len(hypos) for hypo in hypos])
posteriors = Posterior_n([60,30,90], hypos, priors, Likelihood1)

print('Mean of the posterior distribution with 1000 hypotheses: ', \
        int(Meanp(hypos, posteriors)))

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(10,2))
    plt.ylim([-0.001,0.025])
    plt.plot(hypos, posteriors)
plt.show()

Con más datos, **las distribuciones posteriores basadas en diferentes priores tienden a converger**.

In [None]:
hypos = np.array(range(1, 501))
priors = np.array([1.0/len(hypos) for hypo in hypos])
posteriors = Posterior_n([60,60,90], hypos, priors, Likelihood1)
print('Mean of the posterior distribution with 500 hypotheses: ', 
      int(Meanp(hypos, posteriors)))

hypos = np.array(range(1, 2001))
priors = np.array([1.0/len(hypos) for hypo in hypos])
posteriors = Posterior_n([60,60,90], hypos, priors, Likelihood1)
print('Mean of the posterior distribution with 2000 hypotheses: ', 
      int(Meanp(hypos, posteriors)))

Si no están disponibles más datos, otra opción es mejorar los priores recopilando más información de fondo. Probablemente no sea razonable suponer que una compañía que opera trenes con 1000 locomotoras es tan probable como una compañía con solo 1.

Supongamos que la distribución del número total de locomotoras de una compañía tiende a seguir una **ley de potencia**.

Esta ley sugiere que si hay 1000 compañías con menos de 10 locomotoras, podría haber 100 compañías con 100 locomotoras, 10 compañías con 1000, y posiblemente una compañía con 10,000 locomotoras.

Matemáticamente, una ley de potencia significa que el número de compañías con un tamaño dado es inversamente proporcional al tamaño:

$$ f(x) = \left( \frac{1}{x} \right)^\alpha $$

donde $f(x)$ es la función de masa de probabilidad de $x$ y $\alpha$ es un parámetro (que a menudo está cerca de 1).

In [None]:
def Likelihood2(data, hypo, alpha=1.0):
    if hypo < data:
        return 0.0
    else:
        return hypo**(-alpha)

alpha = 1.0
hypos = np.array(range(1, 1001))
priors = Normalize(np.array([Likelihood2(0, hypo, alpha) for hypo in hypos]))

print(int(Meanp(hypos, priors)))
    
with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(10,2))
    plt.ylim([-0.01,0.14])
    plt.xlim([-10,500])
    plt.plot(hypos, priors)
plt.show()

In [None]:
alpha = 1.0

hypos = np.array(range(1, 1001))
priors = Normalize(np.array([Likelihood2(0, hypo, alpha) for hypo in hypos]))

posteriors = Posterior_n([30,60,90], hypos, priors, Likelihood2)

print('Mean of the posterior distribution with 1000 hypotheses: ', int(Meanp(hypos, posteriors)))

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(10,2))
    plt.ylim([-0.001,0.035])
    plt.plot(hypos, posteriors)
    plt.axvline(x=int(Meanp(hypos, posteriors)), ymin=0.0, ymax = 0.9, \
                linewidth=1, color='r')

plt.show()

In [None]:
hypos = np.array(range(1, 501))
priors = Normalize(np.array([Likelihood2(0, hypo, alpha) for hypo in hypos]))

posteriors = Posterior_n([30,60,90], hypos, priors, Likelihood2)

print('Mean of the posterior distribution with 500 hypotheses: ',int(Meanp(hypos, posteriors)))

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(6,2))
    plt.ylim([-0.001,0.035])
    plt.xlim([0,2000])
    plt.plot(hypos, posteriors)
    plt.axvline(x=int(Meanp(hypos, posteriors)), ymin=0.0, ymax = 0.9, \
                linewidth=1, color='r')

plt.show()

hypos = np.array(range(1, 2001))
priors = Normalize(np.array([Likelihood2(0, hypo, alpha) for hypo in hypos]))

posteriors = Posterior_n([30,60,90], hypos, priors, Likelihood2)

print('Mean of the posterior distribution with 2000 hypotheses: ',int(Meanp(hypos, posteriors)))

with plt.style.context('fivethirtyeight'):
    plt.figure(figsize=(6,2))
    plt.ylim([-0.001,0.035])
    plt.plot(hypos, posteriors)
    plt.axvline(x=int(Meanp(hypos, posteriors)), ymin=0.0, ymax = 0.9, \
                linewidth=1, color='r')

plt.show()

### MAP e intervalos creíbles

Una vez que tenemos la **distribución posterior**, podríamos estar interesados en resumir el resultado con una **estimación puntual** o un **intervalo creíble**.

Para las estimaciones puntuales podemos usar la media, la mediana o el **modo**. Esta última estimación se llama **estimación máxima a posteriori (MAP)**.

Para los intervalos, generalmente informamos dos valores calculados de modo que exista un 95% de probabilidad de que el valor desconocido caiga entre ellos (o cualquier otra probabilidad). Estos valores definen un **intervalo creíble**.

Una forma simple de calcular el intervalo creíble del 95% es sumar las probabilidades en la distribución posterior y registrar los valores que corresponden a las probabilidades del 2.5% y el 97.5%. En otras palabras, los percentiles 2.5 y 97.5.

In [None]:
def Percentile(hypos, posterior, percentage):
    import numpy as np
    p = percentage / 100.0
    cdf = np.cumsum(np.array(posterior))
    total = 0
    for i in range(len(hypos)):
        total += posterior[i]
        if total >= p:
            return hypos[i] 

alpha = 1.0

hypos = np.array(range(1, 1001))
priors = Normalize(np.array([Likelihood2(0, hypo, alpha) for hypo in hypos]))
posteriors = Posterior_n([30,60,90], hypos, priors, Likelihood2)      

print('The credible interval is [', Percentile(hypos, posteriors, 2.5),',', \
            Percentile(hypos, posteriors, 97.5), ']')

with plt.style.context('fivethirtyeight'):
    fig = plt.figure(figsize=(10,2))
    ax = fig.add_subplot(111)
    plt.ylim([-0.001,0.035])
    plt.plot(hypos, posteriors)
    plt.axvspan(Percentile(hypos, posteriors, 2.5), Percentile(hypos, posteriors, 97.5), facecolor='0.5', alpha=0.2)
    plt.axvline(x=int(Meanp(hypos, posteriors)), ymin=0.0, ymax = 1, \
                linewidth=1, color='r')
    ax.set_xlabel('The credible interval is [ 90 , 303 ]')
plt.show()

Para el ejemplo anterior—el problema de la locomotora con un prior de ley de potencia y tres trenes—el intervalo creíble del 90% es (90, 303). La amplitud de este rango sugiere, correctamente, que aún estamos bastante inciertos sobre cuántas locomotoras hay.

## Comparación de hipótesis Bayesianas.

Desde un punto de vista frecuentista, decimos que un efecto $H_A$ es estadísticamente significativo (o no) calculando las probabilidades (verosimilitud) del efecto bajo una hipótesis nula $P(E|H_0)$, pero no puedes concluir que es real.

Desde un punto de vista Bayesiano, lo que calculamos directamente es $P(H_A | E)$, donde $H_A$ es la hipótesis de que el efecto es real.

Por el Teorema de Bayes:

$$ P(H_A | E) = \frac{P(E|H_A) P(H_A)}{P(E)} = \frac{P(E|H_A) P(H_A)}{P(E | H_A)P(H_A) + P(E | H_0)P(H_0)} $$

Para calcular $P(E | H_A)$, el término de verosimilitud, podemos seguir un enfoque similar al empleado para calcular $P(E | H_0)$, generando 1000 pares de muestras, uno de cada distribución.

In [None]:
import pandas as pd
import random
import numpy as np

file = open('2002FemPreg.dat', 'r')
seed = 41
np.random.seed(seed)

def chr_int(a):
    if a == '  ':
        return 0
    else:
        return int(a)
        
preg=[]
for line in file:
    lst  = [int(line[:12]), int(line[274:276]), int(line[276]), \
                 chr_int(line[277:279]), float(line[422:440])]
    preg.append(lst)
    

df = pd.DataFrame(preg)
df.columns = ['caseid', 'prglength', 'outcome', 'birthord', 'finalwgt']

#data cleaning
df2 = df.drop(df.index[(df.outcome == 1) & (df['prglength'] > df['prglength'].median() + 6)])
df2[(df2.outcome == 1) & 
    (df2['prglength'] > df2['prglength'].median() + 6)]
df3 = df2.drop(df2.index[(df2.outcome == 1) &
                         (df2['prglength'] < df2['prglength'].median() -10)])
df3[(df3.outcome == 1) & 
    (df3['prglength'] < df3['prglength'].median() - 10)]

firstbirth = df3[(df3.outcome == 1) & (df3.birthord == 1)]
othersbirth = df3[(df3.outcome == 1) & (df3.birthord >= 2)]

x = firstbirth['prglength']
y = othersbirth['prglength']
m= len(x)
n= len(y)
p = abs(x.mean() - y.mean())
N = 1000

# Compute p(E|H_0): all come from same population --> bootstrap from the total pool
pool = np.concatenate([x,y])
np.random.shuffle(pool)
diff_0 = np.zeros(shape=(N))
for i in range(N):
    p1 = [random.choice(pool) for j in range(m)]
    p2 = [random.choice(pool) for j in range(n)]
    diff_0[i] = abs(np.mean(p1)-np.mean(p2))          # two sided test

w1_0 = np.where(diff_0 > p)[0]      # counting how many differences are larger than the observed one
p_0 = len(w1_0)/float(N)
print('p(E|H_0) =', p_0, '(', p_0*100 ,'%)')

# Compute p(E|H_A): firstbirth and othersbirth come from diferent populations --> bootstrap from each group
diff_A = np.zeros(shape=(N))
for i in range(N):
    p1 = [random.choice(x.values) for j in range(m)]
    p2 = [random.choice(y.values) for j in range(n)]
    diff_A[i] = abs(np.mean(p1)-np.mean(p2))          # two sided test

w1_A = np.where(diff_A > p)[0]      # counting how many differences are larger than the observed one
p_A = len(w1_A)/float(N)
print('p(E|H_A) =', p_A, '(', p_A*100 ,'%)')

Luego, la probabilidad de \(P(E | H_A)\) es aproximadamente 0.5.

En ausencia de conocimiento asumiremos que \(P(H_A) = P(H_0) = 0.5\).

Entonces, podemos calcular las probabilidades posteriores de \(H_A\) y \(H_0\):

$$ P(H_A | E) = \frac{P(E|H_A) P(H_A)}{P(E)}$$

$$ P(H_0 | E) = \frac{P(E|H_0) P(H_0)}{P(E)}$$

In [None]:
print('P(H_A|E):', 0.5 * 0.5 / (0.5 * 0.5 + 0.02 * 0.5))
print('P(H_0|E):', 0.02 * 0.5 / (0.5 * 0.5 + 0.02 * 0.5))

Así, al tener en cuenta una nueva evidencia, hemos aumentado nuestra creencia en el efecto \(H_A\) del 50% al 96%. Esto no es una regla de decisión, sino un cambio en nuestro conocimiento. Tiene sentido: ¡la evidencia apoya la hipótesis!

En nuestro problema, basado en el conocimiento experto, también podría tener sentido considerar que \(P(H_A) = 0.01\) y \(P(H_0) = 0.99\). En este caso:

In [None]:
print('H_A:', 0.5 * 0.01 / (0.5 * 0.01 + 0.02 * 0.99))
print('H_0:', 0.02 * 0.99 / (0.5 * 0.01 + 0.02 * 0.99))

Hemos aumentado nuestra creencia en el efecto \(H_A\) del 1% al 20%, ¡pero todavía podemos creer en \(H_0\)!

El cambio depende en gran medida de nuestra creencia previa:

<center><small>Imagen de: Sellke et al. "Calibration of ρ values for testing precise null hypotheses." Am. Stat. 55.1 (2001): 62-71.</small></center>

<img src="./images/p-graphic.jpg" width="600"/>

# Inferencia Bayesiana

(de [*Bayesian Methods for Hackers, Cam Davidson-Pilon, 2013*](https://camdavidsonpilon.github.io/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers/))

Supongamos, de manera ingenua, que no estás seguro sobre la probabilidad de obtener cara en un lanzamiento de moneda. Crees que hay alguna proporción verdadera subyacente, llamémosla \(θ \in [0,1]\), pero no tienes una opinión previa sobre qué podría ser \(θ\).

Comenzamos a lanzar una moneda y registrar las observaciones: ya sea ``H`` o ``T``. Estos son nuestros datos observados.

Una pregunta interesante es cómo cambia nuestra inferencia a medida que observamos más y más datos. Más específicamente, **¿cómo se ven nuestras probabilidades posteriores cuando tenemos pocos datos, versus cuando tenemos muchos datos**?

> **Suposición**: nuestras distribuciones (paramétricas) son modelos generativos del mundo.

En teoría de probabilidad y estadística, la **distribución de Bernoulli**, nombrada así por el científico suizo Jacob Bernoulli, es la distribución de probabilidad de una variable aleatoria que toma el valor 1 con probabilidad de éxito \(θ\) y el valor 0 con probabilidad de fracaso \(1-θ\).

La distribución de probabilidad, sobre los posibles resultados \(k\), es:
$$P(k|θ)=θ^k (1−θ)^{1−k}$$
donde \(k∈\{0,1\}\) y \(θ∈[0,1]\).

Podemos usar la función de verosimilitud de Bernoulli para determinar la probabilidad de ver una secuencia particular de \(N\) lanzamientos, dada por el conjunto \({k_1,...,k_N}\).

Dado que cada uno de estos lanzamientos es independiente de cualquier otro, la probabilidad de que ocurra la secuencia es simplemente el producto de la probabilidad de cada lanzamiento (distribución binomial).

Si tenemos un parámetro de equidad particular \(θ\), entonces la probabilidad de ver esta corriente particular de lanzamientos, dado \(θ\), es:
$$ P(\{k_1,...,k_N\} | θ ) =  \prod_i P(k_i|θ) = \prod_i θ^{k_i} (1−θ)^{1−k_i} $$

¿Qué pasa si estamos interesados en el número de caras, digamos, en \(N\) lanzamientos?

Si denotamos por \(z\) el número de caras que aparecen, entonces la fórmula anterior se convierte en:

$$ P(z,N|θ) = θ^{z} (1−θ)^{N-z} $$
Es decir, la probabilidad de ver \(z\) caras, en \(N\) lanzamientos, asumiendo un parámetro de equidad \(θ\).

Usaremos esta fórmula cuando lleguemos a determinar nuestra distribución de creencias posteriores.

## Regla de Bayes para la Inferencia Bayesiana

$$P(θ|D)=\frac{P(D|θ)P(θ)}{P(D)}$$

Donde:

+ \(P(θ)\) es el prior. Nuestra vista previa sobre la probabilidad de cuán justa es la moneda.

+ \(P(θ|D)\) es el posterior.

+ \(P(D|θ)\) es la verosimilitud. Si supiéramos que la moneda es justa, esto nos dice la probabilidad de ver un número de caras en un número particular de lanzamientos.

+ \(P(D)\) es la evidencia. Si tuviéramos múltiples vistas de cuán justa es la moneda (pero no lo supiéramos con certeza), entonces esto nos dice la probabilidad de ver una cierta secuencia de lanzamientos para todas las posibilidades de nuestra creencia en la equidad de la moneda.

Estamos interesados en la probabilidad de que la moneda salga cara como una función del parámetro de equidad subyacente \(θ\).

En cuanto a la verosimilitud:

$$ P(D|θ) = P(z,N|θ) = θ^{z} (1−θ)^{N-z} $$

En cuanto al prior, vamos a elegir la distribución beta:

$$ P(θ | \alpha, \beta)=  \frac{θ^{\alpha-1} (1−θ)^{\beta -1}}{B(\alpha, \beta)}  $$ 

donde el término en el denominador está presente para actuar como una constante normalizadora para que el área bajo la PDF sume realmente a 1.

In [None]:
from scipy.stats import beta
from matplotlib import pyplot as plt
import numpy as np

#------------------------------------------------------------
# Define the distribution parameters to be plotted
alpha_values = [0.5, 1.0, 3.0, 0.5]
beta_values = [0.5, 1.5, 3.0, 1.5]
linestyles = ['-', '--', ':', '-.']
x = np.linspace(0, 1, 1002)[1:-1]

#------------------------------------------------------------
# plot the distributions
fig, ax = plt.subplots(figsize=(5, 3.75))

for a, b, ls in zip(alpha_values, beta_values, linestyles):
    dist = beta(a, b)

    plt.plot(x, dist.pdf(x), ls=ls, c='black',
             label=r'$\alpha=%.1f,\ \beta=%.1f$' % (a, b))

plt.xlim(0, 1)
plt.ylim(0, 3)

plt.xlabel('$x$')
plt.ylabel(r'$p(x|\alpha,\beta)$')
plt.title('Beta Distribution')

plt.legend(loc=0)
plt.show()

La razón más importante para elegir una distribución beta es porque es un **prior conjugado** para la distribución de Bernoulli.

En la regla de Bayes mencionada anteriormente, podemos ver que la distribución posterior es proporcional al producto de la distribución prior y la función de verosimilitud:

$$ P(θ|D) \propto P(D|θ)P(θ) $$

Un **prior conjugado** es una elección de distribución prior que, cuando se combina con un tipo específico de función de verosimilitud, proporciona una distribución posterior que es de la misma familia que la distribución prior.

> El prior y el posterior tienen la misma familia de distribución de probabilidad, pero con parámetros diferentes.

Si nuestro prior está dado por \( \text{beta}(θ|α,β) \) y observamos \( z \) caras en \( N \) lanzamientos posteriormente, entonces el posterior está dado por \( \text{beta}(θ|z+α,N−z+β) \).

A continuación, graficamos una secuencia de actualizaciones de probabilidades posteriores a medida que observamos cantidades crecientes de datos (lanzamientos de moneda).

In [None]:
import matplotlib.pylab as plt
from IPython.core.pylabtools import figsize
import numpy as np
from matplotlib import pyplot as plt
import scipy.stats as stats
figsize(10, 9)

# we use a (continous) prior for p by using the beta function
dist = stats.beta

n_trials = [0,1,2,3,4,5,8,15, 50, 500]

# synthetic data generation
# random number generation with a Bernoulli distribution with p=0.5
# the probability of this sequence is modelled by the binomial distribution
data = stats.bernoulli.rvs(0.5, size = n_trials[-1])
print(data)

In [None]:
import warnings
warnings.filterwarnings('ignore')

x = np.linspace(0,1,100)

for k, N in enumerate(n_trials):
    sx = plt.subplot( len(n_trials)/2, 2, k+1)
    plt.xlabel("$p$, probability of heads") if k in [0,len(n_trials)-1] else None
    plt.setp(sx.get_yticklabels(), visible=False)
    
    # counting the number of heads
    heads = data[:N].sum()
    
    # in this case the posterior can be analitically computed
    # because the conjugate prior of the Binomial distribution
    # is a Beta distribution 
    y = dist.pdf(x, 1 + heads, 1 + N - heads )
    
    plt.plot( x, y, label= "observe %d tosses,\n %d heads"%(N,heads) )
    plt.fill_between( x, 0, y, color="#348ABD", alpha = 0.4 )
    plt.vlines( 0.5, 0, 4, color = "k", linestyles = "--", lw=1 )
    leg = plt.legend()
    leg.get_frame().set_alpha(0.4)
    plt.autoscale(tight = True)

plt.suptitle( "Bayesian updating of posterior probabilities", y = 1.02, fontsize = 14);
plt.tight_layout()


## Recordatorio: PDFs Populares
*(Fuente: https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers)*

Supongamos que $Z$ es una variable aleatoria. Entonces, asociada con $Z$ hay una *función de distribución de probabilidad* que asigna probabilidades a los diferentes resultados que $Z$ puede tomar. Gráficamente, una distribución de probabilidad es una curva donde la probabilidad de un resultado es proporcional a la altura de la curva.

### Caso Discreto

Si $Z$ es discreta, entonces su distribución se llama *función de masa de probabilidad*, que mide la probabilidad de que $Z$ tome el valor $k$, denotado $P(Z=k)$.

Hay muchas funciones de masa de probabilidad populares, pero introduzcamos la primera función de masa de probabilidad muy útil.

Decimos que $Z$ sigue una distribución *Poisson* si:

$$P(Z = k) =\frac{ \lambda^k e^{-\lambda} }{k!}, \; \; k=0,1,2, \dots $$

Puede expresar la **probabilidad de un número dado de eventos que ocurren en un intervalo de tiempo y/o espacio fijo si estos eventos ocurren con una tasa promedio conocida e independientemente del tiempo desde el último evento**.

$\lambda$ se llama parámetro de la distribución, y controla la forma de la distribución. Para la distribución de Poisson, $\lambda$ puede ser cualquier número positivo. Al aumentar $\lambda$, añadimos más probabilidad a valores mayores y, disminuyendo $\lambda$, añadimos más probabilidad a valores menores. Uno puede describir $\lambda$ como la *intensidad* de la distribución de Poisson.

A diferencia de $\lambda$, que puede ser cualquier número positivo, el valor $k$ en la fórmula anterior debe ser un entero no negativo, es decir, $k$ debe tomar valores 0, 1, 2, etc. Esto es muy importante, porque si quisieras modelar una población no tendría sentido hablar de poblaciones con 4.25 o 5.612 miembros.

Una propiedad útil de la distribución de Poisson es que su valor esperado es igual a su parámetro, es decir:

$$E\large[ \;Z\; | \; \lambda \;\large] = \lambda $$

Esta propiedad se utiliza a menudo, por lo que es útil recordarla. A continuación, graficamos la distribución de masa de probabilidad para diferentes valores de $\lambda$.

In [None]:
plt.figure(figsize=(12.5, 4))

import scipy.stats as stats
a = np.arange(16)
poi = stats.poisson
lambda_ = [1.5, 4.25]
colours = ["#348ABD", "#A60628",]

plt.bar(a, poi.pmf(a, lambda_[0]), color=colours[0],
        label="$\lambda = %.1f$" % lambda_[0], alpha=0.60,
        edgecolor=colours[0], lw="3")

plt.bar(a, poi.pmf(a, lambda_[1]), color=colours[1],
        label="$\lambda = %.1f$" % lambda_[1], alpha=0.60,
        edgecolor=colours[1], lw="3")


plt.xticks(a + 0.4, a)
plt.legend()
plt.ylabel("probability of $k$")
plt.xlabel("$k$")
plt.title("Probability mass function of a Poisson random variable; differing $\lambda$ values")

### Caso Continuo
En lugar de una función de masa de probabilidad, una variable aleatoria continua tiene una *función de densidad de probabilidad*.

Un ejemplo de variable aleatoria continua es una variable aleatoria con **densidad exponencial**. La función de densidad para una variable aleatoria exponencial se ve así:

$$f_Z(z | \lambda) = \lambda e^{-\lambda z }, \;\; z\ge 0$$

Al igual que una variable aleatoria de Poisson, una variable aleatoria exponencial solo puede tomar valores no negativos. Pero a diferencia de una variable de Poisson, la exponencial puede tomar *cualquier* valor no negativo, incluidos valores no enteros como 4.25 o 5.612401.

Esta propiedad la hace una mala elección para datos de conteo, que deben ser enteros, pero una excelente elección para datos de tiempo, datos de temperatura o cualquier otra variable *precisa y positiva*. El gráfico a continuación muestra dos funciones de densidad de probabilidad con diferentes valores de $\lambda$.

Dado un $\lambda$ específico, el valor esperado de una variable aleatoria exponencial es igual al inverso de $\lambda$, es decir:

$$E[\; Z \;|\; \lambda \;] = \frac{1}{\lambda}$$

In [None]:
#@title
a = np.linspace(0, 4, 100)
expo = stats.expon

mean = [0.5, 1]

for l, c in zip(mean, colours):
    plt.plot(a, expo.pdf(a, scale=1. / l), lw=3,
             color=c, label="$\lambda = %.1f$" % l)
    plt.fill_between(a, expo.pdf(a, scale=1. / l), color=c, alpha=.33)

plt.legend()
plt.ylabel("PDF at $z$")
plt.xlabel("$z$")
plt.ylim(0, 1.2)
plt.title("Probability density function of an Exponential random variable;\
 differing $\lambda$");

### Pero, ¿qué es $\lambda \;$?

**Esta pregunta es lo que motiva a la estadística**. En el mundo real, $\lambda$ está oculto para nosotros.

Solo vemos $Z$, y debemos retroceder para intentar determinar $\lambda$. El problema es difícil porque no hay una relación uno a uno de $Z$ a $\lambda$. Se han creado muchos métodos diferentes para resolver el problema de estimar $\lambda$, pero dado que $\lambda$ nunca se observa realmente, ¡nadie puede decir con certeza cuál método es el mejor!

La inferencia Bayesiana se ocupa de las *creencias* sobre lo que podría ser $\lambda$. En lugar de tratar de adivinar $\lambda$ exactamente, solo podemos hablar de lo que es probable que sea $\lambda$ asignando una distribución de probabilidad a $\lambda$.

## Programación Probabilística

La programación probabilística permite la especificación flexible y el ajuste de modelos estadísticos bayesianos.

PyMC3 es un nuevo marco de PP de código abierto con una sintaxis intuitiva y legible, pero poderosa, que se acerca a la sintaxis natural que los estadísticos usan para describir modelos.

In [None]:
!apt-get install python3.5

In [None]:
!pip install pymc3
!pip install patsy
import pymc3 as pm  
import numpy as np  
import pandas as pd


Para introducir la definición del modelo, el ajuste y el análisis posterior, primero consideramos un simple **modelo de regresión lineal Bayesiano** con priors normales en los parámetros.

Estamos interesados en predecir los resultados $Y$ como observaciones distribuidas normalmente con $\mu$ que es una función lineal de dos variables predictoras, $X_1$ y $X_2$:

$$ Y \sim \mathcal{N} (\mu, \sigma^2)$$
$$ \mu = \alpha + \beta_1 X_1 + \beta_2 X_2 $$

Aplicaremos priors normales con media cero y varianza de 10 a ambos coeficientes de regresión, lo que corresponde a una información débil respecto a los valores verdaderos de los parámetros.

Dado que las varianzas deben ser positivas, también elegiremos una distribución normal media (distribución normal acotada por debajo en cero) como el prior para $\sigma$:

$$ \alpha \sim \mathcal{N}(0,10)$$
$$ \beta_i \sim \mathcal{N}(0,10)$$
$$ \sigma \sim \mathcal{|N}(0,10)|$$

In [None]:
# generating data

# Intialize random number generator
from numpy import random
np.random.seed(123)

# True parameter values

alpha, sigma = 1, 1
beta = [1, 2.5]
size = 1000
X1 = random.rand(size)
X2 = random.rand(size)/5.0

# Simulate outcome variable
Y = alpha + beta[0]*X1 + beta[1]*X2 + np.random.randn(size)*sigma

fig, axes = plt.subplots(1, 2, sharex=True, figsize=(10,4))
axes[0].scatter(X1, Y)
axes[1].scatter(X2, Y)
axes[0].set_ylabel('Y'); axes[0].set_xlabel('X1'); axes[1].set_xlabel('X2');

In [None]:
fig = plt.figure(figsize=(10,10))

ax = fig.add_subplot(111, projection='3d')

ax.scatter(X1,X2,Y) # plot the point (2,3,4) on the figure

plt.show()


### Especificación del modelo

Especificar este modelo en PyMC3 es sencillo porque la sintaxis es muy cercana a la notación estadística.

In [None]:
from pymc3 import Model, Normal, HalfNormal

# container for the model random variables
basic_model = Model()

# all PyMC3 objects introduced in the indented 
# code block below the with statement are added to the model behind the scenes
with basic_model:
    
    # Priors (stochastic random variables) for unknown model parameters
    alpha = Normal('alpha', mu=0, sd=10)
    beta = Normal('beta', mu=0, sd=10, shape=2)
    sigma = HalfNormal('sigma', sd=1)
    
    # Expected value of outcome
    mu = alpha + beta[0]*X1 + beta[1]*X2
    
    # Likelihood (sampling distribution) of observations
    Y_obs = Normal('Y_obs', mu=mu, sd=sigma, observed=Y)

### Ajuste del modelo

Habiendo especificado completamente nuestro modelo, el siguiente paso es obtener **estimaciones posteriores para las variables desconocidas en el modelo**.

**Idealmente, podríamos calcular las estimaciones posteriores de forma analítica, pero para la mayoría de los modelos no triviales, esto no es factible.**

Consideraremos dos enfoques, cuya idoneidad depende de la estructura del modelo y los objetivos del análisis:
+ encontrar el punto de máximo a posteriori (MAP) utilizando métodos de optimización, y
+ calcular resúmenes basados en muestras extraídas de la distribución posterior utilizando métodos de muestreo de Cadenas de Markov Monte Carlo (MCMC).

In [None]:
# Maximum a posteriori method (maximum of the log-posterior)

from pymc3 import find_MAP

map_estimate = find_MAP(model=basic_model)
print(map_estimate)

PyMC3 incluye algoritmos de muestreo estándar como Metropolis-Hastings adaptativo y muestreo por rebanadas adaptativo, pero el método de paso más capaz de PyMC3 es el Muestreador No-U-Turn (NUTS).

NUTS es especialmente útil en modelos que tienen muchos parámetros continuos,

In [None]:
# sampling method

from pymc3 import sample

with basic_model:
    
    # obtain starting values via MAP
    start = find_MAP(model=basic_model)
    
    # draw 2000 posterior samples
    trace = sample(2000, start=start)

La función `sample` ejecuta el o los métodos `step` asignados (o pasados) durante el número dado de iteraciones y devuelve un objeto `Trace` que contiene las muestras recogidas, en el orden en que fueron recogidas.

El objeto `Trace` puede ser consultado de manera similar a un diccionario que contiene un mapa de nombres de variables a `numpy.arrays`.

In [None]:
trace['alpha'][-5:]

### Análisis posterior

PyMC3 proporciona funciones de trazado y resumen para inspeccionar la salida del muestreo. Un gráfico posterior simple se puede crear usando `traceplot`.

In [None]:
from pymc3 import traceplot

traceplot(trace);

In [None]:
from pymc3 import summary

summary(trace)

## Ejemplo: Inferir comportamiento a partir de datos de mensajes de texto.

> Se te proporciona una serie de conteos diarios de mensajes de texto de un usuario de tu sistema. Los datos, representados a lo largo del tiempo, aparecen en el gráfico a continuación. Te interesa saber si los hábitos de envío de mensajes de texto del usuario han cambiado con el tiempo, ya sea gradual o repentinamente. ¿Cómo puedes modelar esto? (De hecho, estos son mis propios datos de mensajes de texto. Juzga mi popularidad como desees.)

In [None]:

file = open('txtdata.csv', 'r')

count_data = np.loadtxt(file)
n_count_data = len(count_data)
plt.bar(np.arange(n_count_data), count_data, color="#348ABD")
plt.xlabel("Time (days)")
plt.ylabel("count of text-msgs received")
plt.title("Did the user's texting habits change over time?")
plt.xlim(0, n_count_data);

In [None]:
import pymc3 as pm

with pm.Model() as model:
    alpha = 1.0/count_data.mean()  # Recall count_data is the
                                   # variable that holds our txt counts
                                   
    lambda_1 = pm.Exponential("lambda_1", alpha)
    lambda_2 = pm.Exponential("lambda_2", alpha)
    
    tau = pm.DiscreteUniform("tau", lower=0, upper=n_count_data - 1)

with model:
    idx = np.arange(n_count_data) # Index
    lambda_ = pm.math.switch(tau > idx, lambda_1, lambda_2)

with model:
    observation = pm.Poisson("obs", lambda_, observed=count_data)
    
with model:
    step = pm.Metropolis()
    trace = pm.sample(10000, tune=5000, step=step, return_inferencedata=False)

lambda_1_samples = trace['lambda_1']
lambda_2_samples = trace['lambda_2']
tau_samples = trace['tau']

figsize(12.5, 10)
#histogram of the samples:

ax = plt.subplot(311)
ax.set_autoscaley_on(False)

plt.hist(lambda_1_samples, histtype='stepfilled', bins=30, alpha=0.85,
         label="posterior of $\lambda_1$", color="#A60628", density=True)
plt.legend(loc="upper left")
plt.title(r"""Posterior distributions of the variables
    $\lambda_1,\;\lambda_2,\;\tau$""")
plt.xlim([15, 30])
plt.xlabel("$\lambda_1$ value")

ax = plt.subplot(312)
ax.set_autoscaley_on(False)
plt.hist(lambda_2_samples, histtype='stepfilled', bins=30, alpha=0.85,
         label="posterior of $\lambda_2$", color="#7A68A6", density=True)
plt.legend(loc="upper left")
plt.xlim([15, 30])
plt.xlabel("$\lambda_2$ value")

plt.subplot(313)
w = 1.0 / tau_samples.shape[0] * np.ones_like(tau_samples)
plt.hist(tau_samples, bins=n_count_data, alpha=1,
         label=r"posterior of $\tau$",
         color="#467821", weights=w, rwidth=2.)
plt.xticks(np.arange(n_count_data))

plt.legend(loc="upper left")
plt.ylim([0, .75])
plt.xlim([35, len(count_data)-20])
plt.xlabel(r"$\tau$ (in days)")
plt.ylabel("probability");

In [None]:
figsize(12.5, 5)
# tau_samples, lambda_1_samples, lambda_2_samples contain
# N samples from the corresponding posterior distribution
N = tau_samples.shape[0]
expected_texts_per_day = np.zeros(n_count_data)
for day in range(0, n_count_data):
    # ix is a bool index of all tau samples corresponding to
    # the switchpoint occurring prior to value of 'day'
    ix = day < tau_samples
    # Each posterior sample corresponds to a value for tau.
    # for each day, that value of tau indicates whether we're "before"
    # (in the lambda1 "regime") or
    #  "after" (in the lambda2 "regime") the switchpoint.
    # by taking the posterior sample of lambda1/2 accordingly, we can average
    # over all samples to get an expected value for lambda on that day.
    # As explained, the "message count" random variable is Poisson distributed,
    # and therefore lambda (the poisson parameter) is the expected value of
    # "message count".
    expected_texts_per_day[day] = (lambda_1_samples[ix].sum()
                                   + lambda_2_samples[~ix].sum()) / N


plt.plot(range(n_count_data), expected_texts_per_day, lw=4, color="#E24A33",
         label="expected number of text-messages received")
plt.xlim(0, n_count_data)
plt.xlabel("Day")
plt.ylabel("Expected # text-messages")
plt.title("Expected number of text-messages received")
plt.ylim(0, 60)
plt.bar(np.arange(len(count_data)), count_data, color="#348ABD", alpha=0.65,
        label="observed texts per day")

plt.legend(loc="upper left");

Más información: [Bayesian Methods for Hackers](https://github.com/CamDavidsonPilon/Probabilistic-Programming-and-Bayesian-Methods-for-Hackers)

