# Sesión 6 B

## Actualización bayesiana continua

> **Objetivos:**
> - Comprender una familia de distributiones parametrizadas que representa un rango continuo de hipótesis para los datos observados.
>
> - Aplicar el teorema de Bayes para actualizar la densidad de probabilidad dados los datos y una distribución posterior.
>
> - Interpretar y usar probabilidades predictivas posteriores.

### 1. De hipótesis discretas a parámetros continuos  

En los ejemplos anteriores trabajamos con un modelo **discreto**:

- Teníamos un conjunto **finito de hipótesis**: la moneda podía ser de tipo A, B o C, cada una con su probabilidad previa.  

- La distribución $p(\theta)$ representaba esa creencia inicial sobre **cuál hipótesis era verdadera**.  

En ese escenario, el razonamiento bayesiano consistía en:  
1. Asignar probabilidades a las hipótesis (previas).  
2. Observar datos (por ejemplo, caras al lanzar la moneda).  
3. Actualizar esas probabilidades mediante Bayes, obteniendo una **posterior discreta** sobre el conjunto de hipótesis.  

Ahora pasamos a un escenario distinto: el **caso continuo**.  
- Ya no pensamos en un número finito de hipótesis, sino en un **parámetro desconocido $\theta$**.  
- Por ejemplo, $\theta$ puede ser la probabilidad de obtener cara al lanzar una moneda.  
- Como no sabemos su valor exacto, suponemos que $\theta$ puede tomar **infinitos valores en el intervalo $[0,1]$**.  

En este caso:  
- La verosimilitud sigue siendo discreta (los datos son lanzamientos: cara o cruz, modelados por una Bernoulli).  
- Pero la distribución **previa sobre $\theta$** es ahora una distribución **continua**.  

Así, el proceso bayesiano cambia de "asignar probabilidades a hipótesis finitas" a "asignar densidades de probabilidad a un espacio continuo de posibles valores para el parámetro".  

> En resumen:  
> - **Caso discreto**: $p(\theta)$ representa probabilidades sobre un conjunto finito de > hipótesis (tipos de monedas).
>
> - **Caso continuo**: $p(\theta)$ es una densidad sobre todos los valores posibles del > parámetro $\theta$.

### 2. Justificación de usar $\theta$ continua

El enfoque _continuo_ es más realista en muchos contextos, porque en la práctica no sabemos de antemano cuáles son los valores posibles de la probabilidad de cara.

En lugar de restringirnos a 3 hipótesis, admitimos que la probabilidad de cara $\theta$ puede ser cualquier número real en $[0,1]$.

Así, el modelo nos permite **aprender directamente la probabilidad de éxito** en vez de solo elegir entre hipótesis predefinidas.

### 3. Previas continuas, verosimilitudes discretas

**Dos niveles en el modelo bayesiano**

Cuando aplicamos Bayes, siempre jugamos en dos niveles distintos de incertidumbre:

$$
p(\theta | x) = \frac{p(x | \theta) p(\theta)}{p(x)}.
$$

1. Nivel de los datos (observaciones):

    * En el ejemplo de la moneda, los datos provienen de una Bernoulli, es decir, $X \in {0,1}$.

    * Esto significa que la verosimilitud (la probabilidad de observar los datos dados los parámetros) $p(x|\theta)$ es **discreta.**

2.  Nivel del parámetro desconocido $\theta$:

    * Aquí, $\theta$ es la probabilidad de éxito (caer cara).

    * No conocemos $\theta$, pero asumimos que **puede tomar infinitos valores en [0,1]**.

    * Como no sabemos cuál es $\theta$, lo tratamos como una _variable aleatoria continua_ con su propia distribución: **la distribución previa (prior)** $p(\theta)$.

```{admonition} Nota
:class: tip

Recuerda que el parámetro o los parámetros de una distribución siempre son los mismos para cada distribución.

Lo que cambia es **cómo estimamos según el enfoque**:

![](../images/sesion6-comparacion-mle-map-bayes.png)
```

#### **Ejemplo**

Supongamos que tenemos una moneda con probabilidad desconocida $\theta$ de caer en cara. El valor de $\theta$ es aleatorio y podría ser cualquier cosa entre 0 y 1.

##### **Prior**

Para modelar nuestra incertidumbre sobre $\theta$, **asumimos** que:

$$ p(\theta) = 2\theta
$$

para $0 \leq \theta \leq 1$ y 0 en otro caso.

![](../images/sesion6-comparacionprevias.png)

> * Nuestra **creencia previa (prior)** sobre $\theta$ no es uniforme.

> * Estamos diciendo que, antes de ver los datos, creemos que valores grandes de $\theta$ (más cercanos a 1) son **más probables** que valores pequeños (más cercanos a 0).

> * Es una pdf válida porque:
$$ \int_0^1 2\theta d\theta = 1
$$

> **Observa lo interesante:** 
> - La previa es _continua_ (porque $\theta$ puede variar en infinitos valores).
> - La verosimilitud es _discreta_ (porque los datos son 0 o 1).

##### **Verosimilitud**

Tenemos una _verosimilitud discreta_ dado que tirar una moneda solo tiene dos posibles resultados:

$$
p(x=1 | \theta) = \theta, \qquad p(x=0 | \theta) = 1 - \theta
$$

##### **Enfoque bayesiano**

Si:

$$
\text{Numerador de Bayes} \;=\; 
\underbrace{p(x \mid \theta)}_{\text{verosimilitud (discreta)}}\;
\underbrace{p(\theta)}_{\text{previa (continua)}}
$$

Normalizamos diviendo por la probailidad total 


$$
p(x) \;=\; \int_{0}^{1} p(x \mid \theta)\, p(\theta)\, d\theta
\quad \Rightarrow \quad
p(\theta \mid x) \;=\; \frac{p(x \mid \theta)\, p(\theta)}{p(x)}

$$

> En este caso, la *ley de probabilidad total* la escribimos como $$p(x) = \int_{-\infty}^{\infty} p(x | \theta) p(\theta) \text{d}\theta$$

### Ejemplo 1: una sola observación (cara)

Supongamos que tiramos la moneda una vez y obtenemos cara ($x=1$).

* verosimilitud:

$$
p(x=1 \mid \theta) = \theta
$$

* previa:

$$
p(\theta) = 2\theta, \quad 0 \leq \theta \leq 1
$$

* numerador de Bayes:

$$
p(x=1 \mid \theta)\, p(\theta) = \theta \cdot 2\theta = 2\theta^2
$$

* probabilidad total:

$$
\begin{aligned}
p(x=1) &= \int_{0}^{1} 
          \underbrace{\theta}_{\text{verosimilitud}}\;
          \underbrace{2\theta}_{\text{previa}}\, d\theta \\[6pt]
       &= \int_{0}^{1} 2\theta^2\, d\theta \\[6pt]
       &= 2\left[\tfrac{\theta^3}{3}\right]_{0}^{1} \\[6pt]
       &= \tfrac{2}{3}
\end{aligned}
$$


Con esta probabilidad total ya podemos calcular la posterior, 
normalizando el numerador de Bayes:

* posterior:

$$
p(\theta \mid x=1) = \frac{2\theta^2}{2/3} = 3\theta^2
$$

### Cálculo simbólico con `sympy`

In [None]:
import sympy as sp

# Definimos el símbolo
theta = sp.symbols('θ')

# Definimos la prior y la verosimilitud
prior = 2*theta
likelihood = theta

# Evidencia (normalización): ∫ θ * 2θ dθ de 0 a 1
p_evidencia = sp.integrate(likelihood * prior, (theta, 0, 1))
print("Evidencia p(x=1) =", p_evidencia)

# Posterior = numerador / evidencia
posterior = (likelihood * prior) / p_evidencia
posterior_simpl = sp.simplify(posterior) #simplifica la expressión
print("Posterior p(θ|x=1) =", posterior_simpl)

### Cálculo numérico con `numpy`

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# Theta
theta = np.linspace(0, 1, 200)

# Prior y verosimilitud evaluadas en theta
prior_vals = 2 * theta
likelihood_vals = theta

# Evidencia en forma cerrada
p_x = 2/3  

# Posterior evaluada punto a punto
posterior_vals = (likelihood_vals * prior_vals) / p_x 

In [None]:
# Graficamos
plt.plot(theta, prior_vals, label=r'Previa $p(\theta)=2\theta$')
plt.plot(theta, posterior_vals, color='red', label=r'Posterior $p(\theta|x=1)=3\theta^2$')
plt.xlabel(r'$\theta$')
plt.ylabel("Densidad")
plt.title("Actualización Bayesiana: previa y posterior")
plt.legend()
plt.grid(alpha=0.3)
plt.show()

> **Nota.** Precisamente la ley de probabilidad total será, en general, bastante compleja de calcular en la mayoría de los casos, por lo que luego nos decantaremos por métodos numéricos para aproximar la distribución posterior.

### Ejemplo 2: 

Supongamos que observamos en tres tiros de la moneda, la secuencia cara-cara-sello.
 
Calculemos la pdf posterior para $\theta$:

### Cálculo simbólico con `sympy`

1) Previa:

$$
p(\theta) = 2\theta, \quad 0 \leq \theta \leq 1
$$

In [None]:
theta = sp.symbols('θ')
prior = 2*theta
prior

2. Verosimilitud de la secuencia cara-cara-sello (1,1,0):

$$
p(x=1,1,0|\theta) = \theta * \theta * (1-\theta) = \theta^2 (1-\theta)
$$

In [None]:
likelihood = theta*theta*(1-theta)
likelihood

3. Numerador de Bayes _(previa * verosimilitud)_:

$$
p(\theta|x=1,1,0) \propto p(\theta) \cdot p(x=1,1,0|\theta)
$$

In [None]:
numerador = likelihood * prior
numerador

4. Probabilidad total (evidencia) - normalización:

$$
p(x=1,1,0)= \int_{0}^{1} p(x=1,1,0|\theta) p(\theta) d\theta
$$

In [None]:
p_evidencia = sp.integrate(numerador, (theta, 0, 1))
p_evidencia

5. Posterior:

$$
p(\theta|x=1,1,0) = \frac{p(x=1,1,0|\theta) p(\theta)}{p(x=1,1,0)}
$$

In [None]:
posterior_expr = numerador / p_evidencia
posterior_simpl = sp.simplify(posterior_expr)
posterior_simpl

### Cálculo numérico con `numpy`

In [None]:
import numpy as np

# Rango de θ
theta = np.linspace(0, 1, 1001)

# Previa p(θ)
prior_density = 2 * theta

# Verosimilitud de los datos (x=1,1,0)
likelihood_vals = theta**2 * (1 - theta)

# Numerador de Bayes
unnormalized_posterior = prior_density * likelihood_vals   

# Evidencia (probabilidad total de los datos)
evidencia = np.trapezoid(unnormalized_posterior, theta)

# Posterior normalizada
posterior_density = unnormalized_posterior / evidencia

# Verificación (el área bajo la posterior debe ser 1)
area_posterior = np.trapezoid(posterior_density, theta)

evidencia, area_posterior

In [None]:
# Graficar previa y posterior
plt.figure(figsize=(7,5))
plt.plot(theta, prior_density, label=r'Previa $2\theta$')
plt.plot(theta, posterior_density, color='red', label=r'Posterior $20\theta^3(1-\theta)$')
plt.xlabel(r'$\theta$'); plt.ylabel('Densidad')
plt.title('Actualización Bayesiana: datos (1,1,0)')
plt.legend(); plt.grid(alpha=0.3)
plt.show()

Ahora que tenemos todos los ingredientes, escribimos nuestra tabla de actualziación Bayesiana, teniendo en mente que:

> No podemos enumerar una fila para cada hipótesis. Solo escribimos una.

| Hipótesis | Rango          | Previa                                     | Verosimilitud              | Numerador de Bayes                                         | Posterior                  |
| --------- | -------------- | ------------------------------------------ | -------------------------- | ---------------------------------------------------------- | -------------------------- |
| $\theta$  | rango $\theta$ | $p(\theta)$                                | $p(x = 1, 1, 0 \| \theta)$ | $p(x = 1, 1, 0 \| \theta)p(\theta)$                        | $p(\theta \| x = 1, 1, 0)$ |
|           |                |                                            |                            |                                                            |                            |
| $\theta$  | [0, 1]         | $2 \theta$                                 | $\theta^2(1-\theta)$       | $2 \theta^3 (1-\theta)$                                    | $20 \theta^3 (1-\theta)$   |
|           |                |                                            |                            |                                                            |                            |
| total     | [0, 1]         | $\int_{0}^{1} 2 \theta \text{d}\theta = 1$ | NO SUMA                    | $\int_{0}^{1} 2 \theta^3 (1-\theta) \text{d}\theta = 1/10$ | $1$                        |

In [None]:
# Graficar numerador y posterior
plt.figure(figsize=(8,6))

plt.subplot(2, 1, 1)
plt.plot(theta, posterior_density, label=r'Posterior $p(\theta|x=1,1,0)$', color='blue')
plt.ylabel("Densidad")
plt.legend()

plt.subplot(2, 1, 2)
plt.plot(theta, unnormalized_posterior, label=r'Numerador de Bayes $p(x=1,1,0|\theta)p(\theta)$', color='red')
plt.xlabel(r'$\theta$')
plt.ylabel("Valor")
plt.legend()

plt.tight_layout()
plt.show()

Una vez más, incluso para el caso de previas continuas, tenemos que:

$$
p(\text{hipótesis} | \text{datos}) \propto p(\text{datos} | \text{hipótesis}) p(\text{hpótesis})
$$

o equivalentemente:

$$
\text{posterior} \propto \text{verosimilitud} \cdot \text{previa}.
$$

### Ejemplo 3:

En el ejemplo anterior supusimos una distribución previa particular para $\theta$. Esta distribución $p(\theta)=2 \theta$ implica que hay más probabilidad (previa) de que la moneda caiga cara. _¿Qué pasaría si no tuviéramos conocimiento previo alguno de esta probabilidad?_

En este caso, suponemos que la previa es *plana* (uniforme en (0,1)). Similar al ejemplo anterior:

| Hipótesis | Rango          | Previa                              | Verosimilitud              | Numerador de Bayes                                         | Posterior                  |
| --------- | -------------- | ----------------------------------- | -------------------------- | ---------------------------------------------------------- | -------------------------- |
| $\theta$  | [0, 1]         | $1$                                 | $\theta^2(1-\theta)$       | $\theta^2(1-\theta)$                                       | $12 \theta^2 (1-\theta)$   |
|           |                |                                     |                            |                                                            |                            |
| total     | [0, 1]         | $\int_{0}^{1} 1 \text{d}\theta = 1$ | NO SUMA                    | $\int_{0}^{1} \theta^2(1-\theta) \text{d}\theta = 1/12$    | $1$                        |

In [None]:
# Graficar previa y posterior

# Theta
theta = np.linspace(0, 1, 1001)
# Previa
prior = np.ones(1001)
# Posterior
posterior = 12 * theta**2 * (1 - theta)
# Graficamos
plt.subplot(2, 1, 1)
plt.plot(theta, prior, label=r'Previa $p(\theta)$')
plt.plot(theta, posterior, color='red', label=r'Posterior $p(\theta|x=1,1,0)$')
plt.legend()
plt.xlabel('$\\theta$')
plt.subplot(2, 1, 2)
num_bayes = theta**2 * (1 - theta)
plt.plot(theta, num_bayes, color='red',label=r'Numerador de Bayes $p(x=1,1,0|\theta)p(\theta)$')
plt.legend()

## Respondiendo preguntas con la distribución posterior

Una vez tenemos la distribución posterior, la podemos utilizar para responder preguntas. Por ejemplo:

Con una **distribución uniforme** como la anterior, podemos ver que la moneda en principio no está sesgada:

$$
p(\theta > 0.5) = \int_{0.5}^{1} 1 \text{d}\theta = 0.5 = p(\theta < 0.5).
$$

Después de observar la secuencia cara-cara-sello, pregunta:

**¿qué probabilidad tiene ahora la moneda de estar sesgada a cara ($\theta > 0.5$)?**

**Definir la posterior**

Sabemos que después de ver $x=(1,1,0)$ la posterior es:

$$
p(\theta | x=1,1,0) = 12 \theta^2 (1-\theta), \quad 0 \leq \theta \leq 1.
$$

In [None]:
theta = sp.symbols('θ')
posterior = 12*theta**2*(1-theta)

check_area = sp.integrate(posterior, (theta, 0, 1))
check_area

**Probabilidad de que la moneda esté cargada a cara ($\theta > 0.5$)**

$$
p(\theta > 0.5 | x = 1, 1, 0) = \int_{0.5}^{1} 12 \theta^2 (1-\theta) \text{d}\theta = 12 \left(\frac{\theta^3}{3} - \frac{\theta^4}{4}\right)_{0.5}^1 = 1 - \frac{5}{16} =\frac{11}{16} > 0.5,
$$

In [None]:
prob_theta_gt_05 = sp.integrate(posterior, (theta, 0.5, 1))
prob_theta_gt_05

**Respuesta concreta**

Despues de obsevar la secuencia $x=(1,1,0)$, la probabilidad de que la moneda esté sesgada a cara $\theta>0.5$ es:

$$
p(\theta > 0.5 | x = 1, 1, 0) = \frac{11}{16} \approx 0.6875.
$$

es decir, hay alrededor de un 69% de probabilidad de que la moneda favorezca las caras.

## Probabilidades predictivas

## Probabilidad predictiva previa

### Ejemplo 4

Continuando con el ejemplo original, tenemos una moneda con probabilidad desconocida $\theta$ de caer cara y tenemos una pdf previa $p(\theta) = 2 \theta$. 

**Pregunta:** _¿Cuál es la probabilidad de que al lanzar la moneda salga cara?_

**(A) Probabilidad predictiva previa**

Antes de observar ningún dato, la probabilidad de que el primer tiro sea cara es::

$$
p(x_1 = 1) = \int_{0}^{1} p(x_1 = 1 | \theta) p(\theta) \text{d}\theta
$$

sabemos que $p(x_1=1|\theta) =\theta$, por lo que:

$$
p(x_1 = 1) = \int_{0}^{1} \theta \cdot 2 \theta \text{d}\theta = \int_{0}^{1} 2 \theta^2 \text{d}\theta = \frac{2}{3}
$$

### Cálculo simbólico con `sympy`

In [None]:
# Variable simbólica
theta = sp.symbols('theta')

# Prior
prior = 2*theta

# Verosimilitud de "cara"
likelihood_cara = theta

# Probabilidad predictiva previa
p_prev = sp.integrate(likelihood_cara * prior, (theta, 0, 1))
p_prev

## Probabilidad predictiva posterior

### Ejemplo 5

Continuando con el ejemplo original, tenemos una moneda con probabilidad desconocida $\theta$ de caer cara y tenemos una pdf previa $p(\theta) = 2 \theta$. 

**Pregunta**

Suponga que se hace un tiro y cae cara. Encuentra la probabilidad predictiva posterior de que caiga cara.

**(B) Probabilidad predictiva posterior**

Para la probabilidad predictiva posterior, actualizamos a la posterior:

| Hipótesis | Rango          | Previa                                    | Verosimilitud  | Numerador de Bayes                                | Posterior                  |
| --------- | -------------- | ----------------------------------------- | -------------- | ------------------------------------------------- | -------------------------- |
| $\theta$  | [0, 1]         | $2\theta$                                 | $\theta$       | $2\theta^2$                                       | $3 \theta^2$               |
|           |                |                                           |                |                                                   |                            |
| total     | [0, 1]         | $\int_{0}^{1} 2\theta \text{d}\theta = 1$ | NO SUMA        | $\int_{0}^{1} 2\theta^2 \text{d}\theta = 2/3$     | $1$                        |

Supongamos que tenemos una moneda con probabilidad desconocida $\theta$ de caer cara.  
La distribución previa sobre $\theta$ es:  

$$
p(\theta) = 2\theta, \quad \theta \in [0,1]
$$

**Primer lanzamiento: obtenemos cara**

La verosimilitud de observar cara dado $\theta$ es simplemente:

$$
p(x=1 \mid \theta) = \theta
$$

Por lo tanto, usando Bayes, la distribución posterior es:

$$
p(\theta \mid x=1) \propto p(x=1 \mid \theta) \, p(\theta)
$$

Sustituimos:

$$
p(\theta \mid x=1) \propto \theta \cdot (2\theta) = 2\theta^2
$$

**Normalización**

Para convertir la expresión proporcional en una distribución de probabilidad, normalizamos:

$$
p(\theta \mid x=1) = \frac{2\theta^2}{\int_0^1 2\theta^2 d\theta}
$$

Calculamos la integral:

$$
\int_0^1 2\theta^2 d\theta = \left[ \frac{2}{3}\theta^3 \right]_0^1 = \frac{2}{3}
$$

*Entonces, esta es la distribucòn posterior sobre el parámetro $\theta$, después de observar un lanzamiento con resultado cara $(x=1)$:*

$$
p(\theta \mid x=1) = \frac{2\theta^2}{2/3} = 3\theta^2
$$

**Probabilidad predictiva posterior**  

Queremos calcular la probabilidad de que en el **segundo lanzamiento** vuelva a salir cara, dado que en el primero salió cara:

$$
p(x_2=1 \mid x_1=1) = \int_0^1 
\underbrace{p(x_2=1 \mid \theta)}_{\theta} \cdot 
\underbrace{p(\theta \mid x_1=1)}_{3\theta^2} \, d\theta
$$

**Resolviendo la integral** 

$$
p(x_2=1 \mid x_1=1) = \int_0^1 3\theta^3 \, d\theta
= 3 \cdot \left[ \frac{\theta^4}{4} \right]_0^1
= \frac{3}{4}
$$

**Resultado final**

Después de observar **una cara en el primer lanzamiento**, la probabilidad predictiva posterior de que salga **cara en el segundo lanzamiento** es:

$$
p(x_2=1 \mid x_1=1) = 0.75
$$