# Apéndice A

## Distribución beta, bernoulli y el concepto de prior conjugado

En los modelos bayesianos, la **distribución Beta** aparece con frecuencia cuando queremos modelar la **probabilidad de éxito** en eventos binarios, es decir, situaciones en las que solo hay dos resultados posibles: éxito o fracaso, sí o no, 1 o 0.


## 1. Distribución Beta

La distribución **Beta** es una distribución continua definida en el intervalo $(0,1)$, lo que la hace ideal para modelar **parámetros de probabilidad**.

Su función de densidad es:

$$
p(\theta) = \frac{1}{B(\alpha, \beta)}\,\theta^{\alpha - 1}(1 - \theta)^{\beta - 1}, \quad 0 < \theta < 1
$$

donde $B(\alpha,\beta)$ es la **función Beta**, que sirve solo como constante de normalización.

Los parámetros $\alpha$ y $\beta$ se interpretan como **pseudocuentas**:

- $\alpha - 1$ representa éxitos previos (o “caras imaginarias”).
- $\beta - 1$ representa fracasos previos (o “sellos imaginarios”).

Por ejemplo:
- $\mathrm{Beta}(1,1)$ es uniforme → no hay información previa.
- $\mathrm{Beta}(3,1)$ concentra más probabilidad hacia $\theta$ altos → creencia de que los éxitos son más probables.
- $\mathrm{Beta}(2,5)$ concentra hacia $\theta$ bajos → creencia de que los fracasos son más probables.

```{figure} ../images/Beta_distribution_pdf.svg
:alt: representacion
:fig-align: center
:width: 500px
```

**Figura 1.** Distribuciones Beta con diferentes parámetros. Fuente: [Wikipedia](https://en.wikipedia.org/wiki/Beta_distribution)

## 2. La distribución Bernoulli (modelo de los datos)

Cuando el resultado solo puede ser **1 (éxito)** o **0 (fracaso)**, el modelo que inmediatamente pensaremos para los datos es la **distribución Bernoulli**:

$$
p(x \mid \theta) = \theta^{x}(1 - \theta)^{1 - x}, \quad x \in \{0,1\}
$$

donde $\theta$ es la probabilidad de éxito.

Por ejemplo:
- Si $x=1$ (éxito), entonces $p(x|\theta)=\theta$.
- Si $x=0$ (fracaso), entonces $p(x|\theta)=1-\theta$.

## 3. Similitud entre Beta y Bernoulli

La estructura de ambas expresiones es **casi idéntica**: tienen factores de $\theta$ y $(1-\theta)$ con exponentes.

$$
\begin{align*}
\text{Bernoulli: } & \quad p(x|\theta) \propto \theta^{x}(1-\theta)^{1-x} \\
\text{Beta: } & \quad p(\theta) \propto \theta^{\alpha-1}(1-\theta)^{\beta-1}
\end{align*}
$$

Esta coincidencia **no es casualidad**: es lo que hace que la Beta sea **conjugada** de la Bernoulli.  
Significa que al aplicar Bayes, la _posterior_ tiene **la misma forma funcional** que la previa.

> **Aquí puedes revisar cuáles son las distribuciones conjugadas más comunes: [Prior conjugate.](https://en.wikipedia.org/wiki/Conjugate_prior#Table_of_conjugate_distributions)**


## 4. Prior conjugado

En el contexto bayesiano, decimos que una distribución $p(\theta)$ es **conjugada** para una verosimilitud $p(D|\theta)$  
si la posterior $p(\theta|D)$ pertenece a la **misma familia paramétrica** que el prior.

En el caso Beta–Bernoulli:

$$
\Theta \sim \mathrm{Beta}(\alpha, \beta), \qquad X_i \mid \Theta \sim \mathrm{Bernoulli}(\Theta)
$$

entonces:

$$
\Theta \mid D \sim \mathrm{Beta}(\alpha + x, \; \beta + n - x)
$$

donde:
- $x$ = número de éxitos observados,
- $n-x$ = número de fracasos observados.

Esto permite una **actualización muy sencilla** de la creencia sobre $\theta$ sin tener que calcular integrales complicadas.

> 💡💡💡 **En este caso utilizamos distribuciones conocidas y estudiadas; sin embargo, como modelad@r, puedes proponer otras distribuciones previas (priors) según el contexto del problema. Si las distribuciones que elijas no aparecen en la [tabla de conjugadas](https://en.wikipedia.org/wiki/Conjugate_prior#Table_of_conjugate_distributions), será necesario realizar todos los cálculos manualmente.**

```{admonition} Prior conjugado
:class: tip

Un prior conjugado es una distribución previa que, al combinarse con la verosimilitud, produce una distribución posterior de la misma **familia paramétrica**, es decir, la _forma funcional_ de la distribución no cambia — solo cambian sus parámetros.

La _forma funcional_ es la expresión algebraica que define una familia de distribuciones. En un prior conjugado, esa forma se conserva después de observar los datos.
```

## 5. Intuición de la conjugación

La conjugación funciona porque al multiplicar la verosimilitud y el prior,
los exponentes de $\theta$ y $(1-\theta)$ simplemente **se suman**:

$$
\begin{align*}
p(\theta|x) &\propto p(x|\theta)p(\theta) \\
&\propto \underbrace{\theta^{x}(1-\theta)^{1-x}}_{\text{Bernoulli}} \times \underbrace{\theta^{\alpha-1}(1-\theta)^{\beta-1}}_{\text{Beta}} \\
&\propto \theta^{\alpha + x - 1}(1 - \theta)^{\beta + (1 - x) - 1}
\end{align*}
$$

→ Es otra Beta, con parámetros actualizados.


## 6. Ejemplo: probabilidad de compra en una tienda en línea

Supongamos que queremos estimar la probabilidad de que un cliente **compre un producto** al visitar una tienda online.

Cada visita puede resultar en:
- **Compra (1)**
- **No compra (0)**

Por lo tanto, modelamos cada observación como:

$$
X_i \mid \Theta \sim \mathrm{Bernoulli}(\Theta)
$$



### Creencia previa

Antes de observar datos, suponemos que la tasa de conversión promedio es del 70%.  
Expresamos esa creencia con:

$$
\Theta \sim \mathrm{Beta}(7, 3)
$$

De esta forma, la media previa es $E[\Theta] = \frac{7}{7+3} = 0.7$.



### Datos observados

Observamos 5 nuevos clientes y registramos que 4 realizaron la compra:

$$
n = 5, \quad x = 4
$$

La verosimilitud es:

$$
p(D|\theta) = \theta^{4}(1 - \theta)^{1}
$$



### Actualización con Bayes

La posterior es:

$$
\Theta \mid D \sim \mathrm{Beta}(\alpha + x, \beta + n - x)
$$

$$
\Theta \mid D \sim \mathrm{Beta}(7 + 4, 3 + 1) = \mathrm{Beta}(11, 4)
$$



### Interpretación

- Media posterior:
  $$
  E[\Theta|D] = \frac{11}{11 + 4} = 0.733
  $$
- Después de ver los datos, actualizamos nuestra creencia:  
  ahora estimamos que la probabilidad de compra es aproximadamente **73%**.


## 7. Conclusión

La **distribución Beta** es el prior natural para parámetros de probabilidad y su forma similar a la **Bernoulli** o **Binomial** la convierte en su **prior conjugado**.

Este par (Beta–Bernoulli o Beta–Binomial) es fundamental en estadística bayesiana porque:
- Simplifica el proceso de actualización.
- Tiene una interpretación intuitiva en términos de “pseudocuentas”.
- Permite combinar creencias previas con datos nuevos de forma coherente y transparente.

En términos generales:

$$
\text{Posterior} \propto \text{Verosimilitud} \times \text{Prior}
$$

y, gracias a la conjugación:

$$
\mathrm{Beta}(\alpha, \beta) \;+\; x\ \text{éxitos} \Rightarrow \mathrm{Beta}(\alpha + x,\; \beta + n - x)
$$

## Recursos adicionales

- [Beta prior for Bernoulli](https://rpubs.com/sitaramgautam/145048)