#### El paradigma bayesiano:  



$ P(\theta|X) = \frac{P(X|\theta) \times P(\theta)}{P(X)} $  
$ P(\theta|X) \propto P(X|\theta) \times P(\theta)$ 

Donde:  
$P(\theta∣X)$ es la distribución a posteriori (posterior).  
$P(\theta)$ es la distribución a priori (prior).  
$P(X∣\theta)$ es la función de verosimilitud (likelihood).  
$P(X)$ es la probabilidad marginal de los datos (evidence), que actúa como un factor de normalización y a menudo se calcula como 
$∫P(X∣θ)×P(θ)dθ$ para garantizar que la suma o integral total de las probabilidades sea 1.

En general, no queremos calcular $P(X)$, es difícil e innecesario, dado que sabemos que la integral(LHS) debe de sumar 1.

#### Conjugate Priors
* There are special pairs of distributions where the posterior has the same distribution as the prior

Las distribuciones conjugadas son un concepto importante en estadísticas bayesianas. Cuando **la distribución a priori y la distribución de verosimilitud pertenecen a la misma familia de distribuciones**, se dice que la distribución a priori es conjugada para la distribución de verosimilitud. Esto es útil porque permite que la distribución a posteriori también sea de la misma familia que la distribución a priori, lo que simplifica los cálculos en el contexto bayesiano.

A continuación, algunas de las distribuciones conjugadas más comunes:

1. **Para la Distribución Bernoulli:**
   - **Distribución Conjugada:** Beta
   - **Fórmula:**
     $ P(\theta | \alpha, \beta) = \frac{\theta^{\alpha - 1} (1 - \theta)^{\beta - 1}}{B(\alpha, \beta)} $
   - Donde $\alpha$ y $\beta$ son parámetros de la distribución Beta.

2. **Para la Distribución Binomial:**
   - **Distribución Conjugada:** Beta
   - **Fórmula:**
     $ P(\theta | \alpha, \beta) = \frac{\theta^{\alpha + k - 1} (1 - \theta)^{\beta + n - k - 1}}{B(\alpha + k, \beta + n - k)} $
   - Donde $k$ es el número de éxitos en $n ensayos y $\alpha$, $\beta$ son parámetros de la distribución Beta.

3. **Para la Distribución Poisson:**
   - **Distribución Conjugada:** Gamma
   - **Fórmula:**
     $ P(\lambda | \alpha, \beta) = \frac{\beta^\alpha \lambda^{\alpha - 1} e^{-\beta \lambda}}{(\alpha - 1)!} $
   - Donde $\lambda$ es el parámetro de la distribución Poisson y $\alpha$, $\beta$ son parámetros de la distribución Gamma.

4. **Para la Distribución Normal (con varianza conocida):**
   - **Distribución Conjugada:** Normal
   - **Fórmula:**
     $ P(\mu | \mu_0, \sigma_0^2, x_1, x_2, ..., x_n) = \mathcal{N}(\mu | \mu_n, \sigma_n^2) $
   - Donde $\mu_0$ y $\sigma_0^2$ son los parámetros de la distribución Normal a priori, $(x_1, x_2, ..., x_n$ son los datos observados, y $\mu_n$ y $\sigma_n^2$ son los parámetros de la distribución Normal a posteriori.


5. **Para la Distribución Exponencial:**
   - **Distribución Conjugada:** Gamma
   - **Fórmula:**
$ f(x|\lambda) = \lambda e^{-\lambda x} $

La distribución a priori conjugada para $\lambda$ es otra distribución exponencial con parámetro de tasa $\alpha. La función de densidad de probabilidad a priori es:

$ f(\lambda|\alpha) = \alpha e^{-\alpha \lambda} $

Cuando se actualiza esta distribución a priori con datos exponenciales, la distribución a posteriori sigue siendo exponencial con un nuevo parámetro de tasa que se calcula como la suma del parámetro a priori y la suma de los datos observados. Esto es, si observamos $n$ datos exponenciales $(x_1, x_2, ..., x_n)$, la distribución a posteriori para $\lambda$ sería:

$ f(\lambda | x_1, x_2, ..., x_n, \alpha) = (\alpha + n)e^{-(\alpha + \sum_{i=1}^{n} x_i) \lambda} $

Esta propiedad de conjugación es útil en problemas que involucran tasas de llegada o tiempos de espera, donde la distribución exponencial es comúnmente utilizada.

Estas son solo algunas de las distribuciones conjugadas comunes. Dependiendo del problema específico, las distribuciones a priori conjugadas pueden variar. La propiedad de conjugación es extremadamente útil en el contexto bayesiano, ya que simplifica significativamente los cálculos analíticos y computacionales.

#### Conjugate of a Bernoulli distributed prior:
$$
Prior: p(\theta | \alpha, \beta) = \frac{\theta^{\alpha - 1} (1 - \theta)^{\beta - 1}}{B(\alpha, \beta)}
$$

$$ MLE:L(\theta) = \theta^{k} (1 - \theta)^{n - k}$$


$$ Posterior: p(\theta | k, n, \alpha, \beta) \propto \theta^{k + \alpha - 1} (1 - \theta)^{n - k + \beta - 1}
$$



$$B(\alpha, \beta) = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \times \Gamma(\beta)}$$
$$\Gamma(x) = \int_{0}^{\infty} t^{x - 1} e^{-t} dt $$

<div style="text-align:center"> $\Gamma(x+1) = x*\Gamma(x)$, por lo que es una generalización de la función factorial
</div>

$Beta(1,1) ≡ Uniform(0,1)$