# Marco Teórico

## 1. Inferencia Bayesiana

La **inferencia bayesiana** es un método estadístico que permite estimar los valores más probables de los parámetros de un modelo a partir de los datos observados y del conocimiento previo que se tenga sobre ellos.  
Se basa en el **teorema de Bayes**, que establece la relación entre la probabilidad *a posteriori* y la *a priori*:

$$
p(\phi | d, m) = \frac{p(d | \phi, m)\, p(\phi | m)}{p(d | m)}
$$

donde:

- $d$: conjunto de datos observados,  
- $m$: modelo asumido,  
- $\phi$: vector de parámetros del modelo,  
- $p(d | \phi, m)$: **verosimilitud** o *likelihood*, mide qué tan bien el modelo reproduce los datos,  
- $p(\phi | m)$: **prior** o distribución *a priori*, refleja el conocimiento previo sobre los parámetros,  
- $p(d | m)$: **evidencia**, factor de normalización que asegura que la probabilidad posterior esté correctamente normalizada.

El objetivo de la inferencia bayesiana es determinar la **distribución posterior** $p(\phi | d, m)$, que combina la información aportada por los datos con el conocimiento previo sobre los parámetros.

---

## 2. Función de Likelihood

La **función de verosimilitud** cuantifica la probabilidad de observar los datos dados unos parámetros específicos del modelo.  
Si los errores son independientes y gaussianos, se escribe como:

$
p(d | \phi, m) \propto \exp \left[-\frac{1}{2} \sum_i \left(\frac{d_i - m_i(\phi)}{\sigma_i}\right)^2 \right]
$

donde $d_i$ son los datos observados, $m_i(\phi)$ los valores predichos por el modelo y $\sigma_i$ el error de cada observación.  
En este caso, maximizar el *likelihood* equivale a **minimizar los cuadrados residuales**, recuperando el método clásico de mínimos cuadrados.

---

## 3. Priors o Distribuciones a Priori

Los **priors** reflejan el conocimiento o suposición inicial sobre los parámetros antes de observar los datos.  
Algunos tipos comunes son:

- **Prior plano (uniforme)**: todos los valores son igualmente probables dentro de un rango.  
  $p(\phi) = \text{cte}$  
- **Prior gaussiano**: se asume que los parámetros tienen una media y una desviación conocidas:  
  $p(\phi) \propto \exp\left[-\frac{(\phi - \mu)^2}{2\sigma^2}\right]$

La elección del prior puede influir en el resultado de la inferencia, especialmente cuando los datos son escasos o ruidosos.

---

## 4. Métodos Monte Carlo y Cadenas de Markov (MCMC)

En muchos casos, la integral de normalización (la evidencia) y la forma exacta de la distribución posterior no pueden calcularse de manera analítica.  
Para ello se utilizan los **métodos de Monte Carlo**, que permiten **muestrear** la distribución posterior mediante simulaciones aleatorias.

Una **cadena de Markov Monte Carlo (MCMC)** genera una secuencia de muestras $\{\phi_1, \phi_2, ..., \phi_N\}$ donde cada nuevo valor depende únicamente del anterior, pero con una probabilidad que garantiza que, a largo plazo, la distribución de las muestras coincide con la distribución posterior buscada.

Esto permite estimar la forma de $p(\phi | d, m)$ y obtener intervalos de confianza o correlaciones entre parámetros.

---

## 5. Algoritmo de Metropolis–Hastings

El **algoritmo de Metropolis–Hastings** es uno de los métodos más utilizados para generar cadenas MCMC.  
Su procedimiento básico es:

1. **Elegir un punto inicial** $\phi_0$.  
2. **Proponer un nuevo punto** $\phi' = \phi_t + \delta$ a partir de una distribución de propuesta $$q(\phi'|\phi_t)$$.  
3. **Calcular la probabilidad de aceptación**:

   $$
   r = \frac{p(d | \phi')\, p(\phi')\, q(\phi_t|\phi')}{p(d | \phi_t)\, p(\phi_t)\, q(\phi'|\phi_t)}
   $$

4. **Aceptar o rechazar**:
   - Si $u < \min(1, r)$ (con $u \sim U[0,1]$), aceptar el nuevo punto.
   - Si no, mantener el punto anterior.

5. Repetir el proceso hasta completar la longitud deseada de la cadena.

Luego de un período inicial llamado **burn-in**, la cadena converge hacia la distribución posterior y puede usarse para estimar los parámetros y sus incertidumbres.

---

## 6. Convergencia y Mezclado de Cadenas

Una buena simulación MCMC requiere que la cadena:
- Explore correctamente todo el espacio de parámetros (**mezclado**, *mixing*).  
- Sea independiente del punto inicial (**convergencia**).

Para verificar esto, se analizan gráficamente:
- El *trace plot* (parámetro vs iteración),  
- El *likelihood* vs parámetro,  
- Las distribuciones marginales obtenidas de la cadena,  
- La distancia entre cadenas independientes inicializadas en diferentes puntos.

---

## 7. Gradiente Descendente

El **método del gradiente descendente** es una técnica de optimización utilizada para encontrar los mínimos de una función, en este caso el mínimo de la función de *negative log-likelihood*.  
A partir de una posición inicial $\phi_0$, se actualizan los parámetros según:

$\phi_{t+1} = \phi_t - \eta \, \nabla L(\phi_t)$

donde $\eta$ es la **tasa de aprendizaje** (*learning rate*) y $\nabla L(\phi_t)$ el gradiente de la función de pérdida respecto a los parámetros.

Este método es eficiente cuando la función es suave y derivable, pero puede presentar problemas de convergencia si $\eta$ no se elige adecuadamente o si el *likelihood* tiene múltiples mínimos locales.

---

## 8. Enfoque Bayesiano vs Frecuentista

- El **enfoque frecuentista** interpreta la probabilidad como la frecuencia relativa de un evento en repeticiones infinitas.  
  Los parámetros son fijos pero desconocidos, y los datos son aleatorios.

- El **enfoque bayesiano** trata los parámetros como variables aleatorias con distribuciones de probabilidad que se actualizan al incorporar nuevos datos.  
  La probabilidad expresa el grado de creencia sobre los valores de los parámetros.

Este contraste se refleja en la interpretación de los resultados:  
un intervalor frecuentista indica la frecuencia esperada de contener el parámetro verdadero, mientras que un intervalo bayesiano indica el rango de valores más probables dado el conjunto de datos.
