# ¿Porqué estudiar métodos Bayesianos?

<img style="float: right; margin: 0px 0px 15px 15px;" src="https://upload.wikimedia.org/wikipedia/commons/1/18/Bayes%27_Theorem_MMB_01.jpg" width="500px" height="300px" />

> El enfoque probabilístico Bayesiano para modelar y estudiar situaciones o fenómenos, se puede resumir en tres principios básicos:
  - **Principio 1**: usa todo el conocimiento previo que tengas acerca de la situación/fenómeno que estás modelando.
  - **Principio 2**: descarta las posibilidades que no vayan acorde con la evidencia.
  - **Principio 3**: evita hacer suposiciones extras.
  
> Podemos aplicar estos principios en el siguiente ejemplo: vamos caminando cerca del parque metropolitano y vemos a un hombre corriendo, y por puro chisme queremos averiguar porqué este hombre está corriendo. Para esto, se nos ocurren cuatro razones:
  1. Porque tiene prisa.
  2. Porque está haciendo ejercicio.
  3. Porque este hombre siempre corre donde quiera que vaya.
  4. Porque vio un perro de tres cabezas.
  
> - Usando el **Principio 1**, sabemos que los perros de tres cabezas no existen, y por tanto la razón 4 queda descartada.
> - Vemos que el hombre no viste ropa deportiva, de modo que usando el **Principio 2**, podemos descartar la razón 2.
> - La razón 3 hace muchas suposiciones, por lo que usando el **Principio 3** deberíamos descartar esta razón.
> - Finalmente, el razonamiento Bayesiano nos lleva a concluir que el hombre está corriento por la razón 1: porque tiene prisa.

> **Objetivos:**
> - Entender los principios básicos del enfoque frecuentista y el enfoque Bayesiano.
> - Explicar las diferencias entre ambos enfoques.

> **Referencias:**
> - Bayesian Methods for Machine Learning course, HSE University, Coursera.
> - Statistical Rethinking, Richard McElreath, 2018.


## 1. Enfoque Bayesiano vs. Enfoque Frecuentista



Los enfoques Bayesiano y Frecuentista de la teoría de probabilidad han coexistido durante un buen tiempo ya, ganando el primero mucha atención por su aplicabilidad en el análisis de datos.

Ambos enfoques difieren en muchas dimensiones, de las cuales hablaremos en un momento.

### 1.1. Interpretación de la probabilidad

En nuestro repaso de probabilidad, vimos que se le pueden dar diferentes interpretaciones a la **probabilidad**. 

- **Enfoque Frecuentista**: la probabilidad relativa a la incertidumbre en un fenómeno es objetiva, y se refiere a la frecuencia relativa con la que ocurre un evento.

- **Enfoque Bayesiano**: la probabilidad relativa a la incertidumbre en un fenómeno es subjetiva, y expresa el grado de confianza que tenemos en la ocurrencia de un evento.

Por ejemplo, desde el enfoque frecuentista, al tirar una moneda justa al aire decimos que las probabilidades de que caiga cara o sello son ambas iguales a $\frac{1}{2}$, y no podemos hacer nada más con ello.

Por otra parte, desde el enfoque Bayesiano, diríamos que si conocemos la densidad de la moneda, así como su posición y velocidad inicial, podríamos predecir de qué lado va a caer.

### 1.2. ¿Qué es aleatorio?, ¿Los datos $X$?, ¿O los parámetros $\theta$?

En cuanto al modelado de datos, ambos enfoques difieren fundamentalmente. Estas diferencias tendrán impacto directo en como se modelan los datos.

- **Enfoque Frecuentista**: el modelo que produce los datos tiene parámetros $\theta$ fijos, y los datos $X$ son realizaciones aleatorias de este modelo. En este sentido, dado un conjunto de datos, queremos encontrar los valores fijos de los parámetros $\theta$ que maximizan la probabilidad de los datos. Esto es, queremos maximizar **la función de verosimilitud**:

  $$
  \max_{\theta} P(X | \theta)
  $$
  
- **Enfoque Bayesiano**: totalmente opuesto. Los parámetros $\theta$ son los que se consideran aleatorios, y los datos $X$ están fijos como evidencia. En este sentido, dado un conjunto de datos, queremos encontrar los valores más probables de los parámetros $\theta$ de acuerdo a la evidencia $X$. Esto es, queremos maximizar **la función posterior**:

  $$
  \max_{\theta} P(\theta | X)
  $$

Acá es donde la **Regla de Bayes** toma muchísimo protagonismo. La función posterior se peude escribir como:

$$
P(\theta | X) = \frac{P(X | \theta) P(\theta)}{P(X)},
$$

donde:
- $P(\theta | X)$ se conoce como **distribución posterior** (en inglés *posterior*). La posterior nos dice la probabilidad de los parámetros después de haber observado los datos.
- $P(X | \theta)$ se conoce como **función de verosimilitud** (en inglés *likelihood*). La verosimilitud nos dice que tan bien los parámetros explican los datos.
- $P(\theta)$ se conoce como **distribución previa** (en inglés *prior*). En la previa, incluimos todo el conocimiento que podamos tener acerca de los parámetros.
- $P(X)$ se conoce como **distribución de evidencia** (en inglés *evidence*).

Una suposición común del enfoque frecuentista es que la cantidad de datos es mucho mayor a la cantidad de parámetros de los modelos. Bajo el enfoque Bayesiano, los métodos no hacen esta suposición muy a menudo.

¿Es esto un problema? Depende. Si usamos modelos de aprendizaje profundo, podríamos llegar a tener [millones de parámetros](https://towardsdatascience.com/illustrated-10-cnn-architectures-95d78ace614d).

### 1.3. Entrenamiento de los modelos

Como vimos en el punto anterior:

- **Enfoque Frecuentista**: se maximiza la probabilidad ocurrencia de los datos capturada por la función de verosimilitud. *Principio de máxima verosimilitud*:

$$
\hat{\theta} = \arg \max_{\theta} P(X | \theta).
$$

Por ejemplo, desde un enfoque frecuentista, para un clasificador con datos de entrenamiento $(X_{tr}, y_{tr})$ y datos de predicción $X_p$, maximizaríamos:

$$
\hat{\theta} = \arg \max_{\theta} P(y_{tr} | X_{tr}, \theta).
$$

De esta manera, la predicción sería:

$$
\hat{y}_p = \arg \max_{y_p} P(y_{p} | X_{p}, \hat{\theta}).
$$

Acá observamos que si nuestra estimación de los parámetros $\hat{\theta}$ es incorrecta (**overfitting a datos sesgados**), nuestro clasificador tendría un mal comportamiento en la predicción.

- **Enfoque Bayesiano**: se la distribución de los parámetros según los datos, capturado por la función posterior.

$$
P(\theta | X) = \frac{P(X | \theta) P(\theta)}{P(X)}
$$

Por ejemplo, desde un enfoque Bayesiano, para un clasificador con datos de entrenamiento $(X_{tr}, y_{tr})$ y datos de predicción $X_p$, calcularíamos:

$$
P(\theta | X_{tr}, y_{tr}) = \frac{P(y_{tr} | X_{tr}, \theta)P(\theta)}{P(y_{tr} | X_{tr})}.
$$

y para la predicción calcularíamos:

\begin{align}
P(y_p | X_p, X_{tr}, y_{tr}) & = \int P(y_p, \theta | X_p, X_{tr}, y_{tr}) \mathrm{d}\theta \qquad \text{(Marginalización)} \\
                             & = \int P(y_p | \theta, X_p, X_{tr}, y_{tr}) P(\theta | X_p, X_{tr}, y_{tr}) \mathrm{d}\theta \qquad \text{(Regla de la cadena)} \\
                             & = \int P(y_p | \theta, X_p) P(\theta | X_{tr}, y_{tr}) \mathrm{d}\theta \qquad (\theta \perp X_p), (y_p \perp X_{tr}, y_{tr} | \theta)
\end{align}

En este caso, la predicción es un promedio ponderado del nuestro modelo por todos los posibles valores de $\theta$. Esto tiene un efecto de regularización, con lo que nuestro clasificador es menos propenso a overfitting.

Es decir, la inclusión del conocimiento de los parámetros en la previa $P(\theta)$ nos da un efecto **regularizador**.

Como ventaja adicional frente al enfoque frecuentista, el enfoque Bayesiano nos permite hacer entrenamiento de esquemas online procesando **sólo los nuevos datos**:

$$
P_k(\theta) = P(\theta | x_k) = \frac{P(x_k | \theta) P_{k-1}(\theta)}{P(x_k)}.
$$

El entrenamiento conseguido por los nuevos datos $x_k$ entra como nuevo conocimiento al siguiente paso. Bajo un enfoque frecuentista, tendríamos que procesar todos los datos cada vez que haya nuevos datos.

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>