# Modelos Probabilísticos e Inferencia

![MP](https://d2r55xnwy6nx47.cloudfront.net/uploads/2020/07/Dice_2880x1620_Lede.jpg)

> Habiendo visto las herramientas básicas de teoría de probabilidad, estamos listos para embarcarnos en el camino fascinante de la estadística.

> De forma general, el objetivo de la estadística es hacer inferencias basados en datos. Podemos dividir este proceso en tres fases
> - Recopilar datos.
> - Describir datos.
> - Analizar datos.

> Finalmente, el resultado de este proceso puede o no culminar en un modelo.

> ¿Porqué usar modelos probabilísticos?
> - Cuando usamos datos, todas las conclusiones que saquemos de ellos son **inciertas**.
> - Por tanto, en lugar de **ignorar la incertidumbre, la modelamos**.
> - A través de estas ideas, obtenemos aplicaciones en Machine Learning.

> **Objetivos:**
> - Comprender qué es un modelo probabilístico, y estudiar ejemplos básicos.
> - Llevar a cabo inferencias en modelos probabilísticos básicos.

> **Referencias:**
> 
> - Bayesian Reasoning and Machine Learning by David Barber. Cap. 1.

## 1. Modelos probabilísticos e inferencia

El paradigma central del **razonamiento probabilístico** es, dada una situación, identificar un conjunto de variables relevantes $X_1, X_2, \dots, X_N$ en el contexto de la situación y diseñar un **modelo probabilístico** que codifique las interacciones de estas variables, expresado a través de la distribución:

$$
p(X_1, X_2, \dots, X_N | \theta),
$$

donde el vector $\theta \in \mathbb{R}^{n}$ representa los parámetros (opcionales) del modelo.

Una vez definido el modelo, podemos usarlo para **razonar (hacer inferencia)** mediante la introducción de **evidencia** (variables conocidas), y después calcular las probabilidades sobre las variables de interés, dada dicha evidencia. Para esto usaremos todas las herramientas de teoría de probabilidad vistas en la clase anterior:

- Marginalización,
- Regla de la cadena,
- Regla de Bayes.

## 2. Ejemplos

### Ejemplo 1 (Ejemplo 1.2 - Bayesian Reasoning and Machine Learning by David Barber. Cap. 1.)

Científicos encuentran que las personas que sufren de la enfermedad Kreuzfeld-Jacob (KJ) comen hamburguesas en su mayoría:

$$
p(H=1 | KJ=1) = 0.9
$$

Por otra parte, dicha enfermedad es ciertamente rara, pues al rededor de una en $100.000$ la sufren.

A raiz de esto, nos planteamos varias preguntas:

1. Suponiendo que el consumo de hamburguesas es algo bastante común, digamos $p(H=1) = 0.5$, ¿Cuál es la probabilidad que una persona que come hamburguesas tendrá la enfermedad KJ?

2. Ahora, supongamos que en cierto lugar casi no se comen hamburguesas, digamos $p(H=1) = 0.001$, ¿Cuál es la probabilidad de que una persona que come hamburguesas sufra la enfermedad KJ?

#### Solución


1. Usando la regla de Bayes tenemos que:

   <details>
   <summary>Descubrir</summary>

   $$
   p(KJ=1 | H=1) = \frac{p(H=1 | KJ=1) p(KJ=1)}{p(H=1)} = \frac{0.9 \times 10^{-5}}{0.5} = 1.8\times10^{-5}
   $$

   </details>

2. Similarmente, usando la regla de Bayes tenemos que:

   <details>
   <summary>Descubrir</summary>

   $$
   p(KJ=1 | H=1) = \frac{p(H=1 | KJ=1) p(KJ=1)}{p(H=1)} = \frac{0.9 \times 10^{-5}}{10^{-3}} = 9\times10^{-3}
   $$
   
   </details>

### Ejemplo 2 (Ejemplo 1.7 - Bayesian Reasoning and Machine Learning by David Barber. Cap. 1.)

Una compuerta lógica XOR implementa la siguiente tabla de verdad:

| A | B | A xor B |
|---|---|---------|
| 0 | 0 |    0    |
| 0 | 1 |    1    |
| 1 | 0 |    1    |
| 1 | 1 |    0    |

O en términos prácticos, es un **detector de diferencias**. 

Si razonamos acerca de una de las variables, A (o B), sabiendo que A xor B = 0, no podríamos decir nada en particular de una de ellas, ya que sería igualmente probable que fuera 1 o 0.

Ahora, consideramos una versión probabilística de esta función, que retorna $C=1$ de manera aleatoria dependiendo de sus entradas ($A$ y $B$), con las siguientes probabilidades:

|  A  |  B  |  p(C=1/A,B)  |
| --- | --- | ------------ |
|  0  |  0  |      0.1     |
|  0  |  1  |      0.99    |
|  1  |  0  |      0.8     |
|  1  |  1  |      0.25    |

Suponiendo que $A$ y $B$ son independientes y que $p(A=1)=0.65$ y $p(B=1)=0.77$, ¿Cuál es la probabilidad de que $p(A=1|C=0)$?

#### Solución

<details>
<summary>Descubrir</summary>
Tenemos que:

$$
p(A=1|C=0) = \frac{p(A=1, C=0)}{p(A=1,C=0) + p(A=0,C=0)}.
$$

Con esto

\begin{align}
p(A=1, C=0) & = \sum_{B} p(A=1,B,C=0) \qquad \text{(Marginalización)} \\
            & = \sum_{B} p(C=0|A=1,B)p(A=1, B) \qquad \text{(Regla de la cadena)} \\
            & = \sum_{B} p(C=0|A=1,B)p(A=1) p(B) \qquad \text{(Independencia)} \\
            & = p(C=0|A=1,B=0) p(A=1) p(B=0) + p(C=0|A=1,B=1) p(A=1) p(B=1),
\end{align}

y

\begin{align}
p(A=0, C=0) & = \sum_{B} p(A=0,B,C=0) \qquad \text{(Marginalización)} \\
            & = \sum_{B} p(C=0|A=0,B)p(A=0, B) \qquad \text{(Regla de la cadena)} \\
            & = \sum_{B} p(C=0|A=0,B)p(A=0) p(B) \qquad \text{(Independencia)} \\
            & = p(C=0|A=0,B=0) p(A=0) p(B=0) + p(C=0|A=0,B=1) p(A=0) p(B=1)
\end{align}
</details>

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Esteban Jiménez Rodríguez.
</footer>