# Sesi√≥n 12

## Inferencia aproximada

> **Objetivos:**
> - Estudiar inferencia aproximada y m√©todos de muestreo en modelos gr√°ficos probabil√≠sticos.

> **Recursos de consulta:**
>
> Probabilistic Graphical Models: Principles and Techniques, By Daphne Koller & Nir Friedman. Ch. 12.

> **Documentaci√≥n pgmpy:**
>
> [Pgmpy documentation](https://pgmpy.org/exact_infer/bn_sampling.html)

### 1.Introducci√≥n

En inferencia exacta (por ejemplo, mediante *Variable Elimination*), el objetivo es calcular distribuciones marginales de una red bayesiana de forma _anal√≠tica_.

Sin embargo, este enfoque se vuelve **computacionalmente costoso** cuando el n√∫mero de variables y conexiones crece.

Para resolver esto, la **inferencia aproximada** busca *aproximar* las distribuciones de probabilidad mediante **m√©todos de muestreo (sampling)**.

#### 1.1. Muestreo basado en part√≠culas _(Particle-based approximate inference)_

En lugar de representar la distribuci√≥n de una red bayesiana mediante factores (como se hace en inferencia exacta), podemos **aproximar la distribuci√≥n conjunta** mediante un **conjunto finito de instanciaciones** de las variables, llamadas **part√≠culas**.

```{figure} ../images/sesion12_particulas.png
:alt: representacion
:fig-align: center
:width: 200px
```

> ‚ÄúIn these methods, we approximate the joint distribution as a set of instantiations to all or some of the variables in the network.
> 
> These instantiations, often called *particles*, are designed to provide a good representation of the overall probability distribution.‚Äù  
>
> ‚Äî *Koller & Friedman (2009, Ch. 12)*

En este enfoque, se representa la distribuci√≥n conjunta $P(\mathcal{X})$ como un conjunto finito de **instanciaciones aleatorias** llamadas *part√≠culas*:

$$
\mathcal{D} = \{ \xi[1], \xi[2], \dots, \xi[M] \}
$$

Cada part√≠cula $\xi[m]$ es una asignaci√≥n de valores a las variables del modelo.

La idea central es que, si las part√≠culas son generadas de forma adecuada, el conjunto $\mathcal{D}$ aproxima bien la distribuci√≥n $P(\mathcal{X})$.


##### Muestreo por part√≠culas

Para generar part√≠culas $\xi[m]$, se sigue el orden causal de la red (en este caso: $I, D, C, E, R$).

Cada part√≠cula corresponde a una posible realidad simulada del modelo.

**Ejemplo de muestreo:**

| Part√≠cula | D (Dificultad) | I (Inteligencia) | C (Calificaci√≥n) | E (Prueba) | R (Carta) |
|------------|----------------|------------------|------------------|------------|------------|
| $\xi[1]$ | F√°cil ($d^0$) | Inteligente ($i^1$) | Alta ($c^2$) | Bueno ($e^1$) | Buena ($r^1$) |
| $\xi[2]$ | Dif√≠cil ($d^1$) | No mucho ($i^0$) | Media ($c^1$) | Malo ($e^0$) | Mala ($r^0$) |
| $\xi[3]$ | F√°cil ($d^0$) | No mucho ($i^0$) | Baja ($c^0$) | Malo ($e^0$) | Mala ($r^0$) |
| ...        | ...            | ...              | ...              | ...        | ...        |
| $\xi[M]$ | Dif√≠cil ($d^1$) | Inteligente ($i^1$) | Alta ($c^2$) | Bueno ($e^1$) | Buena ($r^1$) |

Cada part√≠cula $\xi[m]$ representa una **instanciaci√≥n completa del conjunto de variables**, generada de acuerdo con las _distribuciones condicionales del modelo_.

---

#### 1.2. _Forward sampling_ en redes bayesianas

> Perfecto, y _¬øc√≥mo obtengo esas muestras de una red bayesiana?_
>
> Ac√° entra el _forward sampling_, m√©todo de simulaci√≥n que nos permite generar part√≠culas $xi[m]$ coherentes con la estructura causal del modelo.

El m√©todo de *forward sampling* consiste en generar part√≠culas **siguiendo el orden causal** de la red bayesiana.

**Algoritmo ‚Äì Forward Sampling en una red bayesiana**

![Forward Sampling](../images/sesion12-algoritmo-forwardsampling.png)

**Figura 1.** Algoritmo de *forward sampling* para generar part√≠culas en una red bayesiana. *Koller & Friedman (2009, Ch. 12)*

| Paso | Descripci√≥n |
|------|--------------|
| [**(1) Orden topol√≥gico**](https://en.wikipedia.org/wiki/Topological_sorting) | Se ordenan las variables $X_1, \dots, X_n$ de modo que los **padres aparezcan antes que sus hijos**. Esto garantiza que cuando llegamos a una variable $X_i$, ya conocemos los valores de sus padres. |
| **(2‚Äì3) Obtener valores de los padres** | Para cada variable $X_i$, se obtienen los valores actuales $u_i$ de sus padres $\text{Pa}(X_i)$, que ya fueron muestreados. |
| **(4) Muestreo condicional** | Se genera un valor $x_i$ de acuerdo con la distribuci√≥n condicional $P(X_i \mid u_i)$. En la pr√°ctica, se genera un n√∫mero aleatorio $r \sim \text{Uniform}(0,1)$ y se selecciona el valor de $X_i$ correspondiente al intervalo acumulado que contiene $r$. |
| **(5) Retorno de la part√≠cula** | El algoritmo devuelve la asignaci√≥n completa $(x_1, \dots, x_n)$, que constituye una **part√≠cula** del modelo. |

<details>
<summary> üí° Ejemplo: <em>Forward Sampling</em> en la red del estudiante </summary>

Supongamos que queremos generar **una part√≠cula** $\xi = (x_I,x_D,x_C,x_E,x_R)$ siguiendo el orden topol√≥gico:

$$
I \rightarrow D \rightarrow C \rightarrow E \rightarrow R
$$

---

<details>
<summary> Paso 1Ô∏è ‚Äì Muestreo de la inteligencia $I$ </summary>

**Padres:** $\mathrm{Pa}(I)=\varnothing \Rightarrow u_I = \varnothing$

**Distribuci√≥n:**
$$
P(I) =
\begin{cases}
P(i^0) = 0.7 & \text{(no muy inteligente)} \\
P(i^1) = 0.3 & \text{(inteligente)}
\end{cases}
$$

**Generamos** un n√∫mero aleatorio $r = 0.65$  

**Acumuladas:** $[0,0.7)\Rightarrow i^0;\; [0.7,1]\Rightarrow i^1$

Como $r=0.65\in[0,0.7)$, **$x_I=i^0$**
</details>

---

<details>
<summary> Paso 2Ô∏è ‚Äì Muestreo de la dificultad $D$ </summary>

**Padres:** $\mathrm{Pa}(D)=\varnothing \Rightarrow u_D = \varnothing$

**Distribuci√≥n:**
$$
P(D) =
\begin{cases}
P(d^0) = 0.6 & \text{(f√°cil)} \\
P(d^1) = 0.4 & \text{(dif√≠cil)}
\end{cases}
$$

**Generamos** $r = 0.82$  

**Acumuladas:** $[0,0.6)\Rightarrow d^0;\; [0.6,1]\Rightarrow d^1$

Como $r=0.82\in[0.6,1]$, **$x_D=d^1$**
</details>

---

<details>
<summary> Paso 3Ô∏è ‚Äì Muestreo de la calificaci√≥n $C \sim P(C \mid I, D)$ </summary>

**Padres:** $\mathrm{Pa}(C)=\{I,D\}\Rightarrow u_C=(i^0,d^1)$

Dado que $I = i^0$ y $D = d^1$, usamos la tabla condicional:

| Calificaci√≥n $C$ | $c^0$ (baja) | $c^1$ (media) | $c^2$ (alta) |
|:-----------------|:------------:|:-------------:|:------------:|
| **Probabilidad** | 0.7 | 0.25 | 0.05 |

**Generamos** $r=0.31$

**Acumuladas:**  
$[0,0.70)\Rightarrow c^0;\; [0.70,0.95)\Rightarrow c^1;\; [0.95,1]\Rightarrow c^2$.

Como $r=0.31\in[0,0.70)$, **$x_C=c^0$**
</details>

---

<details>
<summary> Paso 4Ô∏è ‚Äì Muestreo de la prueba $E \sim P(E \mid I)$ </summary>

**Padres:** $\mathrm{Pa}(E)=\{I\}\Rightarrow u_E=(i^0)$

Dado $I = i^0$, usamos:

| Resultado $E$ | $e^0$ (malo) | $e^1$ (bueno) |
|:--------------|:------------:|:-------------:|
| **Probabilidad** | 0.95 | 0.05 |

**Generamos** $r = 0.12$  

**Acumuladas:** $[0,0.95)\Rightarrow e^0;\; [0.95,1]\Rightarrow e^1$

Como $r=0.12\in[0,0.95)$, **$x_E=e^0$**
</details>

---

<details>
<summary> Paso 5Ô∏è ‚Äì Muestreo de la carta $R \sim P(R \mid C)$ </summary>

**Padres:** $\mathrm{Pa}(R)=\{C\}\Rightarrow u_R=(c^0)$

Dado $C = c^0$:

| Carta $R$ | $r^0$ (mala) | $r^1$ (buena) |
|:----------|:------------:|:-------------:|
| **Probabilidad** | 0.99 | 0.01 |

**Generamos** $r = 0.27$  

**Acumuladas:** $[0,0.99)\Rightarrow r^0;\; [0.99,1]\Rightarrow r^1$

Como $r=0.27\in[0,0.99)$, **$x_R=r^0$**
</details>

---

<details>
<summary> Resultado final </summary>

Hemos generado la siguiente part√≠cula:

$$
\xi = (x_I,x_D,x_C,x_E,x_R) = (i^0,\; d^1,\; c^0,\; e^0,\; r^0)
$$

Cada vez que repitamos el proceso con diferentes n√∫meros aleatorios, obtendremos nuevas part√≠culas $\xi[m]$.

El conjunto de todas las part√≠culas forma el conjunto de muestras:

$$
\mathcal{D} = \{ \xi[1], \xi[2], \dots, \xi[M] \}
$$

El conjunto $\mathcal{D}$ **aproxima la distribuci√≥n conjunta** $P(I, D, C, E, R)$ del modelo bayesiano.
</details>

</details>


```{admonition} Acumulaci√≥n de probabilidades condicionales
:class: tip

Esta es una forma de entender c√≥mo se acumulan las probabilidades condicionales para muestrear una variable $X_i$ dado los valores de sus padres $u_i$:

$$
\underbrace{0}_{\text{inicio}}
\;\;
\overbrace{P(X_i = x_i^1 \mid u_i)}^{\text{primer intervalo}}
\;\;
\overbrace{+\, P(X_i = x_i^2 \mid u_i)}^{\text{siguiente}}
\;\;
\overbrace{+\, P(X_i = x_i^3 \mid u_i)}^{\text{siguiente}}
\;\;
1
$$
```

---

#### 1.3. Estimaci√≥n mediante Monte Carlo

> El promedio de las muestras (la frecuencia relativa) es una buena estimaci√≥n de la probabilidad o expectativa verdadera en la red bayesiana.

El objetivo de *forward sampling* no es generar una sola part√≠cula, sino un **conjunto de part√≠culas**:

$$
\mathcal{D} = \{ \xi[1], \xi[2], \dots, \xi[M] \},
$$

que constituye una **muestra del modelo bayesiano**.  

A partir de este conjunto $\mathcal{D}$, podemos **estimar probabilidades o expectativas**, por ejemplo:

$$
\boxed{P(Y = y)}
$$

- $P(R = r^1)$: la probabilidad de recibir una carta, o

$$
\boxed{P(Y =y \mid E=e)}
$$

- una probabilidad **condicional** con evidencia, por ejemplo $P(R = r^1 \mid E = e^0)$: la probabilidad de carta dado que el puntaje del examen fue malo.

Estas estimaciones se obtienen evaluando **cu√°ntas part√≠culas cumplen la condici√≥n** respecto al total generado, o m√°s generalmente, _promediando funciones sobre las part√≠culas_.

* **¬øC√≥mo?**

Para evaluar estas probabilidades, recuperamos la definici√≥n de la _esperanza_ de una funci√≥n $f(X)$ bajo la distribuci√≥n $P(X)$:

$$
\begin{aligned}
E_P[f(X)] = \sum_X f(X) P(X)
\end{aligned}
\tag{1}
$$

> Ecuaci√≥n (1). Definici√≥n de la esperanza matem√°tica: el promedio ponderado de los valores de $f(X)$ bajo la distribuci√≥n $P(X)$.

y no podemos hacerlo de _forma exacta_,  es decir, no podemos evaluar directamente $P(x)$, entonces aproximamos con las **muestras**:

$$
\begin{aligned}
\hat{E}_\mathcal{D}[f] = \frac{1}{M} \sum_{m=1}^{M} f(\xi[m])
\end{aligned}
\tag{2}
$$

> Ecuaci√≥n (2). Aproximaci√≥n mediante Monte Carlo. En lugar de recorrer todos los posibles $X$, tomamos $M$ muestras aleatorias $\xi[m]$ del modelo y calculamos el promedio de $f$ sobre ellas.

> As√≠, reemplzamos la esperanza exacta (suma sobre todos los $X$) por una _media muestral_ (suma sobre las part√≠culas generadas).

Podemos expresar la probabilidad como una expectativa particular: la **esperanza de una funci√≥n indicadora** que vale 1 cuando el evento ocurre y 0 en otro caso.

De esta forma, la f√≥rmula general de Monte Carlo se convierte directamente en una estimaci√≥n de probabilidad:

$$
\begin{aligned}
\hat{P}_\mathcal{D}(y) = \frac{1}{M} \sum_{m=1}^{M} \mathbf{I}\{y[m] = y\}
\end{aligned}
\tag{3}
$$

> Ecuaci√≥n (3). Finalmente, elegimos una funci√≥n espec√≠fica: $F(X) = \mathbb{1}_{Y = y}$, que nos permite estimar la probabilidad de que $Y = y$ contando cu√°ntas part√≠culas cumplen esa condici√≥n.

Al sustituir Ecuaci√≥n (3) en Ecuaci√≥n (2), la expectativa estimada se convierte en la frecuencia relativa del evento $Y=y$ en las part√≠culas generadas; es decir, cu√°ntas veces ocurre $Y=y$ dividido entre el total de muestras $M$.

> **Nota:**  
> La funci√≥n indicadora $\mathbf{I}\{Y = y\}$ es una funci√≥n que vale **1** cuando el evento $Y = y$ ocurre y **0** en caso contrario:
>
> $$
> \mathbf{I}\{Y = y\} =
> \begin{cases}
> 1, & \text{si } Y = y \\
> 0, & \text{en otro caso}
> \end{cases}
> $$
>
> Al tomar la esperanza de esta funci√≥n respecto a la distribuci√≥n $P(Y)$:
>
> $$
> \mathbb{E}_P[\mathbf{I}\{Y = y\}] = \sum_Y \mathbf{I}\{Y = y\} P(Y)
> $$
>
> todos los t√©rminos son cero excepto cuando $Y = y$, por lo que obtenemos directamente:
>
> $$
> \mathbb{E}_P[\mathbf{I}\{Y = y\}] = P(Y = y)
> $$
>
> Es decir, la probabilidad de un evento es la esperanza de su funci√≥n indicadora.
>
> Por eso, al usar Monte Carlo y promediar los valores de $\mathbf{I}\{Y[m] = y\}$ en las muestras, estamos estimando $P(Y=y)$ mediante la frecuencia relativa de part√≠culas en las que $Y = y$.


<details>
<summary> üí° Ejemplo: estimaci√≥n de una probabilidad en la red del estudiante </summary>

Supongamos que queremos estimar la probabilidad de que la variable **Carta** ($R$) viable, es decir, $P(R = r^1)$, usando las part√≠culas generadas por *forward sampling*.

Si obtenemos $M = 5$ muestras del modelo:

| Muestra ($m$) | $R[m]$ | $\mathbf{I}\{R[m] = r^1\}$ |
|---------------|--------|-----------------------------|
| 1 | $r^0$ | 0 |
| 2 | $r^1$ | 1 |
| 3 | $r^1$ | 1 |
| 4 | $r^0$ | 0 |
| 5 | $r^1$ | 1 |

El promedio de estos valores nos da la estimaci√≥n:

$$
\hat{P}_\mathcal{D}(R = r^1)
= \frac{1}{5}(0 + 1 + 1 + 0 + 1)
= 0.6
$$

Por lo tanto, con estas muestras estimamos que:

$$
P(R = r^1) \approx 0.6
$$

**Interpretaci√≥n:**  
El resultado $0.6$ significa que la carta es **buena** en el 60 % de las part√≠culas generadas.  
</details>

<details>
<summary> üí° Ejemplo: estimaci√≥n de una probabilidad condicional con evidencia </summary>

Supongamos que ahora queremos estimar la probabilidad de que la variable **Carta** ($R$) sea **buena**, **dado que la calificaci√≥n fue alta**, es decir:

$$
P(R = r^1 \mid C = c^2)
$$

Generamos $M = 8$ part√≠culas con *forward sampling* y luego **filtramos** las que cumplen la evidencia $C=c^2$:

| Muestra ($m$) | $C[m]$ | $R[m]$ | $\mathbf{I}\{R[m] = r^1\}$ |
|---:|:---:|:---:|:---:|
| 1 | $c^2$ | $r^1$ | 1 |
| 2 | $c^0$ | $r^0$ | ‚Äî |
| 3 | $c^2$ | $r^1$ | 1 |
| 4 | $c^1$ | $r^0$ | ‚Äî |
| 5 | $c^2$ | $r^1$ | 1 |
| 6 | $c^0$ | $r^0$ | ‚Äî |
| 7 | $c^2$ | $r^1$ | 1 |
| 8 | $c^2$ | $r^0$ | 0 |

Solo consideramos las filas con $C=c^2$ (muestras 1, 3, 5, 7, 8).

En total, **$N=5$** part√≠culas cumplen la evidencia y **4** de ellas tienen $R=r^1$

La estimaci√≥n Monte Carlo de la probabilidad condicional es:
$$
\hat{P}_\mathcal{D}(R=r^1 \mid C=c^2)
=\frac{\sum_{m=1}^M \mathbf{I}\{R[m]=r^1,\,C[m]=c^2\}}
{\sum_{m=1}^M \mathbf{I}\{C[m]=c^2\}}
=\frac{4}{5}=0.8
$$
</details>

---

#### 1.4. An√°lisis del error

Hasta aqu√≠, hemos visto c√≥mo estimar una probabilidad $\hat{P}_{\mathcal{D}}(Y=y)$ promediando las muestras generadas mediante _forward sampling_.

Cuando estimamos:

$$
\hat{P}(y)= \frac{\text{\# veces que ocurre}   y}{M}
$$

esta estimaci√≥n **var√≠a cada vez que repetimos el muestreo**. 

_¬øPor qu√©?_ Porque las muestras son aleatorias, entonces hay dos preguntas clave:

> * ¬øqu√© tan lejos puede quedar mi estimaci√≥n del valor real $P(y)$?
>
>* Cu√°ntas muesstras $M$ necesito para estar segur@ de que el error ser√° peque√±o?

A continuaci√≥n, analizamos c√≥mo var√≠a el error del estimador y c√≥mo podemos acotarlo usando la _desigualdad de Hoeffding_.

##### 1.4.1. Planteamiento matem√°tico del error

Queremos _cuantificar_ la probabilidad de que el estimador difiera del valor verdadero m√°s de un margen $\varepsilon$:

$$
\begin{aligned}
\underbrace{
P_\mathcal{D}
\Big(
\underbrace{
\big|
\underbrace{\hat{P}_\mathcal{D}(y)}_{\text{estimaci√≥n emp√≠rica}}
-
\underbrace{P(y)}_{\text{valor verdadero}}
\big|
}_{\text{error absoluto}}
\ge
\underbrace{\varepsilon}_{\substack{\text{tolerancia predefinida} \\ \text{(hiperpar√°metro de precisi√≥n)}}}
\Big)
}_{\text{probabilidad de que el error exceda el umbral } \varepsilon}
\end{aligned}
$$

Esta expresi√≥n mide qu√© tan confiable es nuestra estimaci√≥n.

> ¬øQu√© probabilidad hay de que mi estimaci√≥n se equivoque m√°s de lo que estoy dispuesta a tolerar?

Indica la probabilidad de que el error absoluto entre la estimaci√≥n $\hat{P}_\mathcal{D}(y)$ y el valor verdadero $P(y)$ sea mayor o igual a una tolerancia predefinida $\varepsilon$.

#### 1.4.2. Cota de Hoeffding

Aplicando la desigualdad de Hoeffding, obtenemos:

$$
\underbrace{
P_\mathcal{D}
\big(
|\hat{P}_\mathcal{D}(y) - P(y)| \geq \varepsilon
\big)
}_{\text{probabilidad de que el error supere } \varepsilon}
\;\; \leq \;\;
\underbrace{
2 e^{-2M \varepsilon^2}
}_{\text{cota superior (Hoeffding)}}
\tag{5}
$$

La desigualdad de Hoeffding nos da una cota te√≥rica sobre la probabilidad de cometer un error mayor que $\varepsilon$:

> cuando m√°s grande sea $M$, menor ser√° el t√©rmino $2 e^{-2M \varepsilon^2}$

Esto significa que la probabilidad de que el estimador se desv√≠e mucho del valor real, _disminuye de forma exponencial_ con el n√∫mero de part√≠culas.

##### 1.4.3. Determinaci√≥n de la muestra

En la pr√°ctica, podemos decidir:

> Quiero que la probabilidad de equivocarme sea como mucho $\delta$ o equivalentemente, tener una confianza de $1 - \delta$ en mi estimaci√≥n.

Entonces, imponemos que la cota de Hoeffding sea menor o igual a $\delta$:

$$
2e^{-2M\varepsilon^2} \leq \delta
\tag{6}
$$

y despejamos el n√∫mero m√≠nimo de muestras necesarias:

$$
M \geq \frac{\ln(2/\delta)}{2\varepsilon^2}
\tag{7}
$$

> As√≠, garantizamos que: con al menos $1 - \delta$ de confianza, el error ser√° menor que $\varepsilon$.

---

#### 1.5. Ejemplo en C√≥digo (forward sampling y an√°lisis de error para $P(Y=y)$)

In [1]:
from pgmpy.sampling import BayesianModelSampling
from pgmpy.inference import VariableElimination
import os
import numpy as np
import pickle

* **Importamos el modelo bayesiano del estudiante.**

In [2]:
ruta = os.path.join('..', 'data', 'student-model.pkl')

with open(ruta, "rb") as f:
    student_model = pickle.load(f)

print(type(student_model))

<class 'pgmpy.models.DiscreteBayesianNetwork.DiscreteBayesianNetwork'>


* **Instanciamos el muestreador `BayesianNetworkSampler` de part√≠culas.**

In [3]:
sampler = BayesianModelSampling(student_model)

* **Calculamos `n_samples` (Hoeffding)**

$$
M \geq \frac{\ln(2/\delta)}{2\varepsilon^2}
\quad
$$

In [4]:
# Calcular el n√∫mero de muestras para una precisi√≥n $\varepsilon$
# y un nivel de confianza $1 - \delta$

delta = 0.01
eps = 0.01

n_samples = np.log(2 / delta) / (2 * eps**2)
n_samples

np.float64(26491.58683274018)

In [5]:
# Tama√±o de muestra Hoeffding
n_samples = np.ceil(n_samples).astype(int)
n_samples

np.int64(26492)

* **Generamos part√≠culas mediante ``forward_sample``**

In [6]:
# Generamos $xi[m]$ muestras independientes del modelo
samples = sampler.forward_sample(size=n_samples)
samples.head()

  0%|          | 0/5 [00:00<?, ?it/s]

Unnamed: 0,D,C,I,E,R
0,0,1,0,0,0
1,0,0,0,0,0
2,1,1,1,0,1
3,0,1,0,0,1
4,0,0,0,0,0


* **Monte Carlo: calcular frecuencias/expectativas.**

In [7]:
# Estimaci√≥n de $P(Y=y)$ para el caso de $Y = C$
p_C_approx = samples.groupby('C').size() / n_samples
p_C_approx

C
0    0.348143
1    0.289974
2    0.361883
dtype: float64

#### 1.6. Comparaci√≥n con Inferencia exacta

In [8]:
inference = VariableElimination(student_model)
p_C_exact = inference.query(variables=['C'])
print(p_C_exact)

+------+----------+
| C    |   phi(C) |
| C(0) |   0.3496 |
+------+----------+
| C(1) |   0.2884 |
+------+----------+
| C(2) |   0.3620 |
+------+----------+


* **Ejemplo con evidencia (Hoeffding)**

$$
P(C = i^1 \mid I = i^0)
$$

In [9]:
p_C_giv_I0 = (
    samples[samples['I'] == 0]
    .groupby('C')
    .size()
    / len(samples[samples['I'] == 0])
)
p_C_giv_I0

C
0    0.459443
1    0.340546
2    0.200011
dtype: float64

In [10]:
# para contrastar con el valor exacto
p_C_given_I0 = inference.query(variables=['C'], evidence={'I': 0})
print(p_C_given_I0)

+------+----------+
| C    |   phi(C) |
| C(0) |   0.4600 |
+------+----------+
| C(1) |   0.3400 |
+------+----------+
| C(2) |   0.2000 |
+------+----------+


#### 1.7. An√°lisis con cota de Chernoff

Ahora, _¬øqu√© pasa si necesitamos estar seguros de cu√°ntas observaciones hacen falta para que la estimaci√≥n de una clase poco frecuente sea precisa?_

> Si $P(y)$ es muy peque√±o (evento raro o clase minoritaria), entonces se necesitan muchos m√°s ejemplos para que el error relativo sea peque√±o.
>
> De hecho, si $P(y)$ es tan peque√±o que las $M$ muestras casi nunca ocurre, la estimaci√≥n emp√≠rica puede ser $0$, lo que est√° infinitamente lejos del valor verdader en t√©rminos relativos.

La desigualdad de **Chernoff** refina el an√°lisis anterior para errores **relativos**, obteniendo:

$$
P_D\left( |\hat{P}_\mathcal{D}(y) - P(y)| \ge \epsilon P(y) \right) \le 2 e^{-M P(y) \epsilon^2 / 3}
$$

Despejando $M$:

$$
M \ge \frac{3 \ln(2 / \delta)}{P(y) \epsilon^2}
$$

Esto implica que si el evento $Y=y$ es **poco probable** (por ejemplo, $P(y) \ll 1$), se requerir√° un n√∫mero mucho mayor de muestras para observarlo lo suficiente y estimarlo con precisi√≥n.

In [11]:
# Calcular el n√∫mero de muestras para una precisi√≥n $\varepsilon$
# y un nivel de confianza $1 - \delta$
# adem√°s, para una variable Y espec√≠fica

delta = 0.01
eps_relativo = 0.01
y_state = 2  # queremos estimar P(C = c2)

In [12]:
# Probabilidad "verdadera" de C
infer = VariableElimination(student_model)
dist_C = infer.query(variables=['C'])
p_y = dist_C.get_value(C=2)

In [13]:
p_y

np.float64(0.36200000000000004)

In [14]:
# Tama√±o de muestra Chernoff
n_samples = np.ceil( 3 * np.log(2/delta) / (p_y * eps_relativo**2) ).astype(int)
n_samples

np.int64(439088)

In [15]:
# Generamos $xi[m]$ muestras independientes del modelo
samples = sampler.forward_sample(size=n_samples)
samples.head()

  0%|          | 0/5 [00:00<?, ?it/s]

Unnamed: 0,D,C,I,E,R
0,0,2,0,0,1
1,0,2,1,1,1
2,0,1,0,0,1
3,0,1,0,0,1
4,1,0,0,0,0


In [16]:
# Estimaci√≥n de P(C)
p_C_approx = samples.groupby('C').size() / n_samples

print(p_C_approx)

C
0    0.349857
1    0.288097
2    0.362046
dtype: float64


In [17]:
print(dist_C)

+------+----------+
| C    |   phi(C) |
| C(0) |   0.3496 |
+------+----------+
| C(1) |   0.2884 |
+------+----------+
| C(2) |   0.3620 |
+------+----------+


> Usar Chernoff para $C=c^2$ nos da una cota conservadora (segura) que tambi√©n garantiza buena precisi√≥n para los dem√°s valores de $C$.
>
> Es decir, si tenemos suficientes muestras para estimar el caso m√°s dificil, tambi√©n estamos cubiertos para los dem√°s casos.

* **Ejemplo con evidencia (Chernoff)**

In [18]:
# Params
delta = 0.01         
eps_relativo = 0.01       
y_state = 2

In [19]:
evidencia_tup = [('I', 0)]

In [20]:
infer = VariableElimination(student_model)
dist_C_given_I0 = infer.query(variables=['C'],
                             evidence={'I': 0})

p_y = dist_C_given_I0.get_value(C=y_state)

In [21]:
n_samples = np.ceil( 3 * np.log(2/delta) / (p_y * eps_relativo**2) ).astype(int)
n_samples

np.int64(794748)

* **Generamos part√≠culas mediante ```rejection_sample```**

In [22]:
samples = sampler.rejection_sample(evidence=evidencia_tup,
                                   size=n_samples)
samples

  0%|          | 0/794748 [00:00<?, ?it/s]

Unnamed: 0,D,C,I,E,R
0,0,0,0,0,0
1,0,0,0,0,0
2,1,2,0,0,1
3,0,0,0,0,0
4,1,1,0,0,0
...,...,...,...,...,...
794743,1,2,0,0,1
794744,0,1,0,0,0
794745,0,2,0,0,1
794746,1,0,0,0,0


In [23]:
samples.I.value_counts()

I
0    794748
Name: count, dtype: int64

In [24]:
p_C_given_E_approx = samples.groupby('C').size() / samples.shape[0]
p_C_given_E_approx

C
0    0.459727
1    0.340429
2    0.199844
dtype: float64

In [25]:
print(dist_C_given_I0)

+------+----------+
| C    |   phi(C) |
| C(0) |   0.4600 |
+------+----------+
| C(1) |   0.3400 |
+------+----------+
| C(2) |   0.2000 |
+------+----------+
