# Sesión 9A

## Factores

> **Objetivos:**
> - Entender el concepto de factor.
> - Apropiar las operaciones que podemos desarrollar con los factores.
> - Introducción al uso de la librería pgmpy

### ¿Qué es un factor?

Un **factor** es una _función o tabla_ que asigna un número real (no necesariamente una probabilidad) a cada combinación posible de valores de un conjunto de variables aleatorias.

$$ 
\phi: \mathrm{Val}(X_1, \dots, X_k) \to \mathbb{R}_{\geq 0}
$$

* Su entrada son las variables aleatorias $X_1, X_2, \ldots, X_k$.
* Su salida es un número real.
* El conjunto de variables que se usa se llama **alcance** (_scope_):

$$
\text{scope}[\phi] = \{X_1, X_2, \ldots, X_k\}
$$


### Ejemplos de factores

* **(a) Distribución conjunta:** 

Una distribución conjunta es un factor cuyo alcance son todas las variables aleatorias del modelo.

Por ejemplo:

$P(I,D,G)$

| I | D | G | P(I,D,G) |
|---|---|---|----------|
| i0 | d0 | g0 | 0.03  |
| i0 | d0 | g1 | 0.25  |
| i0 | d1 | g0 | 0.1   |
| i0 | d1 | g1 | 0.35  |
| i1 | d0 | g0 | 0.05  |
| i1 | d0 | g1 | 0.15  |
| i1 | d1 | g0 | 0.04  |
| i1 | d1 | g1 | 0.03  |

Nota que la suma de todas las entradas es 1. Sin embargo, eso no es lo importante para un factor, sino que _cada entrada es un número real no negativo._

* **(b) Medida sin normalizar:**

Una medida sin normalizar es un factor que asigna un número real no negativo a cada combinación de valores de un conjunto de variables, pero no necesariamente suma 1.

Por ejemplo:

$P(I, D, G= g^1)$

| I   | D   | G   | Prob. |
|-----|-----|-----|-------|
| i⁰  | d⁰  | g¹  | 0.126 |
| i⁰  | d¹  | g¹  | 0.009 |
| i¹  | d⁰  | g¹  | 0.252 |
| i¹  | d¹  | g¹  | 0.060 |

* **(c) Distribución condicional (CPD):**

Por ejemplo:

$P(G | I, D)$

| I   | D   | g¹  | g²  | g³  |
|-----|-----|-----|-----|-----|
| i⁰  | d⁰  | 0.3 | 0.4 | 0.3 |
| i⁰  | d¹  | 0.05 | 0.25 | 0.7 |
| i¹  | d⁰  | 0.9 | 0.08 | 0.02 |
| i¹  | d¹  | 0.5 | 0.3 | 0.2 | <-- por cada condición suma 1

* **(d) Factores generales:**

Por ejemplo:

| A   | B   | $\phi$  |
|-----|-----|-----|
| a⁰  | b⁰  | 30  |
| a⁰  | b¹  | 5   |
| a¹  | b⁰  | 1   |
| a¹  | b¹  | 10  |

### ¿Por qué los factores son importantes?

* **Dividen el problema en partes pequeñas**

En lugar de representar una probabilidad enorme como $P(X_1, \ldots, X_100)$, usamos muchos factores pequeños y los combinamos.

* **Permiten construir distribuciones grandes**

Una red bayesiana define una distribución conjunta como el **producto** de factores locales (CPD de cada nodo):

$$
P(X_1, \ldots, X_n) = \prod_{i=1}^{n} P(X_i | \text{Padres}(X_i))
$$

donde cada término $P(X_i | \text{Padres}(X_i))$ es un factor.

* **Son la base de la inferencia**

Cuando queremos responder preguntas (_¿Cuál es la probabilidad de que llueva dado que hay tráfico?_), realizamos operaciones con factores: multiplicar, reducir, marginalizar y normalizar. 

* **Sirven también para cálculos no probabilísticos**

Aunque los valores no sean probabilidades (por ejemplo, pesos o puntuaciones), las mismas operaciones nos permiten propagar información y tomar decisiones.

### Operaciones de factores

**1. Producto de factores**

$$\phi_1(A, B)$$

|   A   |   B   | $\phi_1$ |
| ----- | ----- | -------- |
| $a^0$ | $b^0$ | 5        |
| $a^0$ | $b^1$ | 8        |
| $a^1$ | $b^0$ | 1        |
| $a^1$ | $b^1$ | 0        |
| $a^2$ | $b^0$ | 3        |
| $a^2$ | $b^1$ | 9        |

$$\phi_2(B, C)$$

|   B   |   C   | $\phi_2$ |
| ----- | ----- | -------- |
| $b^0$ | $c^0$ | 5        |
| $b^0$ | $c^1$ | 7        |
| $b^1$ | $c^0$ | 1        |
| $b^1$ | $c^1$ | 2        |

$$\phi_3(A, B, C) = \phi_1(A, B) \times \phi_2(B, C)$$

|   A   |   B   |   C   | $\phi_3$ |
| ----- | ----- | ----- | ---------------- |
| $a^0$ | $b^0$ | $c^0$ | $5\times 5 = 25$ |
| $a^0$ | $b^0$ | $c^1$ | $5\times 7 = 35$ |
| $a^0$ | $b^1$ | $c^0$ | $8\times 1 = 8$  |
| $a^0$ | $b^1$ | $c^1$ | $8\times 2 = 16$ |
| $a^1$ | $b^0$ | $c^0$ | $1\times 5 = 5$  |
| $a^1$ | $b^0$ | $c^1$ | $1\times 7 = 7$  |
| $a^1$ | $b^1$ | $c^0$ | $0\times 1 = 0$  |
| $a^1$ | $b^1$ | $c^1$ | $0\times 2 = 0$  |
| $a^2$ | $b^0$ | $c^0$ | $3\times 5 = 15$ |
| $a^2$ | $b^0$ | $c^1$ | $3\times 7 = 21$ |
| $a^2$ | $b^1$ | $c^0$ | $9\times 1 = 9$  |
| $a^2$ | $b^1$ | $c^1$ | $9\times 2 = 18$ |

In [1]:
# Importamos pgmpy.factors.discrete.DiscreteFactor
from pgmpy.factors.discrete import DiscreteFactor

In [3]:
#DiscreteFactor?

In [9]:
# Factores phi1, phi2
phi1 = DiscreteFactor(
    variables=['A', 'B'],
    cardinality=[3,2],
    values=[5,8,1,0,3,9]
)

phi2 = DiscreteFactor(
    variables=['B', 'C'],
    cardinality=[2,2],
    values=[5,7,1,2]
)

**Factor:** φ₁(A, B)

**Variables y cardinalidades:**
- A → 3 valores posibles (a⁰, a¹, a²)
- B → 2 valores posibles (b⁰, b¹)

**Cardinalidad total:** 3 × 2 = 6 combinaciones

In [10]:
print(phi1)

+------+------+------------+
| A    | B    |   phi(A,B) |
| A(0) | B(0) |     5.0000 |
+------+------+------------+
| A(0) | B(1) |     8.0000 |
+------+------+------------+
| A(1) | B(0) |     1.0000 |
+------+------+------------+
| A(1) | B(1) |     0.0000 |
+------+------+------------+
| A(2) | B(0) |     3.0000 |
+------+------+------------+
| A(2) | B(1) |     9.0000 |
+------+------+------------+


**Factor:** φ₂(B, C)

**Variables y cardinalidades:**
- B → 2 valores posibles (b⁰, b¹)
- C → 2 valores posibles (c⁰, c¹)

**Cardinalidad total:** 2 × 2 = 4 combinaciones


In [11]:
print(phi2)

+------+------+------------+
| B    | C    |   phi(B,C) |
| B(0) | C(0) |     5.0000 |
+------+------+------------+
| B(0) | C(1) |     7.0000 |
+------+------+------------+
| B(1) | C(0) |     1.0000 |
+------+------+------------+
| B(1) | C(1) |     2.0000 |
+------+------+------------+


In [12]:
# Producto de factores(.product)
phi3 = phi1.product(phi2, inplace=False)
print(phi3)

+------+------+------+--------------+
| B    | A    | C    |   phi(B,A,C) |
| B(0) | A(0) | C(0) |      25.0000 |
+------+------+------+--------------+
| B(0) | A(0) | C(1) |      35.0000 |
+------+------+------+--------------+
| B(0) | A(1) | C(0) |       5.0000 |
+------+------+------+--------------+
| B(0) | A(1) | C(1) |       7.0000 |
+------+------+------+--------------+
| B(0) | A(2) | C(0) |      15.0000 |
+------+------+------+--------------+
| B(0) | A(2) | C(1) |      21.0000 |
+------+------+------+--------------+
| B(1) | A(0) | C(0) |       8.0000 |
+------+------+------+--------------+
| B(1) | A(0) | C(1) |      16.0000 |
+------+------+------+--------------+
| B(1) | A(1) | C(0) |       0.0000 |
+------+------+------+--------------+
| B(1) | A(1) | C(1) |       0.0000 |
+------+------+------+--------------+
| B(1) | A(2) | C(0) |       9.0000 |
+------+------+------+--------------+
| B(1) | A(2) | C(1) |      18.0000 |
+------+------+------+--------------+


In [13]:
#Producto de factores(*)
phi4 = phi1 * phi2
print(phi4)

+------+------+------+--------------+
| B    | A    | C    |   phi(B,A,C) |
| B(0) | A(0) | C(0) |      25.0000 |
+------+------+------+--------------+
| B(0) | A(0) | C(1) |      35.0000 |
+------+------+------+--------------+
| B(0) | A(1) | C(0) |       5.0000 |
+------+------+------+--------------+
| B(0) | A(1) | C(1) |       7.0000 |
+------+------+------+--------------+
| B(0) | A(2) | C(0) |      15.0000 |
+------+------+------+--------------+
| B(0) | A(2) | C(1) |      21.0000 |
+------+------+------+--------------+
| B(1) | A(0) | C(0) |       8.0000 |
+------+------+------+--------------+
| B(1) | A(0) | C(1) |      16.0000 |
+------+------+------+--------------+
| B(1) | A(1) | C(0) |       0.0000 |
+------+------+------+--------------+
| B(1) | A(1) | C(1) |       0.0000 |
+------+------+------+--------------+
| B(1) | A(2) | C(0) |       9.0000 |
+------+------+------+--------------+
| B(1) | A(2) | C(1) |      18.0000 |
+------+------+------+--------------+


---

#### Actividad

$$\phi_1(X, Y)$$

|   X   |   Y   | $\phi_1$ |
| ----- | ----- | -------- |
| $x^0$ | $y^0$ | 0.8      |
| $x^0$ | $y^1$ | 0.5      |
| $x^1$ | $y^0$ | 0.5      |
| $x^1$ | $y^1$ | 0.6      |

$$\phi_2(Y, Z)$$

|   Y   |   Z   | $\phi_2$ |
| ----- | ----- | -------- |
| $y^0$ | $z^0$ | 0.2      |
| $y^0$ | $z^1$ | 0.2      |
| $y^1$ | $z^0$ | 0.9      |
| $y^1$ | $z^1$ | 1.0      |

Si $\psi(X,Y,Z) = \phi_1(X, Y) \phi_2(Y,Z)$
- $\psi(x^0, y^0, z^0)=?$
- $\psi(x^0, y^1, z^1)=?$
- $\psi(x^1, y^1, z^1)=?$

---

In [22]:
# Factores phi1, phi2
phi1 = DiscreteFactor(
    variables=['X', 'Y'],
    cardinality=[2,2],
    values=[0.8, 0.5, 0.5, 0.6]
)

phi2 = DiscreteFactor(
    variables=['Y', 'Z'],
    cardinality=[2,2],
    values=[0.2, 0.2, 0.9, 1]
)

In [23]:
#print
phi3 = phi1.product(phi2, inplace=False)
print(phi3)

+------+------+------+--------------+
| X    | Z    | Y    |   phi(X,Z,Y) |
| X(0) | Z(0) | Y(0) |       0.1600 |
+------+------+------+--------------+
| X(0) | Z(0) | Y(1) |       0.4500 |
+------+------+------+--------------+
| X(0) | Z(1) | Y(0) |       0.1600 |
+------+------+------+--------------+
| X(0) | Z(1) | Y(1) |       0.5000 |
+------+------+------+--------------+
| X(1) | Z(0) | Y(0) |       0.1000 |
+------+------+------+--------------+
| X(1) | Z(0) | Y(1) |       0.5400 |
+------+------+------+--------------+
| X(1) | Z(1) | Y(0) |       0.1000 |
+------+------+------+--------------+
| X(1) | Z(1) | Y(1) |       0.6000 |
+------+------+------+--------------+


**2. Marginalización de factores**

Tienes un factor:

$$\phi_1(X, Y, Z)$$

|   X   |   Y   |   Z   | $\phi_1$ |
| ----- | ----- | ----- | -------- |
| $x^0$ | $y^0$ | $z^0$ | 10       |
| $x^0$ | $y^0$ | $z^1$ | 5        |
| $x^0$ | $y^1$ | $z^0$ | 15       |
| $x^0$ | $y^1$ | $z^1$ | 16       |
| $x^1$ | $y^0$ | $z^0$ | 14       |
| $x^1$ | $y^0$ | $z^1$ | 30       |
| $x^1$ | $y^1$ | $z^0$ | 2        |
| $x^1$ | $y^1$ | $z^1$ | 8        |

queremos obtener otro más pequeño:

$\psi(Y,Z) = \sum_{X}\phi_1(X, Y, Z)$

|   Y   |   Z   | $\psi$      |
| ----- | ----- | ------------- |
| $y^0$ | $z^0$ | 10 + 14 = 24  |
| $y^0$ | $z^1$ | 5 + 30 = 35   |
| $y^1$ | $z^0$ | 15 + 2 = 17   |
| $y^1$ | $z^1$ | 16 + 8 = 24   |

Para cada combinación de $Y$ y $Z$, sumamos todos los valores posbiles de $X$.

In [14]:
# Factor phi1
phi1 = DiscreteFactor(
    variables=['X', 'Y', 'Z'],
    cardinality=[2,2,2],
    values=[10,5,15,16,14,30,2,8]
)

In [15]:
# Marginalización resp. X (.marginalize)
phi1_marg_x = phi1.marginalize(variables=['X'], inplace=False)
print(phi1_marg_x)

+------+------+------------+
| Y    | Z    |   phi(Y,Z) |
| Y(0) | Z(0) |    24.0000 |
+------+------+------------+
| Y(0) | Z(1) |    35.0000 |
+------+------+------------+
| Y(1) | Z(0) |    17.0000 |
+------+------+------------+
| Y(1) | Z(1) |    24.0000 |
+------+------+------------+


In [16]:
# Marginalización resp. X, Y (.marginalize)
phi1_marg_xy = phi1.marginalize(variables=['X','Y'], inplace=False)
print(phi1_marg_xy)

+------+----------+
| Z    |   phi(Z) |
| Z(0) |  41.0000 |
+------+----------+
| Z(1) |  59.0000 |
+------+----------+


---
### Actividad:
$$\phi_1(X, Y)$$

|   X   |   Y   | $\phi_1$ |
| ----- | ----- | -------- |
| $x^0$ | $y^0$ | 0.8      |
| $x^0$ | $y^1$ | 0.5      |
| $x^1$ | $y^0$ | 0.5      |
| $x^1$ | $y^1$ | 0.6      |

Si $\psi(Y) = \sum_{X}\phi_1(X, Y)$

- $\psi(y^0)=$?
- $\psi(y^1)=$?
---

In [24]:
#Factor phi
phi1 = DiscreteFactor(
    variables=['X', 'Y'],
    cardinality=[2,2],
    values=[0.8, 0.5, 0.5, 0.6]
)

In [25]:
#print
phi1_marg_x = phi1.marginalize(variables=['X'], inplace=False)
print(phi1_marg_x)

+------+----------+
| Y    |   phi(Y) |
| Y(0) |   1.3000 |
+------+----------+
| Y(1) |   1.1000 |
+------+----------+


**3. Reducción de factores**

$$\phi_1(X, Y, Z)$$

|   X   |   Y   |   Z   | $\phi_1(X,Y,Z)$ |
|:-----:|:-----:|:-----:|:----------:|
| $x^0$ | $y^0$ | $z^0$ | 10 |
| $x^0$ | $y^0$ | $z^1$ | 5  |
| $x^0$ | <span style="color:#e63946"><b>$y^1$</b></span> | $z^0$ | 15 |
| $x^0$ | <span style="color:#e63946"><b>$y^1$</b></span> | $z^1$ | 16 |
| $x^1$ | $y^0$ | $z^0$ | 14 |
| $x^1$ | $y^0$ | $z^1$ | 30 |
| $x^1$ | <span style="color:#e63946"><b>$y^1$</b></span> | $z^0$ | 2  |
| $x^1$ | <span style="color:#e63946"><b>$y^1$</b></span> | $z^1$ | 8  |



$\psi(X,Z) = \phi_1(X, y^1, Z)$

|   X   |   Y   |   Z   | $\phi_1$ |
| ----- | ----- | ----- | -------- |
| $x^0$ | $y^1$ | $z^0$ | 15       |
| $x^0$ | $y^1$ | $z^1$ | 16       |
| $x^1$ | $y^1$ | $z^0$ | 2        |
| $x^1$ | $y^1$ | $z^1$ | 8        |

Como $Y=y^1$ es **constante**, el factor resultante no depende de Y:

|   X   |   Z   | $\phi_1$ |
| ----- | ----- | -------- |
| $x^0$ | $z^0$ | 15       |
| $x^0$ | $z^1$ | 16       |
| $x^1$ | $z^0$ | 2        |
| $x^1$ | $z^1$ | 8        |

In [17]:
# Factor phi1
phi1 = DiscreteFactor(
    variables=['X', 'Y', 'Z'],
    cardinality=[2,2,2],
    values=[10,5,15,16,14,30,2,8]
)

In [None]:
# Reducción phi1(X, y1, Z)(.reduce)
phi1_red = phi1.reduce(values=[('Y', 1)], inplace=False)
print(phi1_red)

+------+------+------------+
| X    | Z    |   phi(X,Z) |
| X(0) | Z(0) |    15.0000 |
+------+------+------------+
| X(0) | Z(1) |    16.0000 |
+------+------+------------+
| X(1) | Z(0) |     2.0000 |
+------+------+------------+
| X(1) | Z(1) |     8.0000 |
+------+------+------------+


In [21]:
# Reducción phi1(X, y1, z0)(.reduce)
phi1_red2 = phi1.reduce(values=[('Y', 1), ('Z', 0)], inplace=False)
print(phi1_red2)

+------+----------+
| X    |   phi(X) |
| X(0) |  15.0000 |
+------+----------+
| X(1) |   2.0000 |
+------+----------+


---
### Actividad:
$$\phi_1(X, Y)$$

|   X   |   Y   | $\phi_1$ |
| ----- | ----- | -------- |
| $x^0$ | $y^0$ | 0.8      |
| $x^0$ | $y^1$ | 0.5      |
| $x^1$ | $y^0$ | 0.5      |
| $x^1$ | $y^1$ | 0.6      |

Si $\psi(X) = \phi_1(X, y^0)$

- $\psi(x^0)=$?
- $\psi(x^1)=$?
---

In [26]:
#Factor phi
phi1 = DiscreteFactor(
    variables=['X', 'Y'],
    cardinality=[2,2],
    values=[0.8, 0.5, 0.5, 0.6]
)

In [27]:
#print
phi1_reduced = phi1.reduce(values=[('Y', 0)], inplace=False)
print(phi1_reduced)

+------+----------+
| X    |   phi(X) |
| X(0) |   0.8000 |
+------+----------+
| X(1) |   0.5000 |
+------+----------+


### La gran pregunta

_¿Por qué los **factores** son tan importantes en redes bayesianas y modelos probabilísticos?_

#### El problema de las distribuciones grandes

Imaginen que tenemos muchas variables aleatorias, digamos que $N=20$. Si cada una puede tomar solo 2 valores (por ejemplo, sí o no), una distribución conjunta completa tendría que guardar:

$2^{20} = 1,048,576$ combinaciones posibles.

y si cada variable dependiera de las demás, la tabla sería enorme e imposible de manejar.

#### La solución: dividir en "pedacitos"

En lugar de definir una tabla gigante, lo que hacemos es dividir esa distribución en partes más pequeñas, llamadas **factores**.

Cada factor solo involucra unas pocas variables (por ejemplo, 2 o 3).

Por ejemplo, en una red bayesiana:

$$P(X_1, X_2, \ldots, X_n) = \prod_{i=1}^{n} P(X_i | \text{Padres}(X_i))$$

cada $P(X_i | Padres(X_i))$ es un factor y al multiplicarlos, obtenemos la distribución conjunta completa.

#### Las mismas operaciones sirven para inferir

Las operaciones matemáticas que usamos para construir una red _multiplicar, sumar, reducir, normalizar_ son las que usamos luego para hacer inferencia.

Estas operaciones son:

- Producto de factores --> combinar información.
- Reducción --> aplicar evidencia (fijar variables).
- Marginalización --> eliminar variables irrelevantes.
- Normalización --> convertir los resultados en probabilidades válidas.
