# Introducci√≥n a M√©todos Bayesianos

√çndice:
* Bases de probabilidad
* Marginalizaci√≥n, probabilidades condicionadas (reducci√≥n) y factorizaci√≥n de probabilidad: redes bayesianas
* Independencia y caminos activos
* Algoritmo de eliminaci√≥n de variables 

## Bases de probabilidad

Dominio de una variable determina el conjunto de valores que puede tomar. Los dominios puedes ser discretos o continuos. Algunos ejemplos:
* dom(tirar un dado) = {1,2,3,4,5,6}
* dom(moneda) = {cara, cruz}
* dom(nota) = [1, 10]

Notaci√≥n: Para las variables aleatorias vamos a usar letras may√∫sculas y para posibles asignaciones letras min√∫sculas. Por ejemplo, si X representa tirar una moneda podr√≠amos poner dom(X)={cara,cruz} y decir que P(X=cara)=0'5

#### Reglas de probabilidad:

* Regla de la suma: $P(A) + P(\bar{A}) = 1$ y en general 

$$ \sum_{x \in dom(X)} P(X=x) = 1 $$

* Regla del producto: $P(A,B) = P(A|B)P(B) = P(B|A)P(A)$
* Regla de la cadena (extensi√≥n de la regla del producto):     

$$P(A,B,C,D) = P(A|B,C,D)P(B,C,D) = \\ = P(A|B,C,D)P(B|C,D)P(C,D) = \\ = P(A|B,C,D)P(B|C,D)P(C|D)P(D) $$

* Regla de Bayes:
Es despejar en la regla del producto $P(A|B)P(B) = P(B|A)P(A)$ para obtener

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$

En general se utiliza para tomar decisiones. Cambiando A por hip√≥stesis (H) y B por datos (D) tenemos

$$ P(H|D) = \frac{P(D|H)P(H)}{P(D)} $$

y cada t√©rmino es

* P(H): Probabilidad a priori de la hip√≥tesis
* P(D|H): Verosimilitud de los datos suponiendo H es cierta
* P(D): Evidencia
* P(H|D): Probabilidad a posteriori

### Marginalizaci√≥n de una variable

Si tenemos una distribuci√≥n de probabilidad de dos variables P(A,B) y queremos saber P(A), debemos marginalizar B, esto es

$$P(A|I)=\sum_{i=1}^K P(A,B = b_k|I)$$

asumiendo que el dominio de B es $dom(B)=\{b_1,\dots,b_K\}$. Donde se est√° aplicando la regla de la suma. 

Ej. ¬øCu√°l es la probabilidad de sacar sobresaliente, P(N=sob)? Podr√≠amos decir que depende de la dificultad del examen (El examen puede se f√°cil, normal o dif√≠cil)

$ P(N=sob) = P(N=sob, Ex=facil) +  P(N=sob, Ex=normal)  + P(N=sob, Ex=dificil)$

### Independencia de variables

Si A y B son independientes entonces:

$$ P(A,B) = P(A|B)P(B) = P(A)P(B) $$

Independencia significa que conocer una de las variables no nos aporta informaci√≥n adicional sobre el estado de la otra.

### Distribuci√≥n conjunta

Una distribuci√≥n de probabilidad en varias variables

#### Ejemplo 

Consideramos la distribuci√≥n conjunta que relaciona para un estudiante con las variables nota examen (G), dificultad examen (D) e Inteligencia (I)

* Nota examen (G): g0 (sobresaliente), g1 (notable), g2 (aprobado)
* Dificultad examen (D): d0 (f√°cil) y d1 (dif√≠cil)
* Inteligencia (I): i0 (normal), i1 (alta)

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | 0.126  |
| i0  | d0  | g1  | 0.168  |
| i0  | d0  | g2  | 0.126  |
| i0  | d1  | g0  | 0.014  |
| i0  | d1  | g1  | 0.070  |
| i0  | d1  | g2  | 0.196  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | 0.06  |
| i1  | d1  | g1  | 0.036  |
| i1  | d1  | g2  | 0.024  |


Algunas consideraciones:

* La suma de todas las probs de esta tabla debe ser 1, ya que es una distribuci√≥n de probabilidad
* La tabla asigna una probabilidad a cada combinaci√≥n posible, esto es a 2 x 2 x 3 combinaciones
* Hay $12 - 1$ par√°metros independientes



In [1]:
# Definimos la distrb de arriba como una matriz de 2 x 2 x 3

import numpy as np

probs = np.array([0.126, 0.168, 0.126, 0.014, 0.07, 0.196, 0.162, 0.0144, 0.0036, 0.06, 0.036, 0.024])
probs = probs.reshape((2,2,3))
probs
# Definimos el orden de las variables en las dimensiones de una
# matriz de 3D como 
#
# Dimensi√≥n -> 0  1  2
# Variable  -> I, D, G

array([[[0.126 , 0.168 , 0.126 ],
        [0.014 , 0.07  , 0.196 ]],

       [[0.162 , 0.0144, 0.0036],
        [0.06  , 0.036 , 0.024 ]]])

##### Ejercicio
Algunas consultas:
 
1. ¬øCu√°l es la probabilidad de que un estudiante al azar tenga inteligencia normal, saque sobresaliente y el examen sea f√°cil? 
2. ¬øCu√°l es la probabilidad de sacar sobresaliente sin tener en cuenta nada m√°s? ¬øY notable? ¬øY aprobado?
3. Dado que el examen era f√°cil y que el estudiante tiene una inteligencia alta, ¬øCu√°l es la distribucion de probabilidad de las notas?

In [32]:
# respuesta 1
#print('P(G=g0,D=d0,I=i0) =', XXX) 

# respuesta 2 -> Marginalizar variables
#print('P(G=g0) =', XXX)
#print('P(G=g1) =', XXX)
#print('P(G=g2) =', XXX)

# respuesta 3  -> Reducir y renormalizar
#print('P(G|D=d0,I=i1) = P(G,D=d0,I=i1)/P(D=d0,I=i1)', XXX)

### Marginalizar

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | 0.126  |
| i0  | d0  | g1  | 0.168  |
| i0  | d0  | g2  | 0.126  |
| i0  | d1  | g0  | 0.014  |
| i0  | d1  | g1  | 0.070  |
| i0  | d1  | g2  | 0.196  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | 0.06  |
| i1  | d1  | g1  | 0.036  |
| i1  | d1  | g2  | 0.024  |

$$ P(D,G) = \sum_{i=i0}^{i1} P(I=i,D,G)  $$

| D | G | P(D,G)  |
|---|---|---|
| d0  | g0  | 0.126 + 0.162  = 0.288 |
| d0  | g1  | 0.168 + 0.0144 = 0.1824 |
| d0  | g2  | 0.126 + 0.0036 = 0.1296 |
| d1  | g0  | 0.014 + 0.06   = 0.074 |
| d1  | g1  | 0.070 + 0.036  = 0.106 |
| d1  | g2  | 0.196 + 0.024  = 0.22 |

$$ P(G) = \sum_{d=d0}^{d1} P(D=d,G)  $$

| G | P(D,G)  |
|---|---|
| g0  |  0.288 + 0.074 = 0.362     |
| g1  | 0.1824 + 0.106 = 0.2884   |
| g2  | 0.1296 + 0.22  = 0.3496 |

### Condicionar (reducir y normalizar)
Si sabemos ya algunos valores (p.e. examen era f√°cil y el estudiante tiene una inteligencia alta), podemos eliminar todas las combinaciones no compatibles con las observaciones. Para D=d0 y I=i1 la tabla se reduce a:

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | ~~0.126~~  |
| i0  | d0  | g1  | ~~0.168~~  |
| i0  | d0  | g2  | ~~0.126~~  |
| i0  | d1  | g0  | ~~0.014~~  |
| i0  | d1  | g1  | ~~0.070~~  |
| i0  | d1  | g2  | ~~0.196~~  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | ~~0.06~~ |
| i1  | d1  | g1  | ~~0.036~~  |
| i1  | d1  | g2  | ~~0.024~~  |

Los valores resultantes no son una distriibuci√≥n de probabilidad ya que no suman 1. Para hacer que lo sea se pueden renormalizar y tendr√≠amos

$$ P(G|I=i1,D=d0) = \frac{P(G,I=i1,D=d0)}{P(I=i1,D=d0)} $$

| G | P(G\|I=i1,D=d0) |
|---|---|
| g0  | 0.9   |
| g1  | 0.08   |
| g2  | 0.02   |



In [3]:
def normalize(distribution):
    return distribution/np.sum(distribution)

def reduce(distribution, variables, asignments, normalize_output=True):
    """ This function receives a distribution, 
        a list of indices to variables and 
        a list of the assignements to those variables """
    
    reduced = distribution.copy()
    
    for variable, asignment in zip(variables,asignments):
        reduced = np.swapaxes(reduced, 0, variable)[[asignment]]
        reduced = np.swapaxes(reduced, 0, variable)
        
    return normalize(reduced) if normalize_output else reduced

dr = reduce(probs, [0,1], [1,0])
dr

array([[[0.9 , 0.08, 0.02]]])

In [4]:
def marginal(distribution, variables):
    """ Marginalizes the distributions for the given list of variables """
    
    return np.sum(distribution, axis=tuple(variables), keepdims=True)

P_G = marginal(probs, [0,1])
P_G

array([[[0.362 , 0.2884, 0.3496]]])

##### Ejercicio
Comprueba si las variables I y D son independientes, esto es si $P(I,D) = P(I)P(D)$

Pista 1: Primero debes marginalizar G para obtener $P(I,D)$

Pista 2: A continuaci√≥n puedes comprobar si $P(I|D)$ es igual a $P(I)$ y $P(D|I)$ es igual a $P(D)$.


### Factorizaci√≥n

Cuando dos probabilidades son independientes se dice que su distribuci√≥n conjunta factoriza, es decir, que se puede descomponer en el producto de dos factores o distribuciones independientes. Para la distribuci√≥n anterior podemos escribir aplicando la regla de la cadena y el hecho de que I y D son independientes:

$$ P(I,D,G) = P(G|I,D)P(I,D) = P(G|I,D)P(I)P(D) $$

es decir la distribuci√≥n conjunta se puede escribir como el producto de tres factores.



### Redes de Bayes

Este tipo de relaciones en una distribuci√≥n se pueden representar con un grafo denominado red bayesiana. 
Una red bayesiana reresenta una distribuci√≥n conjunta a trav√©s de la regla de la cadena en forma de grafo ac√≠clico dirigido, donde:

* Los v√©rtices del grafo son las distribuciones condicionadas de probabilidad (CPD) asociadas a cada una de las variables de la distribuci√≥n $\{X_1, X_2, \dots, X_N\}$
* Las aristas son las dependencias de probabilidad entre las variables dadas por la regla de la cadena.

Esta representaci√≥n utiliza que cualquier distribuci√≥n conjunta de variables se puede escribir mediante la regla de la cadena como un producto de distribuciones condicionadas

$$ P(X_1, X_2, \dots, X_N) = \prod_{i=1}^N P(X_i|Par(X_i))$$

donde $Par(X_i)$ son el conjunto de variables que condicionan a $X_i$ (o variables progenitores).

Por ejemplo, para la siguiente distribuci√≥n y descomposici√≥n con la regla de la cadena:

$$ P(A,B,C,D) = P(A|B,C,D)P(B|C,D)P(C|D)(D) $$

la red de bayes asociada ser√≠a

![bayesnet](g920.png)

Este caso, la distribuci√≥n no incluye ninguna independencia entre variables y de hecho podr√≠a tener muchas representaciones equivalentes si aplicamos la regla de la cadena de otra forma. 

Si existen independencias entre las varibables de la distribuci√≥n entonces la distribuci√≥n conjunta y los grafos asociados se simplifican.
Por ejemplo, para el caso del estudiante de arriba la red byesiana ser√≠a

![estu](estu1.png)

ya que su distribuci√≥n conjunta es $ P(I,D,G) = P(G|I,D)P(I)P(D) $. A cada nodo del grafo se le asocia el factor o distribuci√≥n condicionada de probabilidad (CPD). Es decir, $P(G|I,D)$ se asocia al nodo G, $P(D)$ al nodo D y $P(I)$ al nodo I.



In [33]:
# Calculamos de todas la distribuci√≥n condicionada de P(G|D,I) asociada al nodo G
d = np.zeros_like(probs)
for i in [0,1]:
    for j in [0,1]:
        d[i,j,:] = reduce(probs, [0,1], [i,j])
        
P_G_ID = d

# Calcula P(D)
#P_D = XXX

# Calcula P(I)
#P_I = XXX

print(P_G_ID)
print(P_D)
print(P_I)

[[[0.3  0.4  0.3 ]
  [0.05 0.25 0.7 ]]

 [[0.9  0.08 0.02]
  [0.5  0.3  0.2 ]]]
[[[0.6]
  [0.4]]]
[[[0.7]]

 [[0.3]]]


##### Producto de factores

En general, dos factores $\phi_1(A,B)$ y $\phi_2(B,C)$ se multiplican para obtener otro factor $\phi(A,B,C)$ multiplicando las entradas compatibles de las tablas. Es decir:

$$ \phi(A=ai,B=bj,C=ck) = \phi_1(A=ai,B=bj) \phi_2(B=bj, C=ck) $$

In [7]:
# Tal como hemos definido las tablas de probabilidad con una variable por dimensi√≥n,
# el producto de factores es simplemente hacer el producto
P_DIG = P_G_ID * P_I * P_D
P_DIG 

# Comprueba que es igual a la distribuci√≥n original

# C√≥mo calculas el valor de probabilidad de la consulta 1 de 
# arriba, P(I=i0, G=g0, D=d0), a partir de los factores...pues 
# igual P(I=i0, G=g0, D=d0) = P(G=g0|I=i0,D=d0)P(I=i0)P(D=d0)
# Ojo con los √≠ndices
#

 


array([[0.126]])

#### Red del estudiante ampliada

Este ejemplo ha sido adaptado Probabilistic Graphical Model (Daphne Koller). Relaciona las sguientes variables

* Nota examen (G): g0 (sobresaliente), g1 (notable), g2 (aprobado)
* Dificultad examen (D): d0 (f√°cil) y d1 (dif√≠cil)
* Inteligencia (I): i0 (normal), i1 (alta)
* Nota Selectividad (S): s0 (baja), s1 (alta)
* Carta de recomendaci√≥n (L): l0 (regular), l1 (buena)

![estu](estu2.png)

ya que su distribuci√≥n conjunta es $ P(D,I,G,L,S) = P(G|I,D)P(I)P(D)P(S|I)P(L|G) $

Las CPDs (distribuciones codicionadas de probabilidad) vienen dadas por:

$ P(I):$

| i0| i1|
|---|---|
| 0.7| 0.3|

$ P(D):$

| d0| d1|   
|---|---|   
| 0.6| 0.4| 

$ P(G|I,D):$

| | g0 | g1 | g2 |
|---|---|---|---|
| i0,d0 | 0.3| 0.4 | 0.3 |
| i0,d1 | 0.05| 0.25 | 0.7 |
| i1,d0 | 0.9| 0.08 | 0.02 |
| i1,d1 | 0.5| 0.3 | 0.2 |

$ P(L|G):$

| | l0 | l1 |
|---|---|---|
| g0 | 0.1| 0.9 |
| g1 | 0.4| 0.6 |
| g2 | 0.99| 0.01 |

$ P(S|I):$

| | s0 | s1 |
|---|---|---|
| i0 | 0.95| 0.05 |
| i1 | 0.2| 0.8 |

Vamos a comprobar si esta factorizaci√≥n es una distribuci√≥n de probabilidad v√°lida. Para ello debemos comprobar si suma 1. Es decir debemos comprobar si:

$$ \sum_{D,I,G,L,S}P(D,I,G,L,S) = \sum_{D,I,G,L,S} P(G|I,D)P(I)P(D)P(S|I)P(L|G) = 1 $$

No todas las sumatorias afectan a todos los factores por lo que podemos mover algunas dentro. Empezamos con S, ya que solo hay un factor que depende de esa variable

$$ \sum_{D,I,G} P(G|I,D)P(I)P(D)P(L|G)\sum_S P(S|I)  = \sum_{D,I,G,L} P(G|I,D)P(I)P(D)P(L|G) $$

donde hemos aplicado que $\sum_S P(S|I)=1$ ya que es una distribuci√≥n v√°lida sobre S independientemente del valor de I. Podemos continuar 

$$ \sum_{D,I,G,L} P(G|I,D)P(I)P(D)P(L|G) =  \sum_{I} P(I)\sum_{D}P(D)\sum_G P(G|I,D) \sum_L P(L|G) = 1 $$


In [8]:
# Definamos los factores del problema con el siguiente orden de 
# variables

# Dimensi√≥n -> 0  1  2  3  4
# Variable  -> I, D, G, L, S

PI = np.array([0.7, 0.3]).reshape((2,1,1,1,1))
PD = np.array([0.6, 0.4]).reshape((1,2,1,1,1))
PG_ID = np.array([0.3, 0.4, 0.3, 0.05, 0.25, 0.7, 0.9, 0.08, 0.02, 0.5, 0.3, 0.2]).reshape((2,2,3,1,1))
PL_G = np.array([0.1, 0.9, 0.4, 0.6, 0.99, 0.01]).reshape((1,1,3,2,1))
PS_I = np.array([0.95, 0.05, 0.2, 0.8]).reshape((2,1,1,1,2))

# Distribuci√≥n conjunta
PIDGLS = PI*PD* PG_ID * PL_G* PS_I

# Comprueba que es una distribuci√≥n v√°lida que suma a 1
# Usando la distrib conjunta
np.sum(PIDGLS)

# Hazlo pero siguiendo los pasos de arriba, sumando en orden: S, L, etc


array([[[[[1.]]]]])

### Razonamiento causal
Razonamiento que va desde las causas a las consecuencias. Cuando observamos que una variable progenitor tiene un valor, esto afecta a la probabilidad de las variables descendientes

##### Ejemplo

![causal1](causal1.png)
![causal2](causal2.png)

In [9]:
# Consultas
# Prob de conseguir una carta de recomendaci√≥n buena P(L=l1) 
#   -> hay que marginalizar todas las variables menos L

# Prob de conseguir una carta de recomendaci√≥n buena dado que el estudiante es normal P(L=l1|I=i0) 
#   -> hay que reducir el factor a los valores compatibles con I=i0 y normalizarlo
#   -> y luego marginalizar todas las variables menos L

# La prob de l1 baja

# Prob de conseguir una carta de recomendaci√≥n buena dado que 
#          el estudiante es normal pero el examen fue f√°cil P(L=l1|I=i0,D=i0) 
#   -> hay que reducir el factor a los valores compatibles con I=i0,D=d0 y normalizarlo
#   -> y luego marginalizar todas las variables menos L

# La prob de l1 vuelve a subir



[[[[[0.497664]
    [0.502336]]]]]
[[[[[0.497664]
    [0.502336]]]]]
-------
[[[[[0.6114]
    [0.3886]]]]]
[[[[[0.6114]
    [0.3886]]]]]
-------
[[[[[0.487]
    [0.513]]]]]
[[[[[0.487]
    [0.513]]]]]


### Razonamiento evidencial
Es el inverso del causal. Cuando se observa que una variable descendiente tiene un valor, esto afecta a la probabilidad de las variables progenitores

##### Ejemplo
![evidencial](evidential.png)

In [10]:
## ¬øCual es la probabilidad de que el examen sea dif√≠cil?


# Dado que la nota ha sido aprobado, ¬øCu√°l es la prob de examen dif√≠cil?


[[[[0.6]]]


 [[[0.4]]]]
[[[[[0.37070938]]]


  [[[0.62929062]]]]]


### Independencia condicionada
La independencia se puede peder tras condicionar una variable. Por ejemplo, P(I,D)=P(I)P(D) pero si condicionamos a G, esta independencia se pierde. 


In [11]:
# Comprueba que esto es as√≠ 
# Pista 1: Prueba una asignaci√≥n de G que no se cumple.
# Por ejemplo para G=g0 ver si P(D|G=g0)*P(I|G=g0)=P(D,I|G=g0)

#Pista 2: A continuaci√≥n puedes comprobar si ùëÉ(ùêº|ùê∑)
# es igual a ùëÉ(ùêº) y ùëÉ(ùê∑|ùêº) es igual a ùëÉ(ùê∑).

[[[[[0.3480663 ]]]


  [[[0.03867403]]]]



 [[[[0.44751381]]]


  [[[0.16574586]]]]]
------------
[[[[[0.30768292]]]


  [[[0.07905742]]]]



 [[[[0.48789719]]]


  [[[0.12536247]]]]]
------------
[[[[[0.3480663 ]]

   [[0.58252427]]

   [[0.3604119 ]]]


  [[[0.03867403]]

   [[0.24271845]]

   [[0.56064073]]]]



 [[[[0.44751381]]

   [[0.04993065]]

   [[0.01029748]]]


  [[[0.16574586]]

   [[0.12482663]]

   [[0.06864989]]]]]
------------
[[[[[0.30768292]]

   [[0.52192882]]

   [[0.34144285]]]


  [[[0.07905742]]

   [[0.3033139 ]]

   [[0.57960978]]]]



 [[[[0.48789719]]

   [[0.1105261 ]]

   [[0.02926653]]]


  [[[0.12536247]]

   [[0.06423118]]

   [[0.04968084]]]]]


### Razonamiento intercausal
Es un tipo de razonamiento menos habitual que tiene que ver con el flujo de informaci√≥n entre dos causas con el mismo efecto

##### Ejemplo

![intercausal](intercausal.png)

In [12]:
# CAlcula la probabilidad de que un estudiante tenga
# inteligencia alta P(I=i1)
0.3

# Si sabemos que la nota del examen es aprobado, ¬øCu√°l es la prob de inteligencia alta? 
# P(I=i1|G=g2)

# y si adem√°s el examen es dif√≠cil
# P(I=i1|G=g2,D=d1)


0.3
[[[[[0.92105263]]]]



 [[[[0.07894737]]]]]
[[[[[0.89090909]]]]



 [[[[0.10909091]]]]]


### Razonamiento a trav√©s de un camino

¬øC√≥mo influye en la dificultad del examen si sabemos que la nota es aprobado (G=g0)? ¬øy si adem√°s sabemos que la nota de selectividad es alta (S=s1)?

![intercausal](flow.png)

In [13]:
# Probabilidad de examen dif√≠cil D=d1?
0.4

# Probabilidad de examen dif√≠cil D=d1|G=aprobado?


# Probabilidad de examen dif√≠cil D=d1|G=g2,S=s1?



[[[[[0.37070938]]]


  [[[0.62929062]]]]]
[[[[[0.24044002]]]


  [[[0.75955998]]]]]


##### Ejercicio
Si no se conoce G, ¬øInfluye la nota de selectividad en la dificultad del examen?

### Flujo de informaci√≥n y caminos activos
* En una red de bayes dos variables son independientes dado un conjunto de variables, si no hay ning√∫n camino activo entre ellas. 
* Un camino activo indica que existe flujo de informaci√≥n. 
* Los casos de razomaniento de arriba son caminos activos

En general: ¬øCu√°ndo X influye sobre Y a trav√©s de W?

* X --> W --> Y: Causal     ->  SI
* X <-- W <-- Y: Evidencial ->  SI
* X <-- W --> Y: Evidencial + Causal -> SI
* X --> W <-- Y: **Se denomina estructura en V** ->  NO

##### Ejemplo independencia

![estu2](estu2.png)

* Conocer D afecta a L -> S√ç
* Conocer L afecta a D -> S√ç
* Conocer G afecta a S -> S√ç
* Conocer D afecta a I -> NO

--

Ahora, suponiendo que hemos observado un conjunto de variables $\mathbf{Z}$: ¬øCu√°ndo X influye sobre Y a trav√©s de W dado $\mathbf{Z}$?

|   | $$ W\in Z $$ | $$ W \notin Z $$  |
|---|---|---|
| X --> W --> Y| NO |       SI |
| X <-- W <-- Y| NO |       SI |
| X <-- W --> Y| NO |       SI |
| X --> W <-- Y| SI* |       NO** |

\* Siempre que W o alguno de sus descendientes est√© en Z

\*\* Siempre que ni W, ni ninguno de sus descendientes est√© en Z

##### Ejemplo independencia dada una evidencia
Para la red de arriba tenemos que

* Conocer D afecta a L dado G -> NO
* Conocer L afecta a D dado G -> NO
* Conocer G afecta a S dado I -> NO
* Conocer D afecta a I dado G -> S√ç
* Conocer D afecta a I dado L -> S√ç

Veamos un ejemplo m√°s complejo

### Camino activo
Dado un camino en el grafo  $X_1 - X_{2} - \dots - X_{n}$, se dice que est√° activo si

* Para todas las estructras en V del camino, $X_i \rightarrow X_i \leftarrow X_{i+1}$, tenemos que o bien $X_i$, o bien al menos uno de sus descendientes, es observado
* El resto de nodos del camino no han sido observados

##### Ejemplo caminos activos

<p><img src="estudiante3.svg" width="200" style="margin:30px;float:right;"> Indica cu√°les de los siguientes caminos est√°n activos:
<ul style="font-family:monospace;">
    <li>C ‚Äê&gt; D ‚Äê&gt; G &lt;- I ‚Äê&gt; S</li>
    <li>I ‚Äê&gt; G ‚Äê&gt; L ‚Äê&gt; J ‚Äê&gt; H</li>
    <li>I -&gt; S ‚Äê&gt; J ‚Äê&gt; H</li>
    <li>C ‚Äê&gt; D -&gt; G &lt;- I ‚Äê&gt; S ‚Äê&gt; J &lt;‚Äê L</li>
    <li>C -&gt; D -&gt; G &lt;- I -&gt; S -&gt; J &lt;- L | H</li>
    <li>C -&gt; D -&gt; G -&gt; H &lt;- J | H</li>
    <li>C -&gt; D -&gt; G &lt;- I -&gt; S -&gt; J &lt;- L | G</li>
    <li>I ‚Äê&gt; G ‚Äê&gt; L ‚Äê&gt; J ‚Äê&gt; H | G</li>
    <li>D -&gt; G &lt;- I -&gt; S | L</li>
    <li>D -&gt; G -&gt; L -&gt; J | L</li>
    <li>G -&gt; H &lt;- J &lt;- S | L</li>
    </ul>
</p>


<p style="clear:left"></p>



### Independencia en una red
Para la factorizaci√≥n dada por una red de bayes, dos variables X,Y son independientes dada una evidencia Z, esto es $X \perp Y | Z $, si no existe ning√∫n camino activo entre ellas

##### Ejercicio
Analiza bajo qu√© condiciones S influye a D en el grafo de arriba

#### De las independencias del grafo se recupera la factorizaci√≥n

<img src="estu2.png" width="150">

Aplicamos la regla de la cadena (no supone ninguna independencia entre variables)

$$ P(D,I,G,L,S) = P(D)P(I|D)P(G|D,I)P(L|D,I,G)P(S|D,I,G,L) $$

Ahora veamos las independencias de los factores en la grafo:
* P(D): No se puede simplificar m√°s
* P(I|D): Del grafo vemos que no hay camino activo entre I y D por tanto $ I\perp  D $ y entonces P(I|D)=P(I)
* P(G|D,I): Este factor queda igual ya que s√≠ que hay dependencias entre G y D y entre G e I
* P(L|D,I,G): Existe una dependencia entre G y L que tienen enlace directo, por lo tanto G permanece. Vemos que dado G el resto de variables son independientes  $ L \perp I | G$ y $ L \perp D | G$. Por tanto el factor queda como $P(L|D,I,G)=P(L|G)$
* P(S|D,I,G,L): Existe dependencia directa entre I y S, por tanto I permanece. Y dado I la dependencia con el resto de variables se bloquea, es decir $ S \perp G | I$, $ S \perp D | I$ y $ S \perp L | I$. Por tanto el factor queda como $P(S|L,D,I,G)=P(S|I)$

Y la factorizaci√≥n queda:

$$ P(D,I,G,L,S) = P(D)P(I)P(G|D,I)P(L|G)P(S|I) $$


## Algoritmo de Eliminaci√≥n de Variables

Este algoritmo es para hacer inferencia en redes. Supongamos que tenemos la factorizaci√≥n de una distribuci√≥n conjunta 

$$ P(\mathbf{X}) = P(X_1, X_2, \dots, X_N) = \prod_{i=1}^N P(X_i|Par(X_i))$$ 

y una evidenica $ \mathbf{Z}=\mathbf{z} $, donde $\mathbf{Z} \subset \mathbf{X}$ es un subconjunto de las variables del problema y $\mathbf{z}$ son sus valores observados. El objetivo es obtener la distribuci√≥n de parte de las variables del problema, $\mathbf{W} \subset \mathbf{X}$ dada la evidencia $\mathbf{Z}=\mathbf{z}$. Es decir queremos obtener $P(\mathbf{W}|\mathbf{Z}=\mathbf{z})$. Para ello debemos:
* Reducir los factores que incluyan $\mathbf{Z}$
* Eliminar el resto de variables no incluidas $\mathbf{W}$

$$ P(\mathbf{W}|\mathbf{Z}=\mathbf{z}) = \sum_{X \setminus (W\cup Z)} \frac{P(\mathbf{X}\setminus \mathbf{Z},\mathbf{Z}=\mathbf{z})}{P(\mathbf{Z}=\mathbf{z})} \propto \sum_{X \setminus (W\cup Z)} P(\mathbf{X}\setminus \mathbf{Z},\mathbf{Z}=\mathbf{z}) $$


Algoritmo de eliminaci√≥n de variables esquem√°tico para un conjunto de factores $\mathbf{\Phi}=\{\Phi_1,\dots,\Phi_N\}$:
1.  Reducir todos los factores que contengan alguna variable de $\mathbf{Z}$ en su dominio, usando la evidencia dada $\mathbf{Z}=\mathbf{z}$
2.  Para cada varible X no en $\mathbf{X} \setminus (\mathbf{W} \cup \mathbf{Z})$, eliminar variable X mediante marginalizaci√≥n:
    1. Hacer el producto de todos los factores que tienen X es su dominio: $\psi = \prod_{\Phi_i \mid X\in Dom(\Phi_i) }\Phi_i$ 
    2. Marginalizar X del factor producto obtenido en A: $\tau = \sum_X \psi$
    3. Actualizar la lista de factores quitando los factores que incluyen X y a√±adiendo el factor marginalizado $\tau$: $\mathbf{\Phi} = (\mathbf{\Phi} \setminus {\psi}) \cup \tau$
3. Multiplicar factores restantes
4. Renormalizar para obtener una distribuci√≥n

In [35]:
def VA(factor_list, W, Zs=[], zs=[], order=[]):
    """ Implementar variable elimination algorithm
    
        Entrada:
           * factor_list: lista con los factores a procesar
           * W:           lista de variables en el factor de salida
           * Zs:          lista de variables observadas
           * zs:          lista de valores de las variables observadas
           * order:       orden en que se procesan las variables. Si no se 
                          indica nada se hacer en orden ascendente
        Salida:
           * Factor con la distribucion conjunta W dada la evidencia
           * El tama√±o del factor m√°s grande que se procese
        
           """
    pass
    

In [None]:
# Calcula la distribuci√≥n P(I)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[0])
assert(np.allclose(np.array([[[[[0.7]]]],[[[[0.3]]]]]),factor))
assert(maxsize==12)

# Si sabemos que la nota del examen es aprobado, ¬øCu√°l es la prob de inteligencia? 
# P(I|G=g2)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[0],[2],[2])
assert(np.allclose(np.array([[[[[0.92105263]]]],[[[[0.07894737]]]]]), factor))
assert(maxsize==4)

# y si adem√°s el examen es dif√≠cil
# P(I|G=g2,D=d1)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[0],[1,2],[1,2])
assert(np.allclose(np.array([[[[[0.89090909]]]],[[[[0.10909091]]]]]), factor))
assert(maxsize==4)


In [None]:
# Prob examen: Calcula la distribuci√≥n: P(D)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[1])
assert(np.allclose(np.array([[[[[0.6]]],[[[0.4]]]]]),factor))
assert(maxsize==24)

# Prob examen | nota aprobado: P(D|G=g2)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2],[2])
assert(np.allclose(np.array([[[[[0.37070938]]],[[[0.62929062]]]]]),factor))
assert(maxsize==8)

# Probabilidad de examen dif√≠cil D=d1|G=g2,S=s1?
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2,4],[2,1])
assert(np.allclose(np.array([[[[[0.24044002]]],[[[0.75955998]]]]]),factor))
assert(maxsize==4)


In [None]:
# Si no se conoce G, ¬øInfluye la nota de selectividad en la dificultad del examen?
# dif examen
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1]))

# dif examen si sat=1
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1],[4],[1])) # No cambia

# Ahora sabiendo que nota es aprobado
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2],[2])) 
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2,4],[2,1])) # S√≠ cambia

