# Introducción a Métodos Bayesianos

Índice:
* Bases de probabilidad
* Marginalización, probabilidades condicionadas (reducción) y factorización de probabilidad: redes bayesianas
* Independencia y caminos activos
* Algoritmo de eliminación de variables 

## Bases de probabilidad

Dominio de una variable determina el conjunto de valores que puede tomar. Los dominios puedes ser discretos o continuos. Algunos ejemplos:
* dom(tirar un dado) = {1,2,3,4,5,6}
* dom(moneda) = {cara, cruz}
* dom(nota) = [1, 10]

Notación: Para las variables aleatorias vamos a usar letras mayúsculas y para posibles asignaciones letras minúsculas. Por ejemplo, si X representa tirar una moneda podríamos poner dom(X)={cara,cruz} y decir que P(X=cara)=0'5

#### Reglas de probabilidad:

* Regla de la suma: $P(A) + P(\bar{A}) = 1$ y en general 

$$ \sum_{x \in dom(X)} P(X=x) = 1 $$

* Regla del producto: $P(A,B) = P(A|B)P(B) = P(B|A)P(A)$
* Regla de la cadena (extensión de la regla del producto):     

$$P(A,B,C,D) = P(A|B,C,D)P(B,C,D) = \\ = P(A|B,C,D)P(B|C,D)P(C,D) = \\ = P(A|B,C,D)P(B|C,D)P(C|D)P(D) $$

* Regla de Bayes:
Es despejar en la regla del producto $P(A|B)P(B) = P(B|A)P(A)$ para obtener

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$

En general se utiliza para tomar decisiones. Cambiando A por hipóstesis (H) y B por datos (D) tenemos

$$ P(H|D) = \frac{P(D|H)P(H)}{P(D)} $$

y cada término es

* P(H): Probabilidad a priori de la hipótesis
* P(D|H): Verosimilitud de los datos suponiendo H es cierta
* P(D): Evidencia
* P(H|D): Probabilidad a posteriori

### Marginalización de una variable

Si tenemos una distribución de probabilidad de dos variables P(A,B) y queremos saber P(A), debemos marginalizar B, esto es

$$P(A|I)=\sum_{i=1}^K P(A,B = b_k|I)$$

asumiendo que el dominio de B es $dom(B)=\{b_1,\dots,b_K\}$. Donde se está aplicando la regla de la suma. 

Ej. ¿Cuál es la probabilidad de sacar sobresaliente, P(N=sob)? Podríamos decir que depende de la dificultad del examen (El examen puede se fácil, normal o difícil)

$ P(N=sob) = P(N=sob, Ex=facil) +  P(N=sob, Ex=normal)  + P(N=sob, Ex=dificil)$

### Independencia de variables

Si A y B son independientes entonces:

$$ P(A,B) = P(A|B)P(B) = P(A)P(B) $$

Independencia significa que conocer una de las variables no nos aporta información adicional sobre el estado de la otra.

### Distribución conjunta

Una distribución de probabilidad en varias variables

#### Ejemplo 

Consideramos la distribución conjunta que relaciona para un estudiante con las variables nota examen (G), dificultad examen (D) e Inteligencia (I)

* Nota examen (G): g0 (sobresaliente), g1 (notable), g2 (aprobado)
* Dificultad examen (D): d0 (fácil) y d1 (difícil)
* Inteligencia (I): i0 (normal), i1 (alta)

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | 0.126  |
| i0  | d0  | g1  | 0.168  |
| i0  | d0  | g2  | 0.126  |
| i0  | d1  | g0  | 0.014  |
| i0  | d1  | g1  | 0.070  |
| i0  | d1  | g2  | 0.196  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | 0.06  |
| i1  | d1  | g1  | 0.036  |
| i1  | d1  | g2  | 0.024  |


Algunas consideraciones:

* La suma de todas las probs de esta tabla debe ser 1, ya que es una distribución de probabilidad
* La tabla asigna una probabilidad a cada combinación posible, esto es a 2 x 2 x 3 combinaciones
* Hay $12 - 1$ parámetros independientes



In [5]:
# Definimos la distrb de arriba como una matriz de 2 x 2 x 3

import numpy as np

probs = np.array([0.126, 0.168, 0.126, 0.014, 0.07, 0.196, 0.162, 0.0144, 0.0036, 0.06, 0.036, 0.024])
probs = probs.reshape((2,2,3))
probs
# Definimos el orden de las variables en las dimensiones de una
# matriz de 3D como 
#
# Dimensión -> 0  1  2
# Variable  -> I, D, G

array([[[0.126 , 0.168 , 0.126 ],
        [0.014 , 0.07  , 0.196 ]],

       [[0.162 , 0.0144, 0.0036],
        [0.06  , 0.036 , 0.024 ]]])

##### Ejercicio
Algunas consultas:
 
1. ¿Cuál es la probabilidad de que un estudiante al azar tenga inteligencia normal, saque sobresaliente y el examen sea fácil? 
2. ¿Cuál es la probabilidad de sacar sobresaliente sin tener en cuenta nada más? ¿Y notable? ¿Y aprobado?
3. Dado que el examen era fácil y que el estudiante tiene una inteligencia alta, ¿Cuál es la distribucion de probabilidad de las notas?

In [6]:
# respuesta 1
#print('P(G=g0,D=d0,I=i0) =', XXX) 
print("Respuesta 1: \n", probs[(0,0,0)], "\n")


# respuesta 2 -> Marginalizar variables
print("Respuesta 2: ")
#print('P(G=g0) =', XXX)
sobresaliente = probs[(0,0,0)] + probs[(1,0,0)] + probs[(0,1,0)] + probs[(1,1,0)]
print("Probabilidad de sacar sacar Sobresaliente: ", sobresaliente)
#print('P(G=g1) =', XXX)
notable = probs[(0,0,1)] + probs[(1,0,1)] + probs[(0,1,1)] + probs[(1,1,1)]
print("Probabilidad de sacar sacar Notable: ", notable)
#print('P(G=g2) =', XXX)
aprobado = probs[(0,0,2)] + probs[(1,0,2)] + probs[(0,1,2)] + probs[(1,1,2)]
print("Probabilidad de sacar sacar Aprobado: ", aprobado, "\n")

'''
RESPUESTA PROFE
    No bucles y aprovechar ops vectoriales

print(probs[0,0,0])
print(np.sum(probs[:,:,1])) -- Los Dos Puntos recorre la dimension entera
print(np.sum(probs, axis = (0,1))) -- axis coje la dimension 0 y 1 enteras
'''


# respuesta 3  -> Reducir y renormalizar
print("Respuesta 3: ")

'''Dominio = P[1,0,0] P[1,0,1] P[1,0,2]'''

#print('P(G|D=d0,I=i1) = P(G,D=d0,I=i1)/P(D=d0,I=i1)', XXX)
print(probs[1,0,:]/np.sum(probs[1,0,:]))
'''Al normalizarlo el vector suma 1'''

Respuesta 1: 
 0.126 

Respuesta 2: 
Probabilidad de sacar sacar Sobresaliente:  0.36200000000000004
Probabilidad de sacar sacar Notable:  0.2884
Probabilidad de sacar sacar Aprobado:  0.3496 

Respuesta 3: 
[0.9  0.08 0.02]


'Al normalizarlo el vector suma 1'

### Marginalizar

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | 0.126  |
| i0  | d0  | g1  | 0.168  |
| i0  | d0  | g2  | 0.126  |
| i0  | d1  | g0  | 0.014  |
| i0  | d1  | g1  | 0.070  |
| i0  | d1  | g2  | 0.196  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | 0.06  |
| i1  | d1  | g1  | 0.036  |
| i1  | d1  | g2  | 0.024  |

$$ P(D,G) = \sum_{i=i0}^{i1} P(I=i,D,G)  $$

| D | G | P(D,G)  |
|---|---|---|
| d0  | g0  | 0.126 + 0.162  = 0.288 |
| d0  | g1  | 0.168 + 0.0144 = 0.1824 |
| d0  | g2  | 0.126 + 0.0036 = 0.1296 |
| d1  | g0  | 0.014 + 0.06   = 0.074 |
| d1  | g1  | 0.070 + 0.036  = 0.106 |
| d1  | g2  | 0.196 + 0.024  = 0.22 |

$$ P(G) = \sum_{d=d0}^{d1} P(D=d,G)  $$

| G | P(D,G)  |
|---|---|
| g0  |  0.288 + 0.074 = 0.362     |
| g1  | 0.1824 + 0.106 = 0.2884   |
| g2  | 0.1296 + 0.22  = 0.3496 |

### Condicionar (reducir y normalizar)
Si sabemos ya algunos valores (p.e. examen era fácil y el estudiante tiene una inteligencia alta), podemos eliminar todas las combinaciones no compatibles con las observaciones. Para D=d0 y I=i1 la tabla se reduce a:

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | ~~0.126~~  |
| i0  | d0  | g1  | ~~0.168~~  |
| i0  | d0  | g2  | ~~0.126~~  |
| i0  | d1  | g0  | ~~0.014~~  |
| i0  | d1  | g1  | ~~0.070~~  |
| i0  | d1  | g2  | ~~0.196~~  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | ~~0.06~~ |
| i1  | d1  | g1  | ~~0.036~~  |
| i1  | d1  | g2  | ~~0.024~~  |

Los valores resultantes no son una distriibución de probabilidad ya que no suman 1. Para hacer que lo sea se pueden renormalizar y tendríamos

$$ P(G|I=i1,D=d0) = \frac{P(G,I=i1,D=d0)}{P(I=i1,D=d0)} $$

| G | P(G\|I=i1,D=d0) |
|---|---|
| g0  | 0.9   |
| g1  | 0.08   |
| g2  | 0.02   |



In [7]:
def normalize(distribution):
    return distribution/np.sum(distribution)

def reduce(distribution, variables, asignments, normalize_output=True):
    """ This function receives a distribution, 
        a list of indices to variables and 
        a list of the assignements to those variables """
    
    reduced = distribution.copy()
    
    for variable, asignment in zip(variables,asignments):
        reduced = np.swapaxes(reduced, 0, variable)[[asignment]]
        reduced = np.swapaxes(reduced, 0, variable)
        
    return normalize(reduced) if normalize_output else reduced

dr = reduce(probs, [0,1], [1,0])
dr

array([[[0.9 , 0.08, 0.02]]])

In [8]:
def marginal(distribution, variables):
    """ Marginalizes the distributions for the given list of variables """
    
    return np.sum(distribution, axis=tuple(variables), keepdims=True)

P_G = marginal(probs, [0,1])
P_G

array([[[0.362 , 0.2884, 0.3496]]])

##### Ejercicio
Comprueba si las variables I y D son independientes, esto es si $P(I,D) = P(I)P(D)$

Pista 1: Primero debes marginalizar G para obtener $P(I,D)$

Pista 2: A continuación puedes comprobar si $P(I|D)$ es igual a $P(I)$ y $P(D|I)$ es igual a $P(D)$.


In [9]:
'''PROFE'''
P_ID = marginal(probs, [2])
P_I = marginal(probs, [1,2])
P_D = marginal(probs, [0,2])

print(P_ID.shape)
print(P_D.shape)
print(P_I.shape)
print((P_I*P_D).shape)

#P(I,D) = P(I0, D0), P(I0, D1), P(I1, D0), P(I1, D1)
# P(I0,D0) = P(I0,D0) + P(G0) + P(I0,D0) + P(G1) + P(I0, D0) + P(G2)
# P(I0,D1) = P(I0,D1) + P(G0) + P(I0,D1) + P(G1) + P(I0, D1) + P(G2)
# P(I1,D0) = P(I1,D0) + P(G0) + P(I1,D0) + P(G1) + P(I1, D0) + P(G2)
# P(I1,D1) = P(I1,D1) + P(G0) + P(I1,D1) + P(G1) + P(I1,D1) + P(G2)
'''
Pid = np.array([np.sum(probs[0,0,:]), np.sum(probs[0,1,:]), np.sum(probs[1,0,:]), np.sum(probs[1,1,:])])
Pid2 = marginal(probs, [2])
print("Pid", Pid, "\n\nPid2", Pid2, "\n")

''''''HAY ALGO MA''''''
Pi = np.array([np.sum(probs[0,:,:]), np.sum(probs[1,:,:])])
Pd = np.array([np.sum(probs[:,0,:]), np.sum(probs[0,1,:])])

print("Pi", Pi)
print("Pd", Pd)

print("\nPid = Pi*Pd")
PiPd = np.dot(Pi,Pd)
print("\t" ,Pid, "\t" ,PiPd)

'''

(2, 2, 1)
(1, 2, 1)
(2, 1, 1)
(2, 2, 1)


'\nPid = np.array([np.sum(probs[0,0,:]), np.sum(probs[0,1,:]), np.sum(probs[1,0,:]), np.sum(probs[1,1,:])])\nPid2 = marginal(probs, [2])\nprint("Pid", Pid, "\n\nPid2", Pid2, "\n")\n\nHAY ALGO MA\nPi = np.array([np.sum(probs[0,:,:]), np.sum(probs[1,:,:])])\nPd = np.array([np.sum(probs[:,0,:]), np.sum(probs[0,1,:])])\n\nprint("Pi", Pi)\nprint("Pd", Pd)\n\nprint("\nPid = Pi*Pd")\nPiPd = np.dot(Pi,Pd)\nprint("\t" ,Pid, "\t" ,PiPd)\n\n'

### Factorización

Cuando dos probabilidades son independientes se dice que su distribución conjunta factoriza, es decir, que se puede descomponer en el producto de dos factores o distribuciones independientes. Para la distribución anterior podemos escribir aplicando la regla de la cadena y el hecho de que I y D son independientes:

$$ P(I,D,G) = P(G|I,D)P(I,D) = P(G|I,D)P(I)P(D) $$

es decir la distribución conjunta se puede escribir como el producto de tres factores.



### Redes de Bayes

Este tipo de relaciones en una distribución se pueden representar con un grafo denominado red bayesiana. 
Una red bayesiana reresenta una distribución conjunta a través de la regla de la cadena en forma de grafo acíclico dirigido, donde:

* Los vértices del grafo son las distribuciones condicionadas de probabilidad (CPD) asociadas a cada una de las variables de la distribución $\{X_1, X_2, \dots, X_N\}$
* Las aristas son las dependencias de probabilidad entre las variables dadas por la regla de la cadena.

Esta representación utiliza que cualquier distribución conjunta de variables se puede escribir mediante la regla de la cadena como un producto de distribuciones condicionadas

$$ P(X_1, X_2, \dots, X_N) = \prod_{i=1}^N P(X_i|Par(X_i))$$

donde $Par(X_i)$ son el conjunto de variables que condicionan a $X_i$ (o variables progenitores).

Por ejemplo, para la siguiente distribución y descomposición con la regla de la cadena:

$$ P(A,B,C,D) = P(A|B,C,D)P(B|C,D)P(C|D)(D) $$

la red de bayes asociada sería

![bayesnet](g920.png)

Este caso, la distribución no incluye ninguna independencia entre variables y de hecho podría tener muchas representaciones equivalentes si aplicamos la regla de la cadena de otra forma. 

Si existen independencias entre las varibables de la distribución entonces la distribución conjunta y los grafos asociados se simplifican.
Por ejemplo, para el caso del estudiante de arriba la red byesiana sería

![estu](estu1.png)

ya que su distribución conjunta es $ P(I,D,G) = P(G|I,D)P(I)P(D) $. A cada nodo del grafo se le asocia el factor o distribución condicionada de probabilidad (CPD). Es decir, $P(G|I,D)$ se asocia al nodo G, $P(D)$ al nodo D y $P(I)$ al nodo I.



In [10]:
# Calculamos de todas la distribución condicionada de P(G|D,I) asociada al nodo G
d = np.zeros_like(probs)
for i in [0,1]:
    for j in [0,1]:
        d[i,j,:] = reduce(probs, [0,1], [i,j])

P_G_ID = d

# Calcula P(D)
#P_D = XXX
P_D = marginal(probs, [0,2])

# Calcula P(I)
#P_I = XXX
P_I = marginal(probs, [1,2])

print("\nP_G_ID\n", P_G_ID)
print("\nP_D\n",P_D)
print("\nP_I\n",P_I)


P_G_ID
 [[[0.3  0.4  0.3 ]
  [0.05 0.25 0.7 ]]

 [[0.9  0.08 0.02]
  [0.5  0.3  0.2 ]]]

P_D
 [[[0.6]
  [0.4]]]

P_I
 [[[0.7]]

 [[0.3]]]


##### Producto de factores

En general, dos factores $\phi_1(A,B)$ y $\phi_2(B,C)$ se multiplican para obtener otro factor $\phi(A,B,C)$ multiplicando las entradas compatibles de las tablas. Es decir:

$$ \phi(A=ai,B=bj,C=ck) = \phi_1(A=ai,B=bj) \phi_2(B=bj, C=ck) $$

In [11]:
# Tal como hemos definido las tablas de probabilidad con una variable por dimensión,
# el producto de factores es simplemente hacer el producto
P_DIG = P_G_ID * P_I * P_D
print(np.all(np.isclose(P_DIG,probs)))

P_DIG 

# Comprueba que es igual a la distribución original

# Cómo calculas el valor de probabilidad de la consulta 1 de 
# arriba, P(I=i0, G=g0, D=d0), a partir de los factores...pues 
# igual P(I=i0, G=g0, D=d0) = P(G=g0|I=i0,D=d0)P(I=i0)P(D=d0)
# Ojo con los índices
#

'''Porque los recorre en vez de ser 0???'''

i = d = g = 0
P_G_ID[i,d,g]*P_D[:,d,:]*P_I[i,:,:]



True


array([[0.126]])

#### Red del estudiante ampliada

Este ejemplo ha sido adaptado Probabilistic Graphical Model (Daphne Koller). Relaciona las sguientes variables

* Nota examen (G): g0 (sobresaliente), g1 (notable), g2 (aprobado)
* Dificultad examen (D): d0 (fácil) y d1 (difícil)
* Inteligencia (I): i0 (normal), i1 (alta)
* Nota Selectividad (S): s0 (baja), s1 (alta)
* Carta de recomendación (L): l0 (regular), l1 (buena)

![estu](estu2.png)

ya que su distribución conjunta es $ P(D,I,G,L,S) = P(G|I,D)P(I)P(D)P(S|I)P(L|G) $

Las CPDs (distribuciones codicionadas de probabilidad) vienen dadas por:

$ P(I):$

| i0| i1|
|---|---|
| 0.7| 0.3|

$ P(D):$

| d0| d1|   
|---|---|   
| 0.6| 0.4| 

$ P(G|I,D):$

| | g0 | g1 | g2 |
|---|---|---|---|
| i0,d0 | 0.3| 0.4 | 0.3 |
| i0,d1 | 0.05| 0.25 | 0.7 |
| i1,d0 | 0.9| 0.08 | 0.02 |
| i1,d1 | 0.5| 0.3 | 0.2 |

$ P(L|G):$

| | l0 | l1 |
|---|---|---|
| g0 | 0.1| 0.9 |
| g1 | 0.4| 0.6 |
| g2 | 0.99| 0.01 |

$ P(S|I):$

| | s0 | s1 |
|---|---|---|
| i0 | 0.95| 0.05 |
| i1 | 0.2| 0.8 |

Vamos a comprobar si esta factorización es una distribución de probabilidad válida. Para ello debemos comprobar si suma 1. Es decir debemos comprobar si:

$$ \sum_{D,I,G,L,S}P(D,I,G,L,S) = \sum_{D,I,G,L,S} P(G|I,D)P(I)P(D)P(S|I)P(L|G) = 1 $$

No todas las sumatorias afectan a todos los factores por lo que podemos mover algunas dentro. Empezamos con S, ya que solo hay un factor que depende de esa variable

$$ \sum_{D,I,G} P(G|I,D)P(I)P(D)P(L|G)\sum_S P(S|I)  = \sum_{D,I,G,L} P(G|I,D)P(I)P(D)P(L|G) $$

donde hemos aplicado que $\sum_S P(S|I)=1$ ya que es una distribución válida sobre S independientemente del valor de I. Podemos continuar 

$$ \sum_{D,I,G,L} P(G|I,D)P(I)P(D)P(L|G) =  \sum_{I} P(I)\sum_{D}P(D)\sum_G P(G|I,D) \sum_L P(L|G) = 1 $$


In [12]:
# Definamos los factores del problema con el siguiente orden de 
# variables

# Dimensión -> 0  1  2  3  4
# Variable  -> I, D, G_ID, L_G, S_I
# Subindices-> 2, 2, 3, 2, 2

PI = np.array([0.7, 0.3]).reshape((2,1,1,1,1))
PD = np.array([0.6, 0.4]).reshape((1,2,1,1,1))
PG_ID = np.array([0.3, 0.4, 0.3, 0.05, 0.25, 0.7, 0.9, 0.08, 0.02, 0.5, 0.3, 0.2]).reshape((2,2,3,1,1))
PL_G = np.array([0.1, 0.9, 0.4, 0.6, 0.99, 0.01]).reshape((1,1,3,2,1))
PS_I = np.array([0.95, 0.05, 0.2, 0.8]).reshape((2,1,1,1,2))

# Distribución conjunta
PIDGLS = PI*PD* PG_ID * PL_G* PS_I
print("PIDGLS: \n", PIDGLS)
# Comprueba que es una distribución válida que suma a 1
# Usando la distrib conjunta
np.sum(PIDGLS)

'''marginal(PI*PD*PG_ID*PL_G*PS_I, [0,1,2,3,4])'''
# Hazlo pero siguiendo los pasos de arriba, sumando en orden: S, L, etc
mm = marginal(PI*marginal(PD*marginal(PG_ID*marginal(PL_G*marginal(PS_I, [4]), [3]), [2]), [1]), [0])
print("mm", mm)

PIDGLS: 
 [[[[[1.19700e-02 6.30000e-04]
    [1.07730e-01 5.67000e-03]]

   [[6.38400e-02 3.36000e-03]
    [9.57600e-02 5.04000e-03]]

   [[1.18503e-01 6.23700e-03]
    [1.19700e-03 6.30000e-05]]]


  [[[1.33000e-03 7.00000e-05]
    [1.19700e-02 6.30000e-04]]

   [[2.66000e-02 1.40000e-03]
    [3.99000e-02 2.10000e-03]]

   [[1.84338e-01 9.70200e-03]
    [1.86200e-03 9.80000e-05]]]]



 [[[[3.24000e-03 1.29600e-02]
    [2.91600e-02 1.16640e-01]]

   [[1.15200e-03 4.60800e-03]
    [1.72800e-03 6.91200e-03]]

   [[7.12800e-04 2.85120e-03]
    [7.20000e-06 2.88000e-05]]]


  [[[1.20000e-03 4.80000e-03]
    [1.08000e-02 4.32000e-02]]

   [[2.88000e-03 1.15200e-02]
    [4.32000e-03 1.72800e-02]]

   [[4.75200e-03 1.90080e-02]
    [4.80000e-05 1.92000e-04]]]]]
mm [[[[[1.]]]]]


### Razonamiento causal
Razonamiento que va desde las causas a las consecuencias. Cuando observamos que una variable progenitor tiene un valor, esto afecta a la probabilidad de las variables descendientes

##### Ejemplo

![causal1](causal1.png)
![causal2](causal2.png)

In [13]:
# Dimensión -> 0  1  2  3  4
# Variable  -> I, D, G_ID, L_G, S_I
# Subindices-> 2, 2, 3, 2, 2

# Consultas
# Prob de conseguir una carta de recomendación buena P(L=l1) 
#   -> hay que marginalizar todas las variables menos L

print(marginal(PI * PD * PG_ID * PL_G * PS_I, [0,1,2,4]))
print(marginal(PD * marginal(PL_G * marginal(PG_ID * PI * marginal(PS_I, [4]), [0]), [2]), [1]))
# Sumatorio de G,D,I,S: P(G,D,I,S,L) --> Aquí el tamaño del bloke es 48
# Para Que Sea Mas Eficiente
# SUM sobre D: P(D) * (SUM sobre G: P(L|G)* (SUM sobre I: P(G|D,I)*P(I) * SUM sobre S: P(S|I)) -> Aquí el max 12

# Prob de conseguir una carta de recomendación buena dado que el estudiante es normal P(L=l1|I=i0) 
#   -> hay que reducir el factor a los valores compatibles con I=i0 y normalizarlo
#   -> y luego marginalizar todas las variables menos L
print('-----------')
print(marginal(reduce(PI * PD * PG_ID * PL_G * PS_I, [0], [0]), [1,2,4]))
print(normalize(marginal(PD * marginal(PL_G * reduce(PG_ID * PI, [0], [0]), [2]), [1])))

# La prob de l1 baja

# Prob de conseguir una carta de recomendación buena dado que 
#          el estudiante es normal pero el examen fue fácil P(L=l1|I=i0,D=i0) 
#   -> hay que reducir el factor a los valores compatibles con I=i0,D=d0 y normalizarlo
#   -> y luego marginalizar todas las variables menos L
print('-----------')
print(marginal(reduce(PI * PD * PG_ID * PL_G * PS_I, [0,1], [0,0]), [2,4]))
print(normalize(reduce(PD * marginal(PL_G * reduce(PG_ID * PI, [0], [0]), [2]), [1], [0])))


# La prob de l1 vuelve a subir



[[[[[0.497664]
    [0.502336]]]]]
[[[[[0.497664]
    [0.502336]]]]]
-----------
[[[[[0.6114]
    [0.3886]]]]]
[[[[[0.6114]
    [0.3886]]]]]
-----------
[[[[[0.487]
    [0.513]]]]]
[[[[[0.487]
    [0.513]]]]]


### Razonamiento evidencial
Es el inverso del causal. Cuando se observa que una variable descendiente tiene un valor, esto afecta a la probabilidad de las variables progenitores

##### Ejemplo
![evidencial](evidential.png)

In [14]:
# Dimensión -> 0  1  2  3  4
# Variable  -> I, D, G, L, S
# Subindices-> 2, 2, 3, 2, 2

## ¿Cual es la probabilidad de que el examen sea difícil?
print(marginal(reduce(PI * PD * PG_ID * PL_G * PS_I, [1], [1]), [0,2,3,4]))
print('--------------------')
print(normalize(reduce(PD * marginal(PL_G * marginal(PG_ID * PI, [0,2]), [3]), [1], [1])))
print('\n-------PROFE----------\n')
print(PD * marginal(marginal(PL_G, [3]) * marginal(PG_ID * PI * marginal(PS_I, [4]), [0]), [2]))
# Dado que la nota ha sido aprobado, ¿Cuál es la prob de examen difícil?
print('\n-------PROFE----------\n')
print(normalize(PD * marginal(PI * reduce(PG_ID, [2], [2]), [0])))

[[[[[1.]]]]]
--------------------
[[[[[0.33333333]]

   [[0.33333333]]

   [[0.33333333]]]]]

-------PROFE----------

[[[[[0.6]]]


  [[[0.4]]]]]

-------PROFE----------

[[[[[0.37070938]]]


  [[[0.62929062]]]]]


### Independencia condicionada
La independencia se puede peder tras condicionar una variable. Por ejemplo, P(I,D)=P(I)P(D) pero si condicionamos a G, esta independencia se pierde. 


In [15]:
# Comprueba que esto es así 
# Pista 1: Prueba una asignación de G que no se cumple.
# Por ejemplo para G=g0 ver si P(D|G=g0)*P(I|G=g0)=P(D,I|G=g0)

#Pista 2: A continuación puedes comprobar si 𝑃(𝐼|𝐷)
# es igual a 𝑃(𝐼) y 𝑃(𝐷|𝐼) es igual a 𝑃(𝐷).

### Razonamiento intercausal
Es un tipo de razonamiento menos habitual que tiene que ver con el flujo de información entre dos causas con el mismo efecto

##### Ejemplo

![intercausal](intercausal.png)

In [16]:
# CAlcula la probabilidad de que un estudiante tenga
# inteligencia alta P(I=i1)
0.3

# Si sabemos que la nota del examen es aprobado, ¿Cuál es la prob de inteligencia alta? 
# P(I=i1|G=g2)
print(reduce(PI * marginal(reduce(PG_ID, [2], [2]), [0,1]) * PD, [0], [1]))
print('\n-------PROFE-------\n')
print(normalize(PI * marginal(PD * reduce(PG_ID, [2], [2]), [1])))
# y si además el examen es difícil
# P(I=i1|G=g2,D=d1)
print('\n-------PROFE-------\n')
print(normalize(PI * reduce(PD * reduce(PG_ID, [2], [2]), [1], [1])))


[[[[[0.6]]]


  [[[0.4]]]]]

-------PROFE-------

[[[[[0.92105263]]]]



 [[[[0.07894737]]]]]

-------PROFE-------

[[[[[0.89090909]]]]



 [[[[0.10909091]]]]]


### Razonamiento a través de un camino

¿Cómo influye en la dificultad del examen si sabemos que la nota es aprobado (G=g0)? ¿y si además sabemos que la nota de selectividad es alta (S=s1)?

![intercausal](flow.png)

In [17]:
# Probabilidad de examen difícil D=d1?
0.4

# Probabilidad de examen difícil D=d1|G=aprobado?


# Probabilidad de examen difícil D=d1|G=g2,S=s1?



0.4

##### Ejercicio
Si no se conoce G, ¿Influye la nota de selectividad en la dificultad del examen?

### Flujo de información y caminos activos
* En una red de bayes dos variables son independientes dado un conjunto de variables, si no hay ningún camino activo entre ellas. 
* Un camino activo indica que existe flujo de información. 
* Los casos de razomaniento de arriba son caminos activos

En general: ¿Cuándo X influye sobre Y a través de W?

* X --> W --> Y: Causal     ->  SI
* X <-- W <-- Y: Evidencial ->  SI
* X <-- W --> Y: Evidencial + Causal -> SI
* X --> W <-- Y: **Se denomina estructura en V** ->  NO

##### Ejemplo independencia

![estu2](estu2.png)

* Conocer D afecta a L -> SÍ
* Conocer L afecta a D -> SÍ
* Conocer G afecta a S -> SÍ
* Conocer D afecta a I -> NO

--

Ahora, suponiendo que hemos observado un conjunto de variables $\mathbf{Z}$: ¿Cuándo X influye sobre Y a través de W dado $\mathbf{Z}$?

|   | $$ W\in Z $$ | $$ W \notin Z $$  |
|---|---|---|
| X --> W --> Y| NO |       SI |
| X <-- W <-- Y| NO |       SI |
| X <-- W --> Y| NO |       SI |
| X --> W <-- Y| SI* |       NO** |

\* Siempre que W o alguno de sus descendientes esté en Z

\*\* Siempre que ni W, ni ninguno de sus descendientes esté en Z

##### Ejemplo independencia dada una evidencia
Para la red de arriba tenemos que

* Conocer D afecta a L dado G -> NO
* Conocer L afecta a D dado G -> NO
* Conocer G afecta a S dado I -> NO
* Conocer D afecta a I dado G -> SÍ
* Conocer D afecta a I dado L -> SÍ

Veamos un ejemplo más complejo

### Camino activo
Dado un camino en el grafo  $X_1 - X_{2} - \dots - X_{n}$, se dice que está activo si

* Para todas las estructras en V del camino, $X_i \rightarrow X_i \leftarrow X_{i+1}$, tenemos que o bien $X_i$, o bien al menos uno de sus descendientes, es observado
* El resto de nodos del camino no han sido observados

##### Ejemplo caminos activos

<p><img src="estudiante3.svg" width="200" style="margin:30px;float:right;"> Indica cuáles de los siguientes caminos están activos:
<ul style="font-family:monospace;">
    <li>C ‐&gt; D ‐&gt; G &lt;- I ‐&gt; S</li>
    <li>I ‐&gt; G ‐&gt; L ‐&gt; J ‐&gt; H</li>
    <li>I -&gt; S ‐&gt; J ‐&gt; H</li>
    <li>C ‐&gt; D -&gt; G &lt;- I ‐&gt; S ‐&gt; J &lt;‐ L</li>
    <li>C -&gt; D -&gt; G &lt;- I -&gt; S -&gt; J &lt;- L | H</li>
    <li>C -&gt; D -&gt; G -&gt; H &lt;- J | H</li>
    <li>C -&gt; D -&gt; G &lt;- I -&gt; S -&gt; J &lt;- L | G</li>
    <li>I ‐&gt; G ‐&gt; L ‐&gt; J ‐&gt; H | G</li>
    <li>D -&gt; G &lt;- I -&gt; S | L</li>
    <li>D -&gt; G -&gt; L -&gt; J | L</li>
    <li>G -&gt; H &lt;- J &lt;- S | L</li>
    </ul>
</p>


<p style="clear:left"></p>



### Independencia en una red
Para la factorización dada por una red de bayes, dos variables X,Y son independientes dada una evidencia Z, esto es $X \perp Y | Z $, si no existe ningún camino activo entre ellas

##### Ejercicio
Analiza bajo qué condiciones S influye a D en el grafo de arriba

#### De las independencias del grafo se recupera la factorización

<img src="estu2.png" width="150">

Aplicamos la regla de la cadena (no supone ninguna independencia entre variables)

$$ P(D,I,G,L,S) = P(D)P(I|D)P(G|D,I)P(L|D,I,G)P(S|D,I,G,L) $$

Ahora veamos las independencias de los factores en la grafo:
* P(D): No se puede simplificar más
* P(I|D): Del grafo vemos que no hay camino activo entre I y D por tanto $ I\perp  D $ y entonces P(I|D)=P(I)
* P(G|D,I): Este factor queda igual ya que sí que hay dependencias entre G y D y entre G e I
* P(L|D,I,G): Existe una dependencia entre G y L que tienen enlace directo, por lo tanto G permanece. Vemos que dado G el resto de variables son independientes  $ L \perp I | G$ y $ L \perp D | G$. Por tanto el factor queda como $P(L|D,I,G)=P(L|G)$
* P(S|D,I,G,L): Existe dependencia directa entre I y S, por tanto I permanece. Y dado I la dependencia con el resto de variables se bloquea, es decir $ S \perp G | I$, $ S \perp D | I$ y $ S \perp L | I$. Por tanto el factor queda como $P(S|L,D,I,G)=P(S|I)$

Y la factorización queda:

$$ P(D,I,G,L,S) = P(D)P(I)P(G|D,I)P(L|G)P(S|I) $$


## Algoritmo de Eliminación de Variables

Este algoritmo es para hacer inferencia en redes. Supongamos que tenemos la factorización de una distribución conjunta 

$$ P(\mathbf{X}) = P(X_1, X_2, \dots, X_N) = \prod_{i=1}^N P(X_i|Par(X_i))$$ 

y una evidenica $ \mathbf{Z}=\mathbf{z} $, donde $\mathbf{Z} \subset \mathbf{X}$ es un subconjunto de las variables del problema y $\mathbf{z}$ son sus valores observados. El objetivo es obtener la distribución de parte de las variables del problema, $\mathbf{W} \subset \mathbf{X}$ dada la evidencia $\mathbf{Z}=\mathbf{z}$. Es decir queremos obtener $P(\mathbf{W}|\mathbf{Z}=\mathbf{z})$. Para ello debemos:
* Reducir los factores que incluyan $\mathbf{Z}$
* Eliminar el resto de variables no incluidas $\mathbf{W}$

$$ P(\mathbf{W}|\mathbf{Z}=\mathbf{z}) = \sum_{X \setminus (W\cup Z)} \frac{P(\mathbf{X}\setminus \mathbf{Z},\mathbf{Z}=\mathbf{z})}{P(\mathbf{Z}=\mathbf{z})} \propto \sum_{X \setminus (W\cup Z)} P(\mathbf{X}\setminus \mathbf{Z},\mathbf{Z}=\mathbf{z}) $$


Algoritmo de eliminación de variables esquemático para un conjunto de factores $\mathbf{\Phi}=\{\Phi_1,\dots,\Phi_N\}$:
1.  Reducir todos los factores que contengan alguna variable de $\mathbf{Z}$ en su dominio, usando la evidencia dada $\mathbf{Z}=\mathbf{z}$
2.  Para cada varible X no en $\mathbf{X} \setminus (\mathbf{W} \cup \mathbf{Z})$, eliminar variable X mediante marginalización:
    1. Hacer el producto de todos los factores que tienen X es su dominio: $\psi = \prod_{\Phi_i \mid X\in Dom(\Phi_i) }\Phi_i$ 
    2. Marginalizar X del factor producto obtenido en A: $\tau = \sum_X \psi$
    3. Actualizar la lista de factores quitando los factores que incluyen X y añadiendo el factor marginalizado $\tau$: $\mathbf{\Phi} = (\mathbf{\Phi} \setminus {\psi}) \cup \tau$
3. Multiplicar factores restantes
4. Renormalizar para obtener una distribución

In [18]:
def VA(factor_list, W, Zs=[], zs=[], order=[]):
    """ Implementar variable elimination algorithm
        
        Entrada:
           * factor_list: lista con los factores a procesar = [PI, PD, PG_ID, PL_G, PS_I]
           * W:           lista de variables en el factor de salida
           * Zs:          lista de variables observadas
           * zs:          lista de valores de las variables observadas
           * order:       orden en que se procesan las variables. Si no se 
                          indica nada se hacer en orden ascendente
        Salida:
           * Factor con la distribucion conjunta W dada la evidencia
           * El tamaño del factor más grande que se procese
        
           """
    # Dimensión -> 0  1  2  3  4
    # Variable  -> I, D, G_ID, L_G, S_I
    # Subindices-> 2, 2, 3, 2, 2
    
    # Factores
    facts = []
    psy = [] # Variables Ocultas
    
# Definición de variables
    # Tamaño de Variables de entrada
    tam_list = len(factor_list)
    tam_W = len(W)
    tam_z = len(zs)
    max_tam = 1
    print(tam_list, tam_W, tam_z)
    
    # Variables a Marginalizar
    variables = np.arange(tam_list)
    print("variables", variables)
    variables = np.setdiff1d(variables, np.union1d(W, Zs))
    print("variables :", variables)
    
    # 1 Reducir factores que contengan Z en su dominio usando Z = z
    '''for Z, z in zip(Zs, zs):
        az = contenido(factor_list, Z)
        for a in az:
            #print("a", a, "type", type(a), "[type]", type([a]))
            #print("z", a, "type", type(z), "[type]", type([z]))
            actor_list[a] = reduce(factor_list, [a], [z])'''
        
    # 2 Marginalización
    for var in variables:
        dentro = contenido(factor_list, var)
        psy.append(multiplicar(factor_list, dentro))
    
    print("psy: \n", factor_list, "\n")
    
def contenido(factor_list, var):
    arr = []
    #print("var", var)
    for i, f in enumerate(factor_list):
        #print(np.shape(f))
        if np.shape(f)[var] > 1:
            #print(np.shape(f)[var])
            arr.append(i)
    
    print("arr", arr)
    #print("\n EOEEEE \n")
    return arr

def multiplicar(factor_list, dentro):
    ps = factor_list[dentro[0]]
    for inside in dentro[1:]:
        ps = ps * factor_list[inside]
        
    print("\nPS:", ps)
    return ps

In [19]:
# Calcula la distribución P(I)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[0])
#assert(np.allclose(np.array([[[[[0.7]]]],[[[[0.3]]]]]),factor))
#assert(maxsize==12)

# Si sabemos que la nota del examen es aprobado, ¿Cuál es la prob de inteligencia? 
# P(I|G=g2)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[0],[2],[2])
assert(np.allclose(np.array([[[[[0.92105263]]]],[[[[0.07894737]]]]]), factor))
#assert(maxsize==4)

# y si además el examen es difícil
# P(I|G=g2,D=d1)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[0],[1,2],[1,2])
assert(np.allclose(np.array([[[[[0.89090909]]]],[[[[0.10909091]]]]]), factor))
#assert(maxsize==4)


5 1 0
variables [0 1 2 3 4]
variables : [1 2 3 4]
arr [1, 2]

PS: [[[[[0.18 ]]

   [[0.24 ]]

   [[0.18 ]]]


  [[[0.02 ]]

   [[0.1  ]]

   [[0.28 ]]]]



 [[[[0.54 ]]

   [[0.048]]

   [[0.012]]]


  [[[0.2  ]]

   [[0.12 ]]

   [[0.08 ]]]]]
arr [2, 3]

PS: [[[[[3.00e-02]
    [2.70e-01]]

   [[1.60e-01]
    [2.40e-01]]

   [[2.97e-01]
    [3.00e-03]]]


  [[[5.00e-03]
    [4.50e-02]]

   [[1.00e-01]
    [1.50e-01]]

   [[6.93e-01]
    [7.00e-03]]]]



 [[[[9.00e-02]
    [8.10e-01]]

   [[3.20e-02]
    [4.80e-02]]

   [[1.98e-02]
    [2.00e-04]]]


  [[[5.00e-02]
    [4.50e-01]]

   [[1.20e-01]
    [1.80e-01]]

   [[1.98e-01]
    [2.00e-03]]]]]
arr [3]

PS: [[[[[0.1 ]
    [0.9 ]]

   [[0.4 ]
    [0.6 ]]

   [[0.99]
    [0.01]]]]]
arr [4]

PS: [[[[[0.95 0.05]]]]



 [[[[0.2  0.8 ]]]]]
psy: 
 [array([[[[[0.7]]]],



       [[[[0.3]]]]]), array([[[[[0.6]]],


        [[[0.4]]]]]), array([[[[[0.3 ]],

         [[0.4 ]],

         [[0.3 ]]],


        [[[0.05]],

         [[0.25]],

      

TypeError: cannot unpack non-iterable NoneType object

In [20]:
# Prob examen: Calcula la distribución: P(D)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[1])
assert(np.allclose(np.array([[[[[0.6]]],[[[0.4]]]]]),factor))
#assert(maxsize==24)

# Prob examen | nota aprobado: P(D|G=g2)
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2],[2])
assert(np.allclose(np.array([[[[[0.37070938]]],[[[0.62929062]]]]]),factor))
#assert(maxsize==8)

# Probabilidad de examen difícil D=d1|G=g2,S=s1?
factor, maxsize = VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2,4],[2,1])
assert(np.allclose(np.array([[[[[0.24044002]]],[[[0.75955998]]]]]),factor))
#assert(maxsize==4)


5 1 0
variables [0 1 2 3 4]
variables : [0 2 3 4]
arr [0, 2, 4]

PS: [[[[[0.1995  0.0105 ]]

   [[0.266   0.014  ]]

   [[0.1995  0.0105 ]]]


  [[[0.03325 0.00175]]

   [[0.16625 0.00875]]

   [[0.4655  0.0245 ]]]]



 [[[[0.054   0.216  ]]

   [[0.0048  0.0192 ]]

   [[0.0012  0.0048 ]]]


  [[[0.03    0.12   ]]

   [[0.018   0.072  ]]

   [[0.012   0.048  ]]]]]
arr [2, 3]

PS: [[[[[3.00e-02]
    [2.70e-01]]

   [[1.60e-01]
    [2.40e-01]]

   [[2.97e-01]
    [3.00e-03]]]


  [[[5.00e-03]
    [4.50e-02]]

   [[1.00e-01]
    [1.50e-01]]

   [[6.93e-01]
    [7.00e-03]]]]



 [[[[9.00e-02]
    [8.10e-01]]

   [[3.20e-02]
    [4.80e-02]]

   [[1.98e-02]
    [2.00e-04]]]


  [[[5.00e-02]
    [4.50e-01]]

   [[1.20e-01]
    [1.80e-01]]

   [[1.98e-01]
    [2.00e-03]]]]]
arr [3]

PS: [[[[[0.1 ]
    [0.9 ]]

   [[0.4 ]
    [0.6 ]]

   [[0.99]
    [0.01]]]]]
arr [4]

PS: [[[[[0.95 0.05]]]]



 [[[[0.2  0.8 ]]]]]
psy: 
 [array([[[[[0.7]]]],



       [[[[0.3]]]]]), array([[[[[0.6]]],


       

TypeError: cannot unpack non-iterable NoneType object

In [21]:
# Si no se conoce G, ¿Influye la nota de selectividad en la dificultad del examen?
# dif examen
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1]))

# dif examen si sat=1
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1],[4],[1])) # No cambia

# Ahora sabiendo que nota es aprobado
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2],[2])) 
print(VA([PI, PD, PG_ID, PL_G, PS_I],[1],[2,4],[2,1])) # Sí cambia



5 1 0
variables [0 1 2 3 4]
variables : [0 2 3 4]
arr [0, 2, 4]

PS: [[[[[0.1995  0.0105 ]]

   [[0.266   0.014  ]]

   [[0.1995  0.0105 ]]]


  [[[0.03325 0.00175]]

   [[0.16625 0.00875]]

   [[0.4655  0.0245 ]]]]



 [[[[0.054   0.216  ]]

   [[0.0048  0.0192 ]]

   [[0.0012  0.0048 ]]]


  [[[0.03    0.12   ]]

   [[0.018   0.072  ]]

   [[0.012   0.048  ]]]]]
arr [2, 3]

PS: [[[[[3.00e-02]
    [2.70e-01]]

   [[1.60e-01]
    [2.40e-01]]

   [[2.97e-01]
    [3.00e-03]]]


  [[[5.00e-03]
    [4.50e-02]]

   [[1.00e-01]
    [1.50e-01]]

   [[6.93e-01]
    [7.00e-03]]]]



 [[[[9.00e-02]
    [8.10e-01]]

   [[3.20e-02]
    [4.80e-02]]

   [[1.98e-02]
    [2.00e-04]]]


  [[[5.00e-02]
    [4.50e-01]]

   [[1.20e-01]
    [1.80e-01]]

   [[1.98e-01]
    [2.00e-03]]]]]
arr [3]

PS: [[[[[0.1 ]
    [0.9 ]]

   [[0.4 ]
    [0.6 ]]

   [[0.99]
    [0.01]]]]]
arr [4]

PS: [[[[[0.95 0.05]]]]



 [[[[0.2  0.8 ]]]]]
psy: 
 [array([[[[[0.7]]]],



       [[[[0.3]]]]]), array([[[[[0.6]]],


       