# Introducción a Métodos Bayesianos

Índice:
* Bases de probabilidad
* Marginalización, probabilidades condicionadas (reducción) y factorización de probabilidad: redes bayesianas
* Independencia y caminos activos
* Algoritmo de eliminación de variables 

## Bases de probabilidad

Dominio de una variable determina el conjunto de valores que puede tomar. Los dominios puedes ser discretos o continuos. Algunos ejemplos:
* dom(tirar un dado) = {1,2,3,4,5,6}
* dom(moneda) = {cara, cruz}
* dom(nota) = [1, 10]

Notación: Para las variables aleatorias vamos a usar letras mayúsculas y para posibles asignaciones letras minúsculas. Por ejemplo, si X representa tirar una moneda podríamos poner dom(X)={cara,cruz} y decir que P(X=cara)=0'5

#### Reglas de probabilidad:

* Regla de la suma: $P(A) + P(\bar{A}) = 1$ y en general 

$$ \sum_{x \in dom(X)} P(X=x) = 1 $$

* Regla del producto: $P(A,B) = P(A|B)P(B) = P(B|A)P(A)$
* Regla de la cadena (extensión de la regla del producto):     

$$P(A,B,C,D) = P(A|B,C,D)P(B,C,D) = \\ = P(A|B,C,D)P(B|C,D)P(C,D) = \\ = P(A|B,C,D)P(B|C,D)P(C|D)P(D) $$

* Regla de Bayes:
Es despejar en la regla del producto $P(A|B)P(B) = P(B|A)P(A)$ para obtener

$$ P(A|B) = \frac{P(B|A)P(A)}{P(B)} $$

En general se utiliza para tomar decisiones. Cambiando A por hipóstesis (H) y B por datos (D) tenemos

$$ P(H|D) = \frac{P(D|H)P(H)}{P(D)} $$

y cada término es

* P(H): Probabilidad a priori de la hipótesis
* P(D|H): Verosimilitud de los datos suponiendo H es cierta
* P(D): Evidencia
* P(H|D): Probabilidad a posteriori

### Marginalización de una variable

Si tenemos una distribución de probabilidad de dos variables P(A,B) y queremos saber P(A), debemos marginalizar B, esto es

$$P(A|I)=\sum_{i=1}^K P(A,B = b_k|I)$$

asumiendo que el dominio de B es $dom(B)=\{b_1,\dots,b_K\}$. Donde se está aplicando la regla de la suma. 

Ej. ¿Cuál es la probabilidad de sacar sobresaliente, P(N=sob)? Podríamos decir que depende de la dificultad del examen (El examen puede se fácil, normal o difícil)

$ P(N=sob) = P(N=sob, Ex=facil) +  P(N=sob, Ex=normal)  + P(N=sob, Ex=dificil)$

### Independencia de variables

Si A y B son independientes entonces:

$$ P(A,B) = P(A|B)P(B) = P(A)P(B) $$

Independencia significa que conocer una de las variables no nos aporta información adicional sobre el estado de la otra.

### Distribución conjunta

Una distribución de probabilidad en varias variables

#### Ejemplo 

Consideramos la distribución conjunta que relaciona para un estudiante con las variables nota examen (G), dificultad examen (D) e Inteligencia (I)

* Nota examen (G): g0 (sobresaliente), g1 (notable), g2 (aprobado)
* Dificultad examen (D): d0 (fácil) y d1 (difícil)
* Inteligencia (I): i0 (normal), i1 (alta)

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | 0.126  |
| i0  | d0  | g1  | 0.168  |
| i0  | d0  | g2  | 0.126  |
| i0  | d1  | g0  | 0.014  |
| i0  | d1  | g1  | 0.070  |
| i0  | d1  | g2  | 0.196  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | 0.06  |
| i1  | d1  | g1  | 0.036  |
| i1  | d1  | g2  | 0.024  |


Algunas consideraciones:

* La suma de todas las probs de esta tabla debe ser 1, ya que es una distribución de probabilidad
* La tabla asigna una probabilidad a cada combinación posible, esto es a 2 x 2 x 3 combinaciones
* Hay $12 - 1$ parámetros independientes



In [1]:
# Definimos la distrb de arriba como una matriz de 2 x 2 x 3

import numpy as np

probs = np.array([0.126, 0.168, 0.126, 0.014, 0.07, 0.196, 0.162, 0.0144, 0.0036, 0.06, 0.036, 0.024])
probs = probs.reshape((2,2,3))
probs
# Definimos el orden de las variables en las dimensiones de una
# matriz de 3D como 
#
# Dimensión -> 0  1  2
# Variable  -> I, D, G

array([[[0.126 , 0.168 , 0.126 ],
        [0.014 , 0.07  , 0.196 ]],

       [[0.162 , 0.0144, 0.0036],
        [0.06  , 0.036 , 0.024 ]]])

##### Ejercicio
Algunas consultas:
 
1. ¿Cuál es la probabilidad de que un estudiante al azar tenga inteligencia normal, saque sobresaliente y el examen sea fácil? 
2. ¿Cuál es la probabilidad de sacar sobresaliente sin tener en cuenta nada más? ¿Y notable? ¿Y aprobado?
3. Dado que el examen era fácil y que el estudiante tiene una inteligencia alta, ¿Cuál es la distribucion de probabilidad de las notas?

In [4]:
# respuesta 1
print('P(G=g0,D=d0,I=i0) =', probs[0,0,0]) 

# respuesta 2 -> Marginalizar variables
probs_g = np.sum(probs,(0,1))
print('P(G=g0) =', probs_g[0])
print('P(G=g1) =', probs_g[1])
print('P(G=g2) =', probs_g[2])

# respuesta 3  -> Reducir y renormalizar
print('P(G|D=d0,I=i1) = P(G,D=d0,I=i1)/P(D=d0,I=i1)', probs[1,0]/np.sum(probs,2)[1,0])

P(G=g0,D=d0,I=i0) = 0.126
P(G=g0) = 0.36200000000000004
P(G=g1) = 0.2884
P(G=g2) = 0.3496
P(G|D=d0,I=i1) = P(G,D=d0,I=i1)/P(D=d0,I=i1) [0.9  0.08 0.02]


### Marginalizar

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | 0.126  |
| i0  | d0  | g1  | 0.168  |
| i0  | d0  | g2  | 0.126  |
| i0  | d1  | g0  | 0.014  |
| i0  | d1  | g1  | 0.070  |
| i0  | d1  | g2  | 0.196  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | 0.06  |
| i1  | d1  | g1  | 0.036  |
| i1  | d1  | g2  | 0.024  |

$$ P(D,G) = \sum_{i=i0}^{i1} P(I=i,D,G)  $$

| D | G | P(D,G)  |
|---|---|---|
| d0  | g0  | 0.126 + 0.162  = 0.288 |
| d0  | g1  | 0.168 + 0.0144 = 0.1824 |
| d0  | g2  | 0.126 + 0.0036 = 0.1296 |
| d1  | g0  | 0.014 + 0.06   = 0.074 |
| d1  | g1  | 0.070 + 0.036  = 0.106 |
| d1  | g2  | 0.196 + 0.024  = 0.22 |

$$ P(G) = \sum_{d=d0}^{d1} P(D=d,G)  $$

| G | P(D,G)  |
|---|---|
| g0  |  0.288 + 0.074 = 0.362     |
| g1  | 0.1824 + 0.106 = 0.2884   |
| g2  | 0.1296 + 0.22  = 0.3496 |

### Condicionar (reducir y normalizar)
Si sabemos ya algunos valores (p.e. examen era fácil y el estudiante tiene una inteligencia alta), podemos eliminar todas las combinaciones no compatibles con las observaciones. Para D=d0 y I=i1 la tabla se reduce a:

| I | D | G | P(I,D,G)  |
|---|---|---|---|
| i0  | d0  | g0  | ~~0.126~~  |
| i0  | d0  | g1  | ~~0.168~~  |
| i0  | d0  | g2  | ~~0.126~~  |
| i0  | d1  | g0  | ~~0.014~~  |
| i0  | d1  | g1  | ~~0.070~~  |
| i0  | d1  | g2  | ~~0.196~~  |
| i1  | d0  | g0  | 0.162  |
| i1  | d0  | g1  | 0.0144  |
| i1  | d0  | g2  | 0.0036  |
| i1  | d1  | g0  | ~~0.06~~ |
| i1  | d1  | g1  | ~~0.036~~  |
| i1  | d1  | g2  | ~~0.024~~  |

Los valores resultantes no son una distriibución de probabilidad ya que no suman 1. Para hacer que lo sea se pueden renormalizar y tendríamos

$$ P(G|I=i1,D=d0) = \frac{P(G,I=i1,D=d0)}{P(I=i1,D=d0)} $$

| G | P(G\|I=i1,D=d0) |
|---|---|
| g0  | 0.9   |
| g1  | 0.08   |
| g2  | 0.02   |



In [6]:
def normalize(distribution):
    """ normalizes the distribution so that all values add up to 1"""
    return distribution/np.sum(distribution)

def reduce(distribution, variables, asignments, normalize_output=True):
    """ This function receives a distribution, 
        a list of indices to variables and 
        a list of the assignements to those variables """
    
    reduced = distribution.copy()
    
    for variable, asignment in zip(variables,asignments):
        reduced = np.swapaxes(reduced, 0, variable)[[asignment]]
        reduced = np.swapaxes(reduced, 0, variable)
        
    return normalize(reduced) if normalize_output else reduced

## Hacer el ejercicio de antes con estas funciones


In [7]:
def marginal(distribution, variables):
    """ Marginalizes the distributions for the given list of variables """
    
    dd = distribution
    
    for variable in variables:
        dd = np.sum(dd, axis=variable, keepdims=True)
        
    return dd

## Hacer el ejercicio de antes con estas funciones


##### Ejercicio
Comprueba si las variables I y D son independientes, esto es si $P(I,D) = P(I)P(D)$



In [48]:
a=np.sum(probs,(0,2))[None]*np.sum(probs,(1,2))[:,None]
a

array([[0.42, 0.28],
       [0.18, 0.12]])

In [49]:
b=np.sum(probs,2)
b

array([[0.42, 0.28],
       [0.18, 0.12]])

In [50]:
a==b

array([[ True, False],
       [False,  True]])

In [51]:
(marginal(probs,[2]) == marginal(probs,[1,2])[None]*marginal(probs,[0,2])[:,None]).all()

False

### Factorización

Cuando dos probabilidades son independientes se dice que su distribución conjunta factoriza, es decir, que se puede descomponer en el producto de dos factores o distribuciones independientes. Para la distribución anterior podemos escribir aplicando la regla de la cadena y el hecho de que I y D son independientes:

$$ P(I,D,G) = P(G|I,D)P(I,D) = P(G|I,D)P(I)P(D) $$

es decir la distribución conjunta se puede escribir como el producto de tres factores. 




### Redes de Bayes

Este tipo de relaciones en una distribución se pueden representar con un grafo denominado red bayesiana. 
Una red bayesiana reresenta una distribución conjunta a través de la regla de la cadena en forma de grafo acíclico dirigido, donde:

* Los vértices del grafo son las distribuciones condicionadas de probabilidad (CPD) asociadas a cada una de las variables de la distribución $\{X_1, X_2, \dots, X_N\}$
* Las aristas son las dependencias de probabilidad entre las variables dadas por la regla de la cadena.

Esta representación utiliza que cualquier distribución conjunta de variables se puede escribir mediante la regla de la cadena como un producto de distribuciones condicionadas

$$ P(X_1, X_2, \dots, X_N) = \prod_{i=1}^N P(X_i|Par(X_i))$$

donde $Par(X_i)$ son el conjunto de variables que condicionan a $X_i$ (o variables progenitores).

Por ejemplo, para la siguiente distribución y descomposición con la regla de la cadena:

$$ P(A,B,C,D) = P(A|B,C,D)P(B|C,D)P(C|D)(D) $$

la red de bayes asociada sería

![bayesnet](g920.png)

Este caso, la distribución no incluye ninguna independencia entre variables y de hecho podría tener muchas representaciones equivalentes si aplicamos la regla de la cadena de otra forma. 

Si existen independencias entre las varibables de la distribución entonces la distribución conjunta y los grafos asociados se simplifican.
Por ejemplo, para el caso del estudiante de arriba la red byesiana sería

![estu](estu1.png)

ya que su distribución conjunta es $ P(I,D,G) = P(G|I,D)P(I)P(D) $. A cada nodo del grafo se le asocia el factor o distribución condicionada de probabilidad (CPD). Es decir, $P(G|I,D)$ se asocia al nodo G, $P(D)$ al nodo D y $P(I)$ al nodo I.



In [57]:
# Calculamos de todas la distribución condicionada de P(G|D,I) asociada al nodo G
d = np.zeros_like(probs)
for i in [0,1]:
    for j in [0,1]:
        d[i,j,:] = reduce(probs, [0,1], [i,j])
        
P_G_ID = d

# Calcula P(D)
#P_D = XXX

# Calcula P(I)
#P_I = XXX

print(P_G_ID)
print(P_D)
print(P_I)

[[[0.3  0.4  0.3 ]
  [0.05 0.25 0.7 ]]

 [[0.9  0.08 0.02]
  [0.5  0.3  0.2 ]]]
[[[0.6]
  [0.4]]]
[[[0.7]]

 [[0.3]]]


##### Producto de factores

En general, dos factores $\phi_1(A,B)$ y $\phi_2(B,C)$ se multiplican para obtener otro factor $\phi(A,B,C)$ multiplicando las entradas compatibles de las tablas. Es decir:

$$ \phi(A=ai,B=bj,C=ck) = \phi_1(A=ai,B=bj) \phi_2(B=bj, C=ck) $$

In [20]:
# Tal como hemos definido las tablas de probabilidad con una variable por dimensión,
# el producto de factores es simplemente hacer el producto
P_DIG = P_G_ID * P_I * P_D
P_DIG 

# Comprueba que es igual a la distribución original

# Cómo calculas el valor de probabilidad de la consulta 1 de 
# arriba, P(I=i0, G=g0, D=d0), a partir de los factores...pues 
# igual P(I=i0, G=g0, D=d0) = P(G=g0|I=i0,D=d0)P(I=i0)P(D=d0)
# Ojo con los índices
#

 


array([[0.126]])

#### Red del estudiante ampliada

Este ejemplo ha sido adaptado Probabilistic Graphical Model (Daphne Koller). Relaciona las sguientes variables

* Nota examen (G): g0 (sobresaliente), g1 (notable), g2 (aprobado)
* Dificultad examen (D): d0 (fácil) y d1 (difícil)
* Inteligencia (I): i0 (normal), i1 (alta)
* Nota Selectividad (S): s0 (baja), s1 (alta)
* Carta de recomendación (L): l0 (regular), l1 (buena)

![estu](estu2.png)

ya que su distribución conjunta es $ P(D,I,G,L,S) = P(G|I,D)P(I)P(D)P(S|I)P(L|G) $

Las CPDs (distribuciones codicionadas de probabilidad) vienen dadas por:

$ P(I):$

| i0| i1|
|---|---|
| 0.7| 0.3|

$ P(D):$

| d0| d1|   
|---|---|   
| 0.6| 0.4| 

$ P(G|I,D):$

| | g0 | g1 | g2 |
|---|---|---|---|
| i0,d0 | 0.3| 0.4 | 0.3 |
| i0,d1 | 0.05| 0.25 | 0.7 |
| i1,d0 | 0.9| 0.08 | 0.02 |
| i1,d1 | 0.5| 0.3 | 0.2 |

$ P(L|G):$

| | l0 | l1 |
|---|---|---|
| g0 | 0.1| 0.9 |
| g1 | 0.4| 0.6 |
| g2 | 0.99| 0.01 |

$ P(S|I):$

| | s0 | s1 |
|---|---|---|
| i0 | 0.95| 0.05 |
| i1 | 0.2| 0.8 |

Vamos a comprobar si esta factorización es una distribución de probabilidad válida. Para ello debemos comprobar si suma 1. Es decir debemos comprobar si:

$$ \sum_{D,I,G,L,S}P(D,I,G,L,S) = \sum_{D,I,G,L,S} P(G|I,D)P(I)P(D)P(S|I)P(L|G) = 1 $$

No todas las sumatorias afectan a todos los factores por lo que podemos mover algunas dentro. Empezamos con S, ya que solo hay un factor que depende de esa variable

$$ \sum_{D,I,G} P(G|I,D)P(I)P(D)P(L|G)\sum_S P(S|I)  = \sum_{D,I,G,L} P(G|I,D)P(I)P(D)P(L|G) $$

donde hemos aplicado que $\sum_S P(S|I)=1$ ya que es una distribución válida sobre S independientemente del valor de I. Podemos continuar 

$$ \sum_{D,I,G,L} P(G|I,D)P(I)P(D)P(L|G) =  \sum_{I} P(I)\sum_{D}P(D)\sum_G P(G|I,D) \sum_L P(L|G) = 1 $$


In [58]:
# Definamos los factores del problema con el siguiente orden de 
# variables

# Dimensión -> 0  1  2  3  4
# Variable  -> I, D, G, L, S

PI = np.array([0.7, 0.3]).reshape((2,1,1,1,1))
PD = np.array([0.6, 0.4]).reshape((1,2,1,1,1))
PG_ID = np.array([0.3, 0.4, 0.3, 0.05, 0.25, 0.7, 0.9, 0.08, 0.02, 0.5, 0.3, 0.2]).reshape((2,2,3,1,1))
PL_G = np.array([0.1, 0.9, 0.4, 0.6, 0.99, 0.01]).reshape((1,1,3,2,1))
PS_I = np.array([0.95, 0.05, 0.2, 0.8]).reshape((2,1,1,1,2))

# Distribución conjunta
PIDGLS = PI*PD* PG_ID * PL_G* PS_I

# Comprueba que es una distribución válida que suma a 1
# Usando la distrib conjunta
np.sum(PIDGLS)

# Hazlo pero siguiendo los pasos de arriba, sumando en orden: S, L, etc


1.0

### Razonamiento causal
Razonamiento que va desde las causas a las consecuencias. Cuando observamos que una variable progenitor tiene un valor, esto afecta a la probabilidad de las variables descendientes

##### Ejemplo

![causal1](causal1.png)
![causal2](causal2.png)

In [59]:
# Consultas
# Prob de conseguir una carta de recomendación buena P(L=l1) 
#   -> hay que marginalizar todas las variables menos L

# Prob de conseguir una carta de recomendación buena dado que el estudiante es normal P(L=l1|I=i0) 
#   -> hay que reducir el factor a los valores compatibles con I=i0 y normalizarlo
#   -> y luego marginalizar todas las variables menos L

# La prob de l1 baja

# Prob de conseguir una carta de recomendación buena dado que 
#          el estudiante es normal pero el examen fue fácil P(L=l1|I=i0,D=i0) 
#   -> hay que reducir el factor a los valores compatibles con I=i0,D=d0 y normalizarlo
#   -> y luego marginalizar todas las variables menos L

# La prob de l1 vuelve a subir



### Razonamiento evidencial
Es el inverso del causal. Cuando se observa que una variable descendiente tiene un valor, esto afecta a la probabilidad de las variables progenitores

##### Ejemplo
![evidencial](evidential.png)

In [60]:
## ¿Cual es la probabilidad de que el examen sea difícil?


# Dado que la nota ha sido aprobado, ¿Cuál es la prob de examen difícil?


### Independencia condicionada
La independencia se puede peder tras condicionar una variable. Por ejemplo, P(I,D)=P(I)P(D) pero si condicionamos a G, esta independencia se pierde. 


In [61]:
# Comprueba que esto es así 
# Pista 1: Prueba una asignación de G que no se cumple.
# Por ejemplo para G=g0 ver si P(D|G=g0)*P(I|G=g0)=P(D,I|G=g0)

#Pista 2: A continuación puedes comprobar si 𝑃(𝐼|𝐷)
# es igual a 𝑃(𝐼) y 𝑃(𝐷|𝐼) es igual a 𝑃(𝐷).

### Razonamiento intercausal
Es un tipo de razonamiento menos habitual que tiene que ver con el flujo de información entre dos causas con el mismo efecto

##### Ejemplo

![intercausal](intercausal.png)

In [62]:
# CAlcula la probabilidad de que un estudiante tenga
# inteligencia alta P(I=i1)
0.3

# Si sabemos que la nota del examen es aprobado, ¿Cuál es la prob de inteligencia alta? 
# P(I=i1|G=g2)

# y si además el examen es difícil
# P(I=i1|G=g2,D=d1)


0.3

### Razonamiento a través de un camino

¿Cómo influye en la dificultad del examen si sabemos que la nota es aprobado (G=g0)? ¿y si además sabemos que la nota de selectividad es alta (S=s1)?

![intercausal](flow.png)

In [63]:
# Probabilidad de examen difícil D=d1?
0.4

# Probabilidad de examen difícil D=d1|G=aprobado?


# Probabilidad de examen difícil D=d1|G=g2,S=s1?



0.4

##### Ejercicio
Si no se conoce G, ¿Influye la nota de selectividad en la dificultad del examen?

### Flujo de información y caminos activos
* En una red de bayes dos variables son independientes dado un conjunto de variables, si no hay ningún camino activo entre ellas. 
* Un camino activo indica que existe flujo de información. 
* Los casos de razomaniento de arriba son caminos activos

En general: ¿Cuándo X influye sobre Y a través de W?

* X --> W --> Y: Causal     ->  SI
* X <-- W <-- Y: Evidencial ->  SI
* X <-- W --> Y: Evidencial + Causal -> SI
* X --> W <-- Y: Se denomina estructura en V ->  NO

##### Ejemplos

![estu2](estu2.png)

* Conocer D afecta a L -> SI
* Conocer L afecta a D -> SI
* Conocer G afecta a S -> SI
* Conocer D afecta a I -> NO

Ahora, suponiendo que conocemos Z: ¿Cuándo X influye sobre Y a través de W?

|   | $$ W\in Z $$ | $$ W \notin Z $$  |
|---|---|---|
| X --> W --> Y| NO |       SI |
| X <-- W <-- Y| NO |       SI |
| X <-- W --> Y| NO |       SI |
| X --> W <-- Y| SI* |       NO** |

\* Si W, ni ninguno de sus descendientes está en Z

\*\* Si W o cualquiera de sus descendientes está en Z


### Camino activo
Dado un camino en el grafo  $X_1 - X_{2} - \dots - X_{n}$, se dice que está activo si_

* Para todas las estructras en V, $X_i \rightarrow X_i \leftarrow X_{i+1}$, tenemos que o bien $X_i$, o bien al menos uno de sus descendientes, es observado
* El resto de nodos del camino no han sido observados

##### Ejercicio
Analiza cuándo S influencia D en el grafo de arriba