# Redes bayesianas

É uma estrutura de dados que representa uma distribuição de probabilidade conjunta sobre várias variáveis aleatórias e permite inferência sobre as mesmas. 

Exemplo do alarme visto em sala: 
<p><img src="http://norvig.com/ipython/burglary2.jpg">


## A implementação utiliza 7 classes Python:

## `BayesNet()`
Permite construção de um grafo vazio e adição de variáveis uma por uma com o método `.add(`*variable_name, parent_names, cpt*`)`,  onde os nomes são strings, e cada um dos `parent_names` já deve ter sido adicionado (`.add`ed.)

## `Variable(`*name, cpt, parents*`)`

Uma variável aleatória (os ovais no grafo). Valores são especificados pela tabela de probabilidade condicional associada (CPT). Cada linha da CPT utiliza a mesma ordem das variáveis assim como a lista de pais. 

## `ProbDist(`*mapping*`)

Uma distribuição de probabilidade é o mapeamento de `{outcome: probability}` para cada resultado de uma variável aleatória. 
Você pode estabelecer a `ProbDist` os mesmos argumentos que daria para o inicializador `dict`, por exemplo
`ProbDist(sun=0.6, rain=0.1, cloudy=0.3)`.
Como um atalho para variáveis Boolean, você pode escrever `ProbDist(0.95)` ao invés de `ProbDist({T: 0.95, F: 0.05})`. 

#### Factor(`*mapping*`)`

Um `Factor` é similar a uma distribuição de probabilidade, exceto que os valores NÃO precisam somar 1 (um). Fatores são usados no método de inferência chamado Variable Elimination (que não vimos em sala, mas todos são livres para aprender e utilizar, caso desejem).

## `Evidence(`*mapping*`)`

Um mapeamento de pares `{Variable: value, ...}`, descrevendo os valores exatos para um conjunto de variáveis que já conhecemos de fato.

## `CPTable(`*rows, parents*`)`

Uma tabela de probabilidade condicional (ou *CPT*) descreve a probabilidade de cada possível para uma variável aleatória, dados os valores das variáveis pais. Uma `CPTable` é um mapeamento, `{tuple: probdist, ...}`, onde cada tupla lista os valores de cada um das variáveis pais, em ordem. A `CPTable` para *Alarm* no diagrama anterior seria representada como se segue:

    CPTable({(T, T): .95,
             (T, F): .94,
             (F, T): .29,
             (F, F): .001},
            [Burglary, Earthquake])
            
Observe que .94, por exemplo, é uma abreviação para `ProbDist({T: .94, F: .06})`.
            
## `T = Bool(True); F = Bool(False)`

Ja que as palavras True e False não ficam alinhadas numa tupla, a classe Bool foi criada para permitir a definição das constantes T e F e, consequentemente, as tuplas ficarem alinhas e mais fáceis de se visualizar. Ver diferença a seguir: 

     (True, True, False, False, False)
     (False, False, False, False, True)
     (True, False, False, True, True)
     
     vs.

     (T, T, F, F, F)
     (F, F, F, F, T)
     (T, F, F, T, T)

## Implementação das classes acima descritas:

In [1]:
from collections import defaultdict, Counter
import itertools
import math
import random

class BayesNet(object):
    "Bayesian network: a graph of variables connected by parent links."
     
    def __init__(self): 
        self.variables = [] # List of variables, in parent-first topological sort order
        self.lookup = {}    # Mapping of {variable_name: variable} pairs
            
    def add(self, name, parentnames, cpt):
        "Add a new Variable to the BayesNet. Parentnames must have been added previously."
        parents = [self.lookup[name] for name in parentnames]
        var = Variable(name, cpt, parents)
        self.variables.append(var)
        self.lookup[name] = var
        return self
    
class Variable(object):
    "A discrete random variable; conditional on zero or more parent Variables."
    
    def __init__(self, name, cpt, parents=()):
        "A variable has a name, list of parent variables, and a Conditional Probability Table."
        self.__name__ = name
        self.parents  = parents
        self.cpt      = CPTable(cpt, parents)
        self.domain   = set(itertools.chain(*self.cpt.values())) # All the outcomes in the CPT
                
    def __repr__(self): return self.__name__
    
class Factor(dict): "An {outcome: frequency} mapping."

class ProbDist(Factor):
    """A Probability Distribution is an {outcome: probability} mapping. 
    The values are normalized to sum to 1.
    ProbDist(0.75) is an abbreviation for ProbDist({T: 0.75, F: 0.25})."""
    def __init__(self, mapping=(), **kwargs):
        if isinstance(mapping, float):
            mapping = {T: mapping, F: 1 - mapping}
        self.update(mapping, **kwargs)
        normalize(self)
        
class Evidence(dict): 
    "A {variable: value} mapping, describing what we know for sure."
        
class CPTable(dict):
    "A mapping of {row: ProbDist, ...} where each row is a tuple of values of the parent variables."
    
    def __init__(self, mapping, parents=()):
        """Provides two shortcuts for writing a Conditional Probability Table. 
        With no parents, CPTable(dist) means CPTable({(): dist}).
        With one parent, CPTable({val: dist,...}) means CPTable({(val,): dist,...})."""
        if len(parents) == 0 and not (isinstance(mapping, dict) and set(mapping.keys()) == {()}):
            mapping = {(): mapping}
        for (row, dist) in mapping.items():
            if len(parents) == 1 and not isinstance(row, tuple): 
                row = (row,)
            self[row] = ProbDist(dist)

class Bool(int):
    "Just like `bool`, except values display as 'T' and 'F' instead of 'True' and 'False'"
    __str__ = __repr__ = lambda self: 'T' if self else 'F'
        
T = Bool(True)
F = Bool(False)

### Funções associadas:

In [2]:
def P(var, evidence={}):
    "The probability distribution for P(variable | evidence), when all parent variables are known (in evidence)."
    row = tuple(evidence[parent] for parent in var.parents)
    return var.cpt[row]

def normalize(dist):
    "Normalize a {key: value} distribution so values sum to 1.0. Mutates dist and returns it."
    total = sum(dist.values())
    for key in dist:
        dist[key] = dist[key] / total
        assert 0 <= dist[key] <= 1, "Probabilities must be between 0 and 1."
    return dist

def sample(probdist):
    "Randomly sample an outcome from a probability distribution."
    r = random.random() # r is a random point in the probability distribution
    c = 0.0             # c is the cumulative probability of outcomes seen so far
    for outcome in probdist:
        c += probdist[outcome]
        if r <= c:
            return outcome
        
def globalize(mapping):
    "Given a {name: value} mapping, export all the names to the `globals()` namespace."
    globals().update(mapping)

# Exemplos de uso das classes e funções

In [3]:
Earthquake = Variable('Earthquake', 0.002)

In [4]:
P(Earthquake)

{T: 0.002, F: 0.998}

In [5]:
P(Earthquake)[T]

0.002

In [6]:
# Amostragem aleatória:
sample(P(Earthquake))

F

In [7]:
# 100 mil amostragens:
Counter(sample(P(Earthquake)) for i in range(100000))

Counter({F: 99793, T: 207})

In [8]:
# Duas maneiras equivalentes de se especificar a mesma distribuição booleana:
assert ProbDist(0.75) == ProbDist({T: 0.75, F: 0.25})
ProbDist(0.75)

{T: 0.75, F: 0.25}

In [9]:
# # Duas maneiras equivalentes de se especificar a mesma distribuição NÃO booleana:
assert ProbDist(win=15, lose=3, tie=2) == ProbDist({'win': 15, 'lose': 3, 'tie': 2})
ProbDist(win=15, lose=3, tie=2)

{'win': 0.75, 'lose': 0.15, 'tie': 0.1}

In [10]:
# A diferença entre um Factor e uma ProbDist -- a ProbDist é normalizada:
Factor(a=1, b=2, c=3, d=4)

{'a': 1, 'b': 2, 'c': 3, 'd': 4}

In [11]:
ProbDist(x=1, y=2, z=3, k=4)

{'x': 0.1, 'y': 0.2, 'z': 0.3, 'k': 0.4}

# Exemplo do Alarme

In [12]:
alarm_net = (BayesNet()
    .add('Burglary', [], 0.001)
    .add('Earthquake', [], 0.002)
    .add('Alarm', ['Burglary', 'Earthquake'], {(T, T): 0.95, (T, F): 0.94, (F, T): 0.29, (F, F): 0.001})
    .add('JohnCalls', ['Alarm'], {T: 0.90, F: 0.05})
    .add('MaryCalls', ['Alarm'], {T: 0.70, F: 0.01}))  

In [13]:
# Tornar Burglary, Earthquake, etc. variáveis globais 
globalize(alarm_net.lookup) 
alarm_net.variables

[Burglary, Earthquake, Alarm, JohnCalls, MaryCalls]

In [14]:
# Distribuição de probabilidade de Burglary
P(Burglary)

{T: 0.001, F: 0.999}

In [15]:
# Prob. do alarme não disparar, dado que houve invasão e não há terremoto.
P(Alarm, {Burglary: T, Earthquake: F})

{T: 0.94, F: 0.06000000000000005}

In [16]:
# A linha (T, F) do CPF da variável Alarm:
Alarm.cpt

{(T, T): {T: 0.95, F: 0.050000000000000044},
 (T, F): {T: 0.94, F: 0.06000000000000005},
 (F, T): {T: 0.29, F: 0.71},
 (F, F): {T: 0.001, F: 0.999}}

# Redes bayesianas enquanto Distribuição de Probabilidade Conjunta

#### P(*X*<sub>1</sub>=*x*<sub>1</sub>, ..., *X*<sub>*n*</sub>=*x*<sub>*n*</sub>) = <font size=large>&Pi;</font><sub>*i*</sub> P(*X*<sub>*i*</sub> = *x*<sub>*i*</sub> | parents(*X*<sub>*i*</sub>))

In [17]:
def joint_distribution(net):
    "Given a Bayes net, create the joint distribution over all variables."
    return ProbDist({row: prod(P_xi_given_parents(var, row, net)
                               for var in net.variables)
                     for row in all_rows(net)})

def all_rows(net): return itertools.product(*[var.domain for var in net.variables])

def P_xi_given_parents(var, row, net):
    "The probability that var = xi, given the values in this row."
    dist = P(var, Evidence(zip(net.variables, row)))
    xi = row[net.variables.index(var)]
    return dist[xi]

def prod(numbers):
    "The product of numbers: prod([2, 3, 5]) == 30. Analogous to `sum([2, 3, 5]) == 10`."
    result = 1
    for x in numbers:
        result *= x
    return result

In [18]:
# Todas as linhas possíveis da distribuição conjunta (2**5 == 32 linhas)
set(all_rows(alarm_net))

{(F, F, F, F, F),
 (F, F, F, F, T),
 (F, F, F, T, F),
 (F, F, F, T, T),
 (F, F, T, F, F),
 (F, F, T, F, T),
 (F, F, T, T, F),
 (F, F, T, T, T),
 (F, T, F, F, F),
 (F, T, F, F, T),
 (F, T, F, T, F),
 (F, T, F, T, T),
 (F, T, T, F, F),
 (F, T, T, F, T),
 (F, T, T, T, F),
 (F, T, T, T, T),
 (T, F, F, F, F),
 (T, F, F, F, T),
 (T, F, F, T, F),
 (T, F, F, T, T),
 (T, F, T, F, F),
 (T, F, T, F, T),
 (T, F, T, T, F),
 (T, F, T, T, T),
 (T, T, F, F, F),
 (T, T, F, F, T),
 (T, T, F, T, F),
 (T, T, F, T, T),
 (T, T, T, F, F),
 (T, T, T, F, T),
 (T, T, T, T, F),
 (T, T, T, T, T)}

In [19]:
# Considere uma única linha:
row = (F, F, F, F, F)

In [20]:
# Distribuição para Alarm
P(Alarm, {Burglary: F, Earthquake: F})

{T: 0.001, F: 0.999}

In [21]:
# Abaixo é a probabilidade do Alarm não disparar, dado os valores dos pais naquela linha (row) especificada:
P_xi_given_parents(Alarm, row, alarm_net)

0.999

In [22]:
# Os valores de probabilidade conjunta para todas as linhas:
joint_distribution(alarm_net)

{(F, F, F, F, F): 0.9367427006190001,
 (F, F, F, F, T): 0.009462047481000001,
 (F, F, F, T, F): 0.04930224740100002,
 (F, F, F, T, T): 0.0004980024990000002,
 (F, F, T, F, F): 2.9910060000000004e-05,
 (F, F, T, F, T): 6.979013999999999e-05,
 (F, F, T, T, F): 0.00026919054000000005,
 (F, F, T, T, T): 0.00062811126,
 (F, T, F, F, F): 0.0013341744900000002,
 (F, T, F, F, T): 1.3476510000000005e-05,
 (F, T, F, T, F): 7.021971000000001e-05,
 (F, T, F, T, T): 7.092900000000001e-07,
 (F, T, T, F, F): 1.7382600000000002e-05,
 (F, T, T, F, T): 4.0559399999999997e-05,
 (F, T, T, T, F): 0.00015644340000000006,
 (F, T, T, T, T): 0.00036503460000000007,
 (T, F, F, F, F): 5.631714000000006e-05,
 (T, F, F, F, T): 5.688600000000006e-07,
 (T, F, F, T, F): 2.9640600000000033e-06,
 (T, F, F, T, T): 2.9940000000000035e-08,
 (T, F, T, F, F): 2.8143600000000003e-05,
 (T, F, T, F, T): 6.56684e-05,
 (T, F, T, T, F): 0.0002532924000000001,
 (T, F, T, T, T): 0.0005910156000000001,
 (T, T, F, F, F): 9.4050000000

In [23]:
# Probabilidade do alarme disparar, não ter havido invasão nem terremoto, mas tanto John quanto Mary ligaram.
# Vejam que para esse exemplo específico, o livro-texto diz que o resultado deve ser 0.000628.

print(alarm_net.variables)
joint_distribution(alarm_net)[F, F, T, T, T]

[Burglary, Earthquake, Alarm, JohnCalls, MaryCalls]


0.00062811126

# Inferência por enumeração (visto em sala)

`P(variable, evidence)` serve para sabermos a probabilidade de uma variável quando todas as outras da rede são evidências. Mas e quando não são? Uma técnica (vista em sala) é a inferência por enumeração. A função a seguir `enumeration_ask` possui esse propósito. 

In [24]:
def enumeration_ask(X, evidence, net):
    "The probability distribution for query variable X in a belief net, given evidence."
    i    = net.variables.index(X) # The index of the query variable X in the row
    dist = defaultdict(float)     # The resulting probability distribution over X
    for (row, p) in joint_distribution(net).items():
        if matches_evidence(row, evidence, net):
            dist[row[i]] += p
    return ProbDist(dist)

def matches_evidence(row, evidence, net):
    "Does the tuple of values for this row agree with the evidence?"
    return all(evidence[v] == row[net.variables.index(v)]
               for v in evidence)

In [25]:
# Probabilidade de ter ocorrido invasão, dado que John ligou mas Mary nÃo: 
enumeration_ask(Burglary, {JohnCalls: F, MaryCalls: T}, alarm_net)
# Observe que neste caso, a função permite que especifiquemos apenas JOhn e Mary como evidência 
# enquanto os valores das outras variáveis precisarão ser considerados no somatório (explicado em sala)

{F: 0.9931237539265789, T: 0.006876246073421024}

In [26]:
# Mais um exemplo:
enumeration_ask(Alarm, {MaryCalls: T, Earthquake: T}, alarm_net)

{F: 0.03368899586522123, T: 0.9663110041347788}