# Projeto nº 1, parte 1: Engenharia de Conhecimento 20/21

## Topologia das Redes de Bayes e os Pressupostos de Independência Condicional

##### Lançamento: 5 de Março de 2021
#### Entrega: 19 de Março de 2021 às 23h59

<img src="files/imagens/ThisBNcontainsIndAssump.PNG" alt="Drawing" style="width: 250px;"/> 


### Introdução

É decisivo, no que diz respeito à modelização, compreender os pressupostos de independência (condicional e marginal) quando
se adopta um grafo particular para representar uma rede bayesiana. 

Existem os pressupostos de independência usados directamente na simplificação da regra da cadeia. 
Mas, existem pressupostos de independência condicional adicionais, indirectos, implicados. 

De uma forma grosseira, duas variáveis $X$ e $Y$ são consideradas condicionalmente independentes dado $E$ se o conhecimento sobre $X$ quando se conhece $E$ não nos dá nenhuma informação extra em relação ao conhecimento sobre $Y$. De forma mais sintética, a partir do momento que conhecemos $E$, $X$ não adiciona nada em relação ao que conhecemos sobre $Y$.
Em termos da topologia das redes de Bayes, $X$ e $Y$ são considerados condicionalmente independentes dado o conjunto de variáveis de evidência $E$ se $X$ e $Y$ estão *D-separados*  por $E$. 

### Separação-D
$X$ e $Y$ estão D-separados por $E$  se todos os caminhos não dirigidos entre $X$ e $Y$ são não activos.

#### Caminho não activo/activo

<img src="files/imagens/CondIndepIn3Steps.PNG" alt="Drawing" style="width: 250px;"/> 

Um caminho é considerado como sendo activo se todos os triplos que formam esse caminho estão activos. 
Os triplos são sequências de 3 variáveis. Basta um triplo inactivo para tornar um caminho não activo.

Note que se um caminho não tiver nenhum triplo, pela definição de quantificador universal, então todos os triplos (existentes) nesse caminho satisfazem qualquer condição, logo todos  estão activos.

#### Tipos de Triplos
Um triplo pode ser de 3 tipos: uma **cadeia causal**, uma **causa comum** e **efeito comum** e a definição de triplo activo é dada a seguir para cada tipo. 

#### Triplo activo conforme o tipo

*Cadeia causal*: $A \rightarrow B \rightarrow C$ em que $B$ não é observado (não faz parte da evidência).  

*Causa comum*:  $A \leftarrow B \rightarrow C$ onde $B$ não é observado.

*Efeito comum (estrutura-v)*: $A \rightarrow B \leftarrow C$ onde $B$ ou algum dos seus descendentes é observado.


### Exemplo:

Considere o grafo seguinte

<img src="files/imagens/redetopologia1.png">


Entre $A$ e $C$  há dois caminhos ( acíclicos ) não dirigidos:

$A \rightarrow B \rightarrow C$  

$A \rightarrow D \rightarrow E \leftarrow B \rightarrow C$


Se for dada a evidência $E$:

O caminho $A \rightarrow B \rightarrow C$ é activo pois tem um único triplo (cadeia causal) que é activo. Isso basta para provar que $A$ e $C$ não estão D-separados por $E$, logo $A$ e $C$ não são condicionalmente independentes dado $E$.


Se for dada a evidência $B$:

O caminho $A \rightarrow B \rightarrow C$ é inativo. Neste caso é necessário verificar o que se passa com o outro caminho.
O caminho $A \rightarrow D \rightarrow E \leftarrow B \rightarrow C$ tem vários triplos:

1. $A \rightarrow D \rightarrow E$ (cadeia causal) que é ativo;
2. $D \rightarrow E \leftarrow B$ (efeito comum) que é inativo;
3. $E \leftarrow B \rightarrow C$ (causa comum) que é também inativo.

Logo, ambos os caminhos são inativos e, portanto, $A$ e $C$  estão D-separados por $B$, isto é são condicionalmente independentes dado $B$.





### Objectivos
O objectivo é implementar em Python, as três funções principais seguintes:


1. Função **cond_indep(X, Y, E, R)**:  em que $R$ é uma Rede de Bayes, $X$ e $Y$ são duas variáveis diferentes na rede $R$, e $E$ é um conjunto, possivelmente vazio, de variáveis da Rede de Bayes $R$ que não contem nem $X$ nem $Y$. Essa função verifica se $X$ é condicionalmente independente de $Y$ dado o conjunto de variáveis $E$, devolvendo um valor booleano.

2. Função **cond_indep_explica(X, Y, E, R)**:  que indique na mesma se $X$ e $Y$ são condicionalmente independentes dado $E$, mas que apresente também uma explicação. A função deve retornar um par $(Valor, Explicação)$ onde $Valor$ corresponde ao valor que seria retornado por **cond_indep** e $Explicação$ é uma string. Pode escolher a estrutura dessa explicação, garantindo no entanto que seja compreensível. 

3. Função **todos_cond_indeps(R)**: que recebe como argumento uma instância  $R$  de uma Rede de Bayes e que devolve uma lista com todos os triplos distintos $(X,Y,E)$ tais que se verifica que $X$ é condicionalmente independente de $Y$ dado $E$ na rede  $R$.

### Nota
O conceito de separação-D é completamente independente dos domínios das variáveis das Redes de Bayes. Assim, devem usar a classe `BayesNet` fornecida no ficheiro `ProbabilityPlus.py`. 

## Entrega

### Código a entregar
Têm de ter o código num único ficheiro, chamado ***EC2021_indepCond_XX.py***.
 Antes de entregarem veriquem que o ficheiro corre numa pasta com os ficheiros python que nós fornecemos, mas que não têm de ser entregues. XX corresponde ao número do grupo.


### Código a não ser alterado
**Não alterem** nem o `utils.py` nem o `probabilityPlus.py` e **não os devem submeter!** Esses ficheiros, tal como são fornecidos, serão usados para correr o vosso código.

### Relatório
O  relatório é **obrigatório** e também é obrigatório que seja feito no formato Jupyter Notebook, devendo chamar-se ***EC2021_indepCond_XX.ipynb*** . 


**IMPORTANTE**. Qualquer trabalho que não tenha relatório (só o código)  não é avaliado e tem 0 de nota. Os comentários incluidos no código, embora importantes, não serão considerados como parte do relatório.

No  relatório podem começar por referir um resumo do que foi feito, indicar se alguma coisa ficou por fazer, se há bugs que não conseguiram resolver, e se fizeram mais do que foi pedido.
Devem também descrever de forma clara a estrutura das explicações geradas. O relatório deve incluir exemplos de uso das vossas funções, que tenham utilizado para as testar.  No mínimo devem apresentar no relatório testes relativos a duas redes de Bayes, sendo uma delas a rede dada acima como exemplo.


### Prazo
Submetam um único 
ficheiro zip chamado  ***EC2021_indepCond_XX.zip*** com os dois ficheiros ***EC2021_indepCond_XX.py*** e ***EC2021_indepCond_XX.ipynb*** até ao dia **19 de Março** às 23:59