In [None]:
import pandas as pd
import numpy as np
import networkx as nx

from pgmpy.models import BayesianNetwork
from pgmpy.inference import VariableElimination, CausalInference
from pgmpy.estimators import MaximumLikelihoodEstimator, BayesianEstimator, HillClimbSearch
from pgmpy.metrics import structure_score
from pgmpy.utils import get_example_model
from pgmpy.inference import VariableElimination
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report


Bem vindos √† atividade sobre REDES BAYESIANAS <3 <3
Vamos usar a biblioteca pgmpy para facilitar a manipula√ß√£o das RBs. Provavelmente voc√™s ter√£o que instalar essa biblioteca e talvez passar um pouquinho de raiva com problemas de compatibilidade at√© fazer funcionar. *Ningu√©m mandou fazer engenharia*.


# PARTE 1: REDE ASIA E INFER√äNCIA PROBABIL√çSTICA

A nossa rede de interesse √© uma rede benchmark, chamada ASIA. Ela modela (teoricamente) fatores de risco relacionados √† tuberculose e outros problemas que podem afetar o pulm√£o, como c√¢ncer e cigarro. Podemos interpret√°-la aqui como uma rede causal. 

Ao longo da atividade, voc√™ encontrar√° partes de c√≥digo para completar, resultados para analisar, e perguntas te√≥ricas para responder. Leia tudo com aten√ß√£o!

![image.png](attachment:image.png)

Tirem um minutinho para observar a rede. Quais independ√™ncias condicionais voc√™ identifica?
Caso n√£o tenhamos nenhuma evid√™ncia, as vari√°veis Asia e Smoker est√£o d-separadas ou d-conectadas? Qual vari√°vel ter√≠amos que observar para mudar isso?

In [897]:

asia = get_example_model("asia")

inference = VariableElimination(asia)
prob_tub = inference.query(variables=["tub"], evidence={'asia': 'yes'})
print(prob_tub)

print("N√≥s:", asia.nodes())
print("Arestas:", asia.edges())


+----------+------------+
| tub      |   phi(tub) |
| tub(yes) |     0.0500 |
+----------+------------+
| tub(no)  |     0.9500 |
+----------+------------+
N√≥s: ['asia', 'tub', 'smoke', 'lung', 'bronc', 'either', 'xray', 'dysp']
Arestas: [('asia', 'tub'), ('tub', 'either'), ('smoke', 'lung'), ('smoke', 'bronc'), ('lung', 'either'), ('bronc', 'dysp'), ('either', 'xray'), ('either', 'dysp')]


In [898]:
prob = inference.query(variables=['tub'], evidence={'dysp': 'yes'})
print(prob)


+----------+------------+
| tub      |   phi(tub) |
| tub(yes) |     0.0188 |
+----------+------------+
| tub(no)  |     0.9812 |
+----------+------------+


In [899]:
prob = inference.query(variables=['tub'], evidence={'lung': 'no'})
print(prob)

+----------+------------+
| tub      |   phi(tub) |
| tub(yes) |     0.0104 |
+----------+------------+
| tub(no)  |     0.9896 |
+----------+------------+


Vamos brincar um pouco com infer√™ncia. A ideia √© usar pgmpy para fazer perguntas de probabilidade condicional.

1. Encontre alguma configura√ß√£o de evid√™ncias que aumente a probabilidade de tuberculose.
2. Escolha 2 independ√™ncias condicionais verificadas por d-separa√ß√£o e mostre que elas s√£o verdadeiras fazendo a infer√™ncia.

# PARTE 2: APRENDIZADO ESTRUTURAL E CLASSIFICA√á√ÉO DE DADOS

Vamos agora carregar alguns dados, ou seja, observa√ß√µes das vari√°veis da rede, e fazer alguns testes. Estamos interessados, por exemplo, em saber se podemos estimar uma rede boa o bastante, usando algum algoritmo de aprendizado de RBs, e comparar a rede estimada com a rede real.

In [900]:
# carregando o dataset

data = pd.read_csv("asia10K.csv")
data = data.replace({'yes': 1, 'no': 0})
data.rename(columns={
    'Smoker': 'smoke',
    'LungCancer': 'lung',
    'VisitToAsia': 'asia',
    'Tuberculosis': 'tub',
    'TuberculosisOrCancer': 'either',
    'X-ray': 'xray',
    'Bronchitis': 'bronc',
    'Dyspnea': 'dysp'
}, inplace=True)

  data = data.replace({'yes': 1, 'no': 0})


In [901]:
data.shape

(10000, 8)

In [902]:
data.head()

Unnamed: 0,smoke,lung,asia,tub,either,xray,bronc,dysp
0,1,1,0,0,1,1,1,1
1,0,0,0,0,0,1,1,1
2,0,0,0,0,0,0,1,1
3,0,0,0,0,0,0,1,1
4,1,0,0,0,0,0,1,0


Vamos invocar o algoritmo Hill Climbing (HC) para aprender uma rede a partir desses dados.
Como o HC funciona?
Quais suas vantagens e limita√ß√µes?

In [903]:
est = HillClimbSearch(data)
model = est.estimate(scoring_method="bicscore")

  0%|          | 13/1000000 [00:00<4:39:33, 59.62it/s]


In [904]:
model.edges()

OutEdgeView([('smoke', 'tub'), ('tub', 'lung'), ('tub', 'asia'), ('either', 'lung'), ('either', 'xray'), ('either', 'tub'), ('either', 'smoke'), ('bronc', 'smoke'), ('bronc', 'either'), ('dysp', 'bronc'), ('dysp', 'either')])

Provavelmente, as arestas do modelo estimado n√£o s√£o as mesmas que a rede real. Por que isso aconteceu?

O modelo identificou outras arestas que o modelo te√≥rico n√£o mostrou. Os dados apresentaram correla√ß√£o frente ao banco de dados dispon√≠vel.

Vamos agora ver como usar RBs para classifica√ß√£o de dados e comparar a rede real e uma rede estimada. Para isso, vamos imaginar um cen√°rio em que temos poucos dados.

In [905]:
poucos_dados = data.sample(n=100, random_state=42)

Separe os dados em treino e teste. Vamos usar a parte de treino para estimar uma RB usando HC, e o teste para medir a acur√°cia de classifica√ß√£o. 
Nossa vari√°vel alvo ser√° a predi√ß√£o de bronquite.

In [None]:
# separe os dados em treino e teste
train_data, test_data = train_test_split(poucos_dados, test_size=0.3, random_state=42)

In [907]:
# estime uma RB usando HC nos dados de treino
est = HillClimbSearch(train_data)
model_treino = est.estimate(scoring_method="bicscore", tabu_length=1000)

  0%|          | 6/1000000 [00:00<5:23:00, 51.60it/s]


Ao estimar uma RB usando HC com poucos dados, √© comum que alguma vari√°vel acabe ficando de fora. No caso da rede ASIA, √© comum que a vari√°vel A n√£o entre no DAG, pois ela apresenta uma correla√ß√£o mais fraca com as demais. Verifique se √© o caso. Caso aconte√ßa, n√£o se preocupe, vamos trabalhar com o DAG do jeito que o algoritmo retornar mesmo.

In [908]:
model_treino.edges()

OutEdgeView([('either', 'lung'), ('either', 'xray'), ('either', 'tub'), ('bronc', 'smoke'), ('dysp', 'bronc'), ('dysp', 'either')])

O algoritmo HC nos d√° a estrutura (topologia) da rede, mas n√£o os seus par√¢metros (as distribui√ß√µes de probabilidade). Precisamos dos par√¢metros para fazer infer√™ncia e classificar dados, ent√£o vamos usar a pgmpy para obt√™-los.

In [909]:
model_treino = BayesianNetwork(model_treino.edges()) # isso √© necess√°rio para criar o modelo pgmpy
model_treino.fit(train_data, estimator=MaximumLikelihoodEstimator) # aqui estimamos os par√¢metros

In [910]:
# verificar quais s√£o as vari√°veis presentes no modelo
set_of_variables = set()
for edge in model_treino.edges():
    set_of_variables.add(edge[0])
    set_of_variables.add(edge[1])

In [911]:
set_of_variables

{'bronc', 'dysp', 'either', 'lung', 'smoke', 'tub', 'xray'}

In [912]:
# infer√™ncia
inference = VariableElimination(model_treino)
target = "bronc"

model_vars = set(model_treino.nodes())
evidence_vars = [c for c in test_data.columns if c in model_vars and c != target]

predicted_labels = []
for i in range(test_data.shape[0]):
    evidence = test_data.iloc[i][evidence_vars].to_dict()

    # converte eventuais 'yes'/'no' residuais para 0/1
    evidence = {k: (1 if v == "yes" else 0 if v == "no" else v) for k, v in evidence.items()}

    q = inference.query(variables=[target], evidence=evidence)

    # q.values = [P(bronc=0), P(bronc=1)]
    pred = int(np.argmax(q.values))  # escolhe 0 ou 1
    predicted_labels.append(pred)

predicted_labels = np.array(predicted_labels)

In [None]:
# vamos medir as m√©tricas de acur√°cia de classifica√ß√£o
assert len(test_data) == len(predicted_labels), (len(test_data), len(predicted_labels))

accuracy  = accuracy_score(test_data['bronc'], predicted_labels)
precision = precision_score(test_data['bronc'], predicted_labels, zero_division=0)
recall    = recall_score(test_data['bronc'], predicted_labels, zero_division=0)
f1        = f1_score(test_data['bronc'], predicted_labels, zero_division=0)

print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1:        {f1:.4f}")
print("\nMatriz de confus√£o:\n", confusion_matrix(test_data['bronc'], predicted_labels))
print("\nRelat√≥rio de classifica√ß√£o:\n", classification_report(test_data['bronc'], predicted_labels, digits=4, zero_division=0))

Accuracy:  0.8667
Precision: 1.0000
Recall:    0.7647
F1:        0.8667

Matriz de confus√£o:
 [[13  0]
 [ 4 13]]

Relat√≥rio de classifica√ß√£o:
               precision    recall  f1-score   support

           0     0.7647    1.0000    0.8667        13
           1     1.0000    0.7647    0.8667        17

    accuracy                         0.8667        30
   macro avg     0.8824    0.8824    0.8667        30
weighted avg     0.8980    0.8667    0.8667        30



----------------------------------------------------------


In [914]:
# Vamos agora fazer a mesma infer√™ncia, mas usando a rede Asia original.
asia_original = get_example_model("asia")
asia_original.edges()

OutEdgeView([('asia', 'tub'), ('tub', 'either'), ('smoke', 'lung'), ('smoke', 'bronc'), ('lung', 'either'), ('bronc', 'dysp'), ('either', 'xray'), ('either', 'dysp')])

In [915]:
# A rede original no pgmpy usa 'yes' e 'no' como valores das vari√°veis, ent√£o precisamos ajustar os dados de teste
test_data = test_data.replace({1: 'yes', 0: 'no'})

In [916]:
# verificar quais s√£o as vari√°veis presentes no modelo
set_of_variables = set()
for edge in asia_original.edges():
    set_of_variables.add(edge[0])
    set_of_variables.add(edge[1])

set_of_variables

{'asia', 'bronc', 'dysp', 'either', 'lung', 'smoke', 'tub', 'xray'}

In [917]:
# infer√™ncia
inference = VariableElimination(asia_original)
target = "bronc"

model_vars = set(asia_original.nodes())
evidence_vars = [c for c in test_data.columns if c in model_vars and c != target]

predicted_labels = []
for i in range(test_data.shape[0]):
    evidence = test_data.iloc[i][evidence_vars].to_dict()

    # converte eventuais 'yes'/'no' residuais para 0/1
    evidence = {k: ('yes' if v == 1 else 'no') for k, v in evidence.items()}

    q = inference.query(variables=[target], evidence=evidence)

    # q.values = [P(bronc=0), P(bronc=1)]
    pred = int(np.argmax(q.values))  # escolhe 0 ou 1
    predicted_labels.append(pred)

predicted_labels = np.array(predicted_labels)

In [918]:
assert len(test_data) == len(predicted_labels), (len(test_data), len(predicted_labels))

# üëá converte r√≥tulos verdadeiros para 0/1, mantendo o resto igual
y_true = test_data['bronc']
if y_true.dtype == object:
    y_true = y_true.map({'no': 0, 'yes': 1}).astype(int)

y_pred = np.asarray(predicted_labels, dtype=int)

accuracy  = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred, zero_division=0)
recall    = recall_score(y_true, y_pred, zero_division=0)
f1        = f1_score(y_true, y_pred, zero_division=0)

print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1:        {f1:.4f}")
print("\nMatriz de confus√£o:\n", confusion_matrix(y_true, y_pred))
print("\nRelat√≥rio de classifica√ß√£o:\n", classification_report(y_true, y_pred, digits=4, zero_division=0))


Accuracy:  0.5667
Precision: 0.5667
Recall:    1.0000
F1:        0.7234

Matriz de confus√£o:
 [[ 0 13]
 [ 0 17]]

Relat√≥rio de classifica√ß√£o:
               precision    recall  f1-score   support

           0     0.0000    0.0000    0.0000        13
           1     0.5667    1.0000    0.7234        17

    accuracy                         0.5667        30
   macro avg     0.2833    0.5000    0.3617        30
weighted avg     0.3211    0.5667    0.4099        30



Compare as m√©tricas da rede estimada usando HC e da rede asia original. O que aconteceu? Como voc√™ explica esse fen√¥meno? O que poderia ser feito diferente? Experimente refazer o experimento usando mais dados e veja se algo muda.

In [919]:
muitos_dados = data.sample(n=10000, random_state=42)

train_data, test_data = train_test_split(muitos_dados, test_size=0.3, random_state=42)

# estime uma RB usando HC nos dados de treino
est = HillClimbSearch(train_data)
model_treino_MD_HC = est.estimate(scoring_method="bicscore", tabu_length=1000)

model_treino_MD_HC = BayesianNetwork(model_treino_MD_HC.edges()) # isso √© necess√°rio para criar o modelo pgmpy
model_treino_MD_HC.fit(train_data, estimator=MaximumLikelihoodEstimator) # aqui estimamos os par√¢metros

# infer√™ncia
inference = VariableElimination(model_treino_MD_HC)
target = "bronc"

model_vars = set(model_treino_MD_HC.nodes())
evidence_vars = [c for c in test_data.columns if c in model_vars and c != target]

predicted_labels = []
for i in range(test_data.shape[0]):
    evidence = test_data.iloc[i][evidence_vars].to_dict()

    # converte eventuais 'yes'/'no' residuais para 0/1
    evidence = {k: (1 if v == "yes" else 0 if v == "no" else v) for k, v in evidence.items()}

    q = inference.query(variables=[target], evidence=evidence)

    # q.values = [P(bronc=0), P(bronc=1)]
    pred = int(np.argmax(q.values))  # escolhe 0 ou 1
    predicted_labels.append(pred)

predicted_labels = np.array(predicted_labels)

assert len(test_data) == len(predicted_labels), (len(test_data), len(predicted_labels))

accuracy  = accuracy_score(test_data['bronc'], predicted_labels)
precision = precision_score(test_data['bronc'], predicted_labels, zero_division=0)
recall    = recall_score(test_data['bronc'], predicted_labels, zero_division=0)
f1        = f1_score(test_data['bronc'], predicted_labels, zero_division=0)

print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1:        {f1:.4f}")
print("\nMatriz de confus√£o:\n", confusion_matrix(test_data['bronc'], predicted_labels))
print("\nRelat√≥rio de classifica√ß√£o:\n", classification_report(test_data['bronc'], predicted_labels, digits=4, zero_division=0))

  0%|          | 0/1000000 [00:00<?, ?it/s]

  0%|          | 10/1000000 [00:00<5:28:11, 50.78it/s]


Accuracy:  0.8500
Precision: 0.8588
Recall:    0.8007
F1:        0.8288

Matriz de confus√£o:
 [[1461  179]
 [ 271 1089]]

Relat√≥rio de classifica√ß√£o:
               precision    recall  f1-score   support

           0     0.8435    0.8909    0.8665      1640
           1     0.8588    0.8007    0.8288      1360

    accuracy                         0.8500      3000
   macro avg     0.8512    0.8458    0.8477      3000
weighted avg     0.8505    0.8500    0.8494      3000



In [None]:
# Vamos agora fazer a mesma infer√™ncia, mas usando a rede Asia original.
asia_original = get_example_model("asia")
asia_original.edges()

# infer√™ncia
inference = VariableElimination(asia_original)
target = "bronc"

model_vars = set(asia_original.nodes())
evidence_vars = [c for c in test_data.columns if c in model_vars and c != target]

predicted_labels = []
for i in range(test_data.shape[0]):
    evidence = test_data.iloc[i][evidence_vars].to_dict()

    # converte eventuais 'yes'/'no' residuais para 0/1
    evidence = {k: ('yes' if v == 1 else 'no') for k, v in evidence.items()}

    q = inference.query(variables=[target], evidence=evidence)

    # q.values = [P(bronc=0), P(bronc=1)]
    pred = int(np.argmax(q.values))  # escolhe 0 ou 1
    predicted_labels.append(pred)

predicted_labels = np.array(predicted_labels)

assert len(test_data) == len(predicted_labels), (len(test_data), len(predicted_labels))

# Converte r√≥tulos verdadeiros para 0/1, mantendo o resto igual
y_true = test_data['bronc']
if y_true.dtype == object:
    y_true = y_true.map({'no': 0, 'yes': 1}).astype(int)

y_pred = np.asarray(predicted_labels, dtype=int)

accuracy  = accuracy_score(y_true, y_pred)
precision = precision_score(y_true, y_pred, zero_division=0)
recall    = recall_score(y_true, y_pred, zero_division=0)
f1        = f1_score(y_true, y_pred, zero_division=0)

print(f"Accuracy:  {accuracy:.4f}")
print(f"Precision: {precision:.4f}")
print(f"Recall:    {recall:.4f}")
print(f"F1:        {f1:.4f}")
print("\nMatriz de confus√£o:\n", confusion_matrix(y_true, y_pred))
print("\nRelat√≥rio de classifica√ß√£o:\n", classification_report(y_true, y_pred, digits=4, zero_division=0))


Accuracy:  0.1500
Precision: 0.1565
Recall:    0.1993
F1:        0.1753

Matriz de confus√£o:
 [[ 179 1461]
 [1089  271]]

Relat√≥rio de classifica√ß√£o:
               precision    recall  f1-score   support

           0     0.1412    0.1091    0.1231      1640
           1     0.1565    0.1993    0.1753      1360

    accuracy                         0.1500      3000
   macro avg     0.1488    0.1542    0.1492      3000
weighted avg     0.1481    0.1500    0.1468      3000



# Discuss√£o

A rede 'Asia_original' foi constru√≠do baseado em um modelo te√≥rico em rela√ß√µes gerais e probabilidades fixas de refer√™ncia. Dessa forma ela n√£o foi ajustada para o conjunto de dados utilizado 'asia10K.csv', portanto n√£o representa as distribui√ß√µes emp√≠ricas do banco de dados. 

Por outro lado a rede Hill Climb foi baseada diretamente no dados fornecidos, maximizando o score de verossimilhan√ßa (BIC), capturando correla√ß√µes espec√≠ficas incluindo ru√≠dos e rela√ß√µes acidentais. Isso explica um desempenho melhor para previs√£o de Bronquite.

## Quantidade de Dados

A rede HC manteve um alto desempenho no aumento de dados 86.7% --> 85%, mostrando que a base maior foi capaz de manter uma generaliza√ß√£o e n√£o obteve overfitting. 

Entretanto a rede Asia Original piorou dr√°sticamente, de 56.7% --> 15%. Isso mostrou h√° uma grande diverg√™ncia entre o modelo te√≥rico e a distribui√ß√£o emp√≠rica √† medida que a amostra cresce. 

| M√©trica   | HC (poucos) | Asia (poucos) | HC (muitos) | Asia (muitos) |
| --------- | ----------- | ------------- | ----------- | ------------- |
| Accuracy  | 0.8667      | 0.5667        | 0.8500      | 0.1500        |
| Precision | 1.0000      | 0.5667        | 0.8588      | 0.1565        |
| Recall    | 0.7647      | 1.0000        | 0.8007      | 0.1993        |
| F1        | 0.8667      | 0.7234        | 0.8288      | 0.1753        |


## Overfitting

No experimento com poucos dados, a rede aprendida pelo algoritmo Hill Climbing atingiu uma precis√£o perfeita, acertando todas as vezes em que previu a presen√ßa de bronquite. Apesar de parecer um √≥timo resultado, isso indica que o modelo se ajustou demais aos dados dispon√≠veis, ficando muito espec√≠fico aos padr√µes daquele conjunto. Ele passou a prever apenas quando tinha ‚Äúcerteza‚Äù, o que explica a queda no recall e mostra que, com t√£o poucas amostras, o modelo acabou aprendendo tamb√©m ru√≠dos e particularidades do treino, perdendo parte da capacidade de generalizar para novos casos.
