# 1. Exploração e Pré-processamento dos Dados


## a. Análise Exploratória

In [None]:
# Importação de bibliotecas:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


In [None]:
# Carregamento do dataset:
df = pd.read_csv('caminho/do/seu/dataset.csv')

# Exibição das primeiras linhas:
print(df.head())

# Análise estatística básica:
print(df.describe())
print(df.info())


## b. Visualização das Variáveis

In [None]:
# Histogramas para variáveis numéricas (como age, hours-per-week, capital-gain, etc.):

df.hist(bins=30, figsize=(15, 10))
plt.show()

# Gráficos de dispersão e boxplots para variáveis categóricas e numéricas:

sns.boxplot(x='income', y='age', data=df)
plt.show()
sns.countplot(x='education', hue='income', data=df)
plt.xticks(rotation=45)
plt.show()




## c. Tratamento de Valores Ausentes e Atípicos

In [None]:
# Identificação de valores ausentes:

print(df.isnull().sum())


# Tratamento:

df.fillna(method='ffill', inplace=True)  # Exemplo: preenchendo valores ausentes

# Remoção de outliers (exemplo com age):

df = df[(np.abs(stats.zscore(df['age'])) < 3)]  # Usando Z-score


## d. Codificação de Variáveis

In [None]:
# Codificação de variáveis categóricas (como workclass, education, marital-status, 
# occupation, relationship, race, gender, e native-country):

df = pd.get_dummies(df, columns=['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'gender', 'native-country'], drop_first=True)



# 2. Estruturação da Rede Bayesiana

## a. Construção da Rede

In [None]:
# Importação de bibliotecas necessárias:

from pgmpy.models import BayesianModel

# Definição das dependências: Com base na análise exploratória, você pode considerar 
# variáveis como age, education, occupation e hours-per-week como influentes na variável income.

model = BayesianModel([
    ('age', 'income'),
    ('education', 'income'),
    ('occupation', 'income'),
    ('hours-per-week', 'income')
])




## b. Justificação da Estrutura

In [None]:
# Análise de dados e conhecimento prévio: A escolha das dependências deve ser justificada com base em:

#     A correlação observada nas análises.
#     O conhecimento prévio sobre como essas variáveis afetam a renda.



# 3. Treinamento e Ajuste de Hiperparâmetros

## a. Treinamento da Rede

In [4]:
# Importação de dados para treinamento:

from pgmpy.inference import VariableElimination
from pgmpy.estimators import MaximumLikelihoodEstimator

model.fit(df, estimator=MaximumLikelihoodEstimator)



ModuleNotFoundError: No module named 'pgmpy'

## b. Ajuste de Hiperparâmetros

In [None]:
# Ajuste da estrutura da rede: Você pode usar métodos como K2 ou Hill Climb para otimizar a estrutura.

from pgmpy.estimators import HillClimbSearch, BicScore

hc = HillClimbSearch(df)
best_model = hc.estimate(scoring_method=BicScore(df))




# 4. Avaliação do Modelo

## a. Uso de Métricas

In [None]:
# Predição e avaliação:

inference = VariableElimination(model)
predicted = inference.map_query(variables=['income'], evidence={'age': 30, 'education_HS-grad': 1, 'occupation_Exec-managerial': 1})



## b. Cálculo de Métricas

In [None]:
# Acurácia, Entropia Cruzada, AUC:
# Primeiro, divida seus dados em conjuntos de treino e teste.

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score

X_train, X_test, y_train, y_test = train_test_split(df.drop('income', axis=1), df['income'], test_size=0.2, random_state=42)

# Após treinar seu modelo, faça previsões
y_pred = model.predict(X_test)

print("Acurácia:", accuracy_score(y_test, y_pred))
print("AUC:", roc_auc_score(y_test, y_pred))
