# Projeto de Machine Learning - Congressional Voting Records
Classificação de congressistas (Democrata ou Republicano) com base em votos de 1984.


In [23]:
# Importar bibliotecas
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, classification_report
import pickle

# Carregar dataset (sem cabeçalho)
df = pd.read_csv("../data/voting.csv", header=None)

# Substituir '?' por NaN explicitamente
df.replace('?', pd.NA, inplace=True)

# Preencher NaNs com a moda de cada coluna
for col in df.columns[1:]:
    df[col] = df[col].fillna(df[col].mode()[0])

# Converter votos para binário (y → 1, n → 0)
for col in df.columns[1:]:
    df[col] = df[col].map({'y': 1, 'n': 0})

# Codificar classe como 0 (democrat) e 1 (republican)
df[0] = df[0].map({'democrat': 0, 'republican': 1})

# Separar features e rótulo
X = df.iloc[:, 1:]
y = df.iloc[:, 0]

# Verificar se há valores ausentes
print("Valores ausentes em X:", X.isnull().sum().sum())
print("Valores ausentes em y:", y.isnull().sum())

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar modelo Naive Bayes
model = GaussianNB()
model.fit(X_train, y_train)

# Fazer previsões
y_pred = model.predict(X_test)

# Avaliar desempenho
print("Acurácia:", accuracy_score(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Salvar modelo treinado
with open("../ml/model.pkl", "wb") as f:
    pickle.dump(model, f)


Valores ausentes em X: 0
Valores ausentes em y: 0
Acurácia: 0.9195402298850575
              precision    recall  f1-score   support

           0       0.95      0.93      0.94        56
           1       0.88      0.90      0.89        31

    accuracy                           0.92        87
   macro avg       0.91      0.92      0.91        87
weighted avg       0.92      0.92      0.92        87

