Questão 1

Carregando dados:

In [21]:
import pandas as pd

# Carregar dados de treinamento
train_data = pd.read_csv('credtrain.txt', sep='\t', header=None)
test_data = pd.read_csv('credtest.txt', sep='\t', header=None)

# Definir os nomes das colunas
columns = [
    'ESCT', 'NDEP', 'RENDA', 'TIPOR', 'VBEM', 'NPARC', 'VPARC', 'TEL', 'IDADE', 'RESMS', 'ENTRADA', 'CLASSE'
]
train_data.columns = columns
test_data.columns = columns

Passo 2: Pré-processamento dos dados
Precisamos codificar os atributos categóricos e normalizar os atributos contínuos.

Codificação de atributos categóricos
Vamos usar One-Hot Encoding para os atributos categóricos.

In [22]:
from sklearn.preprocessing import OneHotEncoder

# Selecionar colunas categóricas
categorical_cols = ['ESCT', 'NDEP', 'TIPOR', 'TEL']

# Aplicar One-Hot Encoding
# The 'sparse' argument has been replaced with 'sparse_output'
encoder = OneHotEncoder(drop='first', sparse_output=False)
encoded_train = encoder.fit_transform(train_data[categorical_cols])
encoded_test = encoder.transform(test_data[categorical_cols])

# Criar DataFrames com as colunas codificadas
encoded_train_df = pd.DataFrame(encoded_train, columns=encoder.get_feature_names_out(categorical_cols))
encoded_test_df = pd.DataFrame(encoded_test, columns=encoder.get_feature_names_out(categorical_cols))

# Remover colunas categóricas originais e adicionar as codificadas
train_data = train_data.drop(categorical_cols, axis=1).join(encoded_train_df)
test_data = test_data.drop(categorical_cols, axis=1).join(encoded_test_df)

Normalização de atributos contínuos
Vamos usar StandardScaler para normalizar os atributos contínuos.

In [23]:
from sklearn.preprocessing import StandardScaler

# Selecionar colunas numéricas
numeric_cols = ['RENDA', 'VBEM', 'NPARC', 'VPARC', 'IDADE', 'RESMS', 'ENTRADA']

# Aplicar StandardScaler
scaler = StandardScaler()
train_data[numeric_cols] = scaler.fit_transform(train_data[numeric_cols])
test_data[numeric_cols] = scaler.transform(test_data[numeric_cols])

Passo 3: Separar features e target
Agora, vamos separar as features (X) e o target (y) para treinamento e teste.

In [24]:
# Separar features e target
X_train = train_data.drop('CLASSE', axis=1)
y_train = train_data['CLASSE']
X_test = test_data.drop('CLASSE', axis=1)
y_test = test_data['CLASSE']

Passo 4: Treinar os modelos
Vamos treinar os modelos LogisticRegression, KNeighborsClassifier e XGBClassifier.

In [25]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from xgboost import XGBClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Modelo 1: Logistic Regression
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)

# Modelo 2: K-Nearest Neighbors
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

# Modelo 3: XGBoost
xgb = XGBClassifier()
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

Passo 5: Avaliar os modelos
Vamos avaliar os modelos usando a matriz de confusão e o relatório de classificação.

Matriz de Confusão e Relatório de Classificação

In [26]:
from sklearn.metrics import confusion_matrix, classification_report

# Função para exibir resultados
def evaluate_model(y_true, y_pred, model_name):
    print(f"Matriz de Confusão - {model_name}:")
    print(confusion_matrix(y_true, y_pred))
    print(f"\nRelatório de Classificação - {model_name}:")
    print(classification_report(y_true, y_pred))

# Avaliar Logistic Regression
evaluate_model(y_test, y_pred_log_reg, "Logistic Regression")

# Avaliar K-Nearest Neighbors
evaluate_model(y_test, y_pred_knn, "K-Nearest Neighbors")

# Avaliar XGBoost
evaluate_model(y_test, y_pred_xgb, "XGBoost")

Matriz de Confusão - Logistic Regression:
[[291  15]
 [ 48 223]]

Relatório de Classificação - Logistic Regression:
              precision    recall  f1-score   support

           0       0.86      0.95      0.90       306
           1       0.94      0.82      0.88       271

    accuracy                           0.89       577
   macro avg       0.90      0.89      0.89       577
weighted avg       0.90      0.89      0.89       577

Matriz de Confusão - K-Nearest Neighbors:
[[275  31]
 [ 53 218]]

Relatório de Classificação - K-Nearest Neighbors:
              precision    recall  f1-score   support

           0       0.84      0.90      0.87       306
           1       0.88      0.80      0.84       271

    accuracy                           0.85       577
   macro avg       0.86      0.85      0.85       577
weighted avg       0.86      0.85      0.85       577

Matriz de Confusão - XGBoost:
[[273  33]
 [ 40 231]]

Relatório de Classificação - XGBoost:
              precisio

Resultados Esperados
A matriz de confusão mostrará os valores de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.

O relatório de classificação mostrará métricas como precisão, recall, F1-score e acurácia para cada modelo.

Conclusão
Com isso, você terá os modelos treinados e avaliados