## Questão 1

Carregando dados:

In [1]:
import pandas as pd

# Carregar dados de treinamento
train_data = pd.read_csv('credtrain.txt', sep='\t', header=None)
test_data = pd.read_csv('credtest.txt', sep='\t', header=None)

# Definir os nomes das colunas
columns = [
    'ESCT', 'NDEP', 'RENDA', 'TIPOR', 'VBEM', 'NPARC', 'VPARC', 'TEL', 'IDADE', 'RESMS', 'ENTRADA', 'CLASSE'
]
train_data.columns = columns
test_data.columns = columns

Passo 2: Pré-processamento dos dados
Precisamos codificar os atributos categóricos e normalizar os atributos contínuos.

Codificação de atributos categóricos
Vamos usar One-Hot Encoding para os atributos categóricos.

In [2]:
from sklearn.preprocessing import OneHotEncoder

# Selecionar colunas categóricas
categorical_cols = ['ESCT', 'NDEP', 'TIPOR', 'TEL']

# Aplicar One-Hot Encoding
# The 'sparse' argument has been replaced with 'sparse_output'
encoder = OneHotEncoder(drop='first', sparse_output=False)
encoded_train = encoder.fit_transform(train_data[categorical_cols])
encoded_test = encoder.transform(test_data[categorical_cols])

# Criar DataFrames com as colunas codificadas
encoded_train_df = pd.DataFrame(encoded_train, columns=encoder.get_feature_names_out(categorical_cols))
encoded_test_df = pd.DataFrame(encoded_test, columns=encoder.get_feature_names_out(categorical_cols))

# Remover colunas categóricas originais e adicionar as codificadas
train_data = train_data.drop(categorical_cols, axis=1).join(encoded_train_df)
test_data = test_data.drop(categorical_cols, axis=1).join(encoded_test_df)

Normalização de atributos contínuos
Vamos usar StandardScaler para normalizar os atributos contínuos.

In [3]:
from sklearn.preprocessing import StandardScaler

# Selecionar colunas numéricas
numeric_cols = ['RENDA', 'VBEM', 'NPARC', 'VPARC', 'IDADE', 'RESMS', 'ENTRADA']

# Aplicar StandardScaler
scaler = StandardScaler()
train_data[numeric_cols] = scaler.fit_transform(train_data[numeric_cols])
test_data[numeric_cols] = scaler.transform(test_data[numeric_cols])

Passo 3: Separar features e target
Agora, vamos separar as features (X) e o target (y) para treinamento e teste.

In [4]:
# Separar features e target
X_train = train_data.drop('CLASSE', axis=1)
y_train = train_data['CLASSE']
X_test = test_data.drop('CLASSE', axis=1)
y_test = test_data['CLASSE']

Passo 4: Treinar os modelos
Vamos treinar os modelos LogisticRegression, KNeighborsClassifier e XGBClassifier.

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from xgboost import XGBClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Modelo 1: Logistic Regression
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)

# Modelo 2: K-Nearest Neighbors
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

# Modelo 3: XGBoost
xgb = XGBClassifier()
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

Passo 5: Avaliar os modelos
Vamos avaliar os modelos usando a matriz de confusão e o relatório de classificação.

Matriz de Confusão e Relatório de Classificação

In [6]:
from sklearn.metrics import confusion_matrix, classification_report

# Função para exibir resultados
def evaluate_model(y_true, y_pred, model_name):
    print(f"Matriz de Confusão - {model_name}:")
    print(confusion_matrix(y_true, y_pred))
    print(f"\nRelatório de Classificação - {model_name}:")
    print(classification_report(y_true, y_pred))

# Avaliar Logistic Regression
evaluate_model(y_test, y_pred_log_reg, "Logistic Regression")

# Avaliar K-Nearest Neighbors
evaluate_model(y_test, y_pred_knn, "K-Nearest Neighbors")

# Avaliar XGBoost
evaluate_model(y_test, y_pred_xgb, "XGBoost")

Matriz de Confusão - Logistic Regression:
[[291  15]
 [ 48 223]]

Relatório de Classificação - Logistic Regression:
              precision    recall  f1-score   support

           0       0.86      0.95      0.90       306
           1       0.94      0.82      0.88       271

    accuracy                           0.89       577
   macro avg       0.90      0.89      0.89       577
weighted avg       0.90      0.89      0.89       577

Matriz de Confusão - K-Nearest Neighbors:
[[275  31]
 [ 53 218]]

Relatório de Classificação - K-Nearest Neighbors:
              precision    recall  f1-score   support

           0       0.84      0.90      0.87       306
           1       0.88      0.80      0.84       271

    accuracy                           0.85       577
   macro avg       0.86      0.85      0.85       577
weighted avg       0.86      0.85      0.85       577

Matriz de Confusão - XGBoost:
[[273  33]
 [ 40 231]]

Relatório de Classificação - XGBoost:
              precisio

Resultados Esperados
A matriz de confusão mostrará os valores de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.

O relatório de classificação mostrará métricas como precisão, recall, F1-score e acurácia para cada modelo.

Conclusão
Com isso, você terá os modelos treinados e avaliados

## Questão 2 

Passo 1: Carregar os Dados

In [7]:
import pandas as pd

# Carregar dados de treinamento e teste
train_data = pd.read_csv('credtrain.txt', sep='\t', header=None)
test_data = pd.read_csv('credtest.txt', sep='\t', header=None)

# Definir nomes das colunas
columns = ['ESCT', 'NDEP', 'RENDA', 'TIPOR', 'VBEM', 'NPARC', 'VPARC', 'TEL', 'IDADE', 'RESMS', 'ENTRADA', 'CLASSE']
train_data.columns = columns
test_data.columns = columns

Passo 2: Aplicar Target Encoding
Vamos usar a biblioteca category_encoders para aplicar o Target Encoding.

In [8]:
from category_encoders import TargetEncoder

# Selecionar colunas categóricas
categorical_cols = ['ESCT', 'NDEP', 'TIPOR', 'TEL']

# Aplicar Target Encoding
encoder = TargetEncoder(cols=categorical_cols)
train_data_encoded = encoder.fit_transform(train_data[categorical_cols], train_data['CLASSE'])
test_data_encoded = encoder.transform(test_data[categorical_cols])

# Substituir colunas categóricas originais pelas codificadas
train_data[categorical_cols] = train_data_encoded
test_data[categorical_cols] = test_data_encoded

Passo 3: Normalizar Atributos Numéricos
A normalização dos atributos numéricos já foi feita na Questão 1.

In [9]:
from sklearn.preprocessing import StandardScaler

# Selecionar colunas numéricas
numeric_cols = ['RENDA', 'VBEM', 'NPARC', 'VPARC', 'IDADE', 'RESMS', 'ENTRADA']

# Aplicar StandardScaler
scaler = StandardScaler()
train_data[numeric_cols] = scaler.fit_transform(train_data[numeric_cols])
test_data[numeric_cols] = scaler.transform(test_data[numeric_cols])

Passo 4: Separar Features e Target
Separe as features (X) e o target (y) para treinamento e teste:

In [10]:
# Separar features e target
X_train = train_data.drop('CLASSE', axis=1)
y_train = train_data['CLASSE']
X_test = test_data.drop('CLASSE', axis=1)
y_test = test_data['CLASSE']

Passo 5: Treinar e Avaliar Modelos

Agora, treine os modelos (Logistic Regression, K-Nearest Neighbors e XGBoost) usando os dados codificados com Target Encoding e compare os resultados com os obtidos na Questão 1.

In [11]:
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from xgboost import XGBClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Modelo 1: Logistic Regression
log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
y_pred_log_reg = log_reg.predict(X_test)

# Modelo 2: K-Nearest Neighbors
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
y_pred_knn = knn.predict(X_test)

# Modelo 3: XGBoost
xgb = XGBClassifier()
xgb.fit(X_train, y_train)
y_pred_xgb = xgb.predict(X_test)

# Avaliar modelos
def evaluate_model(y_true, y_pred, model_name):
    print(f"Matriz de Confusão - {model_name}:")
    print(confusion_matrix(y_true, y_pred))
    print(f"\nRelatório de Classificação - {model_name}:")
    print(classification_report(y_true, y_pred))

evaluate_model(y_test, y_pred_log_reg, "Logistic Regression")
evaluate_model(y_test, y_pred_knn, "K-Nearest Neighbors")
evaluate_model(y_test, y_pred_xgb, "XGBoost")

Matriz de Confusão - Logistic Regression:
[[287  19]
 [ 49 222]]

Relatório de Classificação - Logistic Regression:
              precision    recall  f1-score   support

           0       0.85      0.94      0.89       306
           1       0.92      0.82      0.87       271

    accuracy                           0.88       577
   macro avg       0.89      0.88      0.88       577
weighted avg       0.89      0.88      0.88       577

Matriz de Confusão - K-Nearest Neighbors:
[[263  43]
 [ 61 210]]

Relatório de Classificação - K-Nearest Neighbors:
              precision    recall  f1-score   support

           0       0.81      0.86      0.83       306
           1       0.83      0.77      0.80       271

    accuracy                           0.82       577
   macro avg       0.82      0.82      0.82       577
weighted avg       0.82      0.82      0.82       577

Matriz de Confusão - XGBoost:
[[279  27]
 [ 42 229]]

Relatório de Classificação - XGBoost:
              precisio

## Questão 3 (finalizar a questão, não consegui achar os arquivos pra load)

1. Dados Necessários
A questão menciona que são fornecidos arquivos no formato .npy:

X_train.npy: Dados de treinamento (features).

y_train.npy: Labels de treinamento (variável alvo).

X_val.npy: Dados de validação (features).

y_val.npy: Labels de validação (variável alvo).

X_test.npy: Dados de teste (features).

y_test.npy: Labels de teste (variável alvo).

Esses arquivos contêm os conjuntos de dados para treinamento, validação e teste, já pré-processados. Se você não tiver esses arquivos, será necessário obtê-los ou gerá-los.

2. Passos para Implementar a Questão 3

Passo 1: Carregar os Dados


In [1]:
import numpy as np

# Carregar dados
X_train = np.load('X_train.npy')
y_train = np.load('y_train.npy')
X_val = np.load('X_val.npy')
y_val = np.load('y_val.npy')
X_test = np.load('X_test.npy')
y_test = np.load('y_test.npy')

FileNotFoundError: [Errno 2] No such file or directory: 'X_train.npy'

Passo 2: Verificar Desbalanceamento
Verifique se os dados estão desbalanceados, ou seja, se uma classe tem muito mais exemplos que a outra.

In [1]:
import numpy as np

# Verificar balanceamento das classes
unique, counts = np.unique(y_train, return_counts=True)
print("Distribuição das classes no treino:", dict(zip(unique, counts)))

unique, counts = np.unique(y_test, return_counts=True)
print("Distribuição das classes no teste:", dict(zip(unique, counts)))

NameError: name 'y_train' is not defined

Se uma classe tiver muito mais exemplos que a outra, os dados estão desbalanceados.

3. Técnicas para Lidar com Conjuntos Desbalanceados
A questão pede para testar três técnicas de balanceamento:

Undersampling: Reduzir a quantidade de exemplos da classe majoritária.

Oversampling: Aumentar a quantidade de exemplos da classe minoritária.

Alteração de Limiar: Ajustar o limiar de decisão do modelo para melhorar a classificação da classe minoritária.

Técnica 1: Undersampling
Reduza a quantidade de exemplos da classe majoritária para equilibrar as classes.

In [None]:
from imblearn.under_sampling import RandomUnderSampler

# Aplicar undersampling
undersampler = RandomUnderSampler(random_state=42)
X_train_under, y_train_under = undersampler.fit_resample(X_train, y_train)

# Verificar balanceamento após undersampling
unique, counts = np.unique(y_train_under, return_counts=True)
print("Distribuição após undersampling:", dict(zip(unique, counts)))

Técnica 2: Oversampling
Aumente a quantidade de exemplos da classe minoritária usando técnicas como SMOTE (Synthetic Minority Over-sampling Technique).

In [None]:
from imblearn.over_sampling import SMOTE

# Aplicar oversampling com SMOTE
oversampler = SMOTE(random_state=42)
X_train_over, y_train_over = oversampler.fit_resample(X_train, y_train)

# Verificar balanceamento após oversampling
unique, counts = np.unique(y_train_over, return_counts=True)
print("Distribuição após oversampling:", dict(zip(unique, counts)))

Técnica 3: Alteração de Limiar
Ajuste o limiar de decisão do modelo para melhorar a classificação da classe minoritária.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix

# Treinar modelo sem ajuste de limiar
model = LogisticRegression()
model.fit(X_train, y_train)

# Prever probabilidades
y_pred_proba = model.predict_proba(X_test)[:, 1]

# Ajustar limiar (exemplo: 0.3)
threshold = 0.3
y_pred_adjusted = (y_pred_proba > threshold).astype(int)

# Avaliar modelo com limiar ajustado
print("Matriz de Confusão com Limiar Ajustado:")
print(confusion_matrix(y_test, y_pred_adjusted))
print("\nRelatório de Classificação com Limiar Ajustado:")
print(classification_report(y_test, y_pred_adjusted))

4. Avaliação dos Modelos
Avalie os modelos treinados com cada técnica usando métricas como precisão, recall, F1-score e matriz de confusão.

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

# Função para avaliar modelos
def evaluate_model(y_true, y_pred, model_name):
    print(f"Matriz de Confusão - {model_name}:")
    print(confusion_matrix(y_true, y_pred))
    print(f"\nRelatório de Classificação - {model_name}:")
    print(classification_report(y_true, y_pred))

# Exemplo de avaliação para undersampling
model_under = LogisticRegression()
model_under.fit(X_train_under, y_train_under)
y_pred_under = model_under.predict(X_test)
evaluate_model(y_test, y_pred_under, "Undersampling")

# Exemplo de avaliação para oversampling
model_over = LogisticRegression()
model_over.fit(X_train_over, y_train_over)
y_pred_over = model_over.predict(X_test)
evaluate_model(y_test, y_pred_over, "Oversampling")

5. Comparação das Técnicas
Compare os resultados das três técnicas (undersampling, oversampling e alteração de limiar) para determinar qual é mais eficaz no seu problema.

In [None]:
6. Bibliotecas Necessárias
Certifique-se de ter as seguintes bibliotecas instaladas:

numpy

scikit-learn

imblearn (para técnicas de balanceamento)

Se não tiver a biblioteca imblearn, instale-a com:

pip install imbalanced-learn