# Análise Comparativa de dados

O objetivo desta etapa é comparar modelos para encontrar o mais adequado para o problema de predição de inadimplência em cartões de crédito. Antes de prosseguir com a análise comparativa, foram realizadas a preparação e o pré-processamento dos dados.

## 1. Preparação dos Dados

### 1.1 **Configurações Iniciais:**

1. **Configurações Iniciais:**
    - Importar bibliotecas e configurar ambiente.
    - Suprimir mensagens de aviso e filtrar mensagens de advertência.
    - Importar módulos necessários, como Path, Markdown, joblib, pandas, numpy, etc.

In [22]:
import pandas as pd
from pathlib import Path
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline

ModuleNotFoundError: No module named 'sklearn'

In [None]:
# Configurações iniciais
def warn(*args, **kwargs):
    pass

import warnings
warnings.warn = warn
warnings.filterwarnings('ignore')
warnings.simplefilter('ignore')

### 1.2 **Carregando Dados:**

2. **Carregando Dados:**
    - Definir o caminho para o arquivo CSV contendo os dados brutos.
    - Utilizar a biblioteca pandas para ler o arquivo CSV em um DataFrame.
    - Mapear valores categóricos para representações mais legíveis.
    - Renomear as colunas conforme necessário.

In [None]:
# Caminho para o arquivo CSV
file_path = '../data/raw/default_of_credit_card_clients-Data.csv'

# Carregar o arquivo CSV em um DataFrame do pandas
df = pd.read_csv(file_path)


# Exibir as primeiras linhas do DataFrame para verificar se a importação foi bem-sucedida
df.head()

Unnamed: 0.1,Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,X11,X12,X13,X14,X15,X16,X17,X18,X19,X20,X21,X22,X23,Y
0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_0,PAY_2,PAY_3,PAY_4,PAY_5,PAY_6,BILL_AMT1,BILL_AMT2,BILL_AMT3,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
1,1,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
2,2,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
3,3,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
4,4,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0


In [None]:
categories = ['ID','Limit_Bal','Sex','Education','Marriage','Age','Pay_0','Pay_2','Pay_3','Pay_4',
              'Pay_5', 'Pay_6', 'Bill_Amt1', 'Bill_Amt2', 'Bill_Amt3', 'Bill_Amt4', 'Bill_Amt5', 'Bill_Amt6',
              'Pay_Amt1','Pay_Amt2','Pay_Amt3','Pay_Amt4','Pay_Amt5','Pay_Amt6','default payment next month']

In [None]:
#Excluindo os indices xi da tabela para ficar melhor apresentável

df = pd.read_csv(file_path, header=None, names = categories)

df = df.iloc[2:,]
df.reset_index(drop=True, inplace=True) # Redefinindo os índices

pd.set_option('display.max_columns', None)
df.head()

Unnamed: 0,ID,Limit_Bal,Sex,Education,Marriage,Age,Pay_0,Pay_2,Pay_3,Pay_4,Pay_5,Pay_6,Bill_Amt1,Bill_Amt2,Bill_Amt3,Bill_Amt4,Bill_Amt5,Bill_Amt6,Pay_Amt1,Pay_Amt2,Pay_Amt3,Pay_Amt4,Pay_Amt5,Pay_Amt6,default payment next month
0,1,20000,2,2,1,24,2,2,-1,-1,-2,-2,3913,3102,689,0,0,0,0,689,0,0,0,0,1
1,2,120000,2,2,2,26,-1,2,0,0,0,2,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,3,90000,2,2,2,34,0,0,0,0,0,0,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,4,50000,2,2,1,37,0,0,0,0,0,0,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,5,50000,1,2,1,57,-1,0,-1,0,0,0,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,0


### 1.3 **Renomear Colunas e Transformações Adicionais**

3. **Renomear Colunas e Transformações Adicionais:**
    - Mapear colunas específicas para nomes mais descritivos.
    - Realizar transformações nos dados, como mapear códigos para categorias compreensíveis.
    - Exibir as primeiras linhas do DataFrame para verificar a transformação bem-sucedida.

In [None]:
sex_mapping = {1: "masculino", 2: "feminino"}
education_mapping = {1: "pós-graduação", 2: "universidade", 3: "ensino médio", 4: "outros"}
marriage_mapping = {1: "casado", 2: "solteiro", 3: "outros"}
pay_mapping = {-2: 'Fatura total paga', -1: 'Pagamento total em dia', 0: 'Pagamento parcial', 1: 'Atrasado em 1 mês', 2: 'Atrasado em 2 mês',  3: 'Atrasado em 3 mês', 4: 'Atrasado em 4 mês', 5: 'Atrasado em 5 mês', 6: 'Atrasado em 6 mês', 7: 'Atrasado em 7 mês', 8: 'Atrasado em 8 mês', 9: 'Atrasado em 9 meses ou mais'}
default_payment_mapping = {0: "não", 1: "sim"}

df["Sex"] = pd.to_numeric(df["Sex"])
df["Education"] = pd.to_numeric(df["Education"])
df["Marriage"] = pd.to_numeric(df["Marriage"])
df["Pay_0"] = pd.to_numeric(df["Pay_0"])
df["Pay_2"] = pd.to_numeric(df["Pay_2"])
df["Pay_3"] = pd.to_numeric(df["Pay_3"])
df["Pay_4"] = pd.to_numeric(df["Pay_4"])
df["Pay_5"] = pd.to_numeric(df["Pay_5"])
df["Pay_6"] = pd.to_numeric(df["Pay_6"])
df["default payment next month"] = pd.to_numeric(df["default payment next month"])

df["Sex"] = df["Sex"].map(sex_mapping)
df["Education"] = df["Education"].map(education_mapping)
df["Marriage"] = df["Marriage"].map(marriage_mapping)
df["Pay_0"] = df["Pay_0"].map(pay_mapping)
df["Pay_2"] = df["Pay_2"].map(pay_mapping)
df["Pay_3"] = df["Pay_3"].map(pay_mapping)
df["Pay_4"] = df["Pay_4"].map(pay_mapping)
df["Pay_5"] = df["Pay_5"].map(pay_mapping)
df["Pay_6"] = df["Pay_6"].map(pay_mapping)
df["default payment next month"] = df["default payment next month"].map(default_payment_mapping)

df.head()

Unnamed: 0,ID,Limit_Bal,Sex,Education,Marriage,Age,Pay_0,Pay_2,Pay_3,Pay_4,Pay_5,Pay_6,Bill_Amt1,Bill_Amt2,Bill_Amt3,Bill_Amt4,Bill_Amt5,Bill_Amt6,Pay_Amt1,Pay_Amt2,Pay_Amt3,Pay_Amt4,Pay_Amt5,Pay_Amt6,default payment next month
0,1,20000,feminino,universidade,casado,24,Atrasado em 2 mês,Atrasado em 2 mês,Pagamento total em dia,Pagamento total em dia,Fatura total paga,Fatura total paga,3913,3102,689,0,0,0,0,689,0,0,0,0,sim
1,2,120000,feminino,universidade,solteiro,26,Pagamento total em dia,Atrasado em 2 mês,Pagamento parcial,Pagamento parcial,Pagamento parcial,Atrasado em 2 mês,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,sim
2,3,90000,feminino,universidade,solteiro,34,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,não
3,4,50000,feminino,universidade,casado,37,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,não
4,5,50000,masculino,universidade,casado,57,Pagamento total em dia,Pagamento parcial,Pagamento total em dia,Pagamento parcial,Pagamento parcial,Pagamento parcial,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,não


In [None]:
novo_nome_colunas = {
    'ID': 'ID',
    'Limit_Bal': 'Limite_Bancário',
    'Sex': 'Gênero',
    'Education': 'Nível_Educacional',
    'Marriage': 'Estado_Civil',
    'Age': 'Idade',
    'Pay_0': 'Status_Setembro',
    'Pay_2': 'Status_Agosto',
    'Pay_3': 'Status_Julho',
    'Pay_4': 'Status_Junho',
    'Pay_5': 'Status_Maio',
    'Pay_6': 'Status_Abril',
    'Bill_Amt1': 'Saldo_Setembro',
    'Bill_Amt2': 'Saldo_Agosto',
    'Bill_Amt3': 'Saldo_Julho',
    'Bill_Amt4': 'Saldo_Junho',
    'Bill_Amt5': 'Saldo_Maio',
    'Bill_Amt6': 'Saldo_Abril',
    'Pay_Amt1': 'Pagamento_Abril',
    'Pay_Amt2': 'Pagamento_Maio',
    'Pay_Amt3': 'Pagamento_Junho',
    'Pay_Amt4': 'Pagamento_Julho',
    'Pay_Amt5': 'Pagamento_Agosto',
    'Pay_Amt6': 'Pagamento_Setembro',
    'default payment next month': 'Inadimplência_Próximo_Mês'
}

df.rename(columns=novo_nome_colunas, inplace=True)

df.head()

Unnamed: 0,ID,Limite_Bancário,Gênero,Nível_Educacional,Estado_Civil,Idade,Status_Setembro,Status_Agosto,Status_Julho,Status_Junho,Status_Maio,Status_Abril,Saldo_Setembro,Saldo_Agosto,Saldo_Julho,Saldo_Junho,Saldo_Maio,Saldo_Abril,Pagamento_Abril,Pagamento_Maio,Pagamento_Junho,Pagamento_Julho,Pagamento_Agosto,Pagamento_Setembro,Inadimplência_Próximo_Mês
0,1,20000,feminino,universidade,casado,24,Atrasado em 2 mês,Atrasado em 2 mês,Pagamento total em dia,Pagamento total em dia,Fatura total paga,Fatura total paga,3913,3102,689,0,0,0,0,689,0,0,0,0,sim
1,2,120000,feminino,universidade,solteiro,26,Pagamento total em dia,Atrasado em 2 mês,Pagamento parcial,Pagamento parcial,Pagamento parcial,Atrasado em 2 mês,2682,1725,2682,3272,3455,3261,0,1000,1000,1000,0,2000,sim
2,3,90000,feminino,universidade,solteiro,34,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,29239,14027,13559,14331,14948,15549,1518,1500,1000,1000,1000,5000,não
3,4,50000,feminino,universidade,casado,37,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,Pagamento parcial,46990,48233,49291,28314,28959,29547,2000,2019,1200,1100,1069,1000,não
4,5,50000,masculino,universidade,casado,57,Pagamento total em dia,Pagamento parcial,Pagamento total em dia,Pagamento parcial,Pagamento parcial,Pagamento parcial,8617,5670,35835,20940,19146,19131,2000,36681,10000,9000,689,679,não


### 1.4 **Tratamento de Dados para Modelagem**

4. **Tratar Dados para Modelagem:**
    - Nesta etapa, realizamos o tratamento adequado dos dados visando prepará-los para a modelagem. O conjunto de dados específico utilizado é proveniente do arquivo `default_of_credit_card_clients-Data.csv`.

In [None]:
# Definindo colunas numéricas e categóricas
numeric_columns = ['Limite_Bancário', 'Idade', 'Saldo_Setembro', 'Saldo_Agosto', 'Saldo_Julho',
                    'Saldo_Junho', 'Saldo_Maio', 'Saldo_Abril', 'Pagamento_Abril', 'Pagamento_Maio',
                    'Pagamento_Junho', 'Pagamento_Julho', 'Pagamento_Agosto', 'Pagamento_Setembro']

categorical_columns = ['Gênero', 'Nível_Educacional', 'Estado_Civil',
                        'Status_Setembro', 'Status_Agosto', 'Status_Julho', 'Status_Junho', 'Status_Maio', 'Status_Abril',
                        'Inadimplência_Próximo_Mês']

In [None]:
# Criando pipelines para tratar diferentes tipos de variáveis
numeric_preprocessor = Pipeline([
    ('missing', SimpleImputer(strategy='mean')),  # Tratamento de dados faltantes
    ('scaling', StandardScaler())  # Normalização
])

categorical_preprocessor = Pipeline([
    ('missing', SimpleImputer(strategy='most_frequent')),  # Tratamento de dados faltantes
    ('onehot', OneHotEncoder(drop='first'))  # Codificação one-hot para evitar multicolinearidade
])

In [None]:
# Criando um transformer para aplicar os pré-processadores nas variáveis corretas
preprocessing = ColumnTransformer([
    ("numeric", numeric_preprocessor, numeric_columns),
    ("categorical", categorical_preprocessor, categorical_columns)
])

# Aplicando transformações nos dados
df_processed = preprocessing.fit_transform(df)

In [None]:
# Exibindo as primeiras linhas do DataFrame processado
df_processed.head()