# Preparação dos Dados

Importação das bibliotecas

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE
import pickle
import os

Carregamento da base de dados

In [2]:
df = pd.read_csv("./dataset_tratado.csv")

Transformação das variáveis categóricas em variáeis numéricas

Como as colunas categóricas são simplesmente binárias, iremos apenas converter para 0 e 1 sem o uso de nenhum encoder

In [3]:
df['is_graduated'] = df['is_graduated'].map({'yes': 1, 'no': 0})
df['is_self_employed'] = df['is_self_employed'].map({'yes': 1, 'no': 0})
df['loan_status'] = df['loan_status'].map({'approved': 1, 'rejected': 0})

In [4]:
df.head()

Unnamed: 0,number_of_dependents,is_graduated,is_self_employed,annual_income,loan_amount,loan_term,credit_score,residential_assets,commercial_assets,luxury_assets,bank_assets,loan_status
0,0,0,1,41000.0,122000.0,8,417,27000.0,22000.0,88000.0,33000.0,0
1,3,1,0,91000.0,297000.0,20,506,71000.0,45000.0,333000.0,128000.0,0
2,3,1,0,82000.0,307000.0,8,467,182000.0,33000.0,233000.0,79000.0,0
3,5,0,1,98000.0,242000.0,20,382,124000.0,82000.0,294000.0,50000.0,0
4,0,1,1,48000.0,135000.0,10,319,68000.0,83000.0,137000.0,51000.0,0


Separação dos dados entre as variáveis preditoras e a variável alvo

In [5]:
X = df.drop('loan_status', axis=1)
y = df['loan_status']

Separação dos dados em dados de treinamento e dados de teste. 80% dos dados serão utilizados para treinamento e 20% serão destinados para os testes. A divisão é feita respeitando a proporção entre registros de empréstimo aprovados e reprovados na base de dados

In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

Aplicação da técnica SMOTE para balanceamento dos dados de treinamento

In [7]:
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

Escalonamento dos dados usando Standard Scaler

In [8]:
scaler = StandardScaler()
X_train_balanced = scaler.fit_transform(X_train_balanced)
X_test = scaler.transform(X_test)

Os dados de teste foram apenas transformados pelo scaler que foi treinado anteriormente em dados exclusivamente de treinamento

Salvando as variáveis já preparadas para treinamento

In [9]:
caminho = './Dados Preparados/'

if not os.path.exists(caminho):
    os.makedirs(caminho)

with open(os.path.join(caminho, 'X_train.pkl'), 'wb') as f:
    pickle.dump(X_train_balanced, f)

with open(os.path.join(caminho, 'y_train.pkl'), 'wb') as f:
    pickle.dump(y_train_balanced, f)

with open(os.path.join(caminho, 'X_test.pkl'), 'wb') as f:
    pickle.dump(X_test, f)

with open(os.path.join(caminho, 'y_test.pkl'), 'wb') as f:
    pickle.dump(y_test, f)