# Avaliação de Perfil de Clientes para Aprovação de Empréstimos: Educacional, Médico, Venture (Capital de Risco, investimentos para startups), Empréstimo Pessoal, Quitação de Dívidas e Reforma Residencial

Utilizarei a seguinte <b>pipeline</b> baseada no <b>CRISP-DM framework:</b>

<b>1. Definição do problema de negócio</b><br>
<b>2. Coletar e ter uma visão inicial dos dados</b><br>
<b>3. Divide os Datasets em treino e teste</b><br>
<b>4. Exploração de dados (EDA: exploratory data analysis)</b><br>
<b>5. Feature engineering, limpeza dos dados e processamento da base</b><br>
<b>6. Treinamento de modelos, comparar, selecionar as melhores features e hiperparâmetros</b><br>
<b>7. Seleção e treinamento do modelo com os melhores resultados</b><br>
<b>8. Conclusão e interpretação dos resultados do modelo final</b><br>
<b>9. Deploy</b><br>

Neste notebook, realizarei uma <b>análise exploratória de dados (EDA)</b>, cobrindo as etapas 5 a 8 do pipeline acima. O principal objetivo aqui é construir e avaliar modelos que tenham a <b>melhor perfornance levando em consideração as métricas de avaliação adequadas</b>. Com isso, o banco terá uma ferramenta poderosa para estipular e <b>definir os perfis de crédito ultra personalizados e específicos para cada um dos seus clientes</b>, mantendo um processo muito mais saudável e completo durante todo o processo.

<h3>Importando bibliotecas</h3>    

In [None]:
import pandas as pd
from datetime import datetime
import numpy as np
import random as python_random
import joblib

# Normalização dos dados
from sklearn.preprocessing import StandardScaler,LabelEncoder

# Divisão entre treino e teste
from sklearn.model_selection import train_test_split

# Métricas de avaliação
from sklearn.metrics import classification_report, confusion_matrix

# Seleção de atributos
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import RFE

# Rede Neural
import tensorflow as tf

from utils import *

In [2]:
# Reprodutividade
seed = 27
np.random.seed(seed)
python_random.seed(seed)
tf.random.set_seed(seed)

# 5. Feature engineering, limpeza dos dados e processamento da base
- Obtenção dos dados
- Limpeza e retirada de outliers
- Trasformação das variáveis categóricas em numéricas
- Divisão entre treino e teste

In [16]:
df = fetch_data_from_db()
df.head()

Unnamed: 0,person_age,person_income,person_home_ownership,person_emp_length,loan_intent,loan_grade,loan_amnt,loan_int_rate,loan_status,loan_percent_income,cb_person_default_on_file,cb_person_cred_hist_length
0,22,59000,RENT,123.0,PERSONAL,D,35000,16.02,1,0.59,Y,3
1,21,9600,OWN,5.0,EDUCATION,B,1000,11.14,0,0.1,N,2
2,25,9600,MORTGAGE,1.0,MEDICAL,C,5500,12.87,1,0.57,N,3
3,23,65500,RENT,4.0,MEDICAL,C,35000,15.23,1,0.53,N,2
4,24,54400,RENT,8.0,MEDICAL,C,35000,14.27,1,0.55,Y,4


In [17]:
# Apaga registros nulos
df = df.dropna()

In [18]:
# Apaga registros duplicados
df = df.drop_duplicates()

In [19]:
# Confirma que todas as colunas estão minusculas
df.columns = [x.lower() for x in df.columns]

In [20]:
# Renomeia variável target
df.rename(columns={'loan_status': 'target'}, inplace=True)

In [23]:
# Retira outliers
df_limpo = tratar_outliers(df, 'person_age', 20, 100) # Tratar outliers de person_age
df_limpo = tratar_outliers(df_limpo, 'person_income', 10000, 500000) # Tratar outliers de person_income
df_limpo = tratar_outliers(df_limpo, 'person_emp_length', 0, 50) # Tratar outliers de person_emp_length

In [24]:
df_limpo.shape

(28501, 12)