# 0.0 Imports e Funções de Ajuda

## 0.1 Bibliotecas

In [215]:
import inflection
import pickle

import pandas            as pd
import numpy             as np
import seaborn           as sns
import matplotlib.pyplot as plt

from IPython.display           import display, HTML
from sklearn.model_selection   import train_test_split
from sklearn.linear_model      import LogisticRegression
from sklearn.metrics           import roc_auc_score
from sklearn.preprocessing     import MinMaxScaler
from sklearn.feature_selection import SelectPercentile, f_classif

## 0.2 Funções de Ajuda

In [None]:
# Função para análise exploratória de dados numéricos
def analise_Numerica(df):
    sns.set(rc={'figure.figsize':(15,5)})

    for coluna in df.columns:
        plt.figure()

        if pd.api.types.is_numeric_dtype(df[coluna]):
            # Nome da Feature
            html_content = "<h1>" + coluna.upper() + "</h1>"
            display(HTML(html_content))        

            # Plots
            plt.subplot(1, 2, 1)
            sns.boxplot(y=df[coluna])
            plt.title(f"Boxplot da coluna '{coluna}'")

            plt.subplot(1, 2, 2)
            sns.histplot(data=df[coluna], kde=True)
            plt.title(f"Histograma da coluna '{coluna}'")

            # Estatística
            aux1 = pd.DataFrame(data={'feature':[coluna]}, index=['estatisticas'])
            aux1['media'] = df[coluna].mean()
            aux1['minimo'] = df[coluna].min()
            aux1['mediana'] = df[coluna].median()
            aux1['maximo'] = df[coluna].max()
            aux1['desvio_padrao'] = df[coluna].std()
            
            # Exibição
            
            plt.show()
            display(HTML(aux1.to_html()))
            
# Função para análise exploratória de dados categóricos
def analise_Categorica(df):
    sns.set(rc={'figure.figsize':(15,5)})

    for coluna in df.columns:
        plt.figure()

        if pd.api.types.is_object_dtype(df[coluna]):
            # Nome da Feature
            html_content = "<h1>" + coluna.upper() + "</h1>"
            display(HTML(html_content))        

            # Plots
            aux = df[coluna].value_counts().reset_index().head(50)
            aux.columns = [coluna, 'contagem']
            plt.subplot(1, 1, 1)
            sns.countplot(x=coluna, data=df, order=aux[coluna])
            plt.title(f"Countplot da coluna '{coluna}'")
            if len(aux) > 10:
                plt.xticks(rotation=90)

            # Estatísticas
            # Geral
            aux1 = df[coluna].describe().to_frame().T

            # Por categoria
            aux2 = df[coluna].value_counts().reset_index()
            aux2.columns = ['categoria', 'contagem']
            aux2['percentual'] = (aux2['contagem'] / aux2['contagem'].sum()).round(4) * 100
            aux2 = aux2.sort_values('contagem', ascending=False)
            
            # Exibição
            plt.show()
            html_content = "<h5> Descrição Geral </h5>"
            display(HTML(aux1.to_html(index=False)))
            html_content = "<h5> Descrição por Categoria </h5>"
            display(HTML(aux2.head(10).T.to_html(index=False)))


## 0.3 Importação dos dados

In [4]:
df_raw = pd.read_csv('dataset/train.csv', index_col=0)

## 0.4 Configurações

In [37]:
# Deixar o jupyper em widescreen
display(HTML("<style>.container { width:90% !important; }</style>"))

# Seta o máximo de colunas e linhas que o pandas vai exibir
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 60)

# 1. Descrição dos Dados

In [155]:
df1 = df_raw.copy()

## 1.1 Renomeando as Colunas

In [156]:
old_columns = df1.columns
snekecase = lambda x: inflection.underscore(x)
new_columns = list(map(snekecase, old_columns))
df1.columns = new_columns

## 1.2 Dimenção dos Dados

In [157]:
print(f'Linhas: {df1.shape[0]}')
print(f'Colunas: {df1.shape[1]}')

Linhas: 150000
Colunas: 11


## 1.3 Dados Faltantes

In [158]:
df1.isna().sum()

target                                                   0
taxa_de_utilizacao_de_linhas_nao_garantidas              0
idade                                                    0
numero_de_vezes30_59_dias_atraso_nao_pior                0
taxa_de_endividamento                                    0
renda_mensal                                         29731
numero_de_linhas_de_credito_e_emprestimos_abertos        0
numero_de_vezes90_dias_atraso                            0
numero_de_emprestimos_ou_linhas_imobiliarias             0
numero_de_vezes60_89_dias_atraso_nao_pior                0
numero_de_dependentes                                 3924
dtype: int64

## 1.4 Tratamento de Dados Faltantes

In [159]:
# Tratamento da renda_media
# Substituido os dados faltantes pela renda média por idade

df1 = df1.merge(df1[['idade', 'renda_mensal']].groupby('idade').mean().reset_index().rename(columns={'renda_mensal':'renda_media'}), how='left', on='idade')
df1['renda_mensal'].fillna(df1['renda_media'], inplace=True)
df1.drop(columns='renda_media', inplace=True)
df1['renda_mensal'].fillna(df1['renda_mensal'].median(), inplace=True)

In [160]:
# Tratemento do numero_de_dependentes
# Substituido pelo numero médio de dependentes por idade

aux = df1[['idade', 'numero_de_dependentes']].groupby('idade').mean().reset_index().rename(columns={'numero_de_dependentes':'dependentes'})
aux['dependentes'] = np.ceil(aux['dependentes'])
df1 = df1.merge(aux, how='left', on='idade')
df1['numero_de_dependentes'].fillna(df1['dependentes'], inplace=True)
df1.drop(columns=['dependentes'], inplace=True)

# Onde o número de dependentes ficou NA, substitui por 0
df1['numero_de_dependentes'].fillna(0, inplace=True)

In [161]:
df1.isna().sum()

target                                               0
taxa_de_utilizacao_de_linhas_nao_garantidas          0
idade                                                0
numero_de_vezes30_59_dias_atraso_nao_pior            0
taxa_de_endividamento                                0
renda_mensal                                         0
numero_de_linhas_de_credito_e_emprestimos_abertos    0
numero_de_vezes90_dias_atraso                        0
numero_de_emprestimos_ou_linhas_imobiliarias         0
numero_de_vezes60_89_dias_atraso_nao_pior            0
numero_de_dependentes                                0
dtype: int64

## 1.5 Tipos de Dados das Colunas

In [162]:
df1.dtypes

target                                                 int64
taxa_de_utilizacao_de_linhas_nao_garantidas          float64
idade                                                  int64
numero_de_vezes30_59_dias_atraso_nao_pior              int64
taxa_de_endividamento                                float64
renda_mensal                                         float64
numero_de_linhas_de_credito_e_emprestimos_abertos      int64
numero_de_vezes90_dias_atraso                          int64
numero_de_emprestimos_ou_linhas_imobiliarias           int64
numero_de_vezes60_89_dias_atraso_nao_pior              int64
numero_de_dependentes                                float64
dtype: object

## 1.6 Alteração dos Tipos das Colunas

In [163]:
df1['numero_de_dependentes'] = df1['numero_de_dependentes'].astype(np.int64)

## 1.7 Descrição dos Atributos

In [164]:
df1.select_dtypes(include=['int64', 'float64']).describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
target,150000.0,0.06684,0.249746,0.0,0.0,0.0,0.0,1.0
taxa_de_utilizacao_de_linhas_nao_garantidas,150000.0,6.048438,249.755371,0.0,0.029867,0.154181,0.559046,50708.0
idade,150000.0,52.295207,14.771866,0.0,41.0,52.0,63.0,109.0
numero_de_vezes30_59_dias_atraso_nao_pior,150000.0,0.421033,4.192781,0.0,0.0,0.0,0.0,98.0
taxa_de_endividamento,150000.0,353.005076,2037.818523,0.0,0.175074,0.366508,0.868254,329664.0
renda_mensal,150000.0,6674.505283,12894.484909,0.0,3800.0,5950.0,7795.325926,3008750.0
numero_de_linhas_de_credito_e_emprestimos_abertos,150000.0,8.45276,5.145951,0.0,5.0,8.0,11.0,58.0
numero_de_vezes90_dias_atraso,150000.0,0.265973,4.169304,0.0,0.0,0.0,0.0,98.0
numero_de_emprestimos_ou_linhas_imobiliarias,150000.0,1.01824,1.129771,0.0,0.0,1.0,2.0,54.0
numero_de_vezes60_89_dias_atraso_nao_pior,150000.0,0.240387,4.155179,0.0,0.0,0.0,0.0,98.0


# 2. Engenharia de Features

In [165]:
df2 = df1.copy()

# 3. Seleção de Linhas/ Colunas

In [166]:
df3=df2.copy()

# 4. Análise dos Dados

In [167]:
df4 = df3.copy()

## 4.1 Análise Univariada

In [168]:
# analise_Numerica(df4)

## 4.2 Análise Bivariada

# 5. Transformação das Colunas

In [169]:
df5 = df4.copy()

In [170]:
mms = MinMaxScaler()

df5['taxa_de_utilizacao_de_linhas_nao_garantidas'] = mms.fit_transform(df5[['taxa_de_utilizacao_de_linhas_nao_garantidas']])
df5['idade'] = mms.fit_transform(df5[['idade']])
df5['numero_de_vezes30_59_dias_atraso_nao_pior'] = mms.fit_transform(df5[['numero_de_vezes30_59_dias_atraso_nao_pior']])
df5['taxa_de_endividamento'] = mms.fit_transform(df5[['taxa_de_endividamento']])
df5['renda_mensal'] = mms.fit_transform(df5[['renda_mensal']])
df5['numero_de_linhas_de_credito_e_emprestimos_abertos'] = mms.fit_transform(df5[['numero_de_linhas_de_credito_e_emprestimos_abertos']])
df5['numero_de_vezes90_dias_atraso'] = mms.fit_transform(df5[['numero_de_vezes90_dias_atraso']])
df5['numero_de_emprestimos_ou_linhas_imobiliarias'] = mms.fit_transform(df5[['numero_de_emprestimos_ou_linhas_imobiliarias']])
df5['numero_de_vezes60_89_dias_atraso_nao_pior'] = mms.fit_transform(df5[['numero_de_vezes60_89_dias_atraso_nao_pior']])
df5['numero_de_dependentes'] = mms.fit_transform(df5[['numero_de_dependentes']])

# 6. Divisão do DataFrame e Seleção de Features

In [191]:
df5.head(1)

Unnamed: 0,target,taxa_de_utilizacao_de_linhas_nao_garantidas,idade,numero_de_vezes30_59_dias_atraso_nao_pior,taxa_de_endividamento,renda_mensal,numero_de_linhas_de_credito_e_emprestimos_abertos,numero_de_vezes90_dias_atraso,numero_de_emprestimos_ou_linhas_imobiliarias,numero_de_vezes60_89_dias_atraso_nao_pior,numero_de_dependentes
0,1,1.5e-05,0.412844,0.020408,2e-06,0.003031,0.224138,0.0,0.111111,0.0,0.1


In [192]:
X = df5.drop(columns='target')
y = df5['target'].values

X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, stratify=y)

In [193]:
# Selecionador de Features
select = SelectPercentile(percentile=50)
select.fit(X_train, y_train)

# Retorna o indice das features selecionadas
X_train_select = select.get_support(indices=True)

In [194]:
# Nome das colunas selecionadas
selected_columns = np.array(X_train.columns)[X_train_select]

# 7. Machine Learning Modeling

## 7.1 Baseline

In [201]:
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

y_hat = lr.predict_proba(X_val)[:, 1]

In [202]:
print(f"Score com todas as features: {roc_auc_score(y_val, y_hat)}")

Score com todas as features: 0.6742570346771044


## 7.2 Colunas Selecionadas

In [209]:
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train[selected_columns], y_train)

y_hat = lr.predict_proba(X_val[selected_columns])[:, 1]

In [210]:
print(f"Score com todas as features: {roc_auc_score(y_val, y_hat)}")

Score com todas as features: 0.6736196925083255


# 8. Model Tunnig

In [213]:
clf = [
    LogisticRegression(solver='newton-cg', penalty=None, max_iter=1000),
    LogisticRegression(solver='lbfgs', penalty=None, max_iter=1000),
    LogisticRegression(solver='sag', penalty=None, max_iter=1000),
    LogisticRegression(solver='saga', penalty=None, max_iter=1000)
    ]
clf_columns = []
clf_compare = pd.DataFrame(columns=clf_columns)

row_index = 0
for lrs in clf:
    y_preds = lrs.fit(X_train, y_train).predict_proba(X_val)[:, 1]
    auc = roc_auc_score(y_val, y_preds)
    clf_name = lrs.__class__.__name__
    clf_compare.loc[row_index, 'Modelo'] = clf_name
    clf_compare.loc[row_index, 'max_iter'] = lrs.max_iter
    clf_compare.loc[row_index, 'solver'] = lrs.solver
    clf_compare.loc[row_index, 'penalty'] = lrs.penalty
    clf_compare.loc[row_index, 'class_weight'] = lrs.class_weight
    clf_compare.loc[row_index, 'AUC'] = auc
    
    row_index += 1
    
clf_compare.sort_values('AUC', ascending=False, inplace=True)
clf_compare

Unnamed: 0,Modelo,max_iter,solver,penalty,class_weight,AUC
0,LogisticRegression,1000.0,newton-cg,,,0.703551
1,LogisticRegression,1000.0,lbfgs,,,0.703548
2,LogisticRegression,1000.0,sag,,,0.703521
3,LogisticRegression,1000.0,saga,,,0.703499


# 9. Deploy do Modelo 

In [214]:
modelo_final = LogisticRegression(solver='newton-cg', penalty=None, max_iter=1000)
modelo_final.fit(X_train, y_train)

In [217]:
pickle.dump(modelo_final, open('modelo/modelo_final.pkl', 'wb'))