# Introdução

O Banco UniFinance, uma instituição financeira líder e confiável, destaca-se no
mercado pela sua dedicação em fornecer soluções de crédito acessíveis e sob
medida para empresários do setor comercial. Com foco em empréstimos
flexíveis e acessíveis, nossa equipe altamente qualificada trabalha em estreita
colaboração com os clientes para atender às suas necessidades financeiras
específicas.
Atualmente o banco está passando por uma revisão em como ele empresta o
dinheiro para os seus clientes, assim o objetivo é criar processos inteligentes
para a previsão de que alguém pode vim a passar por dificuldades financeiras
nos próximos dois anos.

# Entendimento de Negócio

No Banco UniFinance, quando um cliente solicita um empréstimo, iniciamos um
processo de avaliação que inclui a análise de diversos fatores, um dos quais é a possível ocorrência de dificuldades financeiras nos próximos dois anos. Isso é crucial para identificar e mitigar riscos que poderiam levar à inadimplência, o
que, por sua vez, afetaria negativamente o banco. Nossa prioridade é garantir
empréstimos responsáveis e sustentáveis, tanto para o benefício do cliente
quanto para a segurança financeira da instituição.

# Solução

O Banco UniFinance tem como objetivo estabelecer um modelo que auxilie os mutuários, ou seja, aqueles que recebem
recursos financeiros por meio de empréstimos. Para alcançar esse propósito, utilizamos os dados à nossa disposição para
realizar previsões, a fim de identificar situações em que um cliente possa enfrentar desafios que comprometam sua
capacidade de cumprir com os compromissos financeiros.

# Desenvolvimento Projeto

## Imports

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

## Carregamento de Dados

In [2]:
df_raw = pd.read_csv('train.csv')

## Descrição dos Dados

In [3]:
df_raw.head()

Unnamed: 0.1,Unnamed: 0,target,TaxaDeUtilizacaoDeLinhasNaoGarantidas,Idade,NumeroDeVezes30-59DiasAtrasoNaoPior,TaxaDeEndividamento,RendaMensal,NumeroDeLinhasDeCreditoEEmprestimosAbertos,NumeroDeVezes90DiasAtraso,NumeroDeEmprestimosOuLinhasImobiliarias,NumeroDeVezes60-89DiasAtrasoNaoPior,NumeroDeDependentes
0,0,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
1,1,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
2,2,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
3,3,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
4,4,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


In [4]:
df = df_raw.drop('Unnamed: 0',axis=1)
df.head()

Unnamed: 0,target,TaxaDeUtilizacaoDeLinhasNaoGarantidas,Idade,NumeroDeVezes30-59DiasAtrasoNaoPior,TaxaDeEndividamento,RendaMensal,NumeroDeLinhasDeCreditoEEmprestimosAbertos,NumeroDeVezes90DiasAtraso,NumeroDeEmprestimosOuLinhasImobiliarias,NumeroDeVezes60-89DiasAtrasoNaoPior,NumeroDeDependentes
0,1,0.766127,45,2,0.802982,9120.0,13,0,6,0,2.0
1,0,0.957151,40,0,0.121876,2600.0,4,0,0,0,1.0
2,0,0.65818,38,1,0.085113,3042.0,2,1,0,0,0.0
3,0,0.23381,30,0,0.03605,3300.0,5,0,0,0,0.0
4,0,0.907239,49,1,0.024926,63588.0,7,0,1,0,0.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 11 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   target                                      150000 non-null  int64  
 1   TaxaDeUtilizacaoDeLinhasNaoGarantidas       150000 non-null  float64
 2   Idade                                       150000 non-null  int64  
 3   NumeroDeVezes30-59DiasAtrasoNaoPior         150000 non-null  int64  
 4   TaxaDeEndividamento                         150000 non-null  float64
 5   RendaMensal                                 120269 non-null  float64
 6   NumeroDeLinhasDeCreditoEEmprestimosAbertos  150000 non-null  int64  
 7   NumeroDeVezes90DiasAtraso                   150000 non-null  int64  
 8   NumeroDeEmprestimosOuLinhasImobiliarias     150000 non-null  int64  
 9   NumeroDeVezes60-89DiasAtrasoNaoPior         150000 non-null  int64  
 

In [6]:
df.isna().sum()

target                                            0
TaxaDeUtilizacaoDeLinhasNaoGarantidas             0
Idade                                             0
NumeroDeVezes30-59DiasAtrasoNaoPior               0
TaxaDeEndividamento                               0
RendaMensal                                   29731
NumeroDeLinhasDeCreditoEEmprestimosAbertos        0
NumeroDeVezes90DiasAtraso                         0
NumeroDeEmprestimosOuLinhasImobiliarias           0
NumeroDeVezes60-89DiasAtrasoNaoPior               0
NumeroDeDependentes                            3924
dtype: int64

### Estatística de Dados

In [7]:
df.describe()

Unnamed: 0,target,TaxaDeUtilizacaoDeLinhasNaoGarantidas,Idade,NumeroDeVezes30-59DiasAtrasoNaoPior,TaxaDeEndividamento,RendaMensal,NumeroDeLinhasDeCreditoEEmprestimosAbertos,NumeroDeVezes90DiasAtraso,NumeroDeEmprestimosOuLinhasImobiliarias,NumeroDeVezes60-89DiasAtrasoNaoPior,NumeroDeDependentes
count,150000.0,150000.0,150000.0,150000.0,150000.0,120269.0,150000.0,150000.0,150000.0,150000.0,146076.0
mean,0.06684,6.048438,52.295207,0.421033,353.005076,6670.221,8.45276,0.265973,1.01824,0.240387,0.757222
std,0.249746,249.755371,14.771866,4.192781,2037.818523,14384.67,5.145951,4.169304,1.129771,4.155179,1.115086
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.029867,41.0,0.0,0.175074,3400.0,5.0,0.0,0.0,0.0,0.0
50%,0.0,0.154181,52.0,0.0,0.366508,5400.0,8.0,0.0,1.0,0.0,0.0
75%,0.0,0.559046,63.0,0.0,0.868254,8249.0,11.0,0.0,2.0,0.0,1.0
max,1.0,50708.0,109.0,98.0,329664.0,3008750.0,58.0,98.0,54.0,98.0,20.0


### Variavel alvo

In [8]:
df.target.value_counts(normalize=True)

target
0    0.93316
1    0.06684
Name: proportion, dtype: float64

## Separação dos Dados

In [None]:
X = df.drop('target',axis=1)
y = df.target

# Em classificacao sempre bom utilizar o STRATFY=Y, pois mantem a proporcao das classes no treino e teste
X_train, X_valid, y_train, y_valid = train_test_split(X,y,
                                                      test_size=0.2,
                                                      stratify=y)

## Tratamento dos Dados

In [11]:
from sklearn.impute import SimpleImputer

In [12]:
df.isna().sum()

target                                            0
TaxaDeUtilizacaoDeLinhasNaoGarantidas             0
Idade                                             0
NumeroDeVezes30-59DiasAtrasoNaoPior               0
TaxaDeEndividamento                               0
RendaMensal                                   29731
NumeroDeLinhasDeCreditoEEmprestimosAbertos        0
NumeroDeVezes90DiasAtraso                         0
NumeroDeEmprestimosOuLinhasImobiliarias           0
NumeroDeVezes60-89DiasAtrasoNaoPior               0
NumeroDeDependentes                            3924
dtype: int64

In [19]:
# Imputar os valores NULOS pela media
imp_mean = SimpleImputer(strategy='mean')

cols_to_impute = ['RendaMensal','NumeroDeDependentes']

imp_mean.fit(X_train[cols_to_impute])

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False


In [None]:
X_train[cols_to_impute] = imp_mean.transform(X_train[cols_to_impute])
X_valid[cols_to_impute] = imp_mean.transform(X_valid[cols_to_impute])

## Selecionar Features

In [68]:
from sklearn.feature_selection import SelectPercentile

In [None]:
select = SelectPercentile(percentile=50)
select.fit(X_train,y_train)

# transformando conjunto de treinamento
X_train_selected = select.transform(X_train)
print(f"X_train.shape: {X_train.shape}")
print(f"X_train_selected.shape: {X_train_selected.shape}")

X_train.shape: (120000, 10)
X_train_selected.shape: (120000, 5)


In [None]:
# Colunas escolhidas
X_train.columns[select.get_support()]

Index(['Idade', 'NumeroDeVezes30-59DiasAtrasoNaoPior',
       'NumeroDeVezes90DiasAtraso', 'NumeroDeVezes60-89DiasAtrasoNaoPior',
       'NumeroDeDependentes'],
      dtype='object')

## Treinar Modelo - Baseline

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics      import roc_auc_score

# separar as colunas selecionadas como fizemos com Treino
X_valid_select = select.transform(X_valid)

In [78]:
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train,y_train)
y_preds = lr.predict_proba(X_valid)[:,1]

STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT

Increase the number of iterations to improve the convergence (max_iter=1000).
You might also want to scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [79]:
print(f'score com todas as features: {roc_auc_score(y_valid,y_preds)}')

score com todas as features: 0.6941672430817937


In [None]:
# Fazendo a mesma coisa, mas agora com as colunas selecionadas
lr.fit(X_train_selected,y_train)
y_preds = lr.predict_proba(X_valid_select)[:,1]

print(f'score com as features selecionadas: {roc_auc_score(y_valid,y_preds)}')

score com todas as features: 0.6914994082929843


## Tunning dos Hiperparâmetros

In [83]:
clf = [
    LogisticRegression(solver='newton-cg',penalty=None,max_iter=5000),
    LogisticRegression(solver='lbfgs',penalty=None,max_iter=5000),
    LogisticRegression(solver='sag',penalty=None,max_iter=5000),
    LogisticRegression(solver='saga',penalty=None,max_iter=5000)
]

clf_columns = []
clf_compare = pd.DataFrame(columns=clf_columns)

row_index = 0
for lrs in clf:
    y_preds = lrs.fit(X_train,y_train).predict_proba(X_valid)[:,1]
    auc = roc_auc_score(y_valid,y_preds)
    clf_name = lrs.__class__.__name__
    clf_compare.loc[row_index,'Modelo'] = clf_name
    clf_compare.loc[row_index,'max_iter'] = lrs.max_iter
    clf_compare.loc[row_index,'solver'] = lrs.solver
    clf_compare.loc[row_index,'penalty'] = lrs.penalty
    clf_compare.loc[row_index,'class_weight'] = lrs.class_weight
    clf_compare.loc[row_index,'AUC'] = auc

    row_index += 1

clf_compare.sort_values(by=['AUC'],ascending=False,inplace=True)    
clf_compare




Unnamed: 0,Modelo,max_iter,solver,penalty,class_weight,AUC
0,LogisticRegression,5000.0,newton-cg,,,0.696893
1,LogisticRegression,5000.0,lbfgs,,,0.696886
2,LogisticRegression,5000.0,sag,,,0.581371
3,LogisticRegression,5000.0,saga,,,0.580694


## Deploy do Modelo

In [84]:
modelo_final = LogisticRegression(solver='newton-cg',
                                  penalty=None,
                                  max_iter=5000,
                                  class_weight=None)
modelo_final.fit(X_train,y_train)

0,1,2
,penalty,
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'newton-cg'
,max_iter,5000


In [85]:
import pickle

pickle.dump(modelo_final,open('modelo_final.pkl','wb'))