# Problema de Negócio

## Introdução

O Banco UniFinance, uma instituição financeira líder e confiável, destaca-se no
mercado pela sua dedicação em fornecer soluções de crédito acessíveis e sob
medida para empresários do setor comercial. Com foco em empréstimos
flexíveis e acessíveis, nossa equipe altamente qualificada trabalha em estreita
colaboração com os clientes para atender às suas necessidades financeiras
específicas.

Atualmente o banco está passando por uma revisão em como ele empresta o
dinheiro para os seus clientes, assim o objetivo é criar processos inteligentes
para a previsão de que alguém pode vim a passar por dificuldades financeiras
nos próximos dois anos.


## Entendimento do Negócio

No Banco UniFinance, quando um cliente solicita um empréstimo, iniciamos um
processo de avaliação que inclui a análise de diversos fatores, um dos quais é a
possível ocorrência de dificuldades financeiras nos próximos dois anos. Isso é
crucial para identificar e mitigar riscos que poderiam levar à inadimplência, o
que, por sua vez, afetaria negativamente o banco. Nossa prioridade é garantir
empréstimos responsáveis e sustentáveis, tanto para o benefício do cliente
quanto para a segurança financeira da instituição.

# Imports

In [23]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Data Load

In [5]:
df = pd.read_csv('../data/train.csv')

# Descrição dos Dados

In [7]:
df.drop(columns=['Unnamed: 0'], axis=1, inplace=True)

# Dimensão dos Dados

In [8]:
df.shape

(150000, 11)

## Tipo dos Dados

In [10]:
df.dtypes

target                                          int64
TaxaDeUtilizacaoDeLinhasNaoGarantidas         float64
Idade                                           int64
NumeroDeVezes30-59DiasAtrasoNaoPior             int64
TaxaDeEndividamento                           float64
RendaMensal                                   float64
NumeroDeLinhasDeCreditoEEmprestimosAbertos      int64
NumeroDeVezes90DiasAtraso                       int64
NumeroDeEmprestimosOuLinhasImobiliarias         int64
NumeroDeVezes60-89DiasAtrasoNaoPior             int64
NumeroDeDependentes                           float64
dtype: object

## Check Na

In [9]:
df.isna().sum()

target                                            0
TaxaDeUtilizacaoDeLinhasNaoGarantidas             0
Idade                                             0
NumeroDeVezes30-59DiasAtrasoNaoPior               0
TaxaDeEndividamento                               0
RendaMensal                                   29731
NumeroDeLinhasDeCreditoEEmprestimosAbertos        0
NumeroDeVezes90DiasAtraso                         0
NumeroDeEmprestimosOuLinhasImobiliarias           0
NumeroDeVezes60-89DiasAtrasoNaoPior               0
NumeroDeDependentes                            3924
dtype: int64

## Estatísticas dos Dados

In [11]:
df.describe()

Unnamed: 0,target,TaxaDeUtilizacaoDeLinhasNaoGarantidas,Idade,NumeroDeVezes30-59DiasAtrasoNaoPior,TaxaDeEndividamento,RendaMensal,NumeroDeLinhasDeCreditoEEmprestimosAbertos,NumeroDeVezes90DiasAtraso,NumeroDeEmprestimosOuLinhasImobiliarias,NumeroDeVezes60-89DiasAtrasoNaoPior,NumeroDeDependentes
count,150000.0,150000.0,150000.0,150000.0,150000.0,120269.0,150000.0,150000.0,150000.0,150000.0,146076.0
mean,0.06684,6.048438,52.295207,0.421033,353.005076,6670.221,8.45276,0.265973,1.01824,0.240387,0.757222
std,0.249746,249.755371,14.771866,4.192781,2037.818523,14384.67,5.145951,4.169304,1.129771,4.155179,1.115086
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.029867,41.0,0.0,0.175074,3400.0,5.0,0.0,0.0,0.0,0.0
50%,0.0,0.154181,52.0,0.0,0.366508,5400.0,8.0,0.0,1.0,0.0,0.0
75%,0.0,0.559046,63.0,0.0,0.868254,8249.0,11.0,0.0,2.0,0.0,1.0
max,1.0,50708.0,109.0,98.0,329664.0,3008750.0,58.0,98.0,54.0,98.0,20.0


## Variável Alvo

In [12]:
df.target.value_counts()

target
0    139974
1     10026
Name: count, dtype: int64

# 2.0 Train Test Split

In [13]:
X = df.drop('target', axis=1)
y = df['target']

In [15]:
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

#  Tratamento dos Dados

In [16]:
from sklearn.impute import SimpleImputer

In [17]:
imp_mean = SimpleImputer(strategy='mean')
cols_to_impute = ['RendaMensal', 'NumeroDeDependentes']

imp_mean.fit(X_train[cols_to_impute])

In [18]:
X_train[cols_to_impute] = imp_mean.transform(X_train[cols_to_impute])
X_val[cols_to_impute] = imp_mean.transform(X_val[cols_to_impute])

## Selecionar as Features

In [20]:
from sklearn.feature_selection import SelectPercentile

In [26]:
select = SelectPercentile(percentile=50)
select.fit(X_train, y_train)

#Transform Training set
X_train_selected = select.transform(X_train)

In [31]:
valores_selecionados = [X_train.columns[i] for i in range(len(X_train.columns)) if select.get_support()[i]]
valores_selecionados

['Idade',
 'NumeroDeVezes30-59DiasAtrasoNaoPior',
 'NumeroDeVezes90DiasAtraso',
 'NumeroDeVezes60-89DiasAtrasoNaoPior',
 'NumeroDeDependentes']

# Train Model

In [33]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

X_valid_selected = select.transform(X_val)

In [38]:
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

y_preds = lr.predict_proba(X_val)[:,1]
print(f'Score com todas as features: {roc_auc_score(y_val, y_preds)}')

Score com todas as features: 0.6647634975786111


In [40]:
lr2 = LogisticRegression(max_iter=1000)
lr2.fit(X_train_selected, y_train)

y_preds2 = lr2.predict_proba(X_valid_selected)[:,1]
print(f'Score com as features selecionadas: {roc_auc_score(y_val, y_preds2)}')

Score com as features selecionadas: 0.7116077906679987


# Fine Tunning

In [42]:
clf = [
    LogisticRegression(solver='newton-cg',penalty=None,max_iter=1000),
    LogisticRegression(solver='lbfgs',penalty=None,max_iter=1000),
    LogisticRegression(solver='sag',penalty=None,max_iter=1000),
    LogisticRegression(solver='saga',penalty=None,max_iter=1000)
    ]
clf_columns = []
clf_compare = pd.DataFrame(columns = clf_columns)

row_index = 0
for lrs in clf:

    y_preds = lrs.fit(X_train, y_train).predict_proba(X_val)[:,1]
    auc = roc_auc_score(y_val, y_preds)
    clf_name = lrs.__class__.__name__
    clf_compare.loc[row_index, 'Modelo'] = clf_name
    clf_compare.loc[row_index, 'max_iter'] = lrs.max_iter
    clf_compare.loc[row_index, 'solver'] = lrs.solver
    clf_compare.loc[row_index, 'penalty'] = lrs.penalty
    clf_compare.loc[row_index, 'class_weight'] = lrs.class_weight
    clf_compare.loc[row_index, 'AUC'] = auc

    row_index+=1

clf_compare.sort_values(by = ['AUC'], ascending = False, inplace = True)
clf_compare



Unnamed: 0,Modelo,max_iter,solver,penalty,class_weight,AUC
1,LogisticRegression,1000.0,lbfgs,,,0.714638
2,LogisticRegression,1000.0,sag,,,0.578766
3,LogisticRegression,1000.0,saga,,,0.578658
0,LogisticRegression,1000.0,newton-cg,,,0.578506


# Deploy do Modelo

In [45]:
melhor_param = clf_compare.sort_values('AUC', ascending=False).head(1)

In [54]:
final_model = LogisticRegression(max_iter = int(melhor_param['max_iter'].values[0]),
                                 solver = melhor_param['solver'].values[0],
                                 penalty=melhor_param['penalty'].values[0],
                                 class_weight = melhor_param['class_weight'].values[0]
                                 )

final_model.fit(X_train, y_train)

In [56]:
import pickle

pickle.dump(final_model, open('modelo_final.pkl','wb'))