## Análise Relacional das Principais Variáveis Escolhidas

In [1]:
#imports

%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import math

In [2]:
data = pd.read_csv("df_criado_final.csv")
data.shape

(50390, 23)

In [3]:
data.head()

Unnamed: 0,Escolaridade,Renda Mensal Informal,Dependentes,Estado Civil,Idade,Conta Poupanca,Conta Salario,Quant Adiantamento Deposito,Qtd Fonte Renda,Cheque Sem Fundo,...,Valor Emprestimo,Multa,Juros,Valor Emprestimo Atualizado,PAGO,Controle,ID,Genero,Data,Estado
0,,,S,2,36,S,N,,,N,...,8174.32,263.25,5844.98,14282.55,1,1,1328587.0,1,2020-01-01,57
1,1.0,1894.5078,N,2,39,S,N,2.0,1.0,S,...,41775.63,1607.29,7652.26,51035.18,1,1,1424254.0,1,2020-01-01,59
2,1.0,,S,2,26,S,N,,1.0,S,...,522940.27,24860.4,319315.62,867116.29,1,1,1438519.0,0,2020-01-01,56
3,,,N,8,23,N,N,,,N,...,1593.0,21472.36,2967.48,26032.84,1,1,1426138.0,1,2020-01-01,56
4,,,S,2,33,S,N,,,N,...,2078.97,19.44,46.35,2144.76,1,1,1474504.0,0,2020-01-01,59


In [4]:
#Retira colunas vazias
data = data.drop(columns=['Valor Conta Corrente', 'Valor Conta Poupanca'])

In [5]:
#Função que verifica se todos os valores de uma coluna são iguais, retorno booleano
def is_unique(s):
    a = s.to_numpy() 
    return (a[0] == a).all()

colunas_valores_iguais = []

#Remove colunas redundantes
for i in range(21):
    #print(data.columns[i] + ":\n" + str(is_unique(data[data.columns[i]])))
    if(is_unique(data[data.columns[i]])):
        colunas_valores_iguais.append(data.columns[i])
    
data = data.drop(columns = colunas_valores_iguais)
data.shape

(50390, 19)

In [6]:
data.columns

Index(['Escolaridade', 'Renda Mensal Informal', 'Dependentes', 'Estado Civil',
       'Idade', 'Conta Poupanca', 'Conta Salario',
       'Quant Adiantamento Deposito', 'Qtd Fonte Renda', 'Cheque Sem Fundo',
       'Conta Conjunta', 'Valor Emprestimo', 'Multa', 'Juros',
       'Valor Emprestimo Atualizado', 'PAGO', 'ID', 'Genero', 'Estado'],
      dtype='object')

**Crio duas colunas no DataFrame, uma com Porcentagem do Valor Real sobre o empréstimo inicial, e outra com a porcentagem da multa sobre o empréstimo inicial. Para facilitar o relacionamento.**

In [7]:
#Cria a coluna Valor Real Pago % e Multa % e adiciona valores

data['Valor Real Pago %'] = 0
data['Multa %'] = 0

def completa_coluna_valor_real(df):
    for index, row in df.iterrows():
        valor_real = 0
        multa_porcentagem = 0
        
        multa_porcentagem = float((df.loc[index, 'Multa'] * 100) / df.loc[index, 'Valor Emprestimo'])
        
        valor_real = float(((df.loc[index, 'Valor Emprestimo Atualizado'] - df.loc[index, 'Valor Emprestimo'])/
                      df.loc[index, 'Valor Emprestimo']) * 100 ) 
        
        df.loc[index,'Valor Real Pago %'] =  valor_real
        df.loc[index,'Multa %'] =  multa_porcentagem
        
completa_coluna_valor_real(data)  
data.head()

Unnamed: 0,Escolaridade,Renda Mensal Informal,Dependentes,Estado Civil,Idade,Conta Poupanca,Conta Salario,Quant Adiantamento Deposito,Qtd Fonte Renda,Cheque Sem Fundo,...,Valor Emprestimo,Multa,Juros,Valor Emprestimo Atualizado,PAGO,ID,Genero,Estado,Valor Real Pago %,Multa %
0,,,S,2,36,S,N,,,N,...,8174.32,263.25,5844.98,14282.55,1,1328587.0,1,57,74.724625,3.220451
1,1.0,1894.5078,N,2,39,S,N,2.0,1.0,S,...,41775.63,1607.29,7652.26,51035.18,1,1424254.0,1,59,22.164956,3.847434
2,1.0,,S,2,26,S,N,,1.0,S,...,522940.27,24860.4,319315.62,867116.29,1,1438519.0,0,56,65.815551,4.753965
3,,,N,8,23,N,N,,,N,...,1593.0,21472.36,2967.48,26032.84,1,1426138.0,1,56,1534.202134,1347.919648
4,,,S,2,33,S,N,,,N,...,2078.97,19.44,46.35,2144.76,1,1474504.0,0,59,3.164548,0.935078


In [8]:
#Separa DataSet em quem pagou e não pagou emprestimos passados

bons_pagadores = data.query('PAGO == 1')
mals_pagadores = data.query('PAGO == 0')

print(bons_pagadores.shape, mals_pagadores.shape,(bons_pagadores.shape[0] + mals_pagadores.shape[0]) )

(39853, 21) (10537, 21) 50390


## Variáveis para análise de Mals pagadores

**Reuni as variáveis com maior índice de mals pagadores, são elas:**

*Dependentes: 'N' - SEM Dependentes [27% mals pagadores]*

*Estado Civil: 'Casado(a) com comunhão parcial de bens' [39% mals pagadores]

*Conta Conjunta: 'N' - Sem Conta Conjunta [21% mals pagadores**]* ****Não tão expressivo, mas achei que valia a pena o relacionamento**

*Multa: >=30% [~35% mals pagadores]*

In [9]:
#Relacionamento entre Dependentes, Estado Civil e Conta Conjunta

Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Bons = bons_pagadores.query(
    'Dependentes == "N" & `Estado Civil` == 4 & `Conta Conjunta` == "N"')

Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Mals = mals_pagadores.query(
    'Dependentes == "N" & `Estado Civil` == 4 & `Conta Conjunta` == "N"')

print("Quantidade de dados: {}\n".format(Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Mals.shape[0]))

porcentagem_Rel_Dep_EC_CC_Bons = (Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Bons.shape[0]/
(Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_ContaConjunta_Mals.shape[0])) * 100

print('Relacionamento entre SEM dependentes | Casado Comunhão Parcial | Sem Conta Conjunta\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Rel_Dep_EC_CC_Bons, 
                                                     (100 - porcentagem_Rel_Dep_EC_CC_Bons)))


Quantidade de dados: 11844

Relacionamento entre SEM dependentes | Casado Comunhão Parcial | Sem Conta Conjunta

Bons pagadores: 59.616683552853765%
Mals pagadores: 40.383316447146235%


**Pouco acrescimo das variaveis de Dependentes e Conta Conjunta, apenas a de Estado Civil já representava quase 39% de mals pagadores. Mas mostra que muitos dos empréstimos com Comunhão parcial também são SEM dependentes e SEM conta conjunto, isso pode ser visto pela quantidade de dados filtrados,somento comunhão parcial tem 13283 valores e essa 11844(89% de semelhança).**

In [10]:
#Relacionamento entre Dependentes e Conta Conjunta

Relacionamento_Dependentes_ContaConjunta_Bons = bons_pagadores.query(
    'Dependentes == "N" & `Conta Conjunta` == "N"')

Relacionamento_Dependentes_ContaConjunta_Mals = mals_pagadores.query(
    'Dependentes == "N" & `Conta Conjunta` == "N"')

print("Quantidade de dados: {}\n".format(Relacionamento_Dependentes_ContaConjunta_Bons.shape[0] + 
 Relacionamento_Dependentes_ContaConjunta_Mals.shape[0]))


porcentagem_Rel_Dep_CC_Bons = (Relacionamento_Dependentes_ContaConjunta_Bons.shape[0]/
(Relacionamento_Dependentes_ContaConjunta_Bons.shape[0] + 
 Relacionamento_Dependentes_ContaConjunta_Mals.shape[0])) * 100

print('Relacionamento entre SEM dependentes | Sem Conta Conjunta\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Rel_Dep_CC_Bons, 
                                                     (100 - porcentagem_Rel_Dep_CC_Bons)))

Quantidade de dados: 31094

Relacionamento entre SEM dependentes | Sem Conta Conjunta

Bons pagadores: 72.43841255547694%
Mals pagadores: 27.561587444523056%


**Como foi comentado anteriormente, ambas variáveis Dependentes e Conta Conjunta tem sua importancia mas não são tão influêntes em mals pagadores.**

In [11]:
#Relacionamento casado parcial e SEM depedentes
Relacionamento_Dependentes_EstadoCivil_Bons = bons_pagadores.query(
    'Dependentes == "N" & `Estado Civil` == 4')

Relacionamento_Dependentes_EstadoCivil_Mals = mals_pagadores.query(
    'Dependentes == "N" & `Estado Civil` == 4')

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_Dependentes_EstadoCivil_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_Mals.shape[0]))


porcentagem_Rel_Dep_EC_Bons = (Relacionamento_Dependentes_EstadoCivil_Bons.shape[0]/
(Relacionamento_Dependentes_EstadoCivil_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_Mals.shape[0])) * 100

print('Relacionamento entre SEM dependentes | Casado Comunhão Parcial\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Rel_Dep_EC_Bons, 
                                                     (100 - porcentagem_Rel_Dep_EC_Bons)))


Quantidade de dados: 11915

Relacionamento entre SEM dependentes | Casado Comunhão Parcial

Bons pagadores: 59.64750314729332%
Mals pagadores: 40.35249685270668%


**Relação bem parecida com as outras relações acima, Estado Cívil tem mais força que Dependentes.**

In [12]:
salarioMinimo = 1045
print(salarioMinimo * 50)

52250


In [13]:
#Relacionamento entre Renda Informal e Idade

Relacionamento_RendaInformal_Idade_Bons = bons_pagadores.query(
    '`Renda Mensal Informal` >= 52250 & `Idade` >= 60')

Relacionamento_RendaInformal_Idade_Mals = mals_pagadores.query(
    '`Renda Mensal Informal` >= 52250 & `Idade` >= 60')

print("Quantidade de dados: {}\n".format(Relacionamento_RendaInformal_Idade_Bons.shape[0] + 
 Relacionamento_RendaInformal_Idade_Mals.shape[0]))

porcentagem_RendaInformal_Idade_Bons = (Relacionamento_RendaInformal_Idade_Bons.shape[0]/
(Relacionamento_RendaInformal_Idade_Bons.shape[0] + 
 Relacionamento_RendaInformal_Idade_Mals.shape[0])) * 100

print('Relacionamento entre Renda Informal Maior que 50 salários Mínimos | Idade Maior que 60 anos\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_RendaInformal_Idade_Bons, 
                                                     (100 - porcentagem_RendaInformal_Idade_Bons)))

Quantidade de dados: 84

Relacionamento entre Renda Informal Maior que 50 salários Mínimos | Idade Maior que 60 anos

Bons pagadores: 40.476190476190474%
Mals pagadores: 59.523809523809526%


**Apenas um teste, mesmo sabendo da pequena quantidade de dados entre os dois parâmetros análisados. Valor bem alto para mals pagadores. Interessantes mas duvidoso, seria bom uma análise também com o valor do emprestimo.**

In [14]:
#Relacionamento casado parcial, valor real pago > 80%
Relacionamento_Dependentes_EstadoCivil_VRP_Bons = bons_pagadores.query(
    '`Estado Civil` == 4 & `Valor Real Pago %` > 80')

Relacionamento_Dependentes_EstadoCivil_VRP_Mals = mals_pagadores.query(
    '`Estado Civil` == 4 & `Valor Real Pago %` > 80')

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_Dependentes_EstadoCivil_VRP_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_VRP_Mals.shape[0]))


porcentagem_Rel_Dep_EC_VRP_Bons = (Relacionamento_Dependentes_EstadoCivil_VRP_Bons.shape[0]/
(Relacionamento_Dependentes_EstadoCivil_VRP_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_VRP_Mals.shape[0])) * 100

print('Relacionamento entre Casado Comunhão Parcial | Valor Real Pago > 80%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Rel_Dep_EC_VRP_Bons, 
                                                     (100 - porcentagem_Rel_Dep_EC_VRP_Bons)))



Quantidade de dados: 7254

Relacionamento entre Casado Comunhão Parcial | Valor Real Pago > 80%

Bons pagadores: 46.084918665563826%
Mals pagadores: 53.915081334436174%


**A maior porcentagem de mals pagadores das relações analisadas. Em 14% do banco temos quase de 54% de mals pagadores. Ambas variáveis tem pesos notáveis nessa relação, não é uma relação tão obvia mas que é muito expressiva para futuras predições.**

In [15]:
#Relacionamento casado parcial e Multa > 30%
Relacionamento_Dependentes_EstadoCivil_Multa_Bons = bons_pagadores.query(
    '`Estado Civil` == 4 & `Multa %` >= 30')

Relacionamento_Dependentes_EstadoCivil_Multa_Mals = mals_pagadores.query(
    '`Estado Civil` == 4 & `Multa %` >= 30')

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_Dependentes_EstadoCivil_Multa_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_Multa_Mals.shape[0]))


porcentagem_Dependentes_EstadoCivil_Multa_Bons = (Relacionamento_Dependentes_EstadoCivil_Multa_Bons.shape[0]/
(Relacionamento_Dependentes_EstadoCivil_Multa_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_Multa_Mals.shape[0])) * 100

print('Relacionamento entre Casado Comunhão Parcial | Com Multa maior que 30%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Dependentes_EstadoCivil_Multa_Bons, 
                                                     (100 - porcentagem_Dependentes_EstadoCivil_Multa_Bons)))

Quantidade de dados: 7768

Relacionamento entre Casado Comunhão Parcial | Com Multa maior que 30%

Bons pagadores: 44.812049433573634%
Mals pagadores: 55.187950566426366%


**Bem parecida com a análise acima. Essas são as duas variáveis com os melhores valores individuais para predição de mals pagadores, e quando combinadas aumentaram esse índice.**

In [16]:
#Relacionamento SEM Cheque Sem Fundo e Multa > 30%
Relacionamento_Dependentes_EstadoCivil_Multa_Bons = bons_pagadores.query(
    '`Cheque Sem Fundo` == "N" & `Multa %` >= 30')

Relacionamento_Dependentes_EstadoCivil_Multa_Mals = mals_pagadores.query(
    '`Cheque Sem Fundo` == "N" & `Multa %` >= 30')

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_Dependentes_EstadoCivil_Multa_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_Multa_Mals.shape[0]))


porcentagem_Dependentes_EstadoCivil_Multa_Bons = (Relacionamento_Dependentes_EstadoCivil_Multa_Bons.shape[0]/
(Relacionamento_Dependentes_EstadoCivil_Multa_Bons.shape[0] + 
 Relacionamento_Dependentes_EstadoCivil_Multa_Mals.shape[0])) * 100

print('Relacionamento entre SEM Cheque Sem Fundo | Com Multa maior que 30%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Dependentes_EstadoCivil_Multa_Bons, 
                                                     (100 - porcentagem_Dependentes_EstadoCivil_Multa_Bons)))

Quantidade de dados: 18663

Relacionamento entre SEM Cheque Sem Fundo | Com Multa maior que 30%

Bons pagadores: 60.0868027648288%
Mals pagadores: 39.9131972351712%


**Um bom resultado, com uma quantidade de dados maior, mesmo sendo duvidosa a utilização da variável Cheque Sem Fundo = 'N' para encontrar mals pagadores.**

## Variáveis para análise de Bons pagadores

**Reuni as variáveis com maior índice de bons pagadores, são elas:**

*Cheque Sem Fundo: 'S'[90% bons pagadores]*

*Estado Civil: '2' - Solteiro [89% bons pagadores]*

*Escolaridade: Ensino Médio [90% bons pagadores]* 

*Dependentes: 'S' [90% bons pagadores]*

*Valor Real: <=60% [~90% bons pagadores]*

*Multa: <=10% [94,5% bons pagadores]*

In [17]:
#Relacionamento entre todas as variáveis

Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons = bons_pagadores.query(
    '`Cheque Sem Fundo` == "S" & `Estado Civil` == 2 & Escolaridade == 1 & \
    Dependentes == "S" & `Valor Real Pago %` <= 60 & `Multa %` <= 10' )

Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Mals = mals_pagadores.query(
    '`Cheque Sem Fundo` == "S" & `Estado Civil` == 2 & Escolaridade == 1 & \
    Dependentes == "S" & `Valor Real Pago %` <= 60 & `Multa %` <= 10' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons.shape[0] + 
 Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Mals.shape[0]))


porcentagem_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons = (Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons.shape[0]/
(Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons.shape[0] + 
 Relacionamento_chequeSemFundo_EC_Escol_Dep_VR_Multa_Mals.shape[0])) * 100

print('Relacionamento entre COM Cheque Sem Fundo | Solteiro | Ensino Médio | COM Dependentes \
| Valor Real <=60% | Multa <= 10%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons, 
                                                     (100 - porcentagem_chequeSemFundo_EC_Escol_Dep_VR_Multa_Bons)))


Quantidade de dados: 1055

Relacionamento entre COM Cheque Sem Fundo | Solteiro | Ensino Médio | COM Dependentes | Valor Real <=60% | Multa <= 10%

Bons pagadores: 95.54502369668246%
Mals pagadores: 4.454976303317537%


**Resultado muito bom, mas conta com apenas 2% da base, quanto mais parâmetros como esses a pessoas tiver, maior a chance de ela ser uma boa pagadora.**

In [18]:
#Relação entre Estado Civil, Dependentes e Escolaridade

Relacionamento_EC_Escol_Dep_Bons = bons_pagadores.query(
    '`Estado Civil` == 2 & Escolaridade == 1 & Dependentes == "S"' )

Relacionamento_EC_Escol_Dep_Mals = mals_pagadores.query(
    '`Estado Civil` == 2 & Escolaridade == 1 & Dependentes == "S"' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_EC_Escol_Dep_Bons.shape[0] + 
 Relacionamento_EC_Escol_Dep_Mals.shape[0]))


porcentagem_EC_Escol_Dep_Bons = (Relacionamento_EC_Escol_Dep_Bons.shape[0]/
(Relacionamento_EC_Escol_Dep_Bons.shape[0] + Relacionamento_EC_Escol_Dep_Mals.shape[0])) * 100

print('Relacionamento entre Estado Civil: Solteiro | Escolaridade: Ensino Médio | COM Dependentes\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_EC_Escol_Dep_Bons, 
                                                     (100 - porcentagem_EC_Escol_Dep_Bons)))


Quantidade de dados: 6534

Relacionamento entre Estado Civil: Solteiro | Escolaridade: Ensino Médio | COM Dependentes

Bons pagadores: 92.30180593816958%
Mals pagadores: 7.698194061830421%


**Amostra 6 vezes maior que a anterior com bons 92%**

In [19]:
#Relação entre Estado Civil e Dependentes

Relacionamento_EC_Dep_Bons = bons_pagadores.query(
    '`Estado Civil` == 2 & Dependentes == "S"' )

Relacionamento_EC_Dep_Mals = mals_pagadores.query(
    '`Estado Civil` == 2 & Dependentes == "S"' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_EC_Dep_Bons.shape[0] + 
 Relacionamento_EC_Dep_Mals.shape[0]))


porcentagem_EC_Dep_Bons = (Relacionamento_EC_Dep_Bons.shape[0]/
(Relacionamento_EC_Dep_Bons.shape[0] + Relacionamento_EC_Dep_Mals.shape[0])) * 100

print('Relacionamento entre Estado Civil: Solteiro | COM Dependentes\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_EC_Dep_Bons, 
                                                     (100 - porcentagem_EC_Dep_Bons)))


Quantidade de dados: 15785

Relacionamento entre Estado Civil: Solteiro | COM Dependentes

Bons pagadores: 92.09375989863796%
Mals pagadores: 7.9062401013620445%


**Com 30% do banco, Pessoas Solteiras e COM Dependentes são melhores pagadoras. Um dado não tanto intuitivo, não se espera que haja tantas pessoas solteiras com dependentes.**

In [20]:
#Relação Estado Civil e Escolaridade

Relacionamento_EC_Escol_Bons = bons_pagadores.query(
    '`Estado Civil` == 2 & Escolaridade == 1' )

Relacionamento_EC_Escol_Mals = mals_pagadores.query(
    '`Estado Civil` == 2 & Escolaridade == 1' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_EC_Escol_Bons.shape[0] + 
 Relacionamento_EC_Escol_Mals.shape[0]))


porcentagem_EC_Escol_Bons = (Relacionamento_EC_Escol_Bons.shape[0]/
(Relacionamento_EC_Escol_Bons.shape[0] + Relacionamento_EC_Escol_Mals.shape[0])) * 100

print('Relacionamento entre Estado Civil: Solteiro | Escolaridade: Ensino Médio\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_EC_Escol_Bons, 
                                                     (100 - porcentagem_EC_Escol_Bons)))


Quantidade de dados: 12358

Relacionamento entre Estado Civil: Solteiro | Escolaridade: Ensino Médio

Bons pagadores: 90.21686357015697%
Mals pagadores: 9.783136429843026%


**Essa combinação não foi tão efetiva, apenas a variável de Escolaridade já engloba 89% de bons pagadores e tem por volta de 12 mil de amostra.**

In [21]:
#Relacionamento Escolaridade, Dependentes

Relacionamento_Escol_Dep_Bons = bons_pagadores.query(
    'Escolaridade == 1 & Dependentes == "S"' )

Relacionamento_Escol_Dep_Mals = mals_pagadores.query(
    'Escolaridade == 1 & Dependentes == "S"' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_Escol_Dep_Bons.shape[0] + 
 Relacionamento_Escol_Dep_Mals.shape[0]))


porcentagem_Escol_Dep_Bons = (Relacionamento_Escol_Dep_Bons.shape[0]/
(Relacionamento_Escol_Dep_Bons.shape[0] + Relacionamento_Escol_Dep_Mals.shape[0])) * 100

print('Relacionamento entre Escolaridade: Ensino Médio | COM Dependentes\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Escol_Dep_Bons, 
                                                     (100 - porcentagem_Escol_Dep_Bons)))


Quantidade de dados: 6693

Relacionamento entre Escolaridade: Ensino Médio | COM Dependentes

Bons pagadores: 92.23068877932168%
Mals pagadores: 7.769311220678318%


**Um pequeno aumento da porcentagem de bons pagadores, mas uma redução por volta de 50% da quantidade de dados em comparação com a variável Escoaridade: Ensino Médio individualmente. Isso mostra uma divisão quase igualitária dentre que tem Ensino Médio em relação a COM/SEM Dependentes.**

In [22]:
#Relação Cheque Sem Fundo | Valor Real | Multa

Relacionamento_chequeSemFundo_VR_Multa_Bons = bons_pagadores.query(
    '`Cheque Sem Fundo` == "S" & `Valor Real Pago %` <= 60 & `Multa %` <= 10' )

Relacionamento_chequeSemFundo_VR_Multa_Mals = mals_pagadores.query(
    '`Cheque Sem Fundo` == "S" & `Valor Real Pago %` <= 60 & `Multa %` <= 10' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_chequeSemFundo_VR_Multa_Bons.shape[0] + 
 Relacionamento_chequeSemFundo_VR_Multa_Mals.shape[0]))


porcentagem_chequeSemFundo_VR_Multa_Bons = (Relacionamento_chequeSemFundo_VR_Multa_Bons.shape[0]/
(Relacionamento_chequeSemFundo_VR_Multa_Bons.shape[0] + 
 Relacionamento_chequeSemFundo_VR_Multa_Mals.shape[0])) * 100

print('Relacionamento entre COM Cheque Sem Fundo | Valor Real <=60% | Multa <= 20%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_chequeSemFundo_VR_Multa_Bons, 
                                                     (100 - porcentagem_chequeSemFundo_VR_Multa_Bons)))


Quantidade de dados: 5713

Relacionamento entre COM Cheque Sem Fundo | Valor Real <=60% | Multa <= 20%

Bons pagadores: 96.09662173989148%
Mals pagadores: 3.903378260108525%


**Porcentagem alta, mas apenas a análise da multa se mostra mais eficiente ao se ver a quantidade de dados, 5713 nesse com 96% para 94,5% em 22173 na análise individual da multa <=10%.**

In [23]:
#Relação Valor Real e Multa

Relacionamento_VR_Multa_Bons = bons_pagadores.query(
    '`Valor Real Pago %` <= 60 & `Multa %` <= 10' )

Relacionamento_VR_Multa_Mals = mals_pagadores.query(
    '`Valor Real Pago %` <= 60 & `Multa %` <= 10' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_VR_Multa_Bons.shape[0] + 
 Relacionamento_VR_Multa_Mals.shape[0]))


porcentagem_VR_Multa_Bons = (Relacionamento_VR_Multa_Bons.shape[0]/
(Relacionamento_VR_Multa_Bons.shape[0] + 
 Relacionamento_VR_Multa_Mals.shape[0])) * 100

print('Relacionamento entre Valor Real <=60% | Multa <= 10%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_VR_Multa_Bons, 
                                                     (100 - porcentagem_VR_Multa_Bons)))

Quantidade de dados: 19841

Relacionamento entre Valor Real <=60% | Multa <= 10%

Bons pagadores: 94.1636006249685%
Mals pagadores: 5.836399375031505%


**Esse relacionamento mostra o quão próximo estão essas duas variáveis, houve pouca redução na amostragem. Mas a análise individual da multa ainda tem aspectos melhores.**

In [24]:
#Relação Estado Civil e Multa

Relacionamento_EC_Multa_Bons = bons_pagadores.query(
    '`Estado Civil` == 2 & `Multa %` <= 10' )

Relacionamento_EC_Multa_Mals = mals_pagadores.query(
    '`Estado Civil` == 2 & `Multa %` <= 10' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_EC_Multa_Bons.shape[0] + 
 Relacionamento_EC_Multa_Mals.shape[0]))


porcentagem_EC_Multa_Bons = (Relacionamento_EC_Multa_Bons.shape[0]/
(Relacionamento_EC_Multa_Bons.shape[0] + 
 Relacionamento_EC_Multa_Mals.shape[0])) * 100

print('Relacionamento entre Estado Civil: Solteiro | Multa <= 10%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_EC_Multa_Bons, 
                                                     (100 - porcentagem_EC_Multa_Bons)))

Quantidade de dados: 14835

Relacionamento entre Estado Civil: Solteiro | Multa <= 10%

Bons pagadores: 95.18705763397371%
Mals pagadores: 4.8129423660262916%


**Essa faz relação das duas variáveis com maior número de amostras individuais, um bom indicativo.**

In [25]:
#Relação Escolaridade e Multa

Relacionamento_Escol_Multa_Bons = bons_pagadores.query(
    'Escolaridade == 1 & `Multa %` <= 10' )

Relacionamento_Escol_Multa_Mals = mals_pagadores.query(
    'Escolaridade == 1 & `Multa %` <= 10' )

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_Escol_Multa_Bons.shape[0] + 
 Relacionamento_Escol_Multa_Mals.shape[0]))


porcentagem_Escol_Multa_Bons = (Relacionamento_Escol_Multa_Bons.shape[0]/
(Relacionamento_Escol_Multa_Bons.shape[0] + 
 Relacionamento_Escol_Multa_Mals.shape[0])) * 100

print('Relacionamento entre Escolaridade: Ensino Médio | Multa <= 10%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_Escol_Multa_Bons, 
                                                     (100 - porcentagem_Escol_Multa_Bons)))

Quantidade de dados: 6702

Relacionamento entre Escolaridade: Ensino Médio | Multa <= 10%

Bons pagadores: 95.29991047448523%
Mals pagadores: 4.70008952551477%


**Outra vez a análise da Multa individual tem mais sentido, amostra foi muito reduzida.**

In [26]:
#Relacionamento COM Cheque Sem Fundo e Multa
Relacionamento_chequeSemFundo_Multa_Bons = bons_pagadores.query(
    '`Cheque Sem Fundo` == "S" & `Multa %` <= 10')

Relacionamento_chequeSemFundo_Multa_Mals = mals_pagadores.query(
    '`Cheque Sem Fundo` == "S" & `Multa %` <= 10')

#Print quantidade de dados filtrados
print("Quantidade de dados: {}\n".format(Relacionamento_chequeSemFundo_Multa_Bons.shape[0] + 
 Relacionamento_chequeSemFundo_Multa_Mals.shape[0]))


porcentagem_chequeSemFundo_Multa_Bons = (Relacionamento_chequeSemFundo_Multa_Bons.shape[0]/
(Relacionamento_chequeSemFundo_Multa_Bons.shape[0] + 
 Relacionamento_chequeSemFundo_Multa_Mals.shape[0])) * 100

print('Relacionamento entre COM Cheque sem fundo | Com Multa menor que 10%\n\n' +
        'Bons pagadores: {}%\nMals pagadores: {}%'.format(porcentagem_chequeSemFundo_Multa_Bons, 
                                                     (100 - porcentagem_chequeSemFundo_Multa_Bons)))

Quantidade de dados: 6351

Relacionamento entre COM Cheque sem fundo | Com Multa menor que 10%

Bons pagadores: 96.3785230672335%
Mals pagadores: 3.621476932766498%


**Uma boa porcentagem, mas muito estranho bons pagadores apresentarem Cheque sem fundo na sua ficha de empréstimo.**

**Dentre as variáveis analisadas, o banco estava bem completo, com exceção de 'Renda Informal' e 'Escolaridade'. Mas mesmo assim foi possivel retirar algumas informações válidas dessas colunas com missing values.**

**Para a construção de um modelo preditivo, ao listar as possíveis melhores variáveis para classificação de pagadores, eu escolheria, por ordem de relevância:**

*Multa*

*Recorrencia de ID*

*Estado Civil*

*Valor Real*

*Dependentes*

*Cheque Sem Fundo*

**Essas cinco foram aparentemente as que conseguiram filtrar melhor tanto bons quanto mals pagadores, achei "Cheque Sem Fundo" com dados incosistentes, por não ser intuitivo bons pagadores apresentarem Cheques sem fundos e mals pagadores não apresentarem, mas a amostra é grande para ambos...**

**A variável Multa é talvez a melhor dentre as escolhidas, tem uma boa distribuição das amostras por faixa e é intuitiva, uma vez que quanto menor a multa mais fácil é de pagá-la. Tem limiares entre bons e mals pagadores bem definidos em <10% e >30%. O mesmo acontece com valor real, mas como são variáveis bem semelhantes talvez represente informação redundante para o modelo.**

**Dependentes mostra um bom limiar entra bons e mals, e também é um pouco intuitivo, uma vez que quem tem Dependentes talvez preze por ter uma vida financeira saudável.**

**Já em Estado Civil temos que ter cuidado com OverFitting em alguns dos seus tipos, muitos deles como Divorciado, Viuvo, Outros e Separado tem uma amostra muito baixa. Já outros como Comunhão Parcial e Solteiro tem ótimos limiares para classificação e amostras grandes.**

**A recorrencia de ID, apresentou 88% de igualdade no pagamento de empréstimos recorrentes, essa análise de antecedentes para construção do modelo também seria de grande relevância.**

**Outros tipos de relacionamento podem ser feitos, tais como Genero, Dependentes e Conta Conjunta, que pode revelar um possível comportamento de gênero. As colunas de 'Valor Conta Corrente' e 'Valor Conta Poupança' poderiam ser variáveis muito importantes em uma análisia prévia de inadimplência, mas estavam sem nenhum valor, bem como a coluna das datas, talvez uma análise temporal dos empréstimos traria também informações úteis.**
