### Cenário

A QuantumFinance está acompanhando um crescimento de inadimplência entre seus clientes e solicita a consultoria
para desenvolver uma análise com base na sua carteira atual de clientes.

Para que a QuantumFinance tome decisões mais precisas sobre concessões de crédito, ela precisa aprimorar seu
modelo de crédito.

Com o objeto de trazer novos clientes com o perfil de baixo risco de crédito desenvolva um modelo de Credit Scoring.

***

>Desafio: Desenvolver o modelo preditivo mediante uso do valor target disponível na base de dados “Base_ScoreCredito_QuantumFinance.csv” e criar um simulador do modelo para os analistas de créditos e gerentes de conta.

### Dicionário: Base de Crédito

***

> ### ID
> ***

|Variável|Descrição|
|--|--|
|id|ID|


> ### Idade
> ***

|Variável|Descrição|
|--|--|
|idade|Idade em anos|

> ### Sexo
> ***

|Variável|Descrição|Categorias|Valores|
|--|--|--|--|
|sexo|Sexo|F|Feminino|
|sexo|Sexo|M|Masculino|

> ### Estado Civil
> ***

|Variável|Descrição|Categorias|
|--|--|--|
|estado_civil|Estado Civil|Solteiro|
|estado_civil|Estado Civil|Casado|
|estado_civil|Estado Civil|Divorciado|


> ### Escola
> ***

|Variável|Descrição|Categorias|Valores|
|--|--|--|--|
|escola|Grau de Instrução|ensino fundam|Até ensino fundamental|
|escola|Grau de Instrução|ensino médio|ensino médio|
|escola|Grau de Instrução|Graduação|Graduação|
|escola|Grau de Instrução|Doutorado|Doutorado|

> ### Trabalha
> ***

|Variável|Descrição|Categorias|Valores|
|--|--|--|--|
|trabalha|Trabalha|1|Sim|
|trabalha|Trabalha|0|Não|

> ### Região da Moradia
> ***

|Variável|Categorias|Valores|
|--|--|--|
|reg_moradia|1|Segmento Geográfico A|
|reg_moradia|2|Segmento Geográfico B|
|reg_moradia|3|Segmento Geográfico C|
|reg_moradia|4|Segmento Geográfico D|
|reg_moradia|5|Segmento Geográfico E|
|reg_moradia|6|Segmento Geográfico F|


> ### Casa Própria
> ***

|Variável|Categorias|Valores|
|--|--|--|
|casa_propria|1|Sim|
|casa_propria|0|Não|

> ### Quantidade de Dependentes
> ***

|Variável|Descrição|
|--|--|
|Qte_dependentes|Quantidade de Dependentes|

> ### Tempo de Trabalho (Meses)
> ***

|Variável|Descrição|
|--|--|
|tempo_ultimoservico|Tempo de trabalho em meses|

> ### Salário
> ***

|Variável|Descrição|
|--|--|
|vl_salario_mil|Salário|

> ### Valor do imóvel (R$)
> ***

|Variável|Descrição|
|--|--|
|vl_imovel_em_mil|Valor do imóvel em Reais|

> ### Quantidade de cartões de crédito
> ***

|Variável|Descrição|
|--|--|
|Qte_cartoes|Quantidade de cartões de crédito|

> ### Quantidade de carros
> ***

|Variável|Descrição|
|--|--|
|Qte_carros|Quantidade de carros|

> ### Credit Scoring
> ***

|Variável|Descrição|
|--|--|
|SCORE_CREDITO|Credit Scoring|

### 1. Conhecendo os dados

In [21]:
import pandas as pd

url = 'https://raw.githubusercontent.com/julio-monzem/quantum-fintech-credito/refs/heads/main/Base_ScoreCredito_QuantumFinance.csv'

dados = pd.read_csv(url, delimiter=';', decimal=',')
dados.shape

(10127, 15)

In [22]:
dados.columns = dados.columns.str.lower()
dados.columns

Index(['id', 'idade', 'sexo', 'estado_civil', 'escola', 'qte_dependentes',
       'tempo_ultimoservico', 'trabalha', 'vl_salario_mil', 'reg_moradia',
       'casa_propria', 'vl_imovel_em_mil', 'qte_cartoes', 'qte_carros',
       'score_credito'],
      dtype='object')

In [23]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   10127 non-null  int64  
 1   idade                10127 non-null  int64  
 2   sexo                 10127 non-null  object 
 3   estado_civil         10127 non-null  object 
 4   escola               10127 non-null  object 
 5   qte_dependentes      10127 non-null  int64  
 6   tempo_ultimoservico  10127 non-null  int64  
 7   trabalha             10127 non-null  int64  
 8   vl_salario_mil       10127 non-null  float64
 9   reg_moradia          10127 non-null  int64  
 10  casa_propria         10127 non-null  int64  
 11  vl_imovel_em_mil     10127 non-null  int64  
 12  qte_cartoes          10127 non-null  int64  
 13  qte_carros           10127 non-null  int64  
 14  score_credito        10127 non-null  float64
dtypes: float64(2), int64(10), object(3)


In [26]:
dados[['id', 'trabalha', 'reg_moradia', 'casa_propria']] = dados[['id', 'trabalha', 'reg_moradia', 'casa_propria']].astype(str)
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   10127 non-null  object 
 1   idade                10127 non-null  int64  
 2   sexo                 10127 non-null  object 
 3   estado_civil         10127 non-null  object 
 4   escola               10127 non-null  object 
 5   qte_dependentes      10127 non-null  int64  
 6   tempo_ultimoservico  10127 non-null  int64  
 7   trabalha             10127 non-null  object 
 8   vl_salario_mil       10127 non-null  float64
 9   reg_moradia          10127 non-null  object 
 10  casa_propria         10127 non-null  object 
 11  vl_imovel_em_mil     10127 non-null  int64  
 12  qte_cartoes          10127 non-null  int64  
 13  qte_carros           10127 non-null  int64  
 14  score_credito        10127 non-null  float64
dtypes: float64(2), int64(6), object(7)
m

In [None]:
dados.head()

Unnamed: 0,id,idade,sexo,estado_civil,escola,qte_dependentes,tempo_ultimoservico,trabalha,vl_salario_mil,reg_moradia,casa_propria,vl_imovel_em_mil,qte_cartoes,qte_carros,score_credito
0,708082083,45,F,casado,graduacao,3,40,1,40089665024322,3,0,0,1,1,778
1,708083283,58,M,solteiro,ensino fundam,0,44,1,66557645274838,3,0,0,1,0,2763
2,708084558,46,M,divorciado,doutorado,3,35,1,12368182089138,6,0,0,1,1,401
3,708085458,34,F,solteiro,mestrado,0,22,1,197159343168329,6,0,0,1,0,3474
4,708086958,49,F,casado,mestrado,2,36,0,0,3,1,437,1,2,476


In [27]:
dados.describe()

Unnamed: 0,idade,qte_dependentes,tempo_ultimoservico,vl_salario_mil,vl_imovel_em_mil,qte_cartoes,qte_carros,score_credito
count,10127.0,10127.0,10127.0,10127.0,10127.0,10127.0,10127.0,10127.0
mean,46.32596,1.547447,34.133208,70.209002,208.999111,1.083638,0.623383,469.500364
std,8.016814,1.489079,8.221428,55.567032,378.495229,0.333784,0.569796,133.814653
min,26.0,0.0,7.0,0.0,0.0,1.0,0.0,162.0
25%,41.0,0.0,30.0,21.330536,0.0,1.0,0.0,375.0
50%,46.0,1.0,34.0,66.486331,0.0,1.0,1.0,449.6
75%,52.0,3.0,39.0,107.544225,289.0,1.0,1.0,540.9
max,73.0,5.0,57.0,233.301793,1800.0,4.0,2.0,979.65


In [40]:
dados.groupby('reg_moradia')['score_credito'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
reg_moradia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,1065.0,591.919213,167.761615,263.7,448.0,575.0,753.3,979.65
2,1164.0,530.968588,144.739008,228.24,412.8,521.55,650.0,913.0
3,2248.0,453.72456,119.291808,216.72,370.62,437.925,522.0,910.0
4,1923.0,440.864552,117.168354,162.0,361.8,432.0,508.25,884.0
5,1876.0,439.355034,108.507883,171.9,362.525,431.1,506.7,841.0
6,1851.0,439.872176,105.901028,186.0,362.94,436.0,506.0,746.75


In [35]:
dados.groupby('casa_propria')['score_credito'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
casa_propria,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,6558.0,444.860351,115.862767,162.0,364.5,434.7,510.0,913.0
1,3569.0,514.776129,151.598199,193.5,397.6,491.0,622.0,979.65
