# Análise do risco de inadimplência dos usuários:

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.


## Abra o arquivo de dados e veja as informações gerais.

[Comece importando as bibliotecas e carregando os dados. Você pode perceber que precisa de bibliotecas adicionais à medida que avança, o que é totalmente bom - apenas certifique-se de atualizar esta seção quando o fizer.]

In [1]:
# Carregando todas as bibliotecas
import pandas as pd
credit_scoring = pd.read_csv('/datasets/credit_scoring_eng.csv')

# Carregue os dados
credit_scoring


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo



In [2]:
# Vamos ver quantas linhas e colunas nosso conjunto de dados tem usando o método shape
credit_scoring.shape

(21525, 12)

In [3]:
# vamos exibir as primeiras 100 linhas usando a função .head()
credit_scoring.head(100)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
95,0,-541.832241,51,bachelor's degree,0,married,0,F,employee,0,15070.060,car
96,0,,44,SECONDARY EDUCATION,1,married,0,F,employee,0,,buy residential real estate
97,0,,47,bachelor's degree,0,married,0,F,employee,0,,profile education
98,0,364906.205736,54,bachelor's degree,0,married,0,F,retiree,0,31953.168,buying property for renting out



- Na coluna 'days_employed' existem valores ausentes e números negativos, valores desproporcionais e está no tipo float64. A coluna mostra quantos dias a pessoa esteve empregada, portanto não pode ser um número negativo.


- Na coluna 'education' existem linhas com valores em letra maiúscula, devemos padronizar tudo em letra minúscula.


- Na coluna 'total_income' existem valores ausentes. 


- Na coluna 'purpose' existem duplicatas implicitas (a mesma informação escrita de jeitos diferentes).


In [4]:
# Obter informações sobre dados
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Existem valores ausentes somente nas colunas ' days_employed' e 'total_income' 

In [5]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes
credit_scoring.loc[credit_scoring['days_employed'].isnull()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate




Parece que temos a mesma quantidade de valores ausentes em ambas as colunas, o que pode ser uma relação direta entre esses dados, vamos fazer uma análise mais aprofundada para confirmar isso.

Abaixo iremos somar os valores ausentes em cada coluna para confirmar isso:


In [6]:
# Quantidade de valores ausentes na coluna 'days_employed'
credit_scoring['days_employed'].isna().sum()


2174

In [7]:
# Quantidade de valores ausentes na coluna 'total_income'
credit_scoring['total_income'].isna().sum()

2174

Abaixo também pude verificar que 101 pessoas preencheram a idade (dob_years) com o valor 0, o que precisará de uma análise mais aprofundada.

In [8]:
credit_scoring[credit_scoring['dob_years'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,Secondary Education,1,married,0,F,retiree,0,11406.644,car
149,0,-2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,-1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,-1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,-108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


In [9]:
# Verificando se existem duplicatas na tabela e somando para ver quantas são:

credit_scoring.duplicated().sum()

54

In [10]:
# eliminando duplicatas óbvias:

credit_scoring.drop_duplicates().reset_index(drop = True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21466,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21467,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21468,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21469,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [11]:
# calculando a porcentagem de valores ausentes em relação ao restante da tabela

missing_data = 2174  #quantidade de linhas com valores ausentes
total_data = 21471   #quantidade total de linhas
missing_percent = missing_data / total_data   #porcentagem de valores ausentes

f'Temos {missing_percent:.0%} de valores ausentes nas colunas days_employed e total_income'

'Temos 10% de valores ausentes nas colunas days_employed e total_income'

**Conclusão intermediária**

Podemos observar que todos que não preencheram a quantidade de dias trabalhados, também não preencheram a renda mensal.

Existe a possibilidade da pessoa que não preencheu esses valores nunca ter trabalhado.

10% das linhas tem valores ausentes, sendo assim vamos fazer a distribuição da tabela com valores ausentes e do conjunto completo de dados e verificar se existe diferença.


In [12]:
# Vamos investigar clientes que não possuem dados sobre as características identificadas e a coluna com os valores ausentes
columns_missing = credit_scoring[credit_scoring['days_employed'].isnull() & credit_scoring['total_income'].isnull()]
columns_missing

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [13]:
# Verificar a distribuição da coluna filtrada colocando os valores em taxa de % 
columns_missing['children'].value_counts(normalize = True) * 100

 0     66.191352
 1     21.849126
 2      9.383625
 3      1.655934
 20     0.413983
 4      0.321987
-1      0.137994
 5      0.045998
Name: children, dtype: float64

In [14]:
columns_missing['dob_years'].value_counts(normalize = True) * 100

34    3.173873
40    3.035879
31    2.989880
42    2.989880
35    2.943882
36    2.897884
47    2.713891
41    2.713891
30    2.667893
28    2.621895
57    2.575897
58    2.575897
54    2.529899
38    2.483901
56    2.483901
37    2.437902
52    2.437902
39    2.345906
33    2.345906
50    2.345906
51    2.299908
45    2.299908
49    2.299908
29    2.299908
43    2.299908
46    2.207912
55    2.207912
48    2.115915
53    2.023919
44    2.023919
60    1.793928
61    1.747930
62    1.747930
64    1.701932
32    1.701932
27    1.655934
23    1.655934
26    1.609936
59    1.563937
63    1.333947
25    1.057958
24    0.965961
66    0.919963
65    0.919963
21    0.827967
22    0.781969
67    0.735971
0     0.459982
68    0.413983
69    0.229991
20    0.229991
71    0.229991
70    0.137994
72    0.091996
19    0.045998
73    0.045998
Name: dob_years, dtype: float64

In [15]:
columns_missing['education'].value_counts(normalize = True) * 100

secondary education    64.765409
bachelor's degree      22.815087
SECONDARY EDUCATION     3.081877
Secondary Education     2.989880
some college            2.529899
Bachelor's Degree       1.149954
BACHELOR'S DEGREE       1.057958
primary education       0.873965
Some College            0.321987
SOME COLLEGE            0.321987
PRIMARY EDUCATION       0.045998
Primary Education       0.045998
Name: education, dtype: float64

In [16]:
columns_missing['family_status'].value_counts(normalize = True) * 100

married              56.899724
civil partnership    20.331187
unmarried            13.247470
divorced              5.151794
widow / widower       4.369825
Name: family_status, dtype: float64

In [17]:
columns_missing['gender'].value_counts(normalize = True) * 100

F    68.26127
M    31.73873
Name: gender, dtype: float64

In [18]:
columns_missing['income_type'].value_counts(normalize = True) * 100

employee         50.827967
business         23.367065
retiree          18.997240
civil servant     6.761730
entrepreneur      0.045998
Name: income_type, dtype: float64

In [19]:
columns_missing['purpose'].value_counts(normalize = True) * 100

having a wedding                            4.231831
to have a wedding                           3.725851
wedding ceremony                            3.495860
construction of own property                3.449862
housing transactions                        3.403864
buy real estate                             3.311868
transactions with my real estate            3.265869
purchase of the house for my family         3.265869
transactions with commercial real estate    3.219871
housing renovation                          3.219871
buy commercial real estate                  3.081877
buying property for renting out             2.989880
property                                    2.851886
buy residential real estate                 2.805888
real estate transactions                    2.805888
housing                                     2.759890
building a property                         2.713891
cars                                        2.621895
going to university                         2.

[Descreva suas descobertas aqui.]

**Possíveis motivos para valores ausentes nos dados**

Podemos observar que:
66% das pessoas que não preencheram todos os dados, não tem filhos. 
Aproximadamente 70% estudaram até o segundo grau. 
56% são casadas 
68% são mulheres
mais de 80% tem uma ocupação profissional 

As pessoas que deixaram valores em branco nos dados, na grande maioria trabalham, então deveriam ter renda mensal e também exibir os dias trabalhados. 


[Proponha suas ideias sobre por que você acha que os valores podem estar ausentes. Você acha que eles estão ausentes aleatoriamente ou há algum padrão?]

[Vamos começar a verificar se os valores ausentes são aleatórios.]

In [20]:
# Verificar a distribuição em todo o conjunto de dados em taxa de % 

credit_scoring['children'].value_counts(normalize = True, dropna = False) * 100

 0     65.732869
 1     22.383275
 2      9.547038
 3      1.533101
 20     0.353078
-1      0.218351
 4      0.190476
 5      0.041812
Name: children, dtype: float64

In [21]:
credit_scoring['dob_years'].value_counts(normalize = True) * 100

35    2.866434
40    2.829268
41    2.819977
34    2.801394
38    2.778165
42    2.773519
33    2.699187
39    2.662021
31    2.601626
36    2.578397
44    2.541231
29    2.531940
30    2.508711
48    2.499419
37    2.494774
50    2.387921
43    2.383275
32    2.369338
49    2.360046
28    2.336818
45    2.308943
27    2.290360
56    2.262485
52    2.248548
47    2.229965
54    2.225319
46    2.206736
58    2.141696
57    2.137050
53    2.132404
51    2.081301
59    2.062718
55    2.058072
26    1.895470
60    1.751452
25    1.658537
61    1.649245
62    1.635308
63    1.249710
64    1.231127
24    1.226481
23    1.180023
65    0.901278
66    0.850174
22    0.850174
67    0.775842
21    0.515679
0     0.469222
68    0.459930
69    0.394890
70    0.301974
71    0.269454
20    0.236934
72    0.153310
19    0.065041
73    0.037166
74    0.027875
75    0.004646
Name: dob_years, dtype: float64

In [22]:
credit_scoring['education'].value_counts(normalize = True) * 100

secondary education    63.879210
bachelor's degree      21.918699
SECONDARY EDUCATION     3.586527
Secondary Education     3.303136
some college            3.103368
BACHELOR'S DEGREE       1.272938
Bachelor's Degree       1.245064
primary education       1.161440
Some College            0.218351
SOME COLLEGE            0.134727
PRIMARY EDUCATION       0.078978
Primary Education       0.069686
graduate degree         0.018583
Graduate Degree         0.004646
GRADUATE DEGREE         0.004646
Name: education, dtype: float64

In [23]:
credit_scoring['family_status'].value_counts(normalize = True) * 100

married              57.514518
civil partnership    19.405343
unmarried            13.068525
divorced              5.551684
widow / widower       4.459930
Name: family_status, dtype: float64

In [24]:
credit_scoring['gender'].value_counts(normalize = True) * 100

F      66.137050
M      33.858304
XNA     0.004646
Name: gender, dtype: float64

**Conclusão intermediária**


Podemos observar que a distribuição original é praticamente igual a distribuição da tabela filtrada, o que me faz acreditar que os valores ausentes são aleatórios.



**Conclusões**

Tendo em mente que os valores ausentes foram acidentais, vamos preenche-los de forma que não altere os resultados do nosso estudo.
Os valores ausentes na coluna 'days_employed' irei primeiro categorizar por idade e depois preencher com a média de cada categoria criada.
Os valores ausentes na coluna 'total_income' irei agrupar por ocupação ('income_type') e depois preencher com a média de cada grupo.



## Transformação de dados



In [25]:
# Vamos ver todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
credit_scoring['education'].value_counts()


secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [26]:
# Podemos ver que existem registros com o mesmo nome em letras maiuscula e minuscula, vamos padronizar mudando todos os registros
# para letra minuscula com o método .lower()

credit_scoring['education'] = credit_scoring['education'].str.lower()

In [27]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos

credit_scoring['education'].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

[Verifique os dados na coluna `children`]

In [28]:
# Vamos ver a distribuição de valores na coluna `children`
credit_scoring['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


existem 47 registros com o valor -1, acredito que tenham sido por erro de digitação, irei substituir o valor negativo pelo mesmo positivo. 

In [29]:
# passando todos os valores para positivo usando o método .abs()
credit_scoring['children'] = credit_scoring['children'].abs()

In [30]:
# Verificando a coluna `children` novamente para ter certeza de que está tudo corrigido
credit_scoring['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

.

In [31]:
# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem
credit_scoring['days_employed'].value_counts().sort_values()

-327.685916       1
-1333.589790      1
-147.097779       1
-523.142699       1
-4664.837665      1
                 ..
-4994.763109      1
 346393.178654    1
-935.373324       1
-2916.709461      1
-3382.113891      1
Name: days_employed, Length: 19351, dtype: int64

In [32]:
# vimos que a coluna está cheia de valores negativos, aqui irei verificar quantos valores negativos tem nessa coluna:
column2 = credit_scoring['days_employed']
negative_values = column2[column2 < 0]
negative_values.count()

15906

In [33]:
# calculando a porcentagem de valores negativos na tabela
total_data2 = 19351
negatives = 15906
negative_percent = 15906 / 19351 

f'temos ao todo {negative_percent:.0%} de valores negativos nessa coluna'

'temos ao todo 82% de valores negativos nessa coluna'

Como 82% dos valores da tabela estão negativos, acredito que tenha sido algum problema técnico de digitação, então irei apenas torna-los todos positivos e depois dar continuidade na análise.


In [34]:
# transformando todos valores da coluna em números positivos:
credit_scoring['days_employed'] = credit_scoring['days_employed'].abs()

In [35]:
# Verificando o resultado
credit_scoring['days_employed'].value_counts().sort_values()

142.276217     1
382.621465     1
1578.419429    1
1214.614264    1
2793.758190    1
              ..
4665.860899    1
1513.814188    1
1042.200490    1
3229.233747    1
1636.419775    1
Name: days_employed, Length: 19351, dtype: int64

.

In [36]:
# Verificando a coluna 'dob_years' para encontrar possiveis problemas:
credit_scoring['dob_years'].value_counts().sort_values()

75      1
74      6
73      8
19     14
72     33
20     51
71     58
70     65
69     85
68     99
0     101
21    111
67    167
22    183
66    183
65    194
23    254
24    264
64    265
63    269
62    352
61    355
25    357
60    377
26    408
55    443
59    444
51    448
53    459
57    460
58    461
46    475
54    479
47    480
52    484
56    487
27    493
45    497
28    503
49    508
32    510
43    513
50    514
37    537
48    538
30    540
29    545
44    547
36    555
31    560
39    573
33    581
42    597
38    598
34    603
41    607
40    609
35    617
Name: dob_years, dtype: int64

In [37]:
# Calculando a porcentagem de valores problematicos na coluna, nesse caso valores onde a idade é igual a 0:
total_column3 = 21525
problems3 = 101
percent_problems3 = 101 / 21525 
f'temos {percent_problems3:0%} de registros problemáticos nessa coluna.'

'temos 0.469222% de registros problemáticos nessa coluna.'

Como a quantidade de valores problematicos nessa coluna é muito baixa, irei substitui-los pela média dos valores e acredito que assim não irá comprometer a análise.

In [38]:
# Calculando a média dos valores na coluna 'dob_years' com o método .mean()
mean_years = credit_scoring['dob_years'].mean()
mean_years

43.29337979094077

In [39]:
# substituindo os valores problemáticos da coluna pela média: 
credit_scoring['dob_years'] = credit_scoring['dob_years'].replace(0, mean_years)

In [40]:
# Confirmando que não existem mais valores 0 na coluna 'dob_years'
credit_scoring['dob_years'].loc[credit_scoring['dob_years']==0]

Series([], Name: dob_years, dtype: float64)

Agora vamos verificar a coluna `family_status`.

In [41]:
# Vamos ver os valores da coluna
credit_scoring['family_status'].value_counts()

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

Não existem valores problemáticos na coluna `family_status`.

Agora vamos verificar a coluna `gender`. Veja que tipo de valores existem e quais problemas podemos precisar resolver

In [42]:
# Vamos ver os valores na coluna
credit_scoring['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [43]:
# Como só existe 1 valor diferente, irei substituí-lo por F que é o valor que mais aparece nos dados.
credit_scoring['gender'] = credit_scoring['gender'].replace('XNA', 'F')

In [44]:
# Verificando se está corrigido
credit_scoring['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

Agora vamos verificar a coluna `income_type`. 

In [45]:
# Vamos ver os valores na coluna
credit_scoring['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

Não existem problemas na coluna 'income_type'

Verificando se existem duplicatas em nossos dados

In [46]:
# Verificar duplicatas
credit_scoring.duplicated().sum()

71

In [47]:
# Descartando os valores duplicados, pois são uma porcentagem baixa em relação ao conjunto de dados.
credit_scoring = credit_scoring.drop_duplicates().reset_index(drop=True)

In [48]:
# Última verificação se temos duplicatas
credit_scoring.duplicated().sum()

0

In [49]:
#Verifique o tamanho do conjunto de dados que você tem agora após suas primeiras manipulações com ele
credit_scoring.shape

(21454, 12)

Após o primeiro tratamento nos dados, corrigimos valores problemáticos e duplicatas e tivemos uma pequena diminuição no total de linhas, uma diferença de 71 linhas a menos (21525-21454) 


# Trabalhando com valores ausentes

Aqui iremos criar dicionários para alguns valores, onde os IDs são fornecidos. No caso serão criados um para o nivel de educação e um para o status familiar.

In [50]:
# Dicionário para educação:
education_dictionary = credit_scoring[['education_id', 'education']]
education_dictionary = education_dictionary.drop_duplicates().reset_index(drop=True)
education_dictionary

Unnamed: 0,education_id,education
0,0,bachelor's degree
1,1,secondary education
2,2,some college
3,3,primary education
4,4,graduate degree


In [51]:
# Dicionário para status da familia:
family_dictionary = credit_scoring[['family_status_id', 'family_status']]
family_dictionary = family_dictionary.drop_duplicates().reset_index(drop=True)
family_dictionary

Unnamed: 0,family_status_id,family_status
0,0,married
1,1,civil partnership
2,2,widow / widower
3,3,divorced
4,4,unmarried


### Restaurar valores ausentes em `total_income`

Como vimos anteriormente, temos valores ausentes nas colunas 'days_employed' e na 'total_income'.





In [52]:
# Vamos escrever uma função que calcule a categoria de idade
def age_group_category(row):
    
    age = row['dob_years']
    
    if age < 25:
        return 'career start'
    if age <= 35:
        return 'experienced professional'
    if age <= 55:
        return 'expert professional'
    else:
        return 'ending career'

 
    

In [53]:
# Teste se a função funciona
age_group_category(credit_scoring.iloc[2])


'experienced professional'

In [54]:
# Criar coluna nova com base na função
credit_scoring['age_group'] = credit_scoring.apply(age_group_category, axis=1)


In [55]:
# Verificar como os valores na nova coluna
credit_scoring['age_group'].value_counts()

expert professional         10535
experienced professional     5708
ending career                4336
career start                  875
Name: age_group, dtype: int64

.

.

In [56]:
# Crie uma tabela sem valores ausentes e exiba algumas de suas linhas para garantir que ela fique boa
no_ausents_data = credit_scoring.loc[credit_scoring['days_employed'].isnull() != True]
no_ausents_data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

In [57]:
# Veja os valores médios de renda com base em seus fatores identificados
no_ausents_data.pivot_table(index=['income_type', 'gender'],
                    columns='age_group',
                    values='total_income',
                    aggfunc='mean')

Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
income_type,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,F,23231.064432,30748.509448,28334.579168,30495.409766
business,M,28972.349811,34608.546755,35976.801436,39620.575207
civil servant,F,23079.340682,26044.098337,24004.602342,25226.514132
civil servant,M,24040.661476,31248.383433,33943.163283,35939.116453
employee,F,18872.003549,25948.071876,23430.721013,24120.182766
employee,M,24416.748299,29298.919106,28667.21933,29587.147997
entrepreneur,F,,,79866.103,
paternity / maternity leave,F,,,,8612.661
retiree,F,14298.976,21283.752341,21445.549667,21990.874219
retiree,M,,23089.059815,17703.494333,27717.820329


In [58]:
# Verificando a renda média levando em conta a idade profissional ('age_group') e classificando por nivel de educação e genero
no_ausents_data.pivot_table(index=['education', 'gender'],
                    columns='age_group',
                    values='total_income',
                    aggfunc='mean')

Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
education,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
bachelor's degree,F,23620.715184,28234.389212,29035.46472,32376.955039
bachelor's degree,M,29094.499105,34398.093921,37104.196247,43008.85817
graduate degree,F,,40868.031,,17822.757
graduate degree,M,,29373.0965,,25161.5835
primary education,F,21635.141,17692.467535,20409.492429,20398.15113
primary education,M,26356.526667,19917.479684,25693.771353,23827.883474
secondary education,F,19325.36218,21984.937574,22255.044909,23365.365576
secondary education,M,24219.437424,24862.115447,28355.719504,29660.331965
some college,F,19795.558671,26589.426212,26261.628545,30643.218374
some college,M,27871.288315,37774.14975,33457.969196,35813.89281


In [59]:
# Verificando o valor mediano de renda levando em conta a idade profissional ('age_group') e classificando por profissão  e genero
no_ausents_data.pivot_table(index=['income_type', 'gender'],
                    columns='age_group',
                    values='total_income',
                    aggfunc='median')


Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
income_type,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,F,20084.51,26758.809,24943.017,26432.7335
business,M,25880.731,30868.819,31597.3915,32703.359
civil servant,F,19036.1785,23718.422,21240.698,21929.1825
civil servant,M,24617.544,28220.94,32333.3165,29117.247
employee,F,17189.031,22530.8275,20744.844,21135.612
employee,M,23088.329,26196.103,25688.423,26458.025
entrepreneur,F,,,79866.103,
paternity / maternity leave,F,,,,8612.661
retiree,F,14298.976,18428.374,14988.8855,18749.915
retiree,M,,19936.661,15673.919,25086.2865


In [60]:
# Verificando o valor mediano de renda levando em conta a quantidade de filhos e classificando por nivel de educação e genero
no_ausents_data.pivot_table(index=['education', 'gender'],
                    columns='children',
                    values='total_income',
                    aggfunc='median')

Unnamed: 0_level_0,children,0,1,2,3,4,5,20
education,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
bachelor's degree,F,26907.918,24444.042,22993.138,28565.763,34552.334,,24753.002
bachelor's degree,M,32073.958,33070.187,36201.039,40464.936,,,26938.179
graduate degree,F,40868.031,,,17822.757,,,
graduate degree,M,31771.321,18551.846,,,,,
primary education,F,16066.768,20484.833,18384.1935,19733.205,,34007.259,
primary education,M,22940.463,23023.9925,18520.41,18708.135,,,
secondary education,F,20098.032,20312.0825,18894.805,20241.093,20312.874,23565.046,22180.281
secondary education,M,24765.782,26585.352,25888.6865,29106.205,26231.448,43050.936,25060.749
some college,F,22548.649,23766.18,23486.6325,21788.134,,,21331.135
some college,M,29298.1465,29459.6785,36267.9975,24950.722,,,19529.973


In [61]:
# Verificando o valor mediano de renda levando em conta o tempo de carreira e classificando por nivel de educação e profissão
pivot_table = no_ausents_data.pivot_table(index=['education', 'income_type'],
                    columns='age_group',
                    values='total_income',
                    aggfunc='median')

pivot_table

Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
education,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
bachelor's degree,business,24214.379,32129.267,31388.111,34833.626
bachelor's degree,civil servant,24617.544,29555.639,25638.872,28387.016
bachelor's degree,employee,21535.1395,27694.41,25659.9675,27537.3165
bachelor's degree,entrepreneur,,,79866.103,
bachelor's degree,retiree,,22769.174,34394.128,25647.717
bachelor's degree,student,15712.26,,,
bachelor's degree,unemployed,,,,32435.602
graduate degree,civil servant,,,,17822.757
graduate degree,employee,,42945.794,,25161.5835
graduate degree,retiree,,28334.215,,


.





Acredito que os principais aspectos que definam a renda são tempo de carreira ['age_group'], educação e profissão.
Irei usar a mediana de cada grupo para preencher os valores ausentes, pois a média pode alterar muito a análise pois tem pessoas com rendas muito maiores que as outras.


In [62]:
#  Escreva uma função que usaremos para preencher os valores ausentes
def aux_fillna(age_group, education, income_type):
    try:
        return pivot_table[age_group][education][income_type]
    except:
        return 'error'

In [63]:
# Verifique se funciona
aux_fillna('ending career', 'bachelor´s degree', 'entrepreneur')

'error'

In [64]:
# Aplique em todas as linhas
credit_scoring.apply(lambda row: aux_fillna(row['age_group'], row['education'], row['income_type']), axis=1)

0        27537.3165
1        22154.5315
2        21503.1465
3        21503.1465
4        18863.1930
            ...    
21449    25858.6435
21450    18272.1270
21451    22154.5315
21452    22154.5315
21453    22154.5315
Length: 21454, dtype: float64

In [65]:
#criando nova coluna com a mediana dos valores em 'total_income' usando a função criada acima
credit_scoring['median_total_income'] = credit_scoring.apply(lambda row: aux_fillna(row['age_group'], row['education'], row['income_type']), axis=1) 

In [66]:
credit_scoring['total_income'] = credit_scoring['total_income'].fillna(credit_scoring['median_total_income'])

In [67]:
# Verifique se temos algum erro
credit_scoring['total_income'].isnull().sum()

1

In [68]:
credit_scoring[credit_scoring['total_income'].isnull()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_total_income
5931,0,,58.0,bachelor's degree,0,married,0,M,entrepreneur,0,,buy residential real estate,ending career,


.


In [69]:
# Substituindo valores ausentes se houver algum erro
credit_scoring['total_income'] = credit_scoring['total_income'].fillna(27694.4100) #valor da mediana aproximada

In [70]:
credit_scoring['median_total_income'] = credit_scoring['median_total_income'].fillna(27694.4100) #valor da mediana aproximada

.

In [71]:
# Verificando o número de entradas nas colunas
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   children             21454 non-null  int64  
 1   days_employed        19351 non-null  float64
 2   dob_years            21454 non-null  float64
 3   education            21454 non-null  object 
 4   education_id         21454 non-null  int64  
 5   family_status        21454 non-null  object 
 6   family_status_id     21454 non-null  int64  
 7   gender               21454 non-null  object 
 8   income_type          21454 non-null  object 
 9   debt                 21454 non-null  int64  
 10  total_income         21454 non-null  float64
 11  purpose              21454 non-null  object 
 12  age_group            21454 non-null  object 
 13  median_total_income  21454 non-null  float64
dtypes: float64(4), int64(4), object(6)
memory usage: 2.3+ MB


###  Restaurar valores em `days_employed`

.Optei por preencher os valores ausentes com as medianas, pois como existem valores muito diferente na coluna, a média pode acabar alterando muito a análise.

In [72]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
no_ausents_data.pivot_table(index=['education', 'income_type'],
                    columns='age_group',
                    values='days_employed',
                    aggfunc='median')


Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
education,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
bachelor's degree,business,664.350408,2504.215129,1165.844516,1774.866738
bachelor's degree,civil servant,1126.226131,4518.341388,1862.044118,3871.389986
bachelor's degree,employee,637.255835,2737.351552,1277.318986,1957.465867
bachelor's degree,entrepreneur,,,520.848083,
bachelor's degree,retiree,,367435.845074,389397.167577,361917.916389
bachelor's degree,student,578.751554,,,
bachelor's degree,unemployed,,,,395302.838654
graduate degree,civil servant,,,,5968.075884
graduate degree,employee,,5352.03818,,1380.316041
graduate degree,retiree,,356930.517546,,


In [73]:
# Distribuição de `days_employed` médios levando em conta o tempo de carreira e classificando por nivel de educação e profissão 
# Criando a variavel com a tabela para que possa usar a seguir na função que irei criar

pivot_table2 = no_ausents_data.pivot_table(index=['education', 'income_type'],
                    columns='age_group',
                    values='days_employed',
                    aggfunc='mean')
pivot_table2

Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
education,income_type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
bachelor's degree,business,823.872921,3528.68133,1484.618211,2327.490164
bachelor's degree,civil servant,955.310769,5042.889287,1979.345623,3974.270112
bachelor's degree,employee,793.322245,4107.511146,1608.33261,2711.755679
bachelor's degree,entrepreneur,,,520.848083,
bachelor's degree,retiree,,365798.630766,389397.167577,363264.257087
bachelor's degree,student,578.751554,,,
bachelor's degree,unemployed,,,,395302.838654
graduate degree,civil servant,,,,5968.075884
graduate degree,employee,,5352.03818,,1380.316041
graduate degree,retiree,,356930.517546,,


In [74]:
# Distribuição de `days_employed` médios levando em conta o tempo de carreira e classificando por profissão e gênero
no_ausents_data.pivot_table(index=['income_type', 'gender'],
                    columns='age_group',
                    values='days_employed',
                    aggfunc='mean')

Unnamed: 0_level_0,age_group,career start,ending career,experienced professional,expert professional
income_type,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,F,771.451778,3459.493455,1564.02168,2463.896383
business,M,827.994959,2799.81405,1509.307778,2350.350388
civil servant,F,1023.84011,5211.232251,1958.726429,4081.057618
civil servant,M,924.546696,3830.296012,2354.795128,3844.313601
employee,F,876.4391,3944.371391,1691.80234,2900.997712
employee,M,870.531254,2964.596721,1552.832714,2317.813509
entrepreneur,F,,,520.848083,
paternity / maternity leave,F,,,,3296.759962
retiree,F,334764.259831,365700.678622,362564.641369,364447.147555
retiree,M,,363039.109793,364644.011204,364018.501384



Novamente optei pelo uso das medianas, pelo mesmo motivo anterior, há uma diferença muito grande entre valores nessa coluna.

In [75]:
# Vamos escrever uma função que calcule médias ou medianas (dependendo da sua decisão) com base no seu parâmetro identificado
def aux_fillnull(age_group, education, income_type):
    try:
        return pivot_table2[age_group][education][income_type]
    except:
        return 'error'

In [76]:
# Verifique se a função funciona
aux_fillnull('career start', 'some college', 'business')

762.0418023991087

In [77]:
# Aplicar função 
credit_scoring.apply(lambda row: aux_fillnull(row['age_group'], row['education'], row['income_type']), axis=1)

0          2711.755679
1          2711.963664
2          1656.757888
3          1656.757888
4        364572.783486
             ...      
21449      2484.337474
21450    365171.793929
21451      2711.963664
21452      2711.963664
21453      2711.963664
Length: 21454, dtype: float64

In [78]:
# Criando uma nova coluna com a média dos dias trabalhados 
credit_scoring['median_days_employed'] = credit_scoring.apply(lambda row: aux_fillnull(row['age_group'], row['education'], row['income_type']), axis=1) 

In [79]:
# Verifique se a função funcionou
credit_scoring

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_total_income,median_days_employed
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,expert professional,27537.3165,2711.755679
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,expert professional,22154.5315,2711.963664
2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,experienced professional,21503.1465,1656.757888
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,experienced professional,21503.1465,1656.757888
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,expert professional,18863.1930,364572.783486
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43.0,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,expert professional,25858.6435,2484.337474
21450,0,343937.404131,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,ending career,18272.1270,365171.793929
21451,1,2113.346888,38.0,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,expert professional,22154.5315,2711.963664
21452,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,expert professional,22154.5315,2711.963664


In [80]:
# Substituir valores ausentes

credit_scoring['days_employed'] = credit_scoring['days_employed'].fillna(credit_scoring['median_days_employed'])

In [81]:
#verificando se houve algum erro
credit_scoring['days_employed'].isnull().sum()

1

In [82]:
#substituindo o valor ausente pela mediana
credit_scoring['days_employed'] = credit_scoring['days_employed'].fillna(2711.963664) #valor da mediana aproximada

In [83]:
#substituindo o valor ausente pela mediana
credit_scoring['median_days_employed'] = credit_scoring['median_days_employed'].fillna(2711.963664) #valor da mediana aproximada

.

In [84]:
# Verifique as entradas em todas as colunas
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   children              21454 non-null  int64  
 1   days_employed         21454 non-null  float64
 2   dob_years             21454 non-null  float64
 3   education             21454 non-null  object 
 4   education_id          21454 non-null  int64  
 5   family_status         21454 non-null  object 
 6   family_status_id      21454 non-null  int64  
 7   gender                21454 non-null  object 
 8   income_type           21454 non-null  object 
 9   debt                  21454 non-null  int64  
 10  total_income          21454 non-null  float64
 11  purpose               21454 non-null  object 
 12  age_group             21454 non-null  object 
 13  median_total_income   21454 non-null  float64
 14  median_days_employed  21454 non-null  float64
dtypes: float64(5), int6

## Categorização de dados


Aqui irei criar uma categoria para o propósito do empréstimo 'purpose', pois tem muitos valores com o mesmo propósito escritos de maneira diferente. 

In [85]:
# Exiba os valores dos dados selecionados para categorização
credit_scoring['purpose'].head(50)

0                        purchase of the house
1                                 car purchase
2                        purchase of the house
3                      supplementary education
4                            to have a wedding
5                        purchase of the house
6                         housing transactions
7                                    education
8                             having a wedding
9          purchase of the house for my family
10                             buy real estate
11                  buy commercial real estate
12                           to have a wedding
13                                car purchase
14                 buy residential real estate
15                construction of own property
16                                    property
17                         building a property
18                    buying a second-hand car
19                           buying my own car
20                                    property
21           

[Vamos verificar valores exclusivos]

In [86]:
# Verifique os valores exclusivos
credit_scoring['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

Irei separar em grupos em que os propósitos do empréstimo são:

- educação (education)
- comprar ou construir uma casa (purchase/build house)
- comprar um carro (purchase car)
- casamento (wedding)


In [87]:
# Vamos escrever uma função para categorizar os dados com base em tópicos comunss
def purpose_category_1(row):
    purpose = row['purpose']
    
    if purpose.find('educat') != -1 or purpose.find('university') != -1:
        return 'education'
    if purpose.find('hous') != -1 or purpose.find('estate') != -1 or purpose.find('property') != -1:
        return 'purchase/build house'
    if purpose.find('car') != -1:
        return 'purchase/car'
    if purpose.find('wedding') != -1:
        return 'wedding'

In [88]:
# Crie uma coluna com as categorias e conte os valores para elas
credit_scoring['purpose_category'] = credit_scoring.apply(purpose_category_1, axis=1)

credit_scoring['purpose_category'].value_counts()

purchase/build house    10811
purchase/car             4306
education                4013
wedding                  2324
Name: purpose_category, dtype: int64

Agora irei criar uma categoria para o tamanho da familia com base no numero de filhos (children)

In [89]:
# Examinar todos os dados numéricos em sua coluna selecionada para categorização
credit_scoring['children']

0        1
1        1
2        0
3        3
4        0
        ..
21449    1
21450    0
21451    1
21452    3
21453    2
Name: children, Length: 21454, dtype: int64

In [90]:
# Obter estatísticas resumidas para a coluna

credit_scoring['children'].describe()

count    21454.000000
mean         0.544327
std          1.381726
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

Irei separar por numero de filhos:
menos de 1 (nenhum filho)
menos de 3 (familia pequena)
menos de 6 (familia grande)
mais de 6 (familia muito grande)

In [91]:
# Criar função para categorização das familias por numero de filhos

def family_category_1(row):
    children = row['children']
    
    if children < 1:
        return 'no children'
    if children < 3:
        return 'small family'
    if children < 6:
        return 'big family'
    if children > 6:
        return 'very big family'

In [92]:
# Criar coluna com categorias
credit_scoring['family_category'] = credit_scoring.apply(family_category_1, axis=1)

In [93]:
# Conte os valores de cada categoria para ver a distribuição
credit_scoring['family_category'].value_counts()

no children        14091
small family        6907
big family           380
very big family       76
Name: family_category, dtype: int64

In [94]:
# Agora irei criar uma categoria para o nivel de renda:
credit_scoring['total_income'].value_counts()

22154.5315    443
18272.1270    243
21503.1465    225
25858.6435    181
27537.3165    124
             ... 
13831.2100      1
29224.4030      1
40299.3820      1
10000.3920      1
41428.9160      1
Name: total_income, Length: 19373, dtype: int64

Irei categorizar da seguinte forma:

- renda menor que 20000 (renda baixa)
- renda menor que 50000 (renda normal)
- renda menor que 100000 (renda alta)
- renda maior que 100000 (renda muito alta)

In [95]:
# Criando função para categorização por nivel de renda

def income_category_1(row):
    total_income = row['total_income']
    
    if total_income < 20000:
        return 'low income'
    if total_income < 50000:
        return 'normal income'
    if total_income < 100000:
        return 'high income'
    if total_income > 100000:
        return 'very high income'

In [96]:
# Criar coluna com categoria de nivel de renda
credit_scoring['income_category'] = credit_scoring.apply(income_category_1, axis=1)

# contando os valores em cada categoria de nivel de renda
credit_scoring['income_category'].value_counts()

normal income       12385
low income           7749
high income          1221
very high income       99
Name: income_category, dtype: int64

## Verificar as Hipóteses


**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [97]:
# Verifique os dados das crianças e do pagamento em dia 
pivot1 = credit_scoring.pivot_table(index=['children'],
                    columns='debt',
                    values='days_employed',
                    aggfunc='count')

# Calcular a taxa de inadimplência com base no número de filhos

pivot1['% inadimplencia'] = pivot1[1] / pivot1[0] *100

pivot1


debt,0,1,% inadimplencia
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,8.159349
1,4410.0,445.0,10.090703
2,1858.0,194.0,10.441335
3,303.0,27.0,8.910891
4,37.0,4.0,10.810811
5,9.0,,
20,68.0,8.0,11.764706


**Conclusão**

A taxa de inadimplencia baseda no numero de filhos nao muda muito conforme aumenta ou diminui o numero de filhos, então a quantidade de filhos no influencia muito se a pessoa vai ou não pagar o empréstimo em dia.


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [98]:
# Verifique os dados de status da família e do pagamento em dia
pivot2 = credit_scoring.pivot_table(index=['family_status'],
                    columns='debt',
                    values='days_employed',
                    aggfunc='count')


# Calcular a taxa padrão com base no status da família

pivot2['% inadimplencia'] = pivot2[1] / pivot2[0] *100

pivot2

debt,0,1,% inadimplencia
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
civil partnership,3763,388,10.310922
divorced,1110,85,7.657658
married,11408,931,8.16094
unmarried,2536,274,10.804416
widow / widower,896,63,7.03125


**Conclusão**

A taxa de inadimplencia também não altera muito com base no status familias, com variação de no máximo 3% entre um status e outro.

**Existe uma correlação entre o status familiar e o pagamento em dia?**
Não

In [99]:
# Verifique os dados do nível de renda e do pagamento em dia 
pivot3 = credit_scoring.pivot_table(index=['income_category'], #utilizando a categoria de nivel de renda criada anteriormente
                    columns='debt',
                    values='days_employed',
                    aggfunc='count')


# Calcular a taxa de inadimplência com base no nível de renda

pivot3['% inadimplencia'] = pivot3[1] / pivot3[0] *100

pivot3

debt,0,1,% inadimplencia
income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
high income,1135,86,7.577093
low income,7107,642,9.033347
normal income,11378,1007,8.850413
very high income,93,6,6.451613


**Conclusão**

A taxa de inadimplencia varia muito pouco também baseado no nivel de renda, varia entre 7,5% a 9% de pessoas que não pagam o emprestimo em dia.

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [100]:
# Confira os percentuais de inadimplência para cada finalidade de crédito e analise-os
pivot4 = credit_scoring.pivot_table(index=['purpose_category'],
                    columns='debt',
                    values='days_employed',
                    aggfunc='count')

pivot4['% inadimplencia'] = pivot4[1] / pivot4[0] *100

pivot4

debt,0,1,% inadimplencia
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
education,3643,370,10.156464
purchase/build house,10029,782,7.797388
purchase/car,3903,403,10.325391
wedding,2138,186,8.699719


**Conclusão**

A taxa de inadimplencia varia muito pouco com base no propósito do emprestimo, fica entre 7% e 10% independente do que a pessoa vai fazer com o dinheiro. 


# Conclusão Geral 

Com base nesse estudo, cheguei a conclusão de que independente da renda, numero de filhos, se a pessoa é casada ou não, e de qual é o propósito do empréstimo, a taxa de inadimplencia é semelhante para todos os casos, variando entre 7,8% a 10,3%. 
