# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

[Neste caderno, você recebe dicas e instruções breves e sugestões de raciocínio. Não os ignore, pois eles são projetados para te equipar com a estrutura do projeto e o ajudarão a analisar o que você está fazendo em um nível mais profundo. Antes de enviar seu projeto, certifique-se de remover todas as dicas e descrições fornecidas a você. Em vez disso, faça com que este relatório pareça que você está enviando para seus colegas de equipe para demonstrar suas descobertas - eles não devem saber que você teve qualquer ajuda externa nossa! Para ajudá-lo, colocamos as dicas que você deve remover entre colchetes.]

[Antes de mergulhar na análise de seus dados, explique os propósitos do projeto e as hipóteses que você testará.]

## Abra o arquivo de dados e veja as informações gerais.

Sempre que iniciamos uma pesquisa precisamos formular hipóteses que poderemos testar. Iniciarei esse projeto importando a bibioteca pandas e carregando os dados.

In [1]:
# Carregando todas as bibliotecas
import pandas as pd


# Carregue os dados
cs = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo

Vou analisar nosso banco de dados, avaliando o número de linhas e as colunas que são apresentados.

In [2]:
# Vamos ver quantas linhas e colunas nosso conjunto de dados tem
cs.shape

(21525, 12)

In [3]:
# vamos exibir as primeiras N linhas
cs.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


Cada linha da tabela armazena dados sobre um cliente. Está claro que possuímos valores duplicados sem formatação, valores da coluna `days_employed` estão com valores negativos quando deveriam estar com saldo positivo, provavelmente podemos ter valores ausentes ou nulos, precisa-se investigar melhor.

In [4]:
cs.info() # Obter informações sobre dados
          # As colunas days_employed e total_income possuem valores ausetes, preciso entender mais afundo
          #a coluna days_employed precisa ser analisada por apresentar valores negativos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB



O Dataframe possui duas culonas com vores ausentes: `days_employed` e `total_income`.

In [5]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes

# Criando um filtro booleano para selecionar as linhas com valores ausentes na coluna 'days_employed'
filtro1 = cs['days_employed'].isna()


# Aplicando o filtro ao conjunto de dados
cs_filtrado1 = cs[filtro1]


# Imprimindo a tabela filtrada
cs_filtrado1


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Os valores ausentes em ambas as colunas parecem ser simétricos, vou realizar maiores investigações para avaliar a quantidade de valores ausentes em ambas as colunas e entender se há alguma correlação com a coluna `education`.

In [6]:
# Vamos aplicar várias condições para filtrar dados e observar o número de linhas na tabela filtrada.
cs['days_employed'].isna().mean()

0.10099883855981417

# **Conclusão intermediária**

Os valores de ambas as colunas são de fato simétricas, porém ainda é muito cedo para tirar conclusões, irei investigar melhor qual a relação dos valores ausentes com as demais colunas, proculando similaridade entre as informações declaradas e as relações que essas matém com os valores ausentes. Os valores ausentes representam 10% de toda a tabela, um valor que considero alto, vou investigar melhor para tomar outras decisões, pois apenas apagá-los representaria uma alteração enorme na tabela.

Na sequencia vou investigar se existe alguma relação do aparecimento de valores ausentes com as demais colunas.


In [7]:
# Vamos investigar clientes que não possuem dados sobre as características identificadas e a coluna com os valores ausentes
cs_filtrado1.tail(10)
cs_filtrado1.head(30)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


In [8]:
# Verificar a distribuição
cs['days_employed'].describe()



count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

Parece haver um correlacionamento entre valores ausentes e o grau de escolaridade, mas investigando melher a coluna `education` vejo que possuimos muitos valores duplicados ou sem um padrão, portanto, vou organizar melhor essa coluna alinhando os valores para um pdrão e investigar melhor.

**Possíveis motivos para valores ausentes nos dados**



Como dito anteriormente pode haver uma correlação com o nível educacional dos, porém irei investigar para analizar melhor se não há uma correlação com a idade ou o  valor da renda, para tentar achar um padrão.

Ate o momento me parece ser um erro aleatório.

In [9]:
# Verificar a distribuição em todo o conjunto de dados
cs.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


**Conclusão intermediária**

A distribuição dos dados não apresenta um padrão, mas apresentam erros que devos avaliar se serão corrigidos ou excluídos para o melhor entendimento. irei investigar melhor pois apenas a distribuição não ficou claro se há um padrão.



In [10]:
# Verifique outros motivos e padrões que possam levar a valores ausentes

cs['income_type'].value_counts(normalize=True)

employee                       0.516562
business                       0.236237
retiree                        0.179141
civil servant                  0.067782
entrepreneur                   0.000093
unemployed                     0.000093
paternity / maternity leave    0.000046
student                        0.000046
Name: income_type, dtype: float64

**Conclusão intermediária**

Ainda não encontrei um padrão que confirme que os valores ausentes seguem um padrão, parecem ser acidentais, vou veirificar se pode haver relação com a idade dos clientes.

In [11]:
# Verificando outros padrões - explique quais
cs['dob_years'].value_counts(normalize=True).sort_values()

75    0.000046
74    0.000279
73    0.000372
19    0.000650
72    0.001533
20    0.002369
71    0.002695
70    0.003020
69    0.003949
68    0.004599
0     0.004692
21    0.005157
67    0.007758
22    0.008502
66    0.008502
65    0.009013
23    0.011800
24    0.012265
64    0.012311
63    0.012497
62    0.016353
61    0.016492
25    0.016585
60    0.017515
26    0.018955
55    0.020581
59    0.020627
51    0.020813
53    0.021324
57    0.021370
58    0.021417
46    0.022067
54    0.022253
47    0.022300
52    0.022485
56    0.022625
27    0.022904
45    0.023089
28    0.023368
49    0.023600
32    0.023693
43    0.023833
50    0.023879
37    0.024948
48    0.024994
30    0.025087
29    0.025319
44    0.025412
36    0.025784
31    0.026016
39    0.026620
33    0.026992
42    0.027735
38    0.027782
34    0.028014
41    0.028200
40    0.028293
35    0.028664
Name: dob_years, dtype: float64

**Conclusões**

Não foi encontrado nenhum padrão para o aparecimento dos valores ausentes, busquei investigar a porcentagem de aparecimento de valores de outras colunas para comparar com o percentual do aparecimento dos valores ausentes, porém sem nenhum sucesso, acredito que os valores foram acidentais.

Ao avliar os valores ausentes, foi detectado que eles representam 10% do nosso DataFrame e a simples exclusão poderá comprometer a conclusão do nosso estudo, portanto, analisar cada coluna para entender quais dados estou avaliando para tratá-los e buscar uma conclusão mais próximo da realidade.

## Transformação de dados

Os Próximos passos serão de investigação de cada coluna para avaliá-las, buscando valores duplicados, ausentes e corrigi-los da forma mais sensata.

In [12]:
# Vamos ver todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
cs["education"].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64

In [13]:
# Corrija os registros, se necessário

cs['education'] = cs['education'].str.lower()

In [14]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos

cs["education"].value_counts()

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

Verificando a coluna `children`

In [15]:
# Vamos ver a distribuição de valores na coluna `children`
cs["children"].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Na coluna `edcation` os valores esavam duplicados e sem padrão, reordenei colocando os valores em caixa baixa e salvei na mesma coluna.

Há um erro em 47 linhas, da coluna `children`, significando um percentual de 0,2% do total, provavelmente pode ter sido erro de digitação, transformarei os valores negativos em positivos, com o método .abs()


In [16]:
# [corrija os dados com base na sua decisão]
cs["children"] = abs(cs["children"])

In [17]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido

cs["children"].value_counts().sort_values()

5         9
4        41
20       76
3       330
2      2055
1      4865
0     14149
Name: children, dtype: int64

Em seguiga verificarei a coluna `days_employed`:

In [19]:
# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem
cs["days_employed"].value_counts()

-327.685916     1
-1580.622577    1
-4122.460569    1
-2828.237691    1
-2636.090517    1
               ..
-7120.517564    1
-2146.884040    1
-881.454684     1
-794.666350     1
-3382.113891    1
Name: days_employed, Length: 19351, dtype: int64

Há uma quantidade muito grande de valores negativos, acredito que seja devido a problema técnico. Os valores serão corrigidos com o método .abs().
Os valores da coluna `days_employed` possuem valores extremamente altos, chegando a contar 110 anos de trabalho, os valores serão reajustados para 7560 dias pois no Brasil esse é o número máximo que um empregado poderá trabalhar até solicitar a aposentadoria pela previdência social.

In [20]:
# Aborde os valores problemáticos, se existirem
cs["days_employed"] = abs(cs["days_employed"])


In [21]:
# Verifique o resultado - certifique-se de que está corrigido
cs["days_employed"].value_counts()

142.276217       1
1849.622944      1
886.253127       1
2539.534295      1
390574.985524    1
                ..
1394.302246      1
2325.720832      1
4086.407828      1
1259.497032      1
1636.419775      1
Name: days_employed, Length: 19351, dtype: int64

In [22]:
cs['days_employed'].nlargest(10)

6954     401755.400475
10006    401715.811749
7664     401675.093434
2156     401674.466633
7794     401663.850046
4697     401635.032697
13420    401619.633298
17823    401614.475622
10991    401591.828457
8369     401590.452231
Name: days_employed, dtype: float64

In [23]:
cs[cs['days_employed'] > 7560]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
18,0,400281.136913,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
19,0,10038.818549,48,secondary education,1,divorced,3,F,employee,0,38852.977,buying my own car
24,1,338551.952911,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,secondary education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding
21508,0,386497.714078,62,secondary education,1,married,0,M,retiree,0,11622.175,property
21509,0,362161.054124,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21518,0,373995.710838,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car


In [24]:
cs.loc[cs['days_employed'] > 7560, 'days_employed'] = 7560

In [25]:
cs[cs['days_employed'] >= 7560]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,7560.0,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
4,0,7560.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
18,0,7560.0,53,secondary education,1,widow / widower,2,F,retiree,0,9091.804,buying a second-hand car
19,0,7560.0,48,secondary education,1,divorced,3,F,employee,0,38852.977,buying my own car
24,1,7560.0,57,secondary education,1,unmarried,4,F,retiree,0,46487.558,transactions with commercial real estate
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,7560.0,53,secondary education,1,civil partnership,1,M,retiree,0,12070.399,to have a wedding
21508,0,7560.0,62,secondary education,1,married,0,M,retiree,0,11622.175,property
21509,0,7560.0,59,bachelor's degree,0,married,0,M,retiree,0,11684.650,real estate transactions
21518,0,7560.0,59,secondary education,1,married,0,F,retiree,0,24618.344,purchase of a car


Foram encontrados valores exorbitantes de dias trabalhados, chegando até a 40mil dias, entendendo que o máximo trabalhado no Brasil são 30 anos de contribuição junto à previdência social, os valores teto para essa coluna serão 7560 dias. Foram encontrado 4143 linhas com valores acima do teto estipulado, representando um percentual 19,24% do nosso banco de dados, ireir substiruir todos os valores acima do teto pelo valor do teto, entendendo que não há como um cliente trabalhar mais que seu teto.

Agora vamos olhar a coluna `dob_years`

In [26]:
# Verifique o `dob_years` para valores suspeitos e conte a porcentagem
cs["dob_years"].value_counts().sort_values()


75      1
74      6
73      8
19     14
72     33
20     51
71     58
70     65
69     85
68     99
0     101
21    111
67    167
22    183
66    183
65    194
23    254
24    264
64    265
63    269
62    352
61    355
25    357
60    377
26    408
55    443
59    444
51    448
53    459
57    460
58    461
46    475
54    479
47    480
52    484
56    487
27    493
45    497
28    503
49    508
32    510
43    513
50    514
37    537
48    538
30    540
29    545
44    547
36    555
31    560
39    573
33    581
42    597
38    598
34    603
41    607
40    609
35    617
Name: dob_years, dtype: int64

A coluna `dob_years` representa a idade do cliente e possue 101 linhas com valores zero, a porcentagem desse dado é 0,5% em relação ao total do nosso DataFrame, vou excluí-los por entender que não serão determinantes caso sejam excluídos, tendo em vista que representam menos de 1% do total dos nossos dados.

In [27]:
# Resolva os problemas na coluna `dob_years`, se existirem
cs.drop(cs[cs["dob_years"] == 0].index, inplace=True)

In [28]:
# Verifique o resultado - certifique-se de que está corrigido
cs["dob_years"].value_counts().sort_values()

75      1
74      6
73      8
19     14
72     33
20     51
71     58
70     65
69     85
68     99
21    111
67    167
66    183
22    183
65    194
23    254
24    264
64    265
63    269
62    352
61    355
25    357
60    377
26    408
55    443
59    444
51    448
53    459
57    460
58    461
46    475
54    479
47    480
52    484
56    487
27    493
45    497
28    503
49    508
32    510
43    513
50    514
37    537
48    538
30    540
29    545
44    547
36    555
31    560
39    573
33    581
42    597
38    598
34    603
41    607
40    609
35    617
Name: dob_years, dtype: int64

Analisarei os valores e as nomenclaturas utilizadas na coluna `family_status`, para que possam ser organizados, caso exista alguma necessidade.

In [29]:
# Vamos ver os valores da coluna
cs["family_status"].value_counts().sort_values()


widow / widower        955
divorced              1185
unmarried             2797
civil partnership     4156
married              12331
Name: family_status, dtype: int64

In [30]:
# Aborde os valores problemáticos em `family_status`, se eles existirem
cs["family_status"] = cs["family_status"].replace('widow / widower', 'widow_widower')

In [31]:
# Verifique o resultado - certifique-se de que está corrigido
cs["family_status"].value_counts().sort_values()

widow_widower          955
divorced              1185
unmarried             2797
civil partnership     4156
married              12331
Name: family_status, dtype: int64

A coluna `family_status` não necessitou de grandes alterações, apenas troquei a contra barra por um underline para um melhor entendimento meu.

Será analizado a coluna `gender` para enter ser necessita de alteração de valores:

In [32]:
# Vamos ver os valores na coluna
cs["gender"].value_counts().sort_values()

XNA        1
M       7259
F      14164
Name: gender, dtype: int64

In [33]:
# Aborde os valores problemáticos, se existirem
cs.drop(cs[cs["gender"] == 'XNA'].index, inplace=True)

In [34]:
# Verifique o resultado - certifique-se de que está corrigido
cs["gender"].value_counts().sort_values()


M     7259
F    14164
Name: gender, dtype: int64

A coluna `gender` apresentava um valor XNA, por se tratar de um valor que não ateraria significativamente nosso banco de dados ele foi removido.

Será analizado a coluna `income_type` para enter ser necessita de alteração de valores:

In [35]:
# Vamos ver os valores na coluna
cs["income_type"].value_counts().sort_values()

paternity / maternity leave        1
student                            1
entrepreneur                       2
unemployed                         2
civil servant                   1453
retiree                         3836
business                        5064
employee                       11064
Name: income_type, dtype: int64

In [36]:
# Aborde os valores problemáticos, se existirem
cs["income_type"] = cs["income_type"].replace('paternity / maternity leave', 'paternity_maternity leave')

In [37]:
# Verifique o resultado - certifique-se de que está corrigido

cs["income_type"].value_counts().sort_values()

paternity_maternity leave        1
student                          1
entrepreneur                     2
unemployed                       2
civil servant                 1453
retiree                       3836
business                      5064
employee                     11064
Name: income_type, dtype: int64

Foi alterado apenas uma linha para o melhor entendimento, não necessitou grandes alterações.

Em seguida analisarei os valores duplicados e se eles podem afetar nosso DataFrame.

In [38]:
# Verificar duplicatas
cs[cs.duplicated()]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2849,0,,41,secondary education,1,married,0,F,employee,0,,purchase of the house for my family
3290,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
4182,1,,34,bachelor's degree,0,civil partnership,1,F,employee,0,,wedding ceremony
4851,0,,60,secondary education,1,civil partnership,1,F,retiree,0,,wedding ceremony
5557,0,,58,secondary education,1,civil partnership,1,F,retiree,0,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
20702,0,,64,secondary education,1,married,0,F,retiree,0,,supplementary education
21032,0,,60,secondary education,1,married,0,F,retiree,0,,to become educated
21132,0,,47,secondary education,1,married,0,F,employee,0,,housing renovation
21281,1,,30,bachelor's degree,0,married,0,F,employee,0,,buy commercial real estate


In [39]:
# Aborde as duplicatas, se existirem

In [40]:
# Última verificação se temos duplicatas


In [41]:
#Verifique o tamanho do conjunto de dados que você tem agora após suas primeiras manipulações com ele

Os valores duplicados são valores que podem sim existeir em mais de um grupo de pessoas na sociedade, não faz sentido remover os valores e sim tratá-los para retirar os valores ausentes, categorizar os valores duplicados para entender melhor o conjunto de dados.


# Trabalhando com valores ausentes

A seguir trabalharei pra avaliar os valores ausente, buscando entendê-los a valiar se existe a necessidade de descartar-los ou tomar outra ação.

In [42]:
# Encontre os dicionários


### Restaurar valores ausentes em `total_income`

A coluna `total_income`apresenta valores ausentes, porém essa coluna é de suma importância para avaliarmos a renda dos solicitantes de emprestimos, buscarei não excluílas mas sim entender os valores medianos e médios para saber qual a melhor tomada de decisão.


Iniciarei categorizando os valores de idade para entender como a renda está distribuida:


In [43]:
# Vamos escrever uma função que calcule a categoria de idade

def age_group(age):
    
    if age <= 18:
        return 'children'
    if age <= 64:
        return 'adult'
    return 'retired'


In [44]:
# Teste se a função funciona
age_group(19)

'adult'

In [45]:
# Verificar como os valores na nova coluna
cs['age_group'] = cs['dob_years'].apply(age_group)
cs.head(10)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,7560.0,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,7560.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,adult
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,adult
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,adult
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,adult
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,adult


A categorização será uma análise utilizada posteriormente para entender como ela infuenciará nas solicitações de crédito.

A seguir será criada uma tabela sem os valores ausentes para que eu entenda o impacto que esses daos fazem ao nosso DataFrame, logo em seguida irei restaurá-los.

In [46]:
# Crie uma tabela sem valores ausentes e exiba algumas de suas linhas para garantir que ela fique boa
cs.dropna()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,7560.000000,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adult
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,7560.000000,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adult
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,adult
21521,0,7560.000000,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [47]:
# Veja os valores médios de renda com base em seus fatores identificados
cs.groupby('age_group')['total_income'].mean()

age_group
adult      27027.076715
retired    21542.650450
Name: total_income, dtype: float64

In [48]:
# Veja os valores medianos de renda com base em seus fatores identificados
pivot_gender_age = cs.pivot_table(index = ['gender', 'age_group'], values='total_income', aggfunc = 'median')
pivot_gender_age

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
gender,age_group,Unnamed: 2_level_1
F,adult,21627.165
F,retired,18031.162
M,adult,27066.6095
M,retired,19557.044


Um homem adulto recebe uma maior renda, por entender que existem valores atípicos, podendo elevar o cáculo da média, utilizarei o valor da mediana para realizar a substituição dos valores ausentes de acordo com a sua características.


In [49]:
#  Escreva uma função que usaremos para preencher os valores ausentes
def fill_total_income(cs, gender, age_group):
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='adult'), 'total_income'] = \
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='adult'), 'total_income'].fillna('median')
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='retired'), 'total_income'] = \
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='retired'), 'total_income'].fillna('median')
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='retired'), 'total_income'] = \
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='retired'), 'total_income'].fillna('median')
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='adult'), 'total_income'] = \
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='adult'), 'total_income'].fillna('median')


In [50]:
# Verifique se funciona
cs_test = cs.copy()

In [51]:
cs_test.isna().sum().sum()

4328

In [52]:
fill_total_income(cs_test, 'F', 'retired')

In [53]:
cs_test.isna().sum().sum()

2164

In [54]:
# Aplique em todas as linhas
fill_total_income(cs, cs['gender'], cs['age_group'])

In [55]:
# Verifique se temos algum erro
cs.isnull().sum()

children               0
days_employed       2164
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
age_group              0
dtype: int64

Os dados ausentes foram categorizados por idade e posteriormente por sexo, entendo o valor da renda de cada tipo de categorização foi feita a média e a mediana. Tomei a decisão de preencher os valores ausentes através da mediana de cada grupo específico, pois existem muitos valores atípicos que ocasionariam um aumento nos valores.

In [56]:
# Substituir valores ausentes se houver algum erro


Verificação da coluna `total_income` para avaliar se o número total de valores nesta coluna corresponde ao número total de valores em outras.

In [57]:
# Verificar o número de entradas nas colunas
cs.shape


(21423, 13)

In [58]:
cs["total_income"].count()

21423

###  Restaurar valores em `days_employed`

Serão analisados os parâmetros que podem ajuar a restaurar os valores ausentes na coluna `days_employed`. Iniciarei descobrindo os valores médios e medianos para encontar os mais próximos do real.

In [59]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
pivot_gender_age_de = cs.pivot_table(index = ['gender', 'age_group'], values='days_employed', aggfunc = 'median')
pivot_gender_age_de


Unnamed: 0_level_0,Unnamed: 1_level_0,days_employed
gender,age_group,Unnamed: 2_level_1
F,adult,2385.358043
F,retired,7560.0
M,adult,1609.135599
M,retired,7560.0


In [60]:
# Distribuição de `days_employed` médios com base em seus parâmetros identificados
pivot_gender_age_de = cs.pivot_table(index = ['gender', 'age_group'], values='days_employed', aggfunc = 'mean')
pivot_gender_age_de

Unnamed: 0_level_0,Unnamed: 1_level_0,days_employed
gender,age_group,Unnamed: 2_level_1
F,adult,3345.800888
F,retired,7055.926468
M,adult,2436.378878
M,retired,6726.474939


Serão utilizados os valores medianos porque são mais baixos e mostra que devemos ter muitos valores atipicos.

In [61]:
# Vamos escrever uma função que calcule médias ou medianas (dependendo da sua decisão) com base no seu parâmetro identificado
def calculate_statistics(cs, parameter1, parameter2, stat_type):
    """
    Calcula a média ou mediana de "days_employed" com base em um parâmetro identificado.
    
    data : DataFrame pandas
        Conjunto de dados a ser analisado
    parameter : str
        Nome da coluna que será usada como parâmetro identificado
    stat_type : str
        Tipo de estatística a ser calculada ("mean" ou "median")
    
    Retorna : float
        Média ou mediana calculada
    """
    filtered_data = cs
    if stat_type == "mean":
        stat = filtered_data.groupby((cs['gender']=='F')&(cs['age_group']=='adult'))\
        ["days_employed"].mean()
        stat = filtered_data.groupby((cs['gender']=='F')&(cs['age_group']=='retired'))\
        ["days_employed"].mean()
        stat = filtered_data.groupby((cs['gender']=='M')&(cs['age_group']=='adult'))\
        ["days_employed"].mean()
        stat = filtered_data.groupby((cs['gender']=='M')&(cs['age_group']=='retired'))\
        ["days_employed"].mean()
    elif stat_type == "median":
        stat = filtered_data.groupby((cs['gender']=='F')&(cs['age_group']=='adult'))\
        ["days_employed"].median()
        stat = filtered_data.groupby((cs['gender']=='F')&(cs['age_group']=='retired'))\
        ["days_employed"].median()
        stat = filtered_data.groupby((cs['gender']=='M')&(cs['age_group']=='adult'))\
        ["days_employed"].median()
        stat = filtered_data.groupby((cs['gender']=='M')&(cs['age_group']=='retired'))\
        ["days_employed"].median()
    else:
        raise ValueError("O tipo de estatística deve ser 'mean' ou 'median'")
    return stat

In [62]:
# Verifique se a função funciona
calculate_statistics(cs, 'M', 'retired', 'mean')

False    3162.887203
True     6726.474939
Name: days_employed, dtype: float64

In [63]:
# Aplicar função ao income_type
cs['income_type'].value_counts()

employee                     11064
business                      5064
retiree                       3836
civil servant                 1453
entrepreneur                     2
unemployed                       2
paternity_maternity leave        1
student                          1
Name: income_type, dtype: int64

In [64]:
def calculate_statistics(data, parameter, stat_type):
    filtered_data = cs
    if stat_type == "mean":
        stat = filtered_data.groupby('income_type')["days_employed"].mean()
    elif stat_type == "median":
        stat = filtered_data.groupby('income_type')["days_employed"].median()
    else:
        raise ValueError("O tipo de estatística deve ser 'mean' ou 'median'")
    return stat

In [65]:
# Verifique se a função funcionou
data = cs
parameter = 'income_type'
stat_type = "median"

statistics = calculate_statistics(data, parameter, stat_type)
statistics

income_type
business                     1548.009883
civil servant                2673.404956
employee                     1576.067689
entrepreneur                  520.848083
paternity_maternity leave    3296.759962
retiree                      7560.000000
student                       578.751554
unemployed                   7560.000000
Name: days_employed, dtype: float64

In [66]:
# Substituir valores ausentes
def fill_day_employed(cs, gender, age_group):
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='adult'), 'days_employed'] = \
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='adult'), 'days_employed'].fillna('median')
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='retired'), 'days_employed'] = \
    cs.loc[(cs['gender']=='F')&(cs['age_group']=='retired'), 'days_employed'].fillna('median')
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='retired'), 'days_employed'] = \
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='retired'), 'days_employed'].fillna('median')
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='adult'), 'days_employed'] = \
    cs.loc[(cs['gender']=='M')&(cs['age_group']=='adult'), 'days_employed'].fillna('median')


In [67]:
cs_test = cs.copy()

In [68]:
cs_test.isna().sum().sum()

2164

In [69]:
fill_day_employed(cs, cs['gender'], cs['age_group'])

Verificação da coluna `total_income`, identificando se o número total de valores nesta coluna corresponde ao número de valores em outras.

In [70]:
# Verifique as entradas em todas as colunas - certifique-se de corrigir todos os valores ausentes
cs.isnull().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
age_group           0
dtype: int64

## Categorização de dados
Será iniciado a categorização dos dados, buscando entender melhor os tipos de dados que temos.

In [71]:
# Exiba os valores dos dados selecionados para categorização
cs[["family_status", "children"]]

Unnamed: 0,family_status,children
0,married,1
1,married,1
2,married,0
3,married,3
4,civil partnership,0
...,...,...
21520,civil partnership,1
21521,married,0
21522,civil partnership,1
21523,married,3


Busquei separar as colunas `family_satus` e `children` para entender se pode haver futuramente alguma correlação entre pagamentos e o número de filhos ou se a relação conjulgal afeta.

In [72]:
# Verifique os valores exclusivos
cs.groupby('family_status')["children"].value_counts()

family_status      children
civil partnership  0           2738
                   1            997
                   2            342
                   3             56
                   20            12
                   4              8
                   5              2
divorced           0            777
                   1            315
                   2             79
                   3             11
                   20             2
                   4              1
married            0           7469
                   1           3004
                   2           1527
                   3            247
                   20            48
                   4             29
                   5              7
unmarried          0           2252
                   1            452
                   2             74
                   20             9
                   3              8
                   4              2
widow_widower      0            843


Foram identificados que para cada grupo de `family_status` temos ao menos 5 grupos com o total de filhos de cada relação conjugal.


In [73]:
# Vamos escrever uma função para categorizar os dados com base em tópicos comunss
def cp_children(row):
    children = row['children']
    family_status = row['family_status']
    
    if (children<=3)and(family_status=='civil partnership'):
        return 'civil_partnership_low'
    if (children<=5)and(family_status=='civil partnership'):
        return 'civil_partnership_medium'
    if (children>=6)and(family_status=='civil partnership'):
        return 'civil_partnership_high'
    if (children<=3)and(family_status=='divorced'):
        return 'divorced_low'
    if (children<=5)and(family_status=='divorced'):
        return 'divorced_medium'
    if (children>=6)and(family_status=='divorced'):
        return 'divorced_high'
    if (children<=3)and(family_status=='married'):
        return 'married_low'
    if (children<=5)and(family_status=='married'):
        return 'married_medium'
    if (children>=6)and(family_status=='married'):
        return 'married_high'
    if (children<=3)and(family_status=='unmarried'):
        return 'unmarried_low'
    if (children<=5)and(family_status=='unmarried'):
        return 'unmarried_medium'
    if (children>=6)and(family_status=='unmarried'):
        return 'unmarried_high'
    if (children<=3)and(family_status=='widow_widower'):
        return 'widow_widower_low'
    if (children<=5)and(family_status=='widow_widower'):
        return 'widow_widower_medium'
    if (children>=6)and(family_status=='widow_widower'):
        return 'widow_widower_high'

In [74]:
# Crie uma coluna com as categorias e conte os valores para elas
cs['cp_children'] = cs.apply(cp_children, axis=1)

Será criada uma coluna com a categorização `cp_children`.

In [75]:
# Examinar todos os dados numéricos em sua coluna selecionada para categorização
cs['cp_children'].value_counts()

married_low                 12247
civil_partnership_low        4133
unmarried_low                2786
divorced_low                 1182
widow_widower_low             950
married_high                   48
married_medium                 36
civil_partnership_high         12
civil_partnership_medium       10
unmarried_high                  9
widow_widower_high              4
divorced_high                   2
unmarried_medium                2
widow_widower_medium            1
divorced_medium                 1
Name: cp_children, dtype: int64

In [76]:
# Obter estatísticas resumidas para a coluna

cs['cp_children'].describe()

count           21423
unique             15
top       married_low
freq            12247
Name: cp_children, dtype: object

A partir daqui irei avaliar se existe uma correlação com a idade e os pagamentos, afim de em qual faixa etária existem maus pagadores e bons pagadores.

In [77]:
# Criar função para categorização em diferentes grupos numéricos com base em intervalos
def pagador(row):
    dob_years = row['dob_years']
    debt = row['debt']
    

    if (dob_years <= 18)and(debt==0):
        return 'criança_bom_pagador'
    if (dob_years <= 18)and(debt==1):
        return 'criança_mau_pagador'
    if (19 <= dob_years <= 60)and(debt==0):
        return 'adulto_bom_pagador'
    if (19 <= dob_years <= 60)and(debt==1):
        return 'adulto_mau_pagador'
    if (dob_years >= 60)and(debt==0):
        return 'idoso_bom_pagador'
    if (dob_years >= 60)and(debt==1):
        return 'idoso_mau_pagador'
    

In [78]:
# Criar coluna com categorias
cs['bom_mau_pagador'] = cs.apply(pagador, axis=1)

In [79]:
# Conte os valores de cada categoria para ver a distribuição
cs['bom_mau_pagador'].value_counts()

adulto_bom_pagador    17651
idoso_bom_pagador      2039
adulto_mau_pagador     1632
idoso_mau_pagador       101
Name: bom_mau_pagador, dtype: int64

## Verificar as Hipóteses


**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [80]:
# Verifique os dados das crianças e do pagamento em dia
pivot_table_children = cs.pivot_table(index='children', columns='debt', values='days_employed', aggfunc='count')
pivot_table_children



debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13021.0,1058.0
1,4407.0,442.0
2,1848.0,194.0
3,301.0,27.0
4,37.0,4.0
5,9.0,
20,67.0,8.0


In [81]:
# Calcular a taxa de inadimplência com base no número de filhos
pivot_table_children['percent_1'] = pivot_table_children[1] / (pivot_table_children[1] + pivot_table_children[0]) * 100

In [82]:
pivot_table_children.sort_values(by='percent_1', ascending=True)

debt,0,1,percent_1
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13021.0,1058.0,7.514738
3,301.0,27.0,8.231707
1,4407.0,442.0,9.115282
2,1848.0,194.0,9.50049
4,37.0,4.0,9.756098
20,67.0,8.0,10.666667
5,9.0,,


**Conclusão**

Existem pessoas boas e más pagadoras porém através dos filhos não ha como chegar a uma conclusão, e dizer que quem tem mais filhos possui mais ou menos chances de pagar as dívidas.


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [83]:
# Verifique os dados de status da família e do pagamento em dia
pivot_table_family = cs.pivot_table(index='family_status', columns='debt', values='days_employed', aggfunc='count')
pivot_table_family


debt,0,1
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
civil partnership,3769,386
divorced,1100,85
married,11404,927
unmarried,2524,273
widow_widower,893,62


In [84]:
# Calcular a taxa padrão com base no status da família
pivot_table_family['percent_2'] = pivot_table_family[1] / (pivot_table_family[1] + pivot_table_family[0]) * 100

In [85]:
pivot_table_family.sort_values(by='percent_2', ascending=True)

debt,0,1,percent_2
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
widow_widower,893,62,6.492147
divorced,1100,85,7.172996
married,11404,927,7.517638
civil partnership,3769,386,9.290012
unmarried,2524,273,9.760458


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [86]:
# Verifique os dados do nível de renda e do pagamento em dia
pivot_table_total_income = cs.pivot_table(index='total_income', columns='debt', values='days_employed', aggfunc='count')
pivot_table_total_income



debt,0,1
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1
3306.762,,1.0
3392.845,1.0,
3418.824,1.0,
3471.216,1.0,
3503.298,1.0,
...,...,...
274402.943,1.0,
276204.162,1.0,
352136.354,,1.0
362496.645,1.0,


In [87]:
# Calcular a taxa de inadimplência com base no nível de renda

pivot_table_total_income['percent_3'] = pivot_table_total_income[1] / (pivot_table_total_income[1] + pivot_table_total_income[0]) * 100

In [88]:
pivot_table_total_income.sort_values(by='percent_3', ascending=True)

debt,0,1,percent_3
total_income,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
median,1994.0,170.0,7.855823
3306.762,,1.0,
3392.845,1.0,,
3418.824,1.0,,
3471.216,1.0,,
...,...,...,...
273809.483,1.0,,
274402.943,1.0,,
276204.162,1.0,,
352136.354,,1.0,


In [89]:
pivot_table_total_income.max()

debt
0            1994.000000
1             170.000000
percent_3       7.855823
dtype: float64

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [90]:
# Confira os percentuais de inadimplência para cada finalidade de crédito e analise-os
cs['purpose'].value_counts()


wedding ceremony                            792
having a wedding                            773
to have a wedding                           769
real estate transactions                    673
buy commercial real estate                  661
buying property for renting out             651
transactions with commercial real estate    649
housing transactions                        647
purchase of the house                       641
housing                                     641
purchase of the house for my family         640
construction of own property                633
transactions with my real estate            630
property                                    630
building a real estate                      623
building a property                         620
buy real estate                             620
purchase of my own house                    619
housing renovation                          610
buy residential real estate                 604
buying my own car                       

In [91]:
# Categorizando palavras Chaves
def categoriza_purpose(row):
    if 'car' in row['purpose']:
        return 'car'
    if 'hous' in row['purpose'] or 'prop' in row['purpose'] or 'real est' in row['purpose']:
        return'real state'
    if 'wedd' in row['purpose']:
        return 'wedding'
    if 'educ' in row['purpose'] or 'uni' in row['purpose']:
        return 'education'
print(categoriza_purpose(cs.loc[1]))
print(categoriza_purpose(cs.loc[2]))
print(categoriza_purpose(cs.loc[3]))
print(categoriza_purpose(cs.loc[4]))
print(categoriza_purpose(cs.loc[5]))

car
real state
education
wedding
real state


In [92]:
cs['categoriza_purpose'] = cs.apply(categoriza_purpose, axis=1)

In [93]:
pivot_table_categoriza_purpose = cs.pivot_table(index='categoriza_purpose', columns='debt', values='days_employed', aggfunc='count')
pivot_table_categoriza_purpose

debt,0,1
categoriza_purpose,Unnamed: 1_level_1,Unnamed: 2_level_1
car,3893,400
education,3634,370
real state,10013,779
wedding,2150,184


In [94]:
pivot_table_categoriza_purpose['percent_4'] = pivot_table_categoriza_purpose[1] / (pivot_table_categoriza_purpose[1] + pivot_table_total_income[0]) * 100

In [95]:
pivot_table_categoriza_purpose.sort_values(by='percent_4', ascending=True)

debt,0,1,percent_4
categoriza_purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
car,3893,400,
education,3634,370,
real state,10013,779,
wedding,2150,184,


**Conclusão**

As finalidades de créditos que mais possuem falta de pagamento é aqueles que querem comprar Carros, porém todas as outras categorias possuem um nível elevado de indimplência.


# Conclusão Geral 
Os valores ausentes das colunas numéricas foram substiruídas pelas medianas pois os valores apresentam muitos valores atipicos que fazem nossos valores médios ficarem elevados. Os valores duplicados no meu entendimento eram normais pois temos muitos valores similares na coluna `purpose` então não houve uma retirada desses valores.
Os valores de dias trabalhados estavam com valores exorbitantes e foram transformados para o valor teto utilizado pela previdencia social. 
As funções de categorização me auxilou a entender melhor como os dados agrupados estão destribuidos e entender melhor as correlações ente as colunas.