# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

Neste relatório testaremos as seguintes hipóteses: 

1. Existe alguma relação entre ter filhos e pagar um empréstimo em dia?

2. Existe alguma relação entre o estado civil e o pagamento de um empréstimo no
prazo estipulado?

3. Existe uma relação entre o nível de renda e o pagamento de um empréstimo no
prazo?

4. Como as diferentes finalidades do empréstimo afetam o pagamento pontual do
empréstimo?


Primeiro vamos importar a biblioteca Pandas, e em seguida abrir o arquivo csv, armazenando-o na variável df. 

In [80]:
import pandas as pd # Carregando a biblioteca pandas.


df = pd.read_csv(r'https://practicum-content.s3.us-west-1.amazonaws.com/datasets/credit_scoring_eng.csv')# Carreguando os dados.



## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo

O primeiro passo é obter algumas informações simples sobre os dados que serão manipulados:

In [81]:
row_count, colunm_count = df.shape #Armazenando a quantidade de linhas na variável 'row_count' e a quantidade de colunas na variável colunm_count.
print('O DataFrame possui: ' + str(row_count) +' linhas') #imprimindo a quantidade de linhas.
print('O DataFrame possui: ' + str(colunm_count) +' colunas')#imprimindo a quantidade de colunas.



O DataFrame possui: 21525 linhas
O DataFrame possui: 12 colunas


In [82]:
df.head(20)# imprimindo as primeiras 20 linhas.



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


* A coluna 'days_employed' possui valores negativos
* A coluna 'education' possui textos em letra maiúscula 
* A coluna 'total_income' possui juntamente com a coluna 'days_employed' valores ausentes 

Todos esses pontos podem impactar negativamente a análise dos dados e comprovação das hipóteses a serem testadas. 

Portanto deve haver um tratamento prévio antes de iniciar um estudo mais aprofundado dos casos. 


In [83]:
df.describe()# Obtendo informações sobre os dados.


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


É possível perceber que duas colunas possuem quantidades diferente de Linhas das demais. 


In [84]:
df_nan_values = df[df['days_employed'].isna()] # Criando uma nova tabela e filtrando para receber apenas dados cujo valor é vazio na coluna 'days_employed'.
df_nan_values # Imprimindo a tabela filtrada.



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [145]:
df['days_employed'].describe()

count    21230.000000
mean      2073.661669
std       2041.493364
min         24.141633
25%       1017.677960
50%       1319.351156
75%       2523.921505
max      18388.949901
Name: days_employed, dtype: float64

Ao analisar a tabela acima notamos que quando 'days_employed' possui um valor do tipo NaN(valor ausente) a coluna 'total_income' também possui valores do tipo NaN.
Além disso ele possui valores muito altos para serem reais. vamos substituir os valores que são muito altos pela mediana de dias trabalhados 

In [85]:
median_days = df['days_employed'].median()
(df.loc[(df['days_employed']>20000), 'days_employed']) = median_days

In [86]:
df['days_employed'].describe()

count    19351.000000
mean     -2148.347860
std       2134.869191
min     -18388.949901
25%      -2747.423625
50%      -1203.369529
75%       -927.009265
max        -24.141633
Name: days_employed, dtype: float64

In [87]:
all_nan_values = df.isnull().sum() #Contando a quantidade de valores ausentes em todo o conjunto de dados e associando o valor a variável 'all_nan_values'.
all_nan_values #imprimindo os cálculos.

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Conclusão intermediária**

O número de linhas na tabela filtrada corresponde ao número de valores ausentes. Além do fato de existir simetria na ausência de valores em duas colunas. logo é possível exista algum outro fator implicando na coleta dos dados. 

A seguir vou comparar as demais colunas com aquelas que possuem valores ausentes, buscando mais alguma semelhança, como uma profissão especifica comum a todos os clientes, ou o mesmo grau de escolaridade para todos por exemplo

In [88]:
df_nan_values['children'].value_counts(dropna=False) #procurando algum padrão pela quantidade de filhos do cliente

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

Ao buscar correlação na ausência de dados com o numero de filhos, foram encontradas na amostra diferentes quantidades de filhos, descartanto a hipotese de que o numero de filhos influencia na ausencia de dados 

In [89]:
df_nan_values['dob_years'].value_counts(dropna=False) #procurando algum padrão pela idade do cliente

34    69
40    66
42    65
31    65
35    64
36    63
47    59
41    59
30    58
28    57
58    56
57    56
54    55
56    54
38    54
52    53
37    53
33    51
39    51
50    51
43    50
45    50
49    50
51    50
29    50
46    48
55    48
48    46
44    44
53    44
60    39
62    38
61    38
32    37
64    37
23    36
27    36
26    35
59    34
63    29
25    23
24    21
65    20
66    20
21    18
22    17
67    16
0     10
68     9
71     5
69     5
20     5
70     3
72     2
19     1
73     1
Name: dob_years, dtype: int64

Ao buscar correlação na ausencia de dados com a idade do cliente, foram encontradas na amostra difentes idades, abrangendo todas as faixas etárias, descartando a hipotese de que a idade influencia na ausencia de dados 

In [90]:
df_nan_values['education'].value_counts(dropna=False)  #procurando algum padrão pelo grau de escolaridade do cliente 

secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64

Ao buscar correlação na ausencia de dados com o grau de escolaridade do cliente, foram encontradas na amostra diferentes aos de escolaridade, descartando a hipotese de que a escolaridade influencia na ausencia de dados. 

In [91]:
df_nan_values['income_type'].value_counts(dropna=False) #procurando algum padrão pelo tipo de renda do cliente 

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

Ao buscar correlação na ausencia de dados com o tipo de renda do cliente, foram encontradas na amostra diferentes tipos de renda, descartando a hipotese de que o tipo de renda influencia na ausencia de dados. 

In [92]:
df_nan_values['family_status'].value_counts(dropna=False)  #procurando algum padrão pelo estado civil do cliente 

married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64

Ao buscar correlação na ausencia de dados com o estado civil do cliente, foram encontradas na amostra diferentes aos de escolaridade, descartando a hipotese de que a escolaridade influencia na ausencia de dados. 

**Possíveis motivos para valores ausentes nos dados**

Analisando todo o conjunto de dados com valores ausentes percebemos que nenhum outro fator inflência na ausencia desses dados, portanto não foi encontrado um motivo que leve a acreditar que os dados estão ausentes por um motivo especifico 



In [93]:
percent_missing = (df.isna().sum() / len(df)) * 100 #calculando o percentual de valores ausentes em comparação com o total de dados 
percent_missing


children             0.000000
days_employed       10.099884
dob_years            0.000000
education            0.000000
education_id         0.000000
family_status        0.000000
family_status_id     0.000000
gender               0.000000
income_type          0.000000
debt                 0.000000
total_income        10.099884
purpose              0.000000
dtype: float64

**Conclusões**

Não foi possivel concluir atraves da analise de dados que exista algum outro fator corelacionado as colunas 'days_employed' e 'total_income' sendo responsavel por ocasionar a ausencia de dados.

Sendo assim os dados ausentes correspondem a aproximadamente 10% do total de dados coletados, não sendo possivel descartalos sem causar prejuizo a analises futuras. 
Portando eles deverao ser preenchidos. 

## Transformação de dados

Vamos examinar cada coluna para ver quais problemas podemos ter nelas.

Vamos Começar removendo duplicatas e corrigindo informações educacionais.

In [94]:
print(df['education'].value_counts(dropna=False))# agrupando valores no colunação education e contando sua frêquencia 


secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
Graduate Degree            1
GRADUATE DEGREE            1
Name: education, dtype: int64


É possivel perceber valores iguais apenas escritos de formas diferentes 

In [95]:

df['education'] = df['education'].str.lower() #deixando todos os dados da coluna 'education' minusculos.

In [96]:
print(df['education'].value_counts(dropna=False))# Verificando todos os valores na coluna para ter certeza de que os corrigimos

secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64


Verificando os dados na coluna `children`

In [97]:
print(df['children'].value_counts(dropna=False)) # Vamos ver a distribuição de valores na coluna `children`



 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


In [98]:
negative_children = df.loc[df['children']== -1, 'children'].count() #contabilizando a quantidade de clientes que possuem -1 filhos 
large_number_children = df.loc[df['children']== 20, 'children'].count()#contabilizando a quantidade de clientes que possuem 20 filhos 
row_count = df.shape[0]
print(((negative_children + large_number_children) / row_count) * 100) #contabilizando o percentual valor incorretos com relação ao total 

0.5714285714285714


A coluna 'children' possui valores negativos de filhos, algo impossivel no mundo real, assim como uma quantidade muito grande de clientes possuindo 20 filhos, algo muito pouco provavel, levando a acreditar que seja um erro na coleta. 

o total de dados com problema representa aproximadamente 0.5% do total de dados, sendo possivel exclui-los sem grandes prejuizos a analises futuras. 

In [99]:
df = df.loc[(df['children'] != -1) & (df['children'] != 20)] #excluindo linhas com valores problematicos 


In [100]:
print(df['children'].value_counts(dropna=False)) #sgrupando valores e verificando novamente se está tudo correto 



0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64


Verificando os dados na coluna `days_employed`. 

In [101]:
print(df['days_employed'].value_counts(dropna=False).sort_values())# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem


-5850.955439       1
-7219.276087       1
-597.881827        1
-5623.422610       1
-4124.747207       1
                ... 
-404.679034        1
-2351.431934       1
-1330.627998       1
 NaN            2162
-1203.369529    3432
Name: days_employed, Length: 15810, dtype: int64


Além de possuir valores ausentes, a coluna também conta com valores negativos.

In [102]:
df['days_employed'] = df['days_employed'].abs() # transformando todos os valores em positivos 

In [103]:
print(df['days_employed'].value_counts(dropna=False).sort_values())# Verificando o resultado 


5850.955439       1
7219.276087       1
597.881827        1
5623.422610       1
4124.747207       1
               ... 
404.679034        1
2351.431934       1
1330.627998       1
NaN            2162
1203.369529    3432
Name: days_employed, Length: 15810, dtype: int64


Vamos agora olhar para a idade do cliente 

In [104]:
print(df['dob_years'].value_counts().sort_index()) # Verifique o `dob_years` para valores suspeitos 



0     100
19     14
20     51
21    110
22    183
23    252
24    263
25    356
26    406
27    490
28    501
29    543
30    536
31    556
32    506
33    577
34    597
35    614
36    553
37    531
38    595
39    572
40    603
41    603
42    592
43    510
44    543
45    494
46    469
47    480
48    536
49    505
50    509
51    446
52    483
53    457
54    476
55    441
56    482
57    457
58    461
59    441
60    376
61    353
62    351
63    268
64    263
65    194
66    183
67    167
68     99
69     83
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64


Alguns clientes possuem idade igual a 0, como eles representam uma quantidade muito pequena podemos exclui-los da analise 

In [105]:
df = df.loc[(df['dob_years'] != 0)]# excluindo linhas cujo valor é 0 na coluna 'dob_years'


In [106]:
print(df.loc[df['dob_years']==0].count())# Verificando o resultado 


children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


Agora vamos verificar a coluna `family_status`.

In [107]:
print(df['family_status'].value_counts(dropna=False))# Vamos ver os valores da coluna



married              12254
civil partnership     4139
unmarried             2783
divorced              1179
widow / widower        947
Name: family_status, dtype: int64


Nenhum valor atipico, ou dado considerado impreciso foi encontrado 

Agora vamos verificar a coluna `gender`.

In [108]:
print(df['gender'].value_counts(dropna=False)) # Vamos ver os valores na coluna

F      14083
M       7218
XNA        1
Name: gender, dtype: int64


Foi encontrada uma única linha cujo valorer não foi bem representado. Sendo assim podemos descartar 

In [109]:
df = df.loc[(df['gender'] != 'XNA')] # descartando os valores problematicos 

In [110]:
print(df['gender'].value_counts(dropna=False)) # Verificando o resultado 



F    14083
M     7218
Name: gender, dtype: int64


Agora vamos verificar a coluna `income_type`. 

In [111]:
print(df['income_type'].value_counts(dropna=False))# Vamos ver os valores na coluna

employee                       10996
business                        5033
retiree                         3819
civil servant                   1447
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64


Agora vamos ver se temos duplicatas em nossos dados.

In [112]:
print(df[df.duplicated()])
df.duplicated().sum()# Verificar duplicatas


       children  days_employed  dob_years            education  education_id  \
2849          0            NaN         41  secondary education             1   
3290          0            NaN         58  secondary education             1   
4182          1            NaN         34    bachelor's degree             0   
4851          0            NaN         60  secondary education             1   
5557          0            NaN         58  secondary education             1   
...         ...            ...        ...                  ...           ...   
20702         0            NaN         64  secondary education             1   
21032         0            NaN         60  secondary education             1   
21132         0            NaN         47  secondary education             1   
21281         1            NaN         30    bachelor's degree             0   
21415         0            NaN         54  secondary education             1   

           family_status  family_status

71

Foram encontradas 71 duplicatas, ou seja linhas repetidas, podemos excluir elas 

In [113]:
df = df.drop_duplicates()# Excluindo as duplicatas.

In [114]:
df.duplicated().sum()# Última verificação se temos duplicatas


0

In [115]:
row_count, colunm_count = df.shape  #Verificando novamente o conjunto de dados, após as primeiras manipulações 
print('O DataFrame possui: ' + str(row_count) +' linhas') 
print('O DataFrame possui: ' + str(colunm_count) +' colunas')


O DataFrame possui: 21230 linhas
O DataFrame possui: 12 colunas


# Trabalhando com valores ausentes

### Restaurar valores ausentes em `total_income`

Agora precisamos restaurar os valores ausentes na coluna 'total_income', Para fazer isso primeiro devemos levar em consideração as variaveis que impactam nesse dado. 


Um desses fatores é a idade do cliente, vamos agrupar os clientes em grupos de acordo com a idade deles. 


In [116]:
def age_group(age): #criando uma função que recebe a idade do cliente como parametro. 
    if age <= 40: # ela checa se a idade em anos e atribui um valor para cada uma. 
        return 'adult'
    if age <= 60:
        return 'middle-age'
    return 'retired'

In [117]:
age_group(86)# Testando se a função funciona


'retired'

In [118]:
df['age_group'] = df['dob_years'].apply(age_group) # Criando coluna nova com base na função.


In [119]:
df # Verificar como os valores na nova coluna



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle-age
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,1203.369529,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,middle-age
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,middle-age
21521,0,1203.369529,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


Agora temos os nossos clientes agrupados por faixa de idade e podemos categorizalos com base nessa informação. 

Entretanto a idade não é o unico fator que influencia na renda de uma pessoa, o tipo de trabalho que ela exerce tambem pode impactar nesse dado. 

Vamos verificar a média do salario desses clientes.

In [120]:
df_without_nan = df.dropna(axis=0)# crianddo uma tabela sem valores ausentes. 
df_without_nan

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,middle-age
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adult
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adult
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adult
4,0,1203.369529,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,middle-age
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,middle-age
21521,0,1203.369529,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,retired
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,adult
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,adult


In [121]:
df_without_nan.groupby('income_type').agg(income_mean=('total_income', 'mean'))# Vendo os valores médios de renda com base no tipo de trabalho.


Unnamed: 0_level_0,income_mean
income_type,Unnamed: 1_level_1
business,32424.420789
civil servant,27336.442546
employee,25822.872585
entrepreneur,79866.103
paternity / maternity leave,8612.661
retiree,21950.722935
student,15712.26
unemployed,21014.3605


In [122]:
df_without_nan.groupby('age_group').agg(income_mean=('total_income', 'mean'))# Vendo os valores médios de renda com base na faixa de idade.



Unnamed: 0_level_0,income_mean
age_group,Unnamed: 1_level_1
adult,27377.511688
middle-age,27055.064567
retired,23050.631366


In [123]:

mean_incomes = pd.pivot_table(df_without_nan, values='total_income', #juntando os dados em uma tabela só 
index=['age_group','income_type'], aggfunc='mean')
mean_incomes=mean_incomes.reset_index()
mean_incomes

Unnamed: 0,age_group,income_type,total_income
0,adult,business,31580.716227
1,adult,civil servant,27001.089362
2,adult,employee,25519.783067
3,adult,entrepreneur,79866.103
4,adult,paternity / maternity leave,8612.661
5,adult,retiree,21278.510214
6,adult,student,15712.26
7,adult,unemployed,9593.119
8,middle-age,business,33491.958738
9,middle-age,civil servant,27482.542408


Agora que já sabemos a media de salario para cada tipo de emprego e idade vamos criar uma função que complete os valores ausentes utilizando esses dados. 

In [124]:
def fill_nan_values_total_income(row):
    try:
        if pd.isna(row['total_income']):
            return mean_incomes['total_income'][row['income_type']][row['age_group']]
        return row['total_income']
    except KeyError:
        return mean_incomes['total_income'].mean()


In [125]:
df['total_income']=df.apply(fill_nan_values_total_income, axis=1)

In [126]:
df.info()# Verifique se temos algum erro


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21230 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21230 non-null  int64  
 1   days_employed     19149 non-null  float64
 2   dob_years         21230 non-null  int64  
 3   education         21230 non-null  object 
 4   education_id      21230 non-null  int64  
 5   family_status     21230 non-null  object 
 6   family_status_id  21230 non-null  int64  
 7   gender            21230 non-null  object 
 8   income_type       21230 non-null  object 
 9   debt              21230 non-null  int64  
 10  total_income      21230 non-null  float64
 11  purpose           21230 non-null  object 
 12  age_group         21230 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB


###  Restaurar valores em `days_employed`

Agora vamos restaurar os valores ausentes na coluna days employed. para isso vamos usar a mediana, já que a coluna possui um espectro muito grande de valores e alguns são bem atipicos. 

In [127]:
mean_days = pd.pivot_table(df_without_nan, values='days_employed', index='age_group', aggfunc='median')
mean_days = mean_days.reset_index()
mean_days # calculando a mediana dos valores com base em cada faixa etaria 

Unnamed: 0,age_group,days_employed
0,adult,1318.90401
1,middle-age,1444.926972
2,retired,1203.369529


In [128]:
data_pivot_days=df_without_nan.pivot_table(index=['education', 'age_group'], values='days_employed', aggfunc='median')

In [129]:
 #função que checa linhas com valores vazios em days employed e preenche com a mediana por faixa etaria 
def fill_days_employed(row):
    if pd.isna(row['days_employed']):
        return data_pivot_days['days_employed'][row['education']][row['age_group']]
    return row['days_employed']


In [130]:
df['days_employed']=df.apply(fill_days_employed, axis=1)
# Verifique se a função funciona



In [131]:
df.info()# Verifique as entradas em todas as colunas - certifique-se de corrigir todos os valores ausentes

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21230 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21230 non-null  int64  
 1   days_employed     21230 non-null  float64
 2   dob_years         21230 non-null  int64  
 3   education         21230 non-null  object 
 4   education_id      21230 non-null  int64  
 5   family_status     21230 non-null  object 
 6   family_status_id  21230 non-null  int64  
 7   gender            21230 non-null  object 
 8   income_type       21230 non-null  object 
 9   debt              21230 non-null  int64  
 10  total_income      21230 non-null  float64
 11  purpose           21230 non-null  object 
 12  age_group         21230 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB


## Categorização de dados

Afim de finalmente testar as hipoteses, vamos fazer uma ultima etapa de preparação, agora que completamos os dados que faltavam, vamos levar em consideração diferentes fatores que devem ser analisados e dividir os clientes em grupos. 


In [132]:
df[['total_income', 'purpose']] # Exiba os valores dos dados selecionados para categorização



Unnamed: 0,total_income,purpose
0,40620.102,purchase of the house
1,17932.802,car purchase
2,23341.752,purchase of the house
3,42820.568,supplementary education
4,25378.572,to have a wedding
...,...,...
21520,35966.698,housing transactions
21521,24959.969,purchase of a car
21522,14347.610,property
21523,39054.888,buying my own car


vamos categorizar e dividir os clientes em grupos, para isso vamos levar em consideração o motivo do emprestimo e a renda que ele possui. 

In [133]:
def purpose_type(row):
    if 'hous' in row['purpose'] or 'prop' in row['purpose'] or 'real est' in row['purpose']:
        return 'real estate'
    if 'car' in row ['purpose']:
        return 'car'
    if 'educ' in row['purpose'] or 'university' in row['purpose']:
        return 'education'
    if 'wedd' in row['purpose']:
        return 'wedding' # Vamos escrever uma função para categorizar os dados com base em tópicos comunss


In [134]:
df['purpose_type']=df.apply(purpose_type, axis=1) 
df['purpose_type'].value_counts() # Crie uma coluna com as categorias e conte os valores para elas



real estate    10703
car             4258
education       3970
wedding         2299
Name: purpose_type, dtype: int64

In [135]:
df['total_income'] # Examinar todos os dados numéricos em sua coluna selecionada para categorização


0        40620.102
1        17932.802
2        23341.752
3        42820.568
4        25378.572
           ...    
21520    35966.698
21521    24959.969
21522    14347.610
21523    39054.888
21524    13127.587
Name: total_income, Length: 21230, dtype: float64

In [136]:
df['total_income'].describe() # Obter estatísticas resumidas para a coluna



count     21230.000000
mean      26898.325578
std       15688.073240
min        3306.762000
25%       17208.100500
50%       24969.962000
75%       31327.351000
max      362496.645000
Name: total_income, dtype: float64

Vamos classificar a renda de acordo com os dados mostrados, onde as categorias salariais serão divididas de acordo com os percentuais de salarios apresentados. quem receber menos de 25% recebe a letra d, entre 25 e 50% recebe letra c, entre 50 e 75% letra b, os demais letra a 

In [137]:
def social_class(income):
    if income<=17208:
        income = 'd'  
    elif income<=24969:
        income = 'c' 
    elif income<=31327:
        income = 'b'
    else:
        income = 'a'
    return income # Criar função para categorização em diferentes grupos numéricos com base em intervalos



In [138]:
df['social_class'] = df['total_income'].apply(social_class) # Criar coluna com categorias


In [139]:
df['social_class'].value_counts() # Conte os valores de cada categoria para ver a distribuição


a    5308
d    5308
c    5307
b    5307
Name: social_class, dtype: int64

## Verificar as Hipóteses


**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [140]:
default = df.groupby('children')['debt'].mean()
default # Verifique os dados das crianças e do pagamento em dia


# Calcular a taxa de inadimplência com base no número de filhos



children
0    0.075458
1    0.092028
2    0.095145
3    0.082317
4    0.097561
5    0.000000
Name: debt, dtype: float64

**Conclusão**

Pelos dados gerados, podemos perceber que quanto maior o numero de filhos maior é a taxa de inadimplencia, entretanto com base nos dados da amostrada coletada, nenhum cliente com 5 filhos possui divida, abrindo espaço para mais testes ou a necessidade de uma amostra maior. 


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [141]:
default = df.groupby('family_status')['debt'].mean()
default # Verifique os dados de status da família e do pagamento em dia



# Calcular a taxa padrão com base no status da família



family_status
civil partnership    0.093142
divorced             0.071247
married              0.075575
unmarried            0.097842
widow / widower      0.065539
Name: debt, dtype: float64

Pessoas viuvas tendem significativamente mais a pagar um emprestimos, abrindo espaço para mais estudos e analises sobre esse grupo
e os demais fatores que contribuem para isso. 

**Existe uma relação entre o nível de renda e o pagamento de um empréstimo no
prazo?**

In [142]:
default = df.groupby('social_class')['debt'].mean()
default # Verifique os dados do nível de renda e do pagamento em dia



# Calcular a taxa de inadimplência com base no nível de renda



social_class
a    0.071590
b    0.086490
c    0.086678
d    0.080068
Name: debt, dtype: float64

**Conclusão**

Apartir dos dados percebemos que quanto maior a renda, menos propensa a dividas e o não pagamento de emprestimos

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [143]:
default = df.groupby('purpose_type')['debt'].mean()
default# Confira os percentuais de inadimplência para cada finalidade de crédito e analise-os



purpose_type
car            0.093236
education      0.092947
real estate    0.072596
wedding        0.078730
Name: debt, dtype: float64

**Conclusão**

Emprestimos relacionados a aquisição de propriedades, tendem a serem pagos com uma tava de inadimplencia muito menor do que carros ou educação. 


# Conclusão Geral 

Apartir de um estudo mais aprofundado, percebemos os principais fatores que devem ser levados em consideração na hora de conceder ou não um emprestimo são: 

* aqueles que impactam de forma significativa na renda, o tipo de emprego, o salario, e o numero de filhos(sendo possivel fazer um estudo mais aprofundado nesse aspecto, já que os dados apresentados possuiam uma determinada incoerencia na amostra).

* o motivo do emprestimo, esse é outro fator que tambem impacta 

