# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.


## Abra o arquivo de dados e veja as informações gerais.


In [2]:
# Carregando todas as bibliotecas
import pandas as pd

# Carregando os dados
dados = pd.read_csv('/datasets/credit_scoring_eng.csv')


## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo


In [3]:
# Vendo quantas linhas e colunas nosso conjunto de dados tem
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Temos 12 colunas e 21525 linhas.


In [4]:
# Exibindo as primeiras 10 linhas.

dados.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


- A coluna 'education' possui valores duplicados, uns com letra maiúscula, outros com letras minúsculas, e outros que iniciam com letra maiúscula.

In [5]:
# Obtendo informações sobre dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


As colunas 'days_employed' e 'total_income' possuem valores ausentes. A tabela possui 21525 linhas, enquanto essas colunas possuem 19351 linhas preenchidas.

In [6]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes
valores_ausentes = dados[dados['days_employed'].isna() == True]
valores_ausentes

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [7]:
# Aplicando várias condições para filtrar dados e observar o número de linhas na tabela filtrada.
print(len(dados[dados['days_employed'].isna() == True]))
print(len(valores_ausentes[valores_ausentes['total_income'].isna() == True])) 
len(valores_ausentes)

2174
2174


2174

O número de linhas na tabela filtrada corresponde ao número de valores ausentes. Todas as linhas em que 'days_employed' é ausente, 'total_income' também é ausente. 

Aparentemente, a maioria das pessoas que possuem valores ausentes nessas colunas têm "Secondary Education".	

In [8]:
porcentagem_ausentes = 2174/21525 * 100
print(f'{porcentagem_ausentes:.2f}%')

10.10%


**Conclusão intermediária**

10.10% da tabela possui valores ausentes -> é um número consideravelmente grande. 

Todas as linhas em que 'days_employed' é ausente, 'total_income' também é ausente. 

In [9]:
# Verificando a distribuição

print(valores_ausentes['education_id'].value_counts()) #calcular pelo id pois o nome está escrito de formas diferentes.
print(1540/2174 * 100)

1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64
70.83716651333947


In [10]:
print(valores_ausentes['income_type'].value_counts())
print(1105/2174 * 100)

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64
50.82796688132475


In [11]:
print(valores_ausentes['family_status'].value_counts())
print(1237/2174 * 100)

married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64
56.89972401103955


In [12]:
print(valores_ausentes['children'].value_counts())
print(1439/2174 * 100)

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64
66.19135234590617


In [13]:
print(valores_ausentes['gender'].value_counts())
print(1484/2174 * 100)

F    1484
M     690
Name: gender, dtype: int64
68.26126954921803


Quase 71% das pessoas com valores ausentes, possui "Secondary Education".

Quase 51% das pessoas com valores ausentes são 'employee' (funcionários).

Quase 57% das pessoas com valores ausentes são casadas.

66% das pessoas com valores ausentes não tem filhos.

68% das pessoas com valores ausentes são mulheres.

**Possíveis motivos para valores ausentes nos dados**

Tem que calcular a porcentagem dessas mesmas características nos dados originais para saber se é proporcional, se for, não há uma razão para os dados estarem ausentes; se alguma característica não for, provavelmente será devido a ela que os dados estão ausentes.

In [14]:
# Verificando a distribuição em todo o conjunto de dados

print(dados['education_id'].value_counts())
print(15233/21525 * 100)
print()
print(dados['income_type'].value_counts())
print(11119/21525 * 100)
print()
print(dados['family_status'].value_counts())
print(12380/21525 * 100)
print()
print(dados['children'].value_counts())
print(14149/21525 * 100)
print()
print(dados['gender'].value_counts())
print(14236/21525 * 100)

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64
70.76887340301975

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64
51.656213704994194

married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64
57.51451800232288

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
65.732868757259

F      14236
M       7288
XNA        1
Name: gender, dtype: int64
66.137049941928


**Conclusão intermediária**

Quase 71% das pessoas com valores ausentes, possui "Secondary Education", o que é semelhante aos dados originais (70,76%), então acredito que não seria uma razão para os dados estarem ausentes.

Quase 51% das pessoas com valores ausentes são 'employee' (funcionários), o que também é semelhante aos dados originais (51,65%), então acredito que não seria uma razão para os dados estarem ausentes.

Quase 57% das pessoas com valores ausentes são casadas, o que também é semelhante aos dados originais (57,51%), então acredito que não seria uma razão para os dados estarem ausentes.

66% das pessoas com valores ausentes não tem filhos, o que também é semelhante aos dados originais (65,73%), então acredito que não seria uma razão para os dados estarem ausentes.

68% das pessoas com valores ausentes são mulheres, o que também é semelhante aos dados originais (66,13%), então acredito que não seria uma razão para os dados estarem ausentes.

**Conclusão intermediária**

Acredito que os valores ausentes são acidentais, sem um motivo específico.

**Conclusões**

Não encontrei nenhum padrão. Comparando a porcentagem dos valores da tabela dos valores ausentes com os dados originais, vemos que são semelhantes, proporcionais. Portanto, acredito que os valores estão ausentes aleatoriamente.

## Transformação de dados


In [15]:
# Vendo todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
dados['education'].value_counts()

secondary education    13750
bachelor's degree       4718
SECONDARY EDUCATION      772
Secondary Education      711
some college             668
BACHELOR'S DEGREE        274
Bachelor's Degree        268
primary education        250
Some College              47
SOME COLLEGE              29
PRIMARY EDUCATION         17
Primary Education         15
graduate degree            4
GRADUATE DEGREE            1
Graduate Degree            1
Name: education, dtype: int64

In [16]:
# Corrijindo os registros

dados['education'] = dados['education'].str.lower()

In [17]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos
dados['education'].value_counts()


secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

In [18]:
# Vendo a distribuição de valores na coluna `children`
dados['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Há um número negativo nos dados, não tem como haver -1 criança na família. Pode ser que ao digitar "1", sem querer adicionaram o "-". Também tem famílias com 20 crianças, o que é improvável. Irei substituir os valores "-1" por "1", e os valores "20" por "2".

In [19]:
# Transformando o valor "-1" em 1

dados.loc[dados['children'] == -1, 'children'] = 1

# Transformando o valor "20" em 2

dados.loc[dados['children'] == 20, 'children'] = 2

In [20]:
# Verificando a coluna `children` novamente para ter certeza de que está tudo corrigido
dados['children'].value_counts()


0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [21]:
# Encontrando dados problemáticos em `days_employed`
dados['days_employed'].value_counts()

-327.685916     1
-1580.622577    1
-4122.460569    1
-2828.237691    1
-2636.090517    1
               ..
-7120.517564    1
-2146.884040    1
-881.454684     1
-794.666350     1
-3382.113891    1
Name: days_employed, Length: 19351, dtype: int64

Os valores são em maioria negativos, mas acredito que deveriam ser positivos, não existem dias negativos de trabalho. Também estão com muitos números após o ponto, além dos 2174 valores ausentes.

In [21]:
# Transformando valores negativos em positivos

try:
    for valor in dados['days_employed']:
        if valor < 0:
            dados.loc[dados['days_employed'] == valor, 'days_employed'] = valor * (-1)
except:
    print('Tente novamente')
    
# Arredondando valores 
dados['days_employed'] = dados['days_employed'].round(decimals=0)


In [22]:
# Verificando o resultado 
dados['days_employed'].head(15)


0       8438.0
1       4025.0
2       5623.0
3       4125.0
4     340266.0
5        926.0
6       2879.0
7        153.0
8       6930.0
9       2189.0
10      4171.0
11       793.0
12         NaN
13      1847.0
14      1845.0
Name: days_employed, dtype: float64

In [23]:
# Verificando `dob_years` para valores suspeitos 
dados['dob_years'].value_counts()


35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Existem 101 registros em que a idade é 0. Nesse caso, acredito que o melhor a se fazer é preenchê-los com a média da coluna.

In [24]:
# Resolvendo os problemas na coluna `dob_years`
media_idade = dados['dob_years'].mean()
print(media_idade)
dados.loc[dados['dob_years'] == 0, 'dob_years'] = media_idade
dados['dob_years'] = dados['dob_years'].round(decimals=0)

43.29337979094077


In [25]:
# Verificando o resultado
dados['dob_years'].value_counts()

35.0    617
43.0    614
40.0    609
41.0    607
34.0    603
38.0    598
42.0    597
33.0    581
39.0    573
31.0    560
36.0    555
44.0    547
29.0    545
30.0    540
48.0    538
37.0    537
50.0    514
32.0    510
49.0    508
28.0    503
45.0    497
27.0    493
56.0    487
52.0    484
47.0    480
54.0    479
46.0    475
58.0    461
57.0    460
53.0    459
51.0    448
59.0    444
55.0    443
26.0    408
60.0    377
25.0    357
61.0    355
62.0    352
63.0    269
64.0    265
24.0    264
23.0    254
65.0    194
66.0    183
22.0    183
67.0    167
21.0    111
68.0     99
69.0     85
70.0     65
71.0     58
20.0     51
72.0     33
19.0     14
73.0      8
74.0      6
75.0      1
Name: dob_years, dtype: int64

In [26]:
# Vendo os valores da coluna family_status
dados['family_status'].value_counts()


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [27]:
dados['family_status'].isna().sum()

0

Aparentemente está tudo ok com esta coluna.

In [28]:
# Vendo os valores na coluna gender
dados['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Existe 1 registro que é 'XNA'. 

In [29]:
# Abordando os valores problemáticos
dados.loc[dados['gender'] == 'XNA', 'gender'] = 'F' #Substituindo pela moda

In [30]:
# Verificando o resultado
dados['gender'].value_counts()


F    14237
M     7288
Name: gender, dtype: int64

In [31]:
# Vendo os valores na coluna income_type
dados['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

In [32]:
dados['income_type'].isna().sum()

0

Aparentemente está tudo ok com esta coluna.

In [33]:
# Verificando duplicatas 
dados.duplicated().sum()


71

In [34]:
# Abordando as duplicatas
dados = dados.drop_duplicates().reset_index(drop=True)

In [35]:
# Última verificação se temos duplicatas
dados.duplicated().sum()

0

In [36]:
#Verificando o tamanho do conjunto de dados que você tem agora após as primeiras manipulações com ele
dados.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  float64
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


In [37]:
# Transformando dados float em inteiros 
dados['children'] = dados['children'].astype('int') 
dados['dob_years'] = dados['dob_years'].astype('int')
#dados['days_employed'] = dados['days_employed'].astype('int') -> não consigo converter para int pois há valores ausentes (NaN)
#que são float.

In [38]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21454 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Agora temos 21454 linhas, e antes tínhamos 21525


- Primeiro, foi comparado a tabela de valors ausentes (criada a partir dos dados originais) com os dados originais para ver se havia um motivo aparente para os dados estarem ausentes;
- Foi analisado coluna por coluna para ver se havia algum valor ausente, valor errado ou duplicado e foram tratados;
- Foram preenchidos os valores errados ou com a média ou com a mediana, dependendo se havia ou não valores atípicos significativos;
- As duplicatas implicitas da coluna 'education' foram tratadas;
- E por fim, as duplicatas de toda a tabela foram removidas.

# Trabalhando com valores ausentes

### Restaurar valores ausentes em `total_income`


As colunas 'total_income' e 'days_employed' estão com 2174 valores ausentes. 

In [39]:
print(dados['dob_years'].min())
dados['dob_years'].max()

19


75

In [40]:
# Escrevendo uma função que calcule a categoria de idade
def age_group(age):
    if age < 30:
        return '19 - 29'
    elif age < 40:
        return '30 - 39'
    elif age < 50:
        return '40 - 49'
    elif age < 60:
        return '50 - 59'
    elif age < 70:
        return '60 - 69'
    return '70+'


In [41]:
# Testando se a função funciona
age_group(35)

'30 - 39'

In [42]:
# Criando coluna nova com base na função

dados['age_group'] = dados['dob_years'].apply(age_group)

In [43]:
# Verificando como os valores na nova coluna

dados['age_group'].value_counts()

30 - 39    5662
40 - 49    5455
50 - 59    4657
19 - 29    3180
60 - 69    2331
70+         169
Name: age_group, dtype: int64

In [44]:
dados.groupby('age_group')['total_income'].mean().sort_values(ascending=False)

age_group
40 - 49    28491.929026
30 - 39    28312.479963
50 - 59    25811.700327
19 - 29    25533.960641
60 - 69    23242.812818
70+        20125.658331
Name: total_income, dtype: float64

In [45]:
# Criando uma tabela sem valores ausentes e exiba algumas de suas linhas para garantir que ela fique boa
sem_ausentes = dados[dados['days_employed'].isna() == False]
sem_ausentes

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8438.0,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40 - 49
1,1,4025.0,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30 - 39
2,0,5623.0,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30 - 39
3,3,4125.0,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30 - 39
4,0,340266.0,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50 - 59
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.0,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40 - 49
21450,0,343937.0,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60 - 69
21451,1,2113.0,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30 - 39
21452,3,3112.0,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30 - 39


In [46]:
# Vendo os valores médios de renda com base em seus fatores identificados
sem_ausentes['total_income'].mean()

26787.568354658673

In [47]:
# Vendo os valores medianos de renda com base em seus fatores identificados
sem_ausentes['total_income'].median()

23202.87

A média e a mediana da renda_total são valores próximos.

In [48]:
print(sem_ausentes['dob_years'].mean())
print(valores_ausentes['dob_years'].mean())
dados['dob_years'].mean()

43.45754741357036
43.632014719411224


43.473664584692834

A média de idade tanto na tabela completa, quanto nas tabelas só com e sem valores ausentes é 43 anos; e a média de renda para essa idade também é um valor próximo a média e mediana total (28491.929026), sendo a média o valor mais próximo. 
Portanto o valor que completaria melhor os valores ausentes seria a média, pois:
- A média e mediana por grupos de idade é proporcional a quantidade desses grupos de idade presentes na tabela, 
- Não há valores atípicos significativos, 
- A média da renda nos dados completos próximo a média da renda na idade de 43 anos (média das idades dos valores ausentes). 

In [49]:
dados['total_income'].isna().sum()

2103

In [50]:
#  Preenchendo os valores ausentes
media_renda = sem_ausentes['total_income'].mean()
dados['total_income'] = dados['total_income'].fillna(media_renda)
        

In [51]:
# Verifique se funcionou
dados['total_income'].isna().sum()

0

In [52]:
# Verificando se o número total de valores nesta coluna corresponde ao número de valores em outras.
dados.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


###  Restaurar valores em `days_employed`

In [53]:
# Distribuição de `days_employed` médios com base em seus parâmetros identificados

dados.groupby('age_group')['days_employed'].mean().sort_values(ascending=False)


age_group
70+        320819.168750
60 - 69    283926.471599
50 - 59    132907.547870
40 - 49     13439.223756
30 - 39      4155.028186
19 - 29      2082.498266
Name: days_employed, dtype: float64

In [54]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
dados.groupby('age_group')['days_employed'].median().sort_values(ascending=False)

age_group
70+        361337.0
60 - 69    354936.0
50 - 59      4797.0
40 - 49      2109.0
30 - 39      1602.0
19 - 29       999.0
Name: days_employed, dtype: float64

In [55]:
dados['days_employed'].mean()

66914.7279727146

In [56]:
dados['days_employed'].median()

2194.0

In [57]:
dados['days_employed'].value_counts()

200.0       15
206.0       14
1482.0      14
220.0       14
234.0       13
            ..
338905.0     1
6126.0       1
329220.0     1
2792.0       1
2150.0       1
Name: days_employed, Length: 9058, dtype: int64

Nessa coluna, os valores da média e da mediana não são próximos. 

Acredito que nessa coluna o ideal seria preencher os valores ausentes com a mediana, pois há valores atípicos significativos.

In [58]:
# Calculando a mediana 
mediana_days =  dados['days_employed'].median()
dados['days_employed'] = dados['days_employed'].fillna(mediana_days)

In [59]:
# Verificando se funcionou
dados['total_income'].isna().sum()


0

In [60]:
# Verificando as entradas em todas as colunas - corrigindo todos os valores ausentes
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21454 non-null  int64  
 1   days_employed     21454 non-null  float64
 2   dob_years         21454 non-null  int64  
 3   education         21454 non-null  object 
 4   education_id      21454 non-null  int64  
 5   family_status     21454 non-null  object 
 6   family_status_id  21454 non-null  int64  
 7   gender            21454 non-null  object 
 8   income_type       21454 non-null  object 
 9   debt              21454 non-null  int64  
 10  total_income      21454 non-null  float64
 11  purpose           21454 non-null  object 
 12  age_group         21454 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


In [61]:
# Verificando os valores exclusivos
print(dados['children'].unique())
print()
print(dados['family_status'].unique())
print()
print(dados['income_type'].unique())
dados['purpose'].unique()

[1 0 3 2 4 5]

['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']

['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']


array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [62]:
# Escrevendo uma função para categorizar os dados com base em tópicos comuns
def purpose_group(purpose):
    if 'wedding' in purpose:
        return 'wedding'
    elif 'car' in purpose or 'cars' in purpose:
        return 'car'
    elif 'real estate' in purpose or 'housing' in purpose or 'property' in purpose or 'house' in purpose:
        return 'property'
    elif 'education' in purpose or 'university' in purpose or 'educated' in purpose:
        return 'education'

In [63]:
# Criando uma coluna com as categorias e contando os valores para elas

dados['purpose_group'] = dados['purpose'].apply(purpose_group)

In [64]:
dados['purpose_group'].value_counts()

property     10811
car           4306
education     4013
wedding       2324
Name: purpose_group, dtype: int64

In [65]:
# Examinando todos os dados numéricos em coluna selecionada para categorização
print(dados['total_income'].min())
dados['total_income'].max()

3306.762


362496.645

Categorizar a renda em intervalos de 50.000 em 50.000, para poder analisar se esse é um motivo para as dívidas.

In [66]:
# Criando função para categorização em diferentes grupos numéricos com base em intervalos
def income_group(income):
    if income < 50000:
        return '<50000'
    elif income < 100000:
        return '<100000'
    elif income < 150000:
        return '<150000'
    elif income < 200000:
        return '<200000'
    elif income < 250000:
        return '<250000'
    elif income < 300000:
        return '<300000'
    elif income < 350000:
        return '<350000'
    return '350+'


In [67]:
# Criando coluna com categorias
dados['income_group'] = dados['total_income'].apply(income_group)


In [68]:
# Contando os valores de cada categoria para ver a distribuição
dados['income_group'].value_counts()

<50000     20134
<100000     1221
<150000       71
<200000       17
<250000        5
<300000        4
350+           2
Name: income_group, dtype: int64

## Verificar as Hipóteses


**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [69]:
# Verificando os dados das crianças e do pagamento em dia

print('Pagamento em dia')
debt_0 = dados[dados['debt'] == 0]
print(debt_0.groupby('children')['debt'].mean().sort_values(ascending=False))

print()
# Calculando a taxa de inadimplência com base no número de filhos
print('Em dívida')
debt_1 = dados[dados['debt'] == 1]
print(debt_1.groupby('children')['debt'].mean().sort_values(ascending=False))


# Calculando a taxa padrão com base no número de filhos
dados.groupby('children')['debt'].mean().sort_values(ascending=False)

Pagamento em dia
children
0    0
1    0
2    0
3    0
4    0
5    0
Name: debt, dtype: int64

Em dívida
children
0    1
1    1
2    1
3    1
4    1
Name: debt, dtype: int64


children
4    0.097561
2    0.094925
1    0.091658
3    0.081818
0    0.075438
5    0.000000
Name: debt, dtype: float64

**Conclusão**

A média do número de filhos são próximas, apenas pessoas com 5 filhos não tem dívidas, portanto acredito que o número de filhos não influencia se o cliente paga ou não suas dívidas.

**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [70]:
# Verificando os dados de status da família e do pagamento em dia
print('Pagamento em dia')
debt_0 = dados[dados['debt'] == 0]
print(debt_0.groupby('family_status')['debt'].mean().sort_values(ascending=False))

print()
# Calculando a taxa de inadimplência com base no status da família
print('Em dívida')
debt_1 = dados[dados['debt'] == 1]
print(debt_1.groupby('family_status')['debt'].mean().sort_values(ascending=False))

# Calculando a taxa padrão com base no status da família
dados.groupby('family_status')['debt'].mean().sort_values(ascending=False)



Pagamento em dia
family_status
civil partnership    0
divorced             0
married              0
unmarried            0
widow / widower      0
Name: debt, dtype: int64

Em dívida
family_status
civil partnership    1
divorced             1
married              1
unmarried            1
widow / widower      1
Name: debt, dtype: int64


family_status
unmarried            0.097509
civil partnership    0.093471
married              0.075452
divorced             0.071130
widow / widower      0.065693
Name: debt, dtype: float64

**Conclusão**

As médias dos estados civis também são próximas, e observamos que pessoas que já estiveram em um relacionamento e não estão mais (divorciados e viúvos) são os que menos tem dívidas, mas ainda não acredito que influencia se o cliente paga ou não suas dívidas.
Solteiros e união estável tendem a inadimplir

**Existe uma correlação entre o nível de renda e o pagamento em dia?**

In [71]:
# Verificando os dados do nível de renda e do pagamento em dia
print('Pagamento em dia')
debt_0 = dados[dados['debt'] == 0]
print(debt_0.groupby('income_group')['debt'].mean().sort_values(ascending=False))


# Calculando a taxa de inadimplência com base no nível de renda
print('Em dívida')
debt_1 = dados[dados['debt'] == 1]
print(debt_1.groupby('income_group')['debt'].mean().sort_values(ascending=False))

# Calculando a taxa padrão com base no nível de renda
dados.groupby('income_group')['debt'].mean().sort_values(ascending=False)

Pagamento em dia
income_group
350+       0
<100000    0
<150000    0
<200000    0
<250000    0
<300000    0
<50000     0
Name: debt, dtype: int64
Em dívida
income_group
350+       1
<100000    1
<150000    1
<200000    1
<50000     1
Name: debt, dtype: int64


income_group
350+       0.500000
<50000     0.081901
<100000    0.070434
<200000    0.058824
<150000    0.056338
<250000    0.000000
<300000    0.000000
Name: debt, dtype: float64

**Conclusão**

50% das pessoas que não pagam suas dívidas têm a renda maior que 350000; pessoas que ganham menos possuem pequenas taxas de inadimplência, portanto ter a renda maior que 350000 pode ser um padrão de pessoas que não pagam suas dívidas. 

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [72]:
# Conferindo os percentuais de inadimplência para cada finalidade de crédito e analise-os
print('Pagamento em dia')
debt_0 = dados[dados['debt'] == 0]
print(debt_0.groupby('purpose_group')['debt'].mean().sort_values(ascending=False))

print()
# Calculando a taxa de inadimplência com base na finalidade de crédito
print('Em dívida')
debt_1 = dados[dados['debt'] == 1]
print(debt_1.groupby('purpose_group')['debt'].mean().sort_values(ascending=False))

# Calculando a taxa padrão com base na finalidade de crédito
dados.groupby('purpose_group')['debt'].mean().sort_values(ascending=False)

Pagamento em dia
purpose_group
car          0
education    0
property     0
wedding      0
Name: debt, dtype: int64

Em dívida
purpose_group
car          1
education    1
property     1
wedding      1
Name: debt, dtype: int64


purpose_group
car          0.093590
education    0.092200
wedding      0.080034
property     0.072334
Name: debt, dtype: float64

**Conclusão**

Pela análise, as pessoas que não pagam as dívidas de acordo com a finalidade é proporcional, portanto acredito que a finalidade não influencia se o cliente paga ou não suas dívidas.


# Conclusão Geral 

As duplicatas foram removidas, tanto implícitas quanto explícitas; os valores ausentes foram preenchidos com a média ou mediana da coluna, analisada observando se havia ou não valores atípicos significativos; foram criadas novas colunas para categoria de dos dados, para facilitar a análise das hipóteses; e por fim, chegamos a conclusão de que o padrão mais provável de pessoas que não pagam suas dívidas, são pessoas com renda maior que 350000.

- Valores ausentes identificados: As colunas 'days_employed' e 'total_income' tinham valores ausentes.
- Possíveis razões que esses valores ausentes estavam presentes: Na análise, não foi achado nenhum motivo específico para os valores estarem ausentes, acredito que eram aleatórios.
- Método usado para preencher os valores ausentes: A média ou a mediana, dependendo do caso de haver valores atípicos significativos.
- Método usado para localizar e excluir dados duplicados: Método duplicated() foi usado para achar duplicatas e drop_duplicates() para excluí-los. Quanto as duplicatas implícitas foram encontradas nas análises das colunas, em que os valores estavam com letras maiúsculas e minúsculas, e foram resolvidas com a função .str.lower()).
- Possíveis razões para a presença de dados duplicados: Digitação errada por parte do usuário ou funcionário; ou então erros ao importar os dados.
- Método usado para alterar o tipo de dados: Método astype().

**Perguntas:**
- Existe alguma relação entre ter filhos e pagar um empréstimo em dia? A taxa padrão com base no número de filhos é proporcional, sendo aleatório a quantidade de filhos de pessoas com dívidas e sem dívidas.
- Existe alguma relação entre o estado civil e o pagamento de um empréstimo no prazo estipulado? O estado civil para clientes com dívidas e sem dívidas é proporcional, portanto acredito que o estado civil não influencia se o cliente paga ou não suas dívidas.
- Existe uma relação entre o nível de renda e o pagamento de um empréstimo no prazo? 50% das pessoas que não pagam suas dívidas têm a renda maior que 350000; pessoas que ganham menos possuem pequenas taxas de inadimplência (inferiores a 10%), portanto ter a renda maior que 350000 pode sim ser um padrão de pessoas que não pagam suas dívidas.
- Como as diferentes finalidades do empréstimo afetam o pagamento pontual do empréstimo? Pela análise, as pessoas que não pagam as dívidas de acordo com a finalidade é proporcional com a pessoas que pagam as dívidas, portanto acredito que a finalidade não influencia se o cliente paga ou não suas dívidas, a finalidade é aleatória.

