# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

## Abra o arquivo de dados e veja as informações gerais.

### Importando biblioteca pandas e o arquivo fornecido

In [None]:
# Carregando todas as bibliotecas
import pandas as pd
import numpy as np

# Carregue os dados
df = pd.read_csv('https://code.s3.yandex.net/datasets/credit_scoring_eng.csv')

## Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo


In [None]:
# Vamos ver quantas colunas nosso conjunto de dados tem
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


O conjunto de dados possui 12 colunas e 21525 linhas. É possível perceber que existem dados faltando em "days_employed" e "total_income". Vamos ver como estão essas faltas no conjunto de dados.

In [None]:
# Exibindo as primeiras 10 linhas
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [None]:
# Verifcicando as últimas 10 linhas
df.tail(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.68513,28,secondary education,1,married,0,F,employee,1,17517.812,to become educated
21516,0,-914.391429,42,bachelor's degree,0,married,0,F,business,0,51649.244,purchase of my own house
21517,0,-404.679034,42,bachelor's degree,0,civil partnership,1,F,business,0,28489.529,buying my own car
21518,0,373995.710838,59,SECONDARY EDUCATION,1,married,0,F,retiree,0,24618.344,purchase of a car
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.61,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car
21524,2,-1984.507589,40,secondary education,1,married,0,F,employee,0,13127.587,to buy a car


Nas primeiras e últimas 10 linhas não foi verificado nenhum dado faltante. Mas é possível ver que os dados estão com problemas, na coluna "days_employed" existem números negativos (essa coluna pode tem muitos erros, como dados faltantes e números negativos), em "education" tem variação de maiúsculas e minúsculas, e em "purpose" tem objetivos semelhantes mas descritos diferentes.

### Para comerçar a análise, vou verificar os dados faltantes na coluna "days_employed".

In [None]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes
df[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Por uma análise rápida, os dados da coluna "days_employed" possuem algumas simularidades, como em sua maioria serem pessoas acima de 40 anos, com escolaridade "secondary education", não possíam dívidas no pagamento do empréstimo e possuírem valores ausentes também na coluna "total_income".

#### Procurando relações com os dados faltantes em "days_employed"

In [None]:
# Descobrindo o número de dados faltantes
df['days_employed'].isna().value_counts()

False    19351
True      2174
Name: days_employed, dtype: int64

É possível perceber que temos 2174 linhas faltantes na coluna analisada.

Para continuar a análise, vamos relacionar com demais colunas e procurar uma relação.

In [None]:
# Verificando com a coluna "education"
df[df['days_employed'].isna()]['education'].value_counts()

secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
SOME COLLEGE              7
Some College              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64

In [None]:
df[df['days_employed'].isna()]['education_id'].value_counts(dropna=False)

1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64

In [None]:
df[df['days_employed'].isna()]['family_status_id'].value_counts(dropna=False)

0    1237
1     442
4     288
3     112
2      95
Name: family_status_id, dtype: int64

In [None]:
# Verificando com a coluna "dob_years"
df[df['days_employed'].isna()]['dob_years'].value_counts()

34    69
40    66
31    65
42    65
35    64
36    63
47    59
41    59
30    58
28    57
57    56
58    56
54    55
38    54
56    54
37    53
52    53
39    51
33    51
50    51
51    50
45    50
49    50
29    50
43    50
46    48
55    48
48    46
53    44
44    44
60    39
61    38
62    38
64    37
32    37
27    36
23    36
26    35
59    34
63    29
25    23
24    21
66    20
65    20
21    18
22    17
67    16
0     10
68     9
69     5
20     5
71     5
70     3
72     2
19     1
73     1
Name: dob_years, dtype: int64

In [None]:
# Verificando com a coluna "debt"
df[df['days_employed'].isna()]['debt'].value_counts()

0    2004
1     170
Name: debt, dtype: int64

In [None]:
# Verificando com a coluna "gender"
df[df['days_employed'].isna()]['gender'].value_counts()

F    1484
M     690
Name: gender, dtype: int64

In [None]:
# Verificando com a coluna "purpose"
df[df['days_employed'].isna()]['purpose'].value_counts()

having a wedding                            92
to have a wedding                           81
wedding ceremony                            76
construction of own property                75
housing transactions                        74
buy real estate                             72
purchase of the house for my family         71
transactions with my real estate            71
transactions with commercial real estate    70
housing renovation                          70
buy commercial real estate                  67
buying property for renting out             65
property                                    62
buy residential real estate                 61
real estate transactions                    61
housing                                     60
building a property                         59
cars                                        57
going to university                         56
to become educated                          55
second-hand car purchase                    54
buying my own

In [None]:
# Verificando com a coluna "income_type"
df[df['days_employed'].isna()]['income_type'].value_counts()

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [None]:
# Verificando com a coluna "total_income"
df[df['days_employed'].isna()]['total_income'].value_counts(dropna=False)

NaN    2174
Name: total_income, dtype: int64

In [None]:
# Verificando com a coluna "children"
df[df['days_employed'].isna()]['children'].value_counts(dropna=False)

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

In [None]:
# Verificando o percentual de dados faltantes na coluna "days_employed"
df['days_employed'].isna().mean() * 100

10.099883855981417

In [None]:
#Verificando a distribuição dos dados faltantes em todo conjunto de dados
df.isna().mean().sort_values(ascending = False)

days_employed       0.100999
total_income        0.100999
children            0.000000
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
purpose             0.000000
dtype: float64

**Conclusão intermediária**

Pelas análises anteriores a coluna "days_employed" possui 10,09% de dados faltantes, ou seja, 2174 linhas. Dessas linhas, pode tirar as seguintes conclusões:

* O cliente que possui dados ausentes em "days_employed" também possui em "total_income"
* A porcentagem de linhas com dados ausentes é de 10,09%
* A maioria possui esolaridade tipo 1 - Second education
* A maioria é do gênero feminino
* A grande maioria não possuí dívidas
* A maioria possui status da família tipo 0 - casado
* A maioria não possui filhos

**Possíveis motivos para valores ausentes nos dados**

Os dados podem estar ausentes por erro de preenchimento humano, pode ser um errro na hora de exportar os dados, ou seja existem dievrsas causas que pode ocasionar os valores ausentes.

Pensando em uma relação, perceptível que onde existe dados ausentes na coluna "days_employed" também há na coluna "total_income", o que é estranho, pois é muita conincidência que vão possuir duas colunas em todo o conjunto de dados com erro e estarem sempre relacionados ao mesmo cliente.


## Transformação de dados

Vamos examinar cada coluna para ver quais problemas podemos ter nelas.

Coluna Education

In [None]:
# Vamos ver todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [None]:
# Corrija os registros, se necessário
df['education'] = df['education'].str.lower()

In [None]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos

df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Coluna `children`

In [None]:
# Vamos ver a distribuição de valores na coluna `children`
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

In [None]:
df.groupby('children')['education'].count()

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: education, dtype: int64

In [None]:
df.groupby('children')['education'].count()/ df['children'].count()

children
-1     0.002184
 0     0.657329
 1     0.223833
 2     0.095470
 3     0.015331
 4     0.001905
 5     0.000418
 20    0.003531
Name: education, dtype: float64

In [None]:
df['children'].mean()

0.5389082462253194

In [None]:
df['children'].median()

0.0

Existem dados nessa coluna que possuem valores negativos e valores muito acima do padrão apresentado (20). Representam pouco, 0,2% e 0,3% respectivamente. Pode ser um erro de digitação, ou por carregamento. Vou alterar todos os dados negativos para seu valor positivo, e para os valores de 20 vou utilizar a mediana que representa a maior parte dos valores da coluna.

In [None]:
# Revertendo valores negativos para seus respectivos positivos
df['children'] = df['children'].replace(-1 , 1)

In [None]:
# Retirando valores extremos (20) e colocando
df['children'] = df['children'].replace(20 , 0)

In [None]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido

df['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [None]:
df.groupby('children')['education'].count()/ df['children'].count()

children
0    0.660859
1    0.226016
2    0.095470
3    0.015331
4    0.001905
5    0.000418
Name: education, dtype: float64

Coluna `days_employed`.

In [None]:
# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem
df['days_employed'].isna().value_counts()

False    19351
True      2174
Name: days_employed, dtype: int64

In [None]:
# Calculando a média de valores ausentes
df['days_employed'].isna().mean()

0.10099883855981417

In [None]:
df['days_employed'].unique()

array([-8437.67302776, -4024.80375385, -5623.42261023, ...,
       -2113.3468877 , -3112.4817052 , -1984.50758853])

In [None]:
# Contando a quantidade de valores ausentes
df[df['days_employed']<0].value_counts().count()


15906

Existem dados faltantes na coluna e eles representam 10% dos dados.
Além disso temos dados negativos, que podem ser ocasionados devido a erro técnico. Vou arrumar alterando de negativo para positivo.


In [None]:
# Transformando os valores negativosem seus respectivos valores positivos
df['days_employed'] = df['days_employed'].abs()


In [None]:
# Verifique o resultado
df['days_employed'].unique()

array([8437.67302776, 4024.80375385, 5623.42261023, ..., 2113.3468877 ,
       3112.4817052 , 1984.50758853])

In [None]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.47266,66914.728907,43.29338,0.817236,0.972544,0.080883,26787.568355
std,0.750616,139030.880527,12.574584,0.548138,1.420324,0.272661,16475.450632
min,0.0,24.141633,0.0,0.0,0.0,0.0,3306.762
25%,0.0,927.009265,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,23202.87
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,32549.611
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


Vamos agora olhar para a idade do cliente e se há algum problema aí. Novamente, pense em quais dados podem ser estranhos nesta coluna, ou seja, quais não podem ser a idade de alguém.

In [None]:
# Verifique o `dob_years` para valores suspeitos e conte a porcentagem
df['dob_years'].sort_values().unique()


array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

In [None]:
# Média as idades dos clientes
df['dob_years'].mean()

43.29337979094077

In [None]:
# Mediana as idades dos clientes
df['dob_years'].median()

42.0

Temos o valor 0 em idade, e para resolver vou usar a mediana de idade.

In [None]:
# Resolva os problemas na coluna `dob_years`, se existirem
df['dob_years'] = df['dob_years'].replace(0,42)

In [None]:
# Verifique o resultado - certifique-se de que está corrigido
df['dob_years'].sort_values().unique()

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

Coluna `family_status`.


In [None]:
# Vamos ver os valores da coluna
df['family_status'].unique()


array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

Sem erro na coluna

Coluna `gender`.


In [None]:
# Vamos ver os valores na coluna
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Tem um terceito valor que pode ser um gênero diferente ou erro. Como é pequeno em relação ao todo, não vou mexer


Coluna `income_type`

In [None]:
# Vamos ver os valores na coluna
df['income_type'].value_counts()

employee                       11119
business                        5085
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
paternity / maternity leave        1
student                            1
Name: income_type, dtype: int64

Sem erro na coluna



## Agora vamos ver se temos duplicatas em nossos dados. Se o fizermos, você precisará decidir o que fará com eles e explicar o porquê.

In [None]:
# Verificar duplicatas
df.duplicated().sum()

72

In [None]:
# Aborde as duplicatas, se existirem
df = df.drop_duplicates().reset_index(drop=True)

In [None]:
# Última verificação se temos duplicatas
df.duplicated().sum()

0

In [None]:
#Verifique o tamanho do conjunto de dados que você tem agora após suas primeiras manipulações com ele
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21453 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


O novo conjunto de dados não possui duplicatas e as colunas sem valores ausentes estão ajustadas. Vamos começar a tratar os valores ausentes

# Trabalhando com valores ausentes

### Restaurar valores ausentes em `total_income`

Para ajustar a coluna "total_income" vou começar a fazer comparativos para encontrar a melhor solução para o preenchimento dos valores ausentes.

In [None]:
# Vamos escrever uma função que calcule a categoria de idade
def faixa_etaria(row):
    if row['dob_years'] <= 29:
        return '19-29'
    elif row['dob_years'] <= 39:
        return '30-39'
    elif row['dob_years'] <= 49:
        return '40-49'
    elif row['dob_years'] <= 59:
        return '50-59'
    elif row['dob_years'] <= 69:
        return '60-69'
    else:
        return '70+'


In [None]:
# Teste se a função funciona
test1 = faixa_etaria(df.iloc[4])
test1

'50-59'

In [None]:
# Criar coluna nova com base na função
df['age'] = df.apply(faixa_etaria, axis =1)

In [None]:
# Verificar como os valores na nova coluna

df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60-69
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39


In [None]:
df['age'].value_counts()

30-39    5662
40-49    5454
50-59    4657
19-29    3180
60-69    2331
70+       169
Name: age, dtype: int64

In [None]:
# Crie uma tabela sem valores ausentes e exiba algumas de suas linhas para garantir que ela fique boa
df.dropna()


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49
21449,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60-69
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39


In [None]:
df.dropna().describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0
mean,0.472689,66914.728907,43.452845,0.819079,0.972249,0.081184,26787.568355
std,0.749067,139030.880527,12.223125,0.550104,1.420596,0.273125,16475.450632
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762
25%,0.0,927.009265,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,23202.87
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,32549.611
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [None]:
# Veja os valores médios de renda com base em seus fatores identificados
df.dropna().groupby('age')['total_income'].mean()

age
19-29    25533.960641
30-39    28312.479963
40-49    28491.929026
50-59    25811.700327
60-69    23242.812818
70+      20125.658331
Name: total_income, dtype: float64

In [None]:
# Veja os valores medianos de renda com base em seus fatores identificados
df.dropna().groupby('age')['total_income'].median()

age
19-29    22742.6535
30-39    24667.5280
40-49    24755.6960
50-59    22203.0745
60-69    19817.4400
70+      18751.3240
Name: total_income, dtype: float64

In [None]:
df.dropna().groupby('education')['total_income'].mean()

education
bachelor's degree      33142.802434
graduate degree        27960.024667
primary education      21144.882211
secondary education    24594.503037
some college           29045.443644
Name: total_income, dtype: float64

In [None]:
df.dropna().groupby('education')['total_income'].median()

education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21836.5830
some college           25618.4640
Name: total_income, dtype: float64

In [None]:
df.dropna().groupby('income_type')['total_income'].mean()

income_type
business                       32386.793835
civil servant                  27343.729582
employee                       25820.841683
entrepreneur                   79866.103000
paternity / maternity leave     8612.661000
retiree                        21940.394503
student                        15712.260000
unemployed                     21014.360500
Name: total_income, dtype: float64

In [None]:
df.dropna().groupby('income_type')['total_income'].median()

income_type
business                       27577.2720
civil servant                  24071.6695
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18962.3180
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

Considero que o tipo de fonte de renda interfere mais no valor recebido do que outros fatores, e por isso vou utilizar esses dados para preencher os ausentes. Para isso vou usar a mediana.

In [None]:
#  Escreva uma função que usaremos para preencher os valores ausentes
def income(row):
    if pd.isna(row['total_income']):
        if row['income_type'] == 'business':
            return 27577.2720
        elif row['income_type'] == 'civil servant':
            return 24071.6695
        elif row['income_type'] == 'employee':
            return 22815.1035
        elif row['income_type'] == 'entrepreneur':
            return 79866.1030
        elif row['income_type'] == 'paternity / maternity leave':
            return 8612.6610
        elif row['income_type'] == 'retiree':
            return 18962.3180
        elif row['income_type'] == 'student':
            return 15712.2600
        elif row['income_type'] == 'unemployed':
            return 21014.3605
        else:
            return '0'
    else:
        return row['total_income']


In [None]:
# Verifique se funciona
income(df[df['total_income'].isna()].iloc[2])

18962.318

In [None]:
income(df[df['total_income'].isna()].iloc[1])

24071.6695

In [None]:
income(df[df['total_income'].isna()].iloc[100])

27577.272

In [None]:
# Aplique em todas as linhas
df['total_income'] = df.apply(income, axis=1)

In [None]:
# Verifique se temos algum erro
df['total_income'].sort_values()

14555      3306.762
12983      3392.845
16137      3418.824
1598       3471.216
14247      3503.298
            ...    
17136    273809.483
20741    274402.943
9159     276204.162
19547    352136.354
12390    362496.645
Name: total_income, Length: 21453, dtype: float64

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age               21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


In [None]:
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21453.0,19351.0,21453.0,21453.0,21453.0,21453.0,21453.0
mean,0.4735,66914.728907,43.469025,0.817089,0.973896,0.081154,26451.382421
std,0.751162,139030.880527,12.214162,0.548686,1.421601,0.273078,15710.314734
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762
25%,0.0,927.009265,33.0,1.0,0.0,0.0,17219.352
50%,0.0,2194.220567,42.0,1.0,0.0,0.0,22815.1035
75%,1.0,5537.882441,53.0,1.0,1.0,0.0,31331.461
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


Dados corrigidos na coluna 'total_income'


###  Restaurar valores em `days_employed`

Para ajustar a coluna "days_employed" vou começar a fazer comparativos para encontrar a melhor solução para o preenchimento dos valores ausentes.

In [None]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
df.dropna().groupby('age')['days_employed'].mean()



age
19-29      2082.493898
30-39      4155.029251
40-49     13439.227108
50-59    132907.545543
60-69    283926.481689
70+      320819.151927
Name: days_employed, dtype: float64

In [None]:
df.dropna().groupby('age')['days_employed'].median()

age
19-29       999.028882
30-39      1601.784231
40-49      2108.529344
50-59      4796.767897
60-69    354935.619093
70+      361336.993449
Name: days_employed, dtype: float64

In [None]:
# Distribuição de `days_employed` médios com base em seus parâmetros identificados
df.dropna().groupby('education_id')['days_employed'].mean()

education_id
0     42375.409174
1     76413.822372
2     20656.632017
3    130340.426349
4    121323.630206
Name: days_employed, dtype: float64

In [None]:
df.dropna().groupby('family_status')['days_employed'].mean()

family_status
civil partnership     58396.260670
divorced              68816.335483
married               63312.782890
unmarried             47072.691647
widow / widower      205636.887848
Name: days_employed, dtype: float64

Considero que a idade interfere mais na quantidade de dias trabalhados do que outros fatores, e por isso vou utilizar esses dados para preencher os ausentes. Para isso vou utilizar a média.

In [None]:
# Vamos escrever uma função que calcule médias ou medianas (dependendo da sua decisão) com base no seu parâmetro identificado
def days(row):
    if pd.isna(row['days_employed']):
        if row['age'] == '19-29':
            return 2082.493898
        elif row['age'] == '30-39':
            return 4155.029251
        elif row['age'] == '40-49':
            return 13439.227108
        elif row['age'] == '50-59':
            return 132907.545543
        elif row['age'] == '60-69':
            return 283926.481689
        elif row['age'] == '70+':
            return 320819.151927
        else:
            return 0
    else:
        return row['days_employed']


In [None]:
# Verifique se a função funciona
income(df[df['days_employed'].isna()].iloc[2])


18962.318

In [None]:
# Aplicar função ao income_type

df['days_employed'] = df.apply(days, axis=1)

In [None]:
# Verifique se a função funcionou
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21453.0,21453.0,21453.0,21453.0,21453.0,21453.0,21453.0
mean,0.4735,67051.095695,43.469025,0.817089,0.973896,0.081154,26451.382421
std,0.751162,135306.954124,12.214162,0.548686,1.421601,0.273078,15710.314734
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762
25%,0.0,1023.701831,33.0,1.0,0.0,0.0,17219.352
50%,0.0,2477.279057,42.0,1.0,0.0,0.0,22815.1035
75%,1.0,7672.712487,53.0,1.0,1.0,0.0,31331.461
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


Coluna corrigida

In [None]:
# Verifique as entradas em todas as colunas - certifique-se de corrigir todos os valores ausentes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age               21453 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.1+ MB


Não existe dados faltantes no data frame

## Categorização de dados

Vou começar a categorizar os dados das colunas 'total_income', 'days_employed' e 'purpose' para podermos fazer as análises solicitadas no projeto.


In [None]:
# Categorizei os dados por intervalo de valores aproximados
pd.cut(df['total_income'],5).sort_values().unique()

[(2947.572, 75144.739], (75144.739, 146982.715], (146982.715, 218820.692], (218820.692, 290658.668], (290658.668, 362496.645]]
Categories (5, interval[float64]): [(2947.572, 75144.739] < (75144.739, 146982.715] < (146982.715, 218820.692] < (218820.692, 290658.668] < (290658.668, 362496.645]]

In [None]:
df['total_income'].quantile([0.25, 0.5, 0.75])

0.25    17219.3520
0.50    22815.1035
0.75    31331.4610
Name: total_income, dtype: float64

In [None]:
# Categorizei os dados por quantidade de clientes aproximados em cada categoria
pd.qcut(df['days_employed'],4).sort_values().unique()

[(24.141, 1023.702], (1023.702, 2477.279], (2477.279, 7672.712], (7672.712, 401755.4]]
Categories (4, interval[float64]): [(24.141, 1023.702] < (1023.702, 2477.279] < (2477.279, 7672.712] < (7672.712, 401755.4]]

In [None]:
df['purpose'].value_counts()

wedding ceremony                            791
having a wedding                            767
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
housing                                     646
purchase of the house                       646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
buy real estate                             621
purchase of my own house                    620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

In [None]:
# Função para categorizar coluna "purpose"
def cat_purpose(row):
    if 'wedding' in row['purpose']:
        return 'wedding'
    elif 'real estate' in row['purpose'] or 'hous' in row['purpose'] or 'proper' in row['purpose']:
        return 'real estate'
    elif 'car' in row['purpose']:
        return 'car'
    elif 'educa' in row['purpose'] or 'university' in row['purpose'] :
        return 'educat'
    else:
        return 'erro'


In [None]:
# Aplicando a função no data frame
df['cat_purpose'] = df.apply(cat_purpose, axis=1)


In [None]:
# Conferindo valores
df['cat_purpose'].value_counts()

real estate    10811
car             4306
educat          4013
wedding         2323
Name: cat_purpose, dtype: int64

In [None]:
# Função para categorizar coluna "total_income"
def cat_income(row):
    if row['total_income'] <= 75144.739:
        return 1
    elif row['total_income'] <= 146982.715:
        return 2
    elif row['total_income'] <= 218820.692:
        return 3
    elif row['total_income'] <= 290658.668:
        return 4
    elif row['total_income'] <= 362496.645:
        return 5
    else:
        return 0


In [None]:
# Função para categorizar coluna "total_income"
def cat_days(row):
    if row['days_employed'] <= 1023.702:
        return 1
    elif row['days_employed'] <= 2477.279:
        return 2
    elif row['days_employed'] <= 7672.712:
        return 3
    else:
        return 4


In [None]:
# Crie uma coluna com as categorias e conte os valores para elas
df['cat_income'] = df.apply(cat_income, axis=1)


In [None]:
df['cat_days'] = df.apply(cat_days, axis=1)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age               21453 non-null  object 
 13  cat_purpose       21453 non-null  object 
 14  cat_income        21453 non-null  int64  
 15  cat_days          21453 non-null  int64  
dtypes: float64(2), int64(7), object(7)
memor

In [None]:
# Examinar todos os dados numéricos em sua coluna selecionada para categorização
df['cat_income'].unique()

array([1, 2, 3, 4, 5])

In [None]:
df['cat_days'].unique()


array([4, 3, 1, 2])

In [None]:
# Obter estatísticas resumidas para a coluna
df['cat_income'].describe()

count    21453.000000
mean         1.015196
std          0.140430
min          1.000000
25%          1.000000
50%          1.000000
75%          1.000000
max          5.000000
Name: cat_income, dtype: float64

In [None]:
df['cat_days'].describe()

count    21453.000000
mean         2.500023
std          1.118123
min          1.000000
25%          1.000000
50%          3.000000
75%          4.000000
max          4.000000
Name: cat_days, dtype: float64

In [None]:
# Conte os valores de cada categoria para ver a distribuição
df['cat_income'].value_counts()

1    21166
2      258
3       21
4        6
5        2
Name: cat_income, dtype: int64

In [None]:
df['cat_days'].value_counts()

1    5364
4    5364
3    5363
2    5362
Name: cat_days, dtype: int64

## Verificar as Hipóteses


**Existe alguma relação entre ter filhos e pagar um empréstimo em dia?**

In [None]:
df.groupby('children')['debt'].mean()


children
0    0.075604
1    0.091658
2    0.094542
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64

**Conclusão**

Não existem relações óbvias entre ter filhos e pagar o empréstimo em dia, os valores estão na mesma faixa.


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [None]:

df.groupby('family_status')['debt'].mean()


family_status
civil partnership    0.093494
divorced             0.071130
married              0.075452
unmarried            0.097509
widow / widower      0.065693
Name: debt, dtype: float64

**Conclusão**

Não existem relações óbvias entre o status familiar e pagar o empréstimo em dia, os valores estão na mesma faixa.


**Existe uma relação entre o nível de renda e o pagamento de um empréstimo no prazo?**

In [None]:

df.groupby('cat_income')['debt'].mean()


cat_income
1    0.081499
2    0.054264
3    0.047619
4    0.000000
5    0.500000
Name: debt, dtype: float64

**Conclusão**

Em um intervalo equivalente de valores para determinar a faixa de renda, é possível perceber que 50% dos clinetes com a mais alta renda não pagam empréstimos em dia, 8% dos clientes da renda mais baixa não pagam os empréstimos em dia, esse são os dois maiores grupos de inadiplentes, vale lembrar que a faixa 5 de renda possui apenas 2 representantes. Após as duas faixas, vieram a faixa 2 com 5,4% e a faixa 3 com 4,7% com atrasos e a faixa 4 com nenhum atraso em pagamentos.

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [None]:

df.groupby('cat_purpose')['debt'].mean()


cat_purpose
car            0.093590
educat         0.092200
real estate    0.072334
wedding        0.080069
Name: debt, dtype: float64

**Conclusão**

Não existem relações óbvias entre o propósito e pagar o empréstimo em dia, os valores estão na mesma faixa.


# Conclusão Geral

O conjunto de dados foi apresnetado com erros. Nas colunas 'total_income' e 'days_employed' houveram dados faltantes que corrigimos ao longo do projeto. Além deles, existiram colunas duplicadas, e dados identicos que estavam apenas com caixa alta ou baixa, o que os classificam como dados diferentes, arrumamos ao longo pro projeto.

Para resolver os valores ausentes em "total_income" utilizei a mediana dos dados referentes ao tipo de fonte de renda que foi apresentado, pois considero que o valor da renda é mais perceptível dependendo do tipo de renda que se tem.

Para resolver os valores ausentes em "days_employed" utilizei a média dos dados referentes a classificação de idade que categorizei, pois considero que a idade é diretamente proporcional ao tempo de trabalho.

Sobre as perguntas realizadas no início do projeto:
* Não existem relações óbvias entre ter filhos e pagar o empréstimo em dia, os valores estão na mesma faixa.
* Não existem relações óbvias entre o status familiar e pagar o empréstimo em dia, os valores estão na mesma faixa.
* Em um intervalo equivalente de valores para determinar a faixa de renda, é possível perceber que 50% dos clinetes com a mais alta renda não pagam empréstimos em dia, 8% dos clientes da renda mais baixa não pagam os empréstimos em dia, esse são os dois maiores grupos de inadiplentes, vale lembrar que a faixa 5 de renda possui apenas 2 representantes. Após as duas faixas, vieram a faixa 2 com 5,4% e a faixa 3 com 4,7% com atrasos e a faixa 4 com nenhum atraso em pagamentos.
* Não existem relações óbvias entre o propósito e pagar o empréstimo em dia, os valores estão na mesma faixa.
