# Análise do risco de inadimplência dos mutuários

Esta tarefa visa realizar um relatório para a divisão de empréstimos de um banco.
No relatório consta em criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

## Importando bibliotecas e lendo arquivo  <a class="anchor" id="importlibrary"></a>

In [1]:
# Importando todas as bibliotecas
import pandas as pd
import numpy as np

# Lendo arquivo com os dados
df_emprestimos = pd.read_csv('credit_scoring_eng.csv')

## Explorando dos dados <a class="anchor" id="explorationdata"></a>

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo

In [2]:
# Imprimindo linhas e colunas do conjunto de dados
df_emprestimos.shape

(21525, 12)

In [3]:
# Exibindo as primeiras 10 linhas

df_emprestimos.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


A principio observo a variável categórica "education" com escrita inconsistente (letras maiúsculas e minúsculas). Talvez seja necessário criar categorias para coluna purpose para testar as variáveis.

In [4]:
# Informações sobre dados
df_emprestimos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


valores ausentes: days_employed, total_income

Ao que parece, as pessoas que não possuem informações na coluna "days_employed" também não possuem informações na coluna "total_income". O ideal seria reportar o problema e descobrir o motivo dos dados ausentes junto as demais pessoas envolvidas no projeto. No entanto, é possível ver relações entre as colunas, como por emxemplo 'days_employed' e 'income_type', 'dob_years', etc., e descobrir como preencher os dados faltantes.

## Lidando com valores ausentes <a class="anchor" id="missings"></a>

In [5]:
# Verificando valores ausentes
df_emprestimos.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [6]:
df_emprestimos.isna().mean()

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

In [7]:
#Filtrando primeira colunas com valores ausentes
df_emprestimos[df_emprestimos['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


## **Conclusão intermediária**
Ao filtrar o dataframe pelos dados ausentes da coluna 'days_employed', vemos que número de linhas na tabela filtrada corresponde ao número de valores ausentes, além disso é possível pensar em padrões que podem influenciar os dados faltantes.

A seguir irei investigar os padrões que podem influenciar o dados faltantes nas duas colunas 'days_employed' e 'total_income' e se há alguma dependencia entre elas.

In [8]:
# Ivestigando clientes que não possuem dados sobre as características identificadas e a coluna com os valores ausentes

df_emprestimos[df_emprestimos['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [9]:
# Verificando a distribuição desses dados
df_emprestimos[df_emprestimos['days_employed'].isna()].describe()


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,2174.0,0.0,2174.0,2174.0,2174.0,2174.0,0.0
mean,0.552438,,43.632015,0.800828,0.975161,0.078197,
std,1.469356,,12.531481,0.530157,1.41822,0.268543,
min,-1.0,,0.0,0.0,0.0,0.0,
25%,0.0,,34.0,0.25,0.0,0.0,
50%,0.0,,43.0,1.0,0.0,0.0,
75%,1.0,,54.0,1.0,1.0,0.0,
max,20.0,,73.0,3.0,4.0,1.0,


In [10]:
# Verificar a distribuição em todo o conjunto de dados
df_emprestimos.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


**Conclusão intermediária**

A distribuição no conjunto de dados original é semelhante à distribuição da tabela filtrada. Talvez o tipo de renda pode influenciar nos valores ausentes.


In [11]:
# Verifique outros motivos e padrões que possam levar a valores ausentes
df_emprestimos[df_emprestimos['days_employed'].isna()]['income_type'].value_counts()


employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

**Conclusões**

Os dados faltantes parecem ser frutos de algum erro de coleta/preenchimento dos dados, tratando-se de dados aleatórios. Por esse motivo irei preenche-los com média geral ou mediana, em casos de caso de valores extremos. 

## Transformação de dados

### Procurando por dados inconsistentes para corrigi-los

In [12]:
# Verificando os valores na coluna de educação 
df_emprestimos.groupby('education')['education_id'].value_counts()
df_emprestimos['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [13]:
# Passando todas as strings para letras minúsculas
df_emprestimos['education'] = df_emprestimos['education'].str.lower()

In [14]:
# Verificando se os dados foram corrigimos
df_emprestimos['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [15]:
# Vamos ver a distribuição de valores na coluna `children`
df_emprestimos['children']
df_emprestimos['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

Existem dois valores incorretos: -1 e 20

In [16]:
#observando percentuais em relação ao conjunto total de dados:

print(df_emprestimos[df_emprestimos['children'] == -1].count()/ df_emprestimos.shape[0]*100)
print(df_emprestimos[df_emprestimos['children'] == 20].count()/ df_emprestimos.shape[0]*100)

children            0.218351
days_employed       0.204413
dob_years           0.218351
education           0.218351
education_id        0.218351
family_status       0.218351
family_status_id    0.218351
gender              0.218351
income_type         0.218351
debt                0.218351
total_income        0.204413
purpose             0.218351
dtype: float64
children            0.353078
days_employed       0.311266
dob_years           0.353078
education           0.353078
education_id        0.353078
family_status       0.353078
family_status_id    0.353078
gender              0.353078
income_type         0.353078
debt                0.353078
total_income        0.311266
purpose             0.353078
dtype: float64


É possível substituir o valor -1 por 0, já o valor de 20 pode ser substituído pela mediana da quantidade de filhos, que é 0.

In [17]:
df_emprestimos['children'].replace({-1:0, 20:0}, inplace=True)

In [18]:
# Verificando novamente para ter certeza de que está tudo corrigido
df_emprestimos['children'].unique()

array([1, 0, 3, 2, 4, 5])

In [19]:
# Valores problemáticos em `days_employed`
print(df_emprestimos['days_employed'].dtype)
print(df_emprestimos['days_employed'])

float64
0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64


Há valores negativos, irei criar uma função que retornará uma lista com os valores todos positivos.

In [20]:
# Função receber a conluna days_employed convertida em lista e retorna os valores positivos
def valores_positivos(lista):
    for i in range(len(lista)):
        if lista[i] > 0:
            lista[i]
        else:
            lista[i]=  lista[i] * -1
    return lista

# Transformando a coluna em um array
/
lista_days_employed= df_emprestimos['days_employed'].tolist()

# Substituindo os valores da coluna:
df_emprestimos['days_employed'] = valores_positivos(lista_days_employed)
df_emprestimos['days_employed']


0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [21]:
#Verificando o resultado
df_emprestimos['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [22]:
# Verificando a coluna `dob_years` para encontrar valores suspeitos e porcentagem
print(df_emprestimos['dob_years'].describe())
print(df_emprestimos[df_emprestimos['dob_years'] == 0].count()/ df_emprestimos.shape[0]*100)

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64
children            0.469222
days_employed       0.422764
dob_years           0.469222
education           0.469222
education_id        0.469222
family_status       0.469222
family_status_id    0.469222
gender              0.469222
income_type         0.469222
debt                0.469222
total_income        0.422764
purpose             0.469222
dtype: float64


In [23]:
# Substituindo valor 0 em `dob_years` pela sua mediana
df_emprestimos['dob_years'].replace({0: df_emprestimos['dob_years'].median()}, inplace=True)


In [24]:
# Verificando o resultado 
print(df_emprestimos['dob_years'].describe())
print(df_emprestimos['dob_years'].min())

count    21525.000000
mean        43.490453
std         12.218595
min         19.000000
25%         34.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64
19


In [25]:
# Verificando os valores da coluna 'family_status'
print(df_emprestimos['family_status'].unique())
print(df_emprestimos.groupby('family_status')['family_status_id'].value_counts())

['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']
family_status      family_status_id
civil partnership  1                    4177
divorced           3                    1195
married            0                   12380
unmarried          4                    2813
widow / widower    2                     960
Name: family_status_id, dtype: int64


In [26]:
# Verificando os valores da coluna 'gender'
print(df_emprestimos['gender'].unique())
print(df_emprestimos['gender'].value_counts())
print(df_emprestimos[df_emprestimos['gender'] == 'XNA'])

['F' 'M' 'XNA']
F      14236
M       7288
XNA        1
Name: gender, dtype: int64
       children  days_employed  dob_years     education  education_id  \
10701         0    2358.600502         24  some college             2   

           family_status  family_status_id gender income_type  debt  \
10701  civil partnership                 1    XNA    business     0   

       total_income          purpose  
10701     32624.825  buy real estate  


In [27]:
# Removendo a categoria 'XNA' pois há apenas um registro.
df_emprestimos.drop(index=10701, inplace=True)

In [28]:
# verificando resultado

df_emprestimos['gender'].unique()

array(['F', 'M'], dtype=object)

In [29]:
# Verificando os valores da coluna 'income_type'
print(df_emprestimos['income_type'].unique())
print(df_emprestimos['income_type'].value_counts())

['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']
employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64


### Procurando por valores duplicados

In [30]:
# Verificando duplicatas

df_emprestimos.duplicated().value_counts()

False    21452
True        72
dtype: int64

In [31]:
# Excluindo duplicatas
df_emprestimos.drop_duplicates(inplace=True)

In [32]:
# Última verificação se há duplicatas
df_emprestimos.duplicated().value_counts()

False    21452
dtype: int64

In [33]:
#Verifique o tamanho do conjunto de dados que você tem agora após suas primeiras manipulações com ele
df_emprestimos.shape

(21452, 12)

Até aqui os dados foram corrigidos em relação a nomes inconsistentes, valores incorretos, duplicados e negativos. Agora é necessário tratar os valores ausentes para finalmente testar as hipóteses.


## Trabalhando com valores ausentes

As colunas 'days_employed' e 'total_income' têm valores ausentes que devem ser resolvidos. Agrupando essas colunas com outras que podem influenciar na vida real o valor da receita total e dos dias trabalhados.

### Restaurar valores ausentes em `total_income`

Para preencher os valores ausentes da coluna 'total_income' irei fazer tabelas dinâmicas para calcular média e mediana das outras variáveis que podem influenciar no valor da receita total.

In [34]:
# Irei criar uma função que retorna 3 categorias de idade = jovem, adulto e idoso.
def categoria_idade(row):
        if row <= 20:
            return 'jovem'
        elif row <=59:
            return 'adulto'
        else:
            return 'idoso'
    

In [35]:
# Testando a função 
try:
    df_emprestimos['dob_years'].apply(categoria_idade)
except Exception as e:
    print(e)

In [36]:
# Criando nova coluna para armazenar dados da função
df_emprestimos['categoria_idade'] = df_emprestimos['dob_years'].apply(categoria_idade)

In [37]:
# Verificando os valores na nova coluna
df_emprestimos['categoria_idade'].value_counts()

adulto    18887
idoso      2500
jovem        65
Name: categoria_idade, dtype: int64

Agora irei criar uma tabela sem os dados faltantes para calcular média e mediana.

In [38]:
# Tabela sem valores ausentes 
df_sem_ausentes = df_emprestimos[df_emprestimos.notna()]
df_sem_ausentes.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,categoria_idade
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,adulto
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,adulto
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,adulto
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,adulto
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,adulto


In [39]:
# Valores médios e medianos de renda com base no tipo de renda
df_sem_ausentes.pivot_table(index='income_type', values='total_income', aggfunc=['mean','median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,total_income,total_income
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
business,32386.741818,27571.0825
civil servant,27343.729582,24071.6695
employee,25820.841683,22815.1035
entrepreneur,79866.103,79866.103
paternity / maternity leave,8612.661,8612.661
retiree,21940.394503,18962.318
student,15712.26,15712.26
unemployed,21014.3605,21014.3605


In [40]:
# Valores médios e medianos de renda com base no status familiar
df_sem_ausentes.pivot_table(index='family_status', values='total_income', aggfunc=['mean','median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,total_income,total_income
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
civil partnership,26692.840381,23185.477
divorced,27189.35455,23515.096
married,27041.784689,23389.54
unmarried,26934.069805,23149.028
widow / widower,22984.208556,20514.19


In [41]:
# Valores médios e medianos de renda com base na idade
df_sem_ausentes.pivot_table(index='categoria_idade', values='total_income', aggfunc='median')

Unnamed: 0_level_0,total_income
categoria_idade,Unnamed: 1_level_1
adulto,23676.3915
idoso,19761.425
jovem,17257.277


In [42]:
# Valores médios e medianos de renda com base no nível de educação
df_sem_ausentes.pivot_table(index='education', values='total_income', aggfunc=['mean', 'median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,total_income,total_income
education,Unnamed: 1_level_2,Unnamed: 2_level_2
bachelor's degree,33142.802434,28054.531
graduate degree,27960.024667,25161.5835
primary education,21144.882211,18741.976
secondary education,24594.503037,21836.583
some college,29040.13299,25608.7945


In [43]:
# Valores médios e medianos de renda com base no nº de filhos
df_sem_ausentes.pivot_table(index='children', values='total_income', aggfunc=['mean', 'median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,total_income,total_income
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,26418.722452,23029.9535
1,27396.49405,23670.884
2,27496.357898,23143.77
3,29322.623993,25155.448
4,27289.829647,24981.634
5,27268.84725,29816.2255


Há diferenças entre médias e medianas para cada característica, no entando o valor aproximado de renda entre cada coluna não se distancia muito, exceto na colua tipo de renda, por esse motivo usarei sua mediana para preencher os valores ausentes da coluna 'total_income'


In [44]:
df_sem_ausentes['total_income'].median()

23201.8735

In [45]:
# Preenchendo os valores ausentes de total_income
df_emprestimos['total_income'].fillna(df_sem_ausentes['total_income'].median(), inplace=True)

In [46]:
# Verifique se funciona
df_emprestimos['total_income'].isna().sum()

0

In [47]:
# Verificar o número de entradas nas colunas

print(df_emprestimos.info())
print(df_emprestimos.shape)


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21452 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     19350 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      21452 non-null  float64
 11  purpose           21452 non-null  object 
 12  categoria_idade   21452 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB
None
(21452, 13)


### Restaurar valores em `days_employed`

Assim como a coluna 'total_income' utilizarei das tabelas dinâmicas para calcular a mediana das outras variáveis que podem influenciar no valor dos dias de trabalho: 'income_type', 'family_status', 'children', 'gender'.

In [48]:
# Distribuição de 'days_employed' médios e medianos com base em 'income_type'
df_sem_ausentes.pivot_table(index='income_type', values='days_employed', aggfunc=['mean', 'median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,days_employed,days_employed
income_type,Unnamed: 1_level_2,Unnamed: 2_level_2
business,2111.470404,1546.333214
civil servant,3399.896902,2689.368353
employee,2326.499216,1574.202821
entrepreneur,520.848083,520.848083
paternity / maternity leave,3296.759962,3296.759962
retiree,365003.491245,365213.306266
student,578.751554,578.751554
unemployed,366413.652744,366413.652744


In [49]:
# Distribuição de 'days_employed' médios e medianos com base em 'family_status'
df_sem_ausentes.pivot_table(index='family_status', values='days_employed', aggfunc=['mean', 'median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,days_employed,days_employed
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
civil partnership,58411.268077,1943.995523
divorced,68816.335483,2401.954568
married,63312.78289,2304.964439
unmarried,47072.691647,1462.009287
widow / widower,205636.887848,337017.713307


In [50]:
# Distribuição de 'days_employed' médios e medianos com base em 'children'
df_sem_ausentes.pivot_table(index='children', values='days_employed', aggfunc=['mean', 'median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,days_employed,days_employed
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,92134.886426,2618.854938
1,23093.921393,1664.504901
2,5494.398151,1680.557875
3,9338.376355,1765.066044
4,13863.043444,1905.879025
5,1432.348601,1231.571486


In [51]:
# Distribuição de 'days_employed' médios e medianos com base em 'gender'
df_sem_ausentes.pivot_table(index='gender', values='days_employed', aggfunc=['mean', 'median'])

Unnamed: 0_level_0,mean,median
Unnamed: 0_level_1,days_employed,days_employed
gender,Unnamed: 1_level_2,Unnamed: 2_level_2
F,82397.770891,2539.856894
M,37000.331325,1662.370103


Como observado acima, há muitos valores extremos, por esse motivo usarei a mediana para preencher os valores ausentes

In [52]:
df_emprestimos['days_employed'].fillna(df_sem_ausentes['days_employed'].median(), inplace=True)

In [53]:
# Verifique se a função funcionou
df_emprestimos['days_employed'].isna().sum()


0

In [54]:
# Verificando as entradas de todas as colunas do dataframe
print(df_emprestimos.info())
print(df_emprestimos.shape)

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21452 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21452 non-null  int64  
 1   days_employed     21452 non-null  float64
 2   dob_years         21452 non-null  int64  
 3   education         21452 non-null  object 
 4   education_id      21452 non-null  int64  
 5   family_status     21452 non-null  object 
 6   family_status_id  21452 non-null  int64  
 7   gender            21452 non-null  object 
 8   income_type       21452 non-null  object 
 9   debt              21452 non-null  int64  
 10  total_income      21452 non-null  float64
 11  purpose           21452 non-null  object 
 12  categoria_idade   21452 non-null  object 
dtypes: float64(2), int64(5), object(6)
memory usage: 2.3+ MB
None
(21452, 13)


## Categorização de dados

Utilizarei a categorização para melhor visualizar as respostas as hipóteses.

In [55]:
# Dados selecionados para categorização

df_emprestimos.loc[:, ['debt', 'children', 'family_status', 'total_income', 'purpose']]

Unnamed: 0,debt,children,family_status,total_income,purpose
0,0,1,married,40620.102,purchase of the house
1,0,1,married,17932.802,car purchase
2,0,0,married,23341.752,purchase of the house
3,0,3,married,42820.568,supplementary education
4,0,0,civil partnership,25378.572,to have a wedding
...,...,...,...,...,...
21520,0,1,civil partnership,35966.698,housing transactions
21521,0,0,married,24959.969,purchase of a car
21522,1,1,civil partnership,14347.610,property
21523,1,3,married,39054.888,buying my own car


[Vamos verificar valores exclusivos]

In [56]:
# Verificando os valores exclusivos
print(df_emprestimos.nunique())
print(df_emprestimos['purpose'].unique())



children                6
days_employed       19351
dob_years              57
education               5
education_id            5
family_status           5
family_status_id        5
gender                  2
income_type             8
debt                    2
total_income        19348
purpose                38
categoria_idade         3
dtype: int64
['purchase of the house' 'car purchase' 'supplementary education'
 'to have a wedding' 'housing transactions' 'education' 'having a wedding'
 'purchase of the house for my family' 'buy real estate'
 'buy commercial real estate' 'buy residential real estate'
 'construction of own property' 'property' 'building a property'
 'buying a second-hand car' 'buying my own car'
 'transactions with commercial real estate' 'building a real estate'
 'housing' 'transactions with my real estate' 'cars' 'to become educated'
 'second-hand car purchase' 'getting an education' 'car'
 'wedding ceremony' 'to get a supplementary education'
 'purchase of my own ho

Os valores unicos da coluna 'purpose' são muito grandes e repetitivos. Criarei uma função que irá gerar uma categorização.

In [57]:
# função para categorizar os dados com base em tópicos comuns receberá uma variável com a coluna na forma de dicionário
# O laço for irá percorrer o dicionário e procurar por palavras que irão compor uma categoria
# Ao encontrar essa palavra a categoria será armazenada em um novo dicionário, que será passado para uma nova coluna

def categoria_purpose(purpose_dict):
    new_categories = {}
    for key, categoria in purpose_dict.items() :
        if 'house' in categoria:
            new_categories[key] = 'house'
        elif 'housing' in categoria:
            new_categories[key] ='house'
        elif 'property' in categoria:
            new_categories[key] ='house'
        elif 'car' in categoria:
            new_categories[key] ='car'
        elif 'education' in categoria:
            new_categories[key] ='education'
        elif 'educated' in categoria:
            new_categories[key] ='education'
        elif 'university' in categoria:
            new_categories[key] ='education'
        elif 'wedding' in categoria:
            new_categories[key] ='wedding'
        elif 'real estate' in categoria:
             new_categories[key] ='real estate'
    print(f'new_categories: { new_categories}')
    return new_categories

purpose_dict= df_emprestimos['purpose'].to_dict()
categorias = categoria_purpose(purpose_dict)


new_categories: {0: 'house', 1: 'car', 2: 'house', 3: 'education', 4: 'wedding', 5: 'house', 6: 'house', 7: 'education', 8: 'wedding', 9: 'house', 10: 'real estate', 11: 'real estate', 12: 'wedding', 13: 'car', 14: 'real estate', 15: 'house', 16: 'house', 17: 'house', 18: 'car', 19: 'car', 20: 'house', 21: 'car', 22: 'car', 23: 'wedding', 24: 'real estate', 25: 'real estate', 26: 'education', 27: 'house', 28: 'house', 29: 'real estate', 30: 'real estate', 31: 'house', 32: 'wedding', 33: 'house', 34: 'real estate', 35: 'wedding', 36: 'car', 37: 'car', 38: 'education', 39: 'education', 40: 'real estate', 41: 'car', 42: 'education', 43: 'car', 44: 'car', 45: 'education', 46: 'car', 47: 'wedding', 48: 'house', 49: 'car', 50: 'car', 51: 'wedding', 52: 'education', 53: 'house', 54: 'car', 55: 'wedding', 56: 'education', 57: 'education', 58: 'house', 59: 'real estate', 60: 'education', 61: 'real estate', 62: 'education', 63: 'house', 64: 'car', 65: 'real estate', 66: 'education', 67: 'house',

In [58]:
#Salvando dicionário em nova coluna no dataframe:
df_emprestimos['category_purpose'] = pd.Series(data=categorias)
#Verificando
print(df_emprestimos.head(10))
print(df_emprestimos.tail(10))

   children  days_employed  dob_years            education  education_id  \
0         1    8437.673028         42    bachelor's degree             0   
1         1    4024.803754         36  secondary education             1   
2         0    5623.422610         33  secondary education             1   
3         3    4124.747207         32  secondary education             1   
4         0  340266.072047         53  secondary education             1   
5         0     926.185831         27    bachelor's degree             0   
6         0    2879.202052         43    bachelor's degree             0   
7         0     152.779569         50  secondary education             1   
8         2    6929.865299         35    bachelor's degree             0   
9         0    2188.756445         41  secondary education             1   

       family_status  family_status_id gender income_type  debt  total_income  \
0            married                 0      F    employee     0     40620.102   
1

Os dados numericos também precisam ser categorizados em faixas.

In [59]:
# Examinando todos os dados numéricos 
df_emprestimos.loc[:,['days_employed','children', 'dob_years', 'total_income']]

Unnamed: 0,days_employed,children,dob_years,total_income
0,8437.673028,1,42,40620.102
1,4024.803754,1,36,17932.802
2,5623.422610,0,33,23341.752
3,4124.747207,3,32,42820.568
4,340266.072047,0,53,25378.572
...,...,...,...,...
21520,4529.316663,1,43,35966.698
21521,343937.404131,0,67,24959.969
21522,2113.346888,1,38,14347.610
21523,3112.481705,3,38,39054.888


In [60]:
# Estatísticas resumidas para a coluna
df_emprestimos.loc[:,['days_employed', 'children', 'dob_years', 'total_income']].describe()

Unnamed: 0,days_employed,children,dob_years,total_income
count,21452.0,21452.0,21452.0,21452.0
mean,60576.021272,0.471331,43.469933,26435.947627
std,133440.806293,0.751093,12.213723,15684.040389
min,24.141633,0.0,19.0,3306.762
25%,1023.688788,0.0,33.0,17217.44175
50%,2194.218768,0.0,42.0,23201.8735
75%,4798.120915,1.0,53.0,31328.69375
max,401755.400475,5.0,75.0,362496.645


A renda será dividida em 3 grupos de acordo com os intervalos, Utilizei a função pd.qcut() para separar a variável em intervalos de tamanho igual com base em quantis de amostra.

In [61]:
pd.qcut(df_emprestimos['total_income'],3).unique()
def intervalos_total_income(row):
       if row <= 18582.733:
        return 'grupo1'
       elif row <= 28724.13:
        return 'grupo2'
       else:
        return 'grupo3'


O número de filhos em nenhum filho: 0, até 3: 1-3, e mais de 3 filhos: >3 

In [62]:
def intervalos_children(row):
    if row == 0:
        return '0'
    elif row >= 1 and row <= 3:
        return '1-3'
    else:
        return '> 3'


In [63]:
# Criar coluna com categorias
try:
    df_emprestimos['grupos_income'] = df_emprestimos['total_income'].apply(intervalos_total_income)
except Exception as e:
    print(e)


In [64]:
try:
    df_emprestimos['cat_children'] = df_emprestimos['children'].apply(intervalos_children)
except Exception as e:
    print(e)


In [65]:
# Conte os valores de cada categoria para ver a distribuição
print(df_emprestimos['grupos_income'].count())
print(df_emprestimos['cat_children'].count())

21452
21452


## Verificar as Hipóteses


**Existe uma correlação entre o número de filhos e o pagamento em dia?**

In [66]:
# Verificando os dados das crianças e do pagamento em dia
pd.crosstab(index=df_emprestimos['debt'], columns=df_emprestimos['cat_children'], margins=True)

cat_children,0,1-3,> 3,All
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,13140,6525,46,19711
1,1072,665,4,1741
All,14212,7190,50,21452


In [67]:
# Calcular a taxa de inadimplência com base no número de filhos
df_emprestimos[df_emprestimos.debt == 1].pivot_table(index='cat_children', values='debt',
                                 aggfunc=['sum']) / df_emprestimos['debt'].sum()* 100

Unnamed: 0_level_0,sum
Unnamed: 0_level_1,debt
cat_children,Unnamed: 1_level_2
0,61.573808
1-3,38.196439
> 3,0.229753


**Conclusão**

As pessoas que não tem filhos tem uma taxa de inadiplência maior.

**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [68]:
# Verificando os dados do nível de renda e do pagamento em dia
pd.crosstab(index=df_emprestimos['debt'], columns=df_emprestimos['grupos_income'], margins=True)

grupos_income,grupo1,grupo2,grupo3,All
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,5927,7816,5968,19711
1,524,735,482,1741
All,6451,8551,6450,21452


In [69]:
# Calcular a taxa de inadimplência com base no nível de renda
df_emprestimos[df_emprestimos.debt == 1].pivot_table(index='grupos_income', values='debt',
                                 aggfunc=['sum']) / df_emprestimos['debt'].sum()* 100

Unnamed: 0_level_0,sum
Unnamed: 0_level_1,debt
grupos_income,Unnamed: 1_level_2
grupo1,30.097645
grupo2,42.217117
grupo3,27.685238


**Conclusão**

As pessoas que ganham até cerca de 28724.13 (grupo2) tem uma taxa de inadiplencia maior em comparação aos outros grupos

**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [70]:
# Verifique os dados de status da família e do pagamento em dia
pd.crosstab(index=df_emprestimos['debt'], columns=df_emprestimos['family_status'], margins=True)

family_status,civil partnership,divorced,married,unmarried,widow / widower,All
debt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,3761,1110,11408,2536,896,19711
1,388,85,931,274,63,1741
All,4149,1195,12339,2810,959,21452


In [71]:
# Calcular a taxa padrão com base no status da família
df_emprestimos[df_emprestimos.debt == 1].pivot_table(index='family_status', values='debt',
                                 aggfunc=['sum']) / df_emprestimos['debt'].sum() * 100

Unnamed: 0_level_0,sum
Unnamed: 0_level_1,debt
family_status,Unnamed: 1_level_2
civil partnership,22.286043
divorced,4.882252
married,53.475014
unmarried,15.738082
widow / widower,3.61861


**Conclusão**

pessoas casadas tem taxa de inadiplência maior que as demais

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [72]:
# Confira os percentuais de inadimplência para cada finalidade de crédito e analise-os

df_emprestimos[df_emprestimos.debt == 1].pivot_table(index='category_purpose', values='debt',
                                 aggfunc=['sum']) / df_emprestimos['debt'].sum() * 100

Unnamed: 0_level_0,sum
Unnamed: 0_level_1,debt
category_purpose,Unnamed: 1_level_2
car,23.147616
education,21.252154
house,25.617461
real estate,19.299253
wedding,10.683515


**Conclusão**

A finalidade que envolvem casa tem nivel de inadiplência maior.


# Conclusão Geral 

**O dataframe apresentava dados inconsistentes e faltantes. Para responder as hipóteses foi necessário:**
* Corrigir a escrita da coluna 'education'
* Converter valores negativos na coluna 'days_employed' em seus valores absolutos.
* As colunas 'days_employed' e 'total_income' apresentavam valores ausentes que representavam cerca de 10% do total dos dados. Para solucionar decidi criar tabelas dinamicas com os dados filtrados sem valores ausentes e outras informações que podem ajudar a responder os valores faltantes: 'income_type', 'family_status', 'dob_year', 'education' e 'children'. Além desses todos, na coluna 'days_employed' utilizei a variável 'gender'. Após análise e pecerber que se tratavam de 'missing at random (MAR)', decidi preencher os valores ausentes com a mediana da coluna 'total_income' e 'days_employed'.
* Com os dados todos corrigidos segui para categorização de variáveis chaves para responder as hipóteses do projeto. Criei uma função para organizar melhor a coluna 'purpose', as colunas 'total_income' foi categorizada de acordo com o resultado da função pd.qcut() em grupo 1(até 18582.733), grupo 2(28724.13) e grupo 3.
 
**Conclusões**

De acordo com a análise realizada, o fato de realizar o pagamento em dia do empréstimo junto ao banco pode mudar de acordo com algumas características das pessoas envolvidas no estudo, onde a taxa de inadiplência parece ser maior naqueles que: não tem crianças, recebem até 28720,13 de renda e são casados. No entanto, é importante ressaltar que as conclusões aqui tomadas foram realizadas com base em estatistica descritiva simples.