# Análise do risco de inadimplência dos mutuários

# Contents <a id='back'></a>

* [Introdução](#intro)
* [Etapa 1. Visão geral dos dados](#data_review)
    * [Primeiras conclusões](#data_review_conclusions)
* [Etapa 2. Pré-processamento de dados](#data_preprocessing)
    * [2.1 Duplicatas](#duplicates)
    * [2.2 Valores ausentes](#missing_values)
    * [2.3 Conclusões intermediárias](#data_preprocessing_conclusions_intermediary)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Transformações dos dados](#tranforamation_data)
    * [3.1 Transformações nas colunas](#transformation_columns)
    * [3.2 Valores ausentes na coluna Income](#missing_values_income)
    * [3.3 Valores ausentes na coluna Days Employed](#missing_values_days_employed)
* [Etapa 4. Categorização de dados](#categorization_data)
* [Etapa 5. Testando hipóteses ](#hypotheses) 
* [Conclusões](#end)

## Introdução <a id='intro'></a>

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre a inadimplência de um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma pontuação de crédito de um cliente em potencial. Uma pontuação de crédito é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

### Objetivo: 
Responda a estas perguntas:
Existe alguma relação entre ter filhos e pagar um empréstimo em dia?
Existe alguma relação entre o estado civil e o pagamento de um empréstimo no prazo estipulado?
Existe uma relação entre o nível de renda e o pagamento de um empréstimo no prazo?
Como as diferentes finalidades do empréstimo afetam o pagamento pontual do empréstimo?

### Etapas 
Os dados sobre o comportamento do usuário é armazenado no arquivo `Downloads/credit_scoring_eng.csv`. Não há informação sobre a qualidade dos dados, então, você precisará examiná-los antes de testar a hipótese. 

Primeiro, você avaliará a qualidade dos dados e ver se seus problemas são significativos. Depois, durante o pré-processamento de dados, você tentará dar conta dos problemas mais críticos problemas.
 
O seu projeto consistirá em quatro etapas:
 1. Visão geral dos dados
 2. Pré-processamento de dados
 3. Transformações dos dados
 4. Categorização de dados
 5. Testando hipóteses 
 
[Voltar ao Índice](#back)

## Etapa 1. Visão geral dos dados <a id='data_review'></a>

Abra os dados em Credit Scoring e explore-os.

In [1]:
# importando pandas
import pandas as pd

Lendo o arquivo `credit_scoring_eng.csv` da pasta `Downloads` e salvando na variável `df`:

In [2]:
# lendo o arquivo e armazenando em df
df = pd.read_csv('Downloads/credit_scoring_eng.csv')
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [3]:
# obtenha as 10 primeiras linhas da tabela df
df.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [None]:
# obtendo informações gerais sobre os dados em df
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


A tabela contém 12 colunas. Elas armazenam 3 tipos de dados diferentes: object, int64 e float.

- `children` - int64
- `days_employed` - float64
- `dob_years` - int64
- `education` - object
- `education_id` - int64
- `family_status` - object
- `family_status_id` - int64
- `gender` - object
- `income_type` - object
- `debt` - int64
- `total_income` - float64
- `purpose` - object

### Primeiras conclusões <a id='data_review_conclusions'></a> 
Como podemos observar não existe algum erro sobre o estilo da colunas.
A quantidade de valores das colunas é diferente. Isso significa que os dados contém valores ausentes.

[Voltar ao Índice](#back)

## Etapa 2. Pré-processar dados <a id='data_preprocessing'></a>

### Duplicatas <a id='duplicates'></a>
Encontre o número de duplicatas óbvias na tabela usando um comando:

In [5]:
# contando duplicatas claras
df.duplicated().sum()

54

In [6]:
# removendo duplicatas óbvias
df.drop_duplicates(inplace=True)

Certificando que você removeu as duplicatas óbvias:

In [7]:
# verificando duplicatas
df.duplicated().sum()

0

[Voltar ao Índice](#back)

### Valores ausentes <a id='missing_values'></a>
Há valores ausentes em duas colunas 'days_employed' e 'total_income', que afetam diretamente em nossa pesquisa. Vamos investigar mais anter de substituí-los por marcadores claros.

In [8]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes
df[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Os valores ausentes parecem simétricos, mas podemos ter a certeza quando compararmos a quantidade de linhas e valores nulos das duas colunas simultaneamente.

In [9]:
# Vamos filtrar dados e observar o número de linhas na tabela filtrada quando os valores são nulos.
df.isna().sum()

children               0
days_employed       2120
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2120
purpose                0
dtype: int64

### Conclusões intermediárias <a id='data_preprocessing_conclusions_intermediary'></a>


O número de linhas na tabela filtrada corresponde ao número de valores ausentes nas duas colunas, mas não podemos concluir que sejam as mesmas linhas que estejam nulas simultaneamente.


Iremos calcular a porcentagem desses valores faltantes em relação com o nosso conjunto de dados, para verificarmos se podemos preencher e se os dados ausentes podem ser devidos à característica específica do cliente.
contudo precisamos de mais verificações para nosso diagnóstico ser mais preciso.

[Voltar ao Índice](#back)

In [10]:
# Vamos calcular a porcentagem desses valores faltantes em relação com o nosso conjunto de dados
(df.isnull().sum() / df.shape[0]) * 100

children            0.000000
days_employed       9.873783
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        9.873783
purpose             0.000000
dtype: float64

In [11]:
# Verificar a distribuição
df_null = df[df['days_employed'].isnull() & df['total_income'].isnull()]
df_null

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


Vimos que nas mesma linhas encontra-se o valor ausente para 'days_employed' e 'total_income',

**Possíveis motivos para valores ausentes nos dados**

Já descosbrimos que são simétricos nas duas colunas.

Vamos começar a verificar se os valores ausentes são aleatórios.

In [12]:
# Verificar a distribuição em todo o conjunto de dados
df['income_type'].value_counts()


income_type
employee                       11091
business                        5080
retiree                         3837
civil servant                   1457
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: count, dtype: int64

In [13]:
# Verificar a distribuição em todo o conjunto de dados em porcetagem
df_null['income_type'].value_counts(normalize=True)

income_type
employee         0.508019
business         0.237264
retiree          0.185849
civil servant    0.068396
entrepreneur     0.000472
Name: proportion, dtype: float64

### Conclusões <a id='data_preprocessing_conclusions'></a>

Podemos concluir que os valores ausentes correspodem as em 10% do nosso arquivo de dados e que estão faltantes em duas colunas 'days_employed' e 'total_income', podemos afirmar que valores são simétricos em relação tanto para as colunas faltantes e para o arquivo em geral.

Isso pode ter sido ocasionado por algum erro na corversão de dados, sendo dessa forma podemos fazer filtragem e preencher os valores ausentes com base nas colunas com dados não ausentes . 

Primeiramente, sobre tudo temos que preparar o arquivo de dados e remover as duplicatas, registros diferentes, artefatos incorretos antes de substituir os valores ausentes.

[Voltar ao Índice](#back)

## Etapa 3. Transformação de dados <a id='tranforamation_data'></a>

Vamos examinar cada coluna para ver quais problemas podemos ter nelas.

### Tranformações nas colunas <a id='transformation_columns'></a>

Vamos verificar os dados na coluna education

In [14]:
# Vamos ver todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [15]:
# Corrija os registros
df['education'] = df['education'].str.lower()

In [16]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos
df['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

Vamos verificar os dados na coluna `children`

In [17]:
# Vamos ver a distribuição de valores na coluna `children`
df['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

Podemos notar que há valores desproporcionais e valores negativos, eles podem ter ocorrido por um erro de digitação.Vamos corrigi-los.

In [18]:
# [corrija os dados com base na sua decisão]
df['children'] = abs(df['children'])
df['children'] = df['children'].replace(20,2)

In [19]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido
df['children'].unique()


array([1, 0, 3, 2, 4, 5], dtype=int64)

Vamos verificar os dados na coluna days_employed.

In [20]:
# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem
df['days_employed'].describe()

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

14364 é o valor máximo que uma pessoa possa trabalhar, levando em consideraçao que a maior idade é 75, e começou a trabalhar a partir do 18 anos, logo multiplico pelo dias uteis no ano(252) que resulta em 14364.

In [21]:
max_days_emp = 14364
max_emp = df[df['days_employed']>max_days_emp].shape[0]
max_emp

3445

In [22]:
df.shape[0]

21471

In [23]:
(max_emp*100)/df.shape[0]

16.04489776908388

Pela analise percebemos que 16% do dados são problematicos, pelo motivo que alguns tem valores de dias trabalhados em negativos e outros excedem o limite maximo de dias trabalhados levando em consideração que o maximo de dias trabalhados 14364 dias e substituimos pela médias para não afetasse tanto na nossa filtragem de dados.

Iremos transformar todos números negativos da coluna 'days_employed'

In [24]:
# Aborde os valores problemáticos
df['days_employed'] = abs(df['days_employed'])


Substituimos os valores ausentes da coluna 'days_employed' pela média dos dias trabalhados mencionados acima.

In [25]:
df_emp_avg = df.dropna().reset_index()
df_emp_avg = df_emp_avg[df_emp_avg['days_employed'] < max_days_emp]['days_employed'].mean()
df_emp_avg

2334.852923616233

In [26]:
df['days_employed'] = df['days_employed'].mask(df['days_employed'] > max_days_emp,df_emp_avg )

In [27]:
# Verificando o resultado
df['days_employed'].describe()

count    19351.000000
mean      2334.852924
std       2041.385985
min         24.141633
25%        927.009265
50%       2194.220567
75%       2736.948773
max      14240.932400
Name: days_employed, dtype: float64

Vamos agora olhar para a idade do cliente

In [28]:
# Verificando o `dob_years` para valores suspeitos e contando a porcentagem
df['dob_years'].describe()

count    21471.000000
mean        43.279074
std         12.574291
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

In [29]:
(df['dob_years']==0).sum() / len(df)*100 

0.47040193749708914

4% das idades são de valores igual a 0, podemos substituir pela mediana das idades. Pois a mediana é uma medida de tendência central que é menos sensível a valores extremos ou outliers em comparação com a média. Portanto, ao lidar com valores faltantes em uma coluna de dados, substituí-los pela mediana pode ser uma abordagem mais robusta. 

In [30]:
# Resolvendo os problemas na coluna `dob_years`
df['dob_years'].sort_values().unique()

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75], dtype=int64)

In [31]:
education_age_mean = df.groupby('education')['dob_years'].mean()
education_age_mean

education
bachelor's degree      40.672824
graduate degree        51.166667
primary education      47.691489
secondary education    44.517250
some college           34.661290
Name: dob_years, dtype: float64

In [32]:
education_age_median = df.groupby('education')['dob_years'].median()
education_age_median

education
bachelor's degree      39.0
graduate degree        51.5
primary education      46.5
secondary education    44.0
some college           31.0
Name: dob_years, dtype: float64

In [33]:
def fill_age(row):
    if row['dob_years']==0:
        return education_age_median[row['education']]
    return row['dob_years']


In [34]:
df['dob_years'] = df.apply(fill_age, axis=1)

In [35]:
# Verifique o resultado - certifique-se de que está corrigido
df['dob_years'].sort_values().unique()

array([19., 20., 21., 22., 23., 24., 25., 26., 27., 28., 29., 30., 31.,
       32., 33., 34., 35., 36., 37., 38., 39., 40., 41., 42., 43., 44.,
       45., 46., 47., 48., 49., 50., 51., 52., 53., 54., 55., 56., 57.,
       58., 59., 60., 61., 62., 63., 64., 65., 66., 67., 68., 69., 70.,
       71., 72., 73., 74., 75.])

Corrigimos com a médiana com valores precisos.

Agora vamos verificar a coluna `family_status`.

In [36]:
# Vamos ver os valores da coluna
df['family_status'].value_counts()

family_status
married              12344
civil partnership     4163
unmarried             2810
divorced              1195
widow / widower        959
Name: count, dtype: int64

In [37]:
df['family_status'].sort_values().unique()

array(['civil partnership', 'divorced', 'married', 'unmarried',
       'widow / widower'], dtype=object)

In [38]:
# Vamos ver os valores na coluna
df['gender'].value_counts()

gender
F      14189
M       7281
XNA        1
Name: count, dtype: int64

In [39]:
# Verifique o resultado 
df['gender'].sort_values().unique()

array(['F', 'M', 'XNA'], dtype=object)

O genero 'XNA' refere-se a pessoas que não se enquadram no gênero feminino ou masculino, não havendo a nescessidade de renomear ou excluir. Está tudo certo com essa coluna.

Agora vamos verificar a coluna income_type. Veja que tipo de valores existem e quais problemas você pode precisar resolver.

In [40]:
# Vamos ver os valores na coluna
df['income_type'].value_counts()

income_type
employee                       11091
business                        5080
retiree                         3837
civil servant                   1457
unemployed                         2
entrepreneur                       2
student                            1
paternity / maternity leave        1
Name: count, dtype: int64

In [41]:
# Verificando valores únicos
df['income_type'].sort_values().unique()

array(['business', 'civil servant', 'employee', 'entrepreneur',
       'paternity / maternity leave', 'retiree', 'student', 'unemployed'],
      dtype=object)

Está tudo certo com essa coluna.

Com colunas sem valores inconsistentes podemos avançar em nossas analises, já que as mudanção não foram tão significativas, sendo assim não mudou muito, apenas os dados ficaram mais concisos e congruentes.

[Voltar ao Índice](#back)

### Restaurar valores ausentes em `total_income` <a id='missing_values_income'></a>

Primeiramente vamos categorizar as idades para manipulas melhor de forma concisa nosso arquivo de dados.Criando a coluna 'age_group',atribuindo a 1 para jovem adultos abaixo de 30 anos, 2 para pessoas de meia idade abaixo 45, 3 para pessoas que estão a um passo de ser idosos abaixo de 60 anos e 4 para os idosos.
As idades interferem incisivamente na renda total, pois, sendo mais experiente a renda costuma-se a ser maior. sendo assim encontramos um norte para preencher os valores ausentes da renda total na coluna 'total_income'

In [42]:
# Vamos escrever uma função que calcule a categoria de idade

def age_group(row):
    age = row['dob_years']
    if age < 30:
        return 1 # pessoas de idade menor que 30 anos ficam no grupo 1
    if age < 45:
        return 2 # pessoas de idade menor que 45 anos ficam no grupo 2
    if age < 60:
        return 3 # pessoas de idade menor que 60 anos ficam no grupo 3
    else:
        return 4 # E as demais ficam no grupo 4

In [43]:
# Testando se a função funciona
age_group(df.loc[1])

2

In [44]:
# Criar coluna nova com base na função
df['age_group'] = df.apply(age_group, axis=1)

In [45]:
# Verificar a nova coluna
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose', 'age_group'],
      dtype='object')

Existem dois fatores principais que implicam na renda total, nos quais são a idade e educação, devemos usar valores médios ou medianos para substituir esses valores ausentes.

Criaremos uma tabela que tenha apenas dados sem valores ausentes. Esses dados serão usados para restaurar os valores ausentes.

In [46]:
df_full = df.dropna().reset_index()
df_full.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19351 entries, 0 to 19350
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   index             19351 non-null  int64  
 1   children          19351 non-null  int64  
 2   days_employed     19351 non-null  float64
 3   dob_years         19351 non-null  float64
 4   education         19351 non-null  object 
 5   education_id      19351 non-null  int64  
 6   family_status     19351 non-null  object 
 7   family_status_id  19351 non-null  int64  
 8   gender            19351 non-null  object 
 9   income_type       19351 non-null  object 
 10  debt              19351 non-null  int64  
 11  total_income      19351 non-null  float64
 12  purpose           19351 non-null  object 
 13  age_group         19351 non-null  int64  
dtypes: float64(3), int64(6), object(5)
memory usage: 2.1+ MB


In [47]:
# Veja os valores médios de renda com base em seus fatores identificados
df_full_renda_mean = df_full.pivot_table(index=['age_group','education'], values='total_income', aggfunc='mean') 
df_full_renda_mean

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
age_group,education,Unnamed: 2_level_1
1,bachelor's degree,29395.106109
1,primary education,27695.27152
1,secondary education,23379.052855
1,some college,25292.291928
2,bachelor's degree,34672.764916
2,graduate degree,18187.3015
2,primary education,21447.958202
2,secondary education,25869.956458
2,some college,32663.133514
3,bachelor's degree,34272.548676


In [48]:
# Veja os valores medianos de renda com base em seus fatores identificados
df_full_renda_median = df_full.pivot_table(index=['age_group','education'], values='total_income', aggfunc='median') 
df_full_renda_median

Unnamed: 0_level_0,Unnamed: 1_level_0,total_income
age_group,education,Unnamed: 2_level_1
1,bachelor's degree,25956.164
1,primary education,25488.916
1,secondary education,21114.762
1,some college,22687.198
2,bachelor's degree,28995.394
2,graduate degree,18187.3015
2,primary education,19546.341
2,secondary education,22912.349
2,some college,28470.614
3,bachelor's degree,29369.69


Como podemos observar, existem valores que são muito altos, com isso fazem  fazem a média menos precisa do que a mediana,isso pode atrapalhar nossa analise.


In [49]:
# Função que usaremos para preencher os valores ausentes  
median_by_group = df.groupby(["age_group", "education"])["total_income"].agg("median").reset_index().rename(columns={"total_income": "income_mediana"})
median_by_group.head(5)

Unnamed: 0,age_group,education,income_mediana
0,1,bachelor's degree,25956.164
1,1,primary education,25488.916
2,1,secondary education,21114.762
3,1,some college,22687.198
4,2,bachelor's degree,28995.394


In [50]:
# Verificando se funciona
df = df.merge(median_by_group, on=["age_group", "education"], how="left")
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,income_mediana
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,2,28995.394
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,2,22912.349
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,2,22912.349
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,2,22912.349
4,0,2334.852924,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,3,21785.4435


In [51]:
# Aplique em todas as linhas
df.loc[df["total_income"].isna(), "total_income"] = df.loc[df["total_income"].isna(), "income_mediana"]
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,income_mediana
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,2,28995.394
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,2,22912.349
2,0,5623.42261,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,2,22912.349
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,2,22912.349
4,0,2334.852924,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,3,21785.4435


In [52]:
# excluindo a coluna 'income_mediana'
df = df.drop(columns=["income_mediana"])

In [53]:
# Verifique se temos algum erro
df["total_income"].isna().sum()

0

Vamos verificar se o número total de valores na coluna 'total_income' corresponde ao número de valores em outras

In [54]:
# Verificar o número de entradas nas colunas
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21471 non-null  float64
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
 12  age_group         21471 non-null  int64  
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


[Voltar ao Índice](#back)

### Restaurar valores ausentes em `days_employed` <a id='missing_values_days_employed'></a>

Os parâmentros que podem ajudar a restaurar os valores ausentes no dias trabalhados são 3: Idade, pois dependendo de quantos tem, existe uma limitação de dias trabalhados.Educação, pois dependendo da educação pode ser trabalhar menos em determinados casos.Tipo do emprego, da mesma forma que a educação.

In [55]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
by_group_median = df.groupby(["age_group","income_type"])["days_employed"].agg("median").reset_index().rename(columns={"days_employed": "days_employed_mediana"})
by_group_median

Unnamed: 0,age_group,income_type,days_employed_mediana
0,1,business,908.139502
1,1,civil servant,1362.645769
2,1,employee,1008.784193
3,1,entrepreneur,520.848083
4,1,retiree,2334.852924
5,1,student,578.751554
6,2,business,1588.581162
7,2,civil servant,2772.638532
8,2,employee,1612.484985
9,2,paternity / maternity leave,3296.759962


In [56]:
# Distribuição de `days_employed` médios com base em seus parâmetros identificados
by_group_mean = df.groupby(["age_group","income_type"])["days_employed"].agg("mean").reset_index().rename(columns={"days_employed": "days_employed_media"})
by_group_mean

Unnamed: 0,age_group,income_type,days_employed_media
0,1,business,1129.938925
1,1,civil servant,1595.684495
2,1,employee,1202.858627
3,1,entrepreneur,520.848083
4,1,retiree,2334.852924
5,1,student,578.751554
6,2,business,1986.23456
7,2,civil servant,3160.271436
8,2,employee,2189.34088
9,2,paternity / maternity leave,3296.759962


Usaremos novamente a mediana para obter mais valores precisos

In [66]:
# Vamos escrever uma função que calcule médias ou medianas (dependendo da sua decisão) com base no seu parâmetro identificado
df["days_employed"] = df["days_employed"].fillna(df.groupby(["age_group","income_type"])["days_employed"].transform('median'))

In [67]:
# Verificando se a função funciona
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     21470 non-null  float64
 2   dob_years         21471 non-null  float64
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
 12  age_group         21471 non-null  int64  
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


Houve uma coluna que ficou nula vamos verificar o que aconteceu.

In [71]:
df[df['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
5932,0,,58.0,bachelor's degree,0,married,0,M,entrepreneur,0,29369.69,buy residential real estate,3


Vamos preencher com a média do grupo de ano

In [72]:
df3 = df[df["age_group"]==3]
df3 = df3[df3["income_type"]=="entrepreneur"]

In [73]:
df.loc[5932,'days_employed'] = df["days_employed"].median()

In [74]:
# Verifique se a função funcionou
df["days_employed"].isna().sum()

0

Vamos verificar se o número total de valores nesta coluna corresponde ao número de valores em outras.

In [75]:
# Verifique as entradas em todas as colunas - certifique-se de corrigir todos os valores ausentes
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21471 entries, 0 to 21470
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21471 non-null  int64  
 1   days_employed     21471 non-null  float64
 2   dob_years         21471 non-null  float64
 3   education         21471 non-null  object 
 4   education_id      21471 non-null  int64  
 5   family_status     21471 non-null  object 
 6   family_status_id  21471 non-null  int64  
 7   gender            21471 non-null  object 
 8   income_type       21471 non-null  object 
 9   debt              21471 non-null  int64  
 10  total_income      21471 non-null  float64
 11  purpose           21471 non-null  object 
 12  age_group         21471 non-null  int64  
dtypes: float64(3), int64(5), object(5)
memory usage: 2.1+ MB


Concluindo assim os valores ausentes.

[Voltar ao Índice](#back)

## Etapa 4. Categorização de dados <a id='categorization_data'></a>
Vamos categorizar os dados para responder algumas questões mas primeiros vamos separar um DataFrame para pessoas que possuem divida e outro para as pessoas que não possuem divida.

In [77]:
# Exiba os valores dos dados selecionados para categorização
df['purpose'].value_counts(normalize=True)

purpose
wedding ceremony                            0.036934
having a wedding                            0.036002
to have a wedding                           0.035816
real estate transactions                    0.031438
buy commercial real estate                  0.030832
buying property for renting out             0.030367
housing transactions                        0.030367
transactions with commercial real estate    0.030273
purchase of the house                       0.030087
housing                                     0.030087
purchase of the house for my family         0.029714
construction of own property                0.029575
property                                    0.029482
transactions with my real estate            0.029202
building a real estate                      0.029109
buy real estate                             0.028923
purchase of my own house                    0.028876
building a property                         0.028830
housing renovation                    

In [78]:
def categorize_purpose(row):
    if 'car' in row['purpose']:
        return 'car'
    if 'hous' in row['purpose'] or 'prop' in row['purpose'] or 'real est' in row['purpose']:
        return 'real estate'
    if 'educat' in row['purpose'] or 'universi' in row['purpose']:
        return 'education'
    if 'weddin' in row['purpose']:
        return 'wedding'

In [79]:
categorize_purpose(df.loc[1])

'car'

In [80]:
df['purpose_group'] = df.apply(categorize_purpose, axis=1)

In [81]:
df['purpose_group'].value_counts(normalize=True)

purpose_group
real estate    0.503656
car            0.200643
education      0.186950
wedding        0.108751
Name: proportion, dtype: float64

Vemos que 50% de intençao de empréstimo esta relacionada a compra/manutenção/quitação de dividas relacionadas a casa.

Vamos criar uma categoria com base no nível de renda, classificados de 'A' como mais alto e 'E' o mais baixo.

In [82]:
# Criar função para categorização em diferentes grupos numéricos com base em intervalos
def preencher_income_level(row):
    if row['total_income'] < 20000:
        return 'E'
    elif row['total_income'] <30000:
        return 'D'
    elif row['total_income'] <40000:
        return 'C'
    elif row['total_income'] <50000:
        return 'B'
    else:
        return 'A'

In [83]:
# Criar coluna com categorias
df['income_level'] = df.apply(preencher_income_level, axis=1)

In [84]:
# Conte os valores de cada categoria para ver a distribuição
df['income_level'].value_counts()

income_level
D    7963
E    7589
C    3107
B    1492
A    1320
Name: count, dtype: int64

[Voltar ao Índice](#back)

## Verificar as Hipóteses <a id='hypotheses'></a>

### Existe uma correlação entre a quantidade de crianças e do pagamento em dia?

In [86]:
# Verifique os dados das crianças e do pagamento em dia

pivot_children = df.pivot_table(index='children',columns='debt',values='days_employed', aggfunc='count') 
# Calcular a taxa de inadimplência com base no número de filhos
pivot_children['taxa_de_inadimplencia'] = (pivot_children[1] / (pivot_children[1]+pivot_children[0])*100)

In [87]:
pivot_children.sort_values(by='taxa_de_inadimplencia', ascending=False)

debt,0,1,taxa_de_inadimplencia
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,37.0,4.0,9.756098
2,1926.0,202.0,9.492481
1,4411.0,445.0,9.163921
3,303.0,27.0,8.181818
0,13044.0,1063.0,7.535266
5,9.0,,


Concluimos que a maior taxa inadimplência é de 4 filhos é de quase 10%!!!

### Existe uma correlação entre o status familiar e o pagamento em dia?

In [89]:
# Verifique os dados de status da família e do pagamento em dia

pivot_family_status = df.pivot_table(index='family_status',columns='debt',values='days_employed', aggfunc='count') 
# Calcular a taxa padrão com base no status da família
pivot_family_status['taxa_de_inadimplencia'] = (pivot_family_status[1] / (pivot_family_status[1]+pivot_family_status[0])*100)

In [90]:
pivot_family_status.sort_values(by='taxa_de_inadimplencia', ascending=False)

debt,0,1,taxa_de_inadimplencia
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
unmarried,2536,274,9.75089
civil partnership,3775,388,9.320202
married,11413,931,7.542126
divorced,1110,85,7.112971
widow / widower,896,63,6.569343


A maior taxa de inadimplência são de pessoas solteiras quase 10%.

### Existe uma correlação entre o nivel de renda e o pagamento em dia?

In [94]:
# Verifique os dados do nível de renda e do pagamento em dia

pivot_income_level = df.pivot_table(index='income_level',columns='debt',values='days_employed', aggfunc='count') 
# Calcular a taxa de inadimplência com base no nível de renda
pivot_income_level['taxa_de_inadimplencia'] = (pivot_income_level[1] / (pivot_income_level[1]+pivot_income_level[0])*100)

In [95]:
pivot_income_level.sort_values(by='taxa_de_inadimplencia', ascending=False)

debt,0,1,taxa_de_inadimplencia
income_level,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,7280,683,8.577169
E,6967,622,8.196073
C,2865,242,7.788864
A,1228,92,6.969697
B,1390,102,6.836461


Pessoas no nivel de renda D, tem a maior taxa de inadimplência, em torno de 8,5%.

### Como a finalidade do crédito afeta a taxa de inadimplência?

In [97]:
pivot_purpose_group = df.pivot_table(index='purpose_group',columns='debt',values='days_employed', aggfunc='count') 
pivot_purpose_group['taxa_de_inadimplencia'] = (pivot_purpose_group[1] / (pivot_purpose_group[1]+pivot_purpose_group[0])*100)

In [98]:
pivot_purpose_group.sort_values(by='taxa_de_inadimplencia', ascending=False)

debt,0,1,taxa_de_inadimplencia
purpose_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
car,3905,403,9.354689
education,3644,370,9.217738
wedding,2149,186,7.965739
real estate,10032,782,7.231367


In [100]:
pivot_purpose = df.pivot_table(index='purpose',columns='debt',values='days_employed', aggfunc='count') 
pivot_purpose['taxa_de_inadimplencia'] = (pivot_purpose[1] / (pivot_purpose[1]+pivot_purpose[0])*100)

In [101]:
pivot_purpose.sort_values(by='taxa_de_inadimplencia', ascending=False)

debt,0,1,taxa_de_inadimplencia
purpose,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
to get a supplementary education,396,51,11.409396
purchase of a car,405,50,10.989011
getting higher education,380,46,10.798122
second-hand car purchase,435,51,10.493827
profile education,392,44,10.091743
to own a car,431,48,10.020877
to become educated,369,39,9.558824
to buy a car,428,44,9.322034
cars,434,44,9.205021
car purchase,419,42,9.110629


**Conclusão**
Sobre as inteções de empréstimo, usando um grupo de propósitos sobre o empréstimo, empréstimos relacionado para resolver assuntos sobre o carro fica em primeiro lugar com 9,5%, mas se fomos mais especificos por assunto, o propósito 'para obter uma educação complementar' é o campeão de inadimplência com 11,4%.

# Conclusão Geral <a id='end'></a>



Neste projeto realizamos o pré-processamento de dados,em cada coluna realizamos a padronização de estilos, modificamos valores incongruentes, substituimos valores ausentes com base em estudos sobre outras colunas com valores devidamente preenchidos, removemos as duplicatas de valores existente na base de dados, fizemos pesquisa de quais fatores são mais determinantes para os usuários inadimplêntes e concluímos que fatores como: a quantidade de filhos, estado civil do cliente , a finalidade de crédito e o nível de renda são valores que impactam significativamente a inadimplência do clientes.