# Análise do risco de inadimplência dos mutuários

Nesse projeto será analisado dados para identificar condições em comum de clientes inadimplentes, para que quando criado uma pontuação de credito essas condições sejam levados em consideração na hora de aprovar emprestimos. Para testar essa condições serão combinados dados para termos informações mais filtradas como exemplo finalidade do emprestimo, nível de educação, idade e outros.

## Carregando bibliotecas e os dados .

In [1]:
# Carregando todas as bibliotecas
import pandas as pd

# Carregue os dados
dados = pd.read_csv('credit_scoring_eng.csv')

## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo


In [2]:
# Vamos ver quantas linhas e colunas nosso conjunto de dados tem
dados.shape

(21525, 12)

In [3]:
# vamos exibir as primeiras N linhas
dados.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


A amostra possui muitas colunas, o que dificulta a visualização e comparação dos valores. É possivel ver que na coluna "education" existem valores iguais escritos de maneiras diferente e na coluna "days_employed" os valores estão negativos.  

In [4]:
# Obter informações sobre dados
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Existem valores ausentes nas colunas "total_income' e 'days_empoloyed'.

In [5]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes
dados['days_employed'].isna().sum()

2174

As colunas "days_employed" e "total_income" possuem a mesma quantidade de valores ausentes, aparentemente esses valores estão nas mesmas linhas mas ainda não é possivel ter certeza. 

In [6]:
# Vamos aplicar várias condições para filtrar dados e observar o número de linhas na tabela filtrada.
dados[(dados['days_employed'].isna()) & (dados['total_income'].isna())]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Conclusão intermediária**

As linhas filtradas retornaram o numero de valores ausentes nas colunas "days_employed" e "total_income", o numero retornado foi o mesmo de quando filtramos apenas uma coluna, isso nos mostra que os valores ausentes estão presentes nas duas colunas.
As Linhas ausentes representam aproximadamente 10% de todo o conjunto de dados, uma parcela pequena, mas é melhor ser mantida.
Agora vou tentar encontrar alguma relação dos dados ausentes com os valores das colunas .

In [7]:
# Vamos investigar clientes que não possuem dados sobre as características identificadas e a coluna com os valores ausentes
dados_filtrados = dados[(dados['days_employed'].isna()) & (dados['total_income'].isna())]

In [8]:
# Verificar a distribuição
dados_filtrados.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,2174.0,0.0,2174.0,2174.0,2174.0,2174.0,0.0
mean,0.552438,,43.632015,0.800828,0.975161,0.078197,
std,1.469356,,12.531481,0.530157,1.41822,0.268543,
min,-1.0,,0.0,0.0,0.0,0.0,
25%,0.0,,34.0,0.25,0.0,0.0,
50%,0.0,,43.0,1.0,0.0,0.0,
75%,1.0,,54.0,1.0,1.0,0.0,
max,20.0,,73.0,3.0,4.0,1.0,


In [9]:
dados_filtrados['education_id'].value_counts(normalize=True)*100

1    70.837167
0    25.022999
2     3.173873
3     0.965961
Name: education_id, dtype: float64

Aproximadamente 71% das linhas ausentes, foram de pessoas com a educação secundaria.

**Possíveis motivos para valores ausentes nos dados**

O erro pode ter sido causado pelos proprios clientes que não informaram esses dados ou pode ter ocorrido na hora de processar esses valores.
Acredito que tenha uma relação entre os valores ausentes e os clientes com a educação secundaria, pois o volume é mais ou menos de 71% dos dados filtrados.  


In [10]:
# Verificar a distribuição em todo o conjunto de dados
dados['education_id'].value_counts(normalize=True)*100

1    70.768873
0    24.436702
2     3.456446
3     1.310105
4     0.027875
Name: education_id, dtype: float64

In [11]:
dados.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


**Conclusão intermediária**

A distribuição de todo conjunto de dados não é muito diferente dos dados filtrados com valores ausentes. 


In [12]:
# Verifique outros motivos e padrões que possam levar a valores ausentes
dados_filtrados_s = dados[(dados['days_employed'].isna()==False) & (dados['total_income'].isna()==False)]

**Conclusão intermediária**

Já foi analisada a tabela filtrada com apenas os valores ausentes em comparação com o conjunto completo de dados. Agora será criado uma nova tabela sem os valores ausentes.

In [13]:
# Verificando outros padrões - explique quais
dados_filtrados_s['education_id'].value_counts(normalize=True)

1    0.707612
0    0.243708
2    0.034882
3    0.013488
4    0.000310
Name: education_id, dtype: float64

In [14]:
dados_filtrados_s.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0,19351.0
mean,0.537388,63046.497661,43.255336,0.819079,0.972249,0.081184,26787.568355
std,1.371408,140827.311974,12.57917,0.550104,1.420596,0.273125,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


In [15]:
dados['education']

0          bachelor's degree
1        secondary education
2        Secondary Education
3        secondary education
4        secondary education
                ...         
21520    secondary education
21521    secondary education
21522    secondary education
21523    secondary education
21524    secondary education
Name: education, Length: 21525, dtype: object

**Conclusões**

Não identifiquei nenhum padrão a não ser que todas as linhas filtradas possuem dois valores ausentes. A melhor opção é substituir esses dados ausentes pela mediana ou média.
Antes de substiuir os valores ausentes é preciso encontrar outros erros que podem atrapalhar a substituição.
Já foi possivel identificar a existência de dados duplicados, digitações diferentes para a mesma informação e numeros negativos. Vou analisar as colunas que possuem erros e corrigilos. 

## Transformação de dados




In [16]:
# Vamos ver todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
print(dados['education'].unique())

["bachelor's degree" 'secondary education' 'Secondary Education'
 'SECONDARY EDUCATION' "BACHELOR'S DEGREE" 'some college'
 'primary education' "Bachelor's Degree" 'SOME COLLEGE' 'Some College'
 'PRIMARY EDUCATION' 'Primary Education' 'Graduate Degree'
 'GRADUATE DEGREE' 'graduate degree']


In [17]:
# Corrija os registros, se necessário
dados['education'] = dados['education'].str.lower()

In [18]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos
dados['education'].unique()

array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

In [19]:
# Vamos ver a distribuição de valores na coluna `children`
print(dados['children'].value_counts(normalize=True)*100)

 0     65.732869
 1     22.383275
 2      9.547038
 3      1.533101
 20     0.353078
-1      0.218351
 4      0.190476
 5      0.041812
Name: children, dtype: float64


Na coluna "children" existe um valor negativo, como essa coluna se trata do numeros de filhos esse valor não deveria existir, pois é não é possivel ter um numero negativo de filhos. Nela também há um valor atípico de 20 filhos.
Os valores negativos representam 0,2% de todo conjunto de dados, e valores atípicos de 20 filhos representam aproximadamente 3%. São porcentagens bem baixas, esses valores podem ser substituidos pela mediana. 

In [20]:
# [corrija os dados com base na sua decisão]
mediana_de_children = int(dados['children'].median())

dados['children'] = dados['children'].replace(-1,mediana_de_children)
dados['children'] = dados['children'].replace(20,mediana_de_children)


In [21]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido
print(dados['children'].value_counts())

0    14272
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64


In [22]:
# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem
dados[dados['days_employed'] < 0].describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,15906.0,15906.0,15906.0,15906.0,15906.0,15906.0,15906.0
mean,0.552873,-2353.015932,39.818245,0.798378,0.969634,0.087326,27837.509634
std,0.788316,2304.243851,10.663171,0.554845,1.442263,0.28232,16980.846677
min,0.0,-18388.949901,0.0,0.0,0.0,0.0,3418.824
25%,0.0,-3157.480084,32.0,0.0,0.0,0.0,17323.415
50%,0.0,-1630.019381,39.0,1.0,0.0,0.0,24181.535
75%,1.0,-756.371964,48.0,1.0,1.0,0.0,33839.1065
max,5.0,-24.141633,75.0,4.0,4.0,1.0,362496.645


In [23]:
dados[dados['days_employed'] > 1000].describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,3445.0,3445.0,3445.0,3445.0,3445.0,3445.0,3445.0
mean,0.089695,365004.309916,59.124819,0.914659,0.984325,0.05283,21939.856893
std,0.324782,21075.016396,7.580584,0.517103,1.316071,0.223727,12838.753752
min,0.0,328728.720605,0.0,0.0,0.0,0.0,3306.762
25%,0.0,346639.413916,56.0,1.0,0.0,0.0,13260.214
50%,0.0,365213.306266,60.0,1.0,0.0,0.0,18962.318
75%,0.0,383246.444219,64.0,1.0,2.0,0.0,27159.402
max,4.0,401755.400475,74.0,4.0,4.0,1.0,117616.523


 A coluna "days_employed" possui aproximadamente 74% de seus dados com numero negativo, além de ser numeros muitos altos para serem dias. Provavelmente houve um erro na conversão desses dados e eles estão representando horas.

In [24]:
# Aborde os valores problemáticos, se existirem
dados['days_employed'] = abs(dados['days_employed']/24)

In [25]:
# Verifique o resultado - certifique-se de que está corrigido
dados.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,351.569709,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,167.700156,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,234.309275,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,171.864467,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,14177.753002,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [26]:
# Verifique o `dob_years` para valores suspeitos e conte a porcentagem
dados['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75], dtype=int64)


Vou substituir os valores pela mediana, pois essas linhas ainda possuem informações úteis.

In [27]:
# Resolva os problemas na coluna `dob_years`, se existirem
mediana_de_years = int(dados['dob_years'].median())

dados['dob_years'] = dados['dob_years'].replace(0,mediana_de_years)

In [28]:
# Verifique o resultado - certifique-se de que está corrigido
dados['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75], dtype=int64)

In [29]:
# Vamos ver os valores da coluna
dados['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [30]:
# Aborde os valores problemáticos em `family_status`, se eles existirem
dados['family_status'] = dados['family_status'].replace('widow / widower', 'dowager')
dados['family_status'] = dados['family_status'].replace('civil partnership', 'civil_partnership')

In [31]:
# Verifique o resultado - certifique-se de que está corrigido
dados['family_status'].unique()

array(['married', 'civil_partnership', 'dowager', 'divorced', 'unmarried'],
      dtype=object)

In [32]:
# Vamos ver os valores na coluna
dados['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [33]:
# Aborde os valores problemáticos, se existirem
dados['gender'] = dados['gender'].replace('XNA', 'F')

In [34]:
# Verifique o resultado - certifique-se de que está corrigido
dados['gender'].unique()

array(['F', 'M'], dtype=object)

In [35]:
# Vamos ver os valores na coluna
dados['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity / maternity leave'],
      dtype=object)

In [36]:
# Aborde os valores problemáticos, se existirem
dados['income_type'] = dados['income_type'].replace('paternity / maternity leave', 'paternity/maternity_leave')

In [37]:
# Verifique o resultado - certifique-se de que está corrigido
dados['income_type'].unique()

array(['employee', 'retiree', 'business', 'civil servant', 'unemployed',
       'entrepreneur', 'student', 'paternity/maternity_leave'],
      dtype=object)

In [38]:
# Verificar duplicatas
dados.duplicated().sum()


72

In [39]:
# Aborde as duplicatas, se existirem
dados = dados.drop_duplicates().reset_index(drop=True)

In [40]:
# Última verificação se temos duplicatas
dados.duplicated().sum()

0

In [41]:
#Verifique o tamanho do conjunto de dados que você tem agora após suas primeiras manipulações com ele
dados.shape

(21453, 12)

No novo conjunto de dados foi corrigido nomes iguais com digitação diferente, valores negativos e foi removido valores duplicados. 


# Trabalhando com valores ausentes

Irei trabalhar com os os valores "education", "family_status" e seus ID's .Um dicionario com esses valores facilita no entendimento de quais ID's perecem a cada tipo de classificação.


In [42]:
# Encontre os dicionários
dicionario_ed = dados[['education','education_id']]
dicionario_ed.drop_duplicates()


Unnamed: 0,education,education_id
0,bachelor's degree,0
1,secondary education,1
13,some college,2
31,primary education,3
2962,graduate degree,4


### Restaurar valores ausentes em `total_income`

As colunas "days_employed" e "total_income" possuem valores ausentes , para corrigilos irei comparar seus valores com os dados de outras colunas para chegar a algum padrão em comum .


In [43]:
# Vamos escrever uma função que calcule a categoria de idade
def age_group(age):
    

    if age <= 25:
        return 'jovem inicial'
    if age <= 35:
        return 'jovem plena'
    if age <= 40:
        return 'jovem final'
    if age <= 60:
        return 'meia idade'
    return 'terceira idade'

In [44]:
# Teste se a função funciona
age_group(35)

'jovem plena'

In [45]:
# Criar coluna nova com base na função
dados['age_group'] = dados['dob_years'].apply(age_group)


In [46]:
# Verificar como os valores na nova coluna
dados['age_group'].head(10)


0     meia idade
1    jovem final
2    jovem plena
3    jovem plena
4     meia idade
5    jovem plena
6     meia idade
7     meia idade
8    jovem plena
9     meia idade
Name: age_group, dtype: object

In [47]:
# Crie uma tabela sem valores ausentes e exiba algumas de suas linhas para garantir que ela fique boa
dados_s_ausente = dados[dados['total_income'].isna()==False]
dados_s_ausente['total_income'].head(10)

0    40620.102
1    17932.802
2    23341.752
3    42820.568
4    25378.572
5    40922.170
6    38484.156
7    21731.829
8    15337.093
9    23108.150
Name: total_income, dtype: float64

In [48]:
# Veja os valores médios de renda com base em seus fatores identificados
dados.pivot_table(index='income_type',
                 columns='gender',
                 values='total_income',
                 aggfunc='mean'
                 )


gender,F,M
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
business,29476.586824,37284.334474
civil servant,24908.84983,34036.170503
employee,23818.105441,28956.563225
entrepreneur,79866.103,
paternity/maternity_leave,8612.661,
retiree,21446.167378,24117.476626
student,,15712.26
unemployed,32435.602,9593.119


In [49]:
# Veja os valores medianos de renda com base em seus fatores identificados
pivot_total = dados.pivot_table(index=['income_type','gender'],
                 columns='education',
                 values='total_income',
                 aggfunc='median'
                 )
pivot_total

Unnamed: 0_level_0,education,bachelor's degree,graduate degree,primary education,secondary education,some college
income_type,gender,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
business,F,30382.954,,21441.921,23181.085,27318.123
business,M,37290.3815,,24016.154,29102.243,30606.709
civil servant,F,25254.63,17822.757,14339.034,20133.089,21855.861
civil servant,M,34353.063,,30554.666,27144.313,28371.3005
employee,F,24590.6965,,18962.675,19860.334,21588.03
employee,M,30759.568,31771.321,22662.074,25005.824,30252.147
entrepreneur,F,79866.103,,,,
paternity/maternity_leave,F,,,,8612.661,
retiree,F,22784.685,40868.031,16188.8905,18046.556,18654.876
retiree,M,25193.173,15800.399,18099.872,20175.551,19946.795


Irei substituir os valores pela mediana, pois existem valores atípicos nessa coluna.


In [50]:
#  Escreva uma função que usaremos para preencher os valores ausentes
def func_ausente_total(education,income_type,gender):
    try:
        return pivot_total[education][income_type][gender]
    except:
        return 'erro'


In [51]:
# Verifique se funciona
func_ausente_total('secondary education','business','M')

29102.243000000002

In [52]:
# Aplique em todas as linhas
dados['median_t_in'] = dados.apply(lambda row:func_ausente_total(row['education'],row['income_type'],row['gender']),axis=1)
dados['total_income'] = dados['total_income'].fillna(dados['median_t_in'])

In [53]:
# Verifique se temos algum erro
dados[dados['total_income']=='erro']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_t_in
5931,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,erro,buy residential real estate,meia idade,erro


In [54]:
median_bd =pivot_total["bachelor's degree"].median()
dados['total_income'] = dados['total_income'].replace('erro',median_bd)

In [55]:
# Verificar o número de entradas nas colunas
dados.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_group         21453 non-null  object 
 13  median_t_in       21453 non-null  object 
dtypes: float64(2), int64(5), object(7)
memory usage: 2.3+ MB


###  Restaurar valores em `days_employed`

Assim como na substituição de "total income" será analisado os dados de "days_employed" e comparado com outras colunas para decidir se irei utilizar a media ou mediana.

In [56]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
pivot_employed = dados.pivot_table(index=['income_type'],
                  columns='age_group',
                  values='days_employed',
                  aggfunc='median')
pivot_employed

age_group,jovem final,jovem inicial,jovem plena,meia idade,terceira idade
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,68.186753,31.215653,52.750408,81.391797,98.270213
civil servant,142.93371,47.197485,80.676361,149.936916,134.074198
employee,71.523553,33.301818,55.434962,84.402021,111.211415
entrepreneur,,,21.702003,,
paternity/maternity_leave,137.364998,,,,
retiree,15287.700443,13948.510826,15181.17489,15195.381856,15242.45274
student,,24.114648,,,
unemployed,,,14063.519451,16470.951611,


In [57]:
# Distribuição de `days_employed` médios com base em seus parâmetros identificados
dados.pivot_table(index='income_type',
     columns='age_group',
     values='days_employed',
     aggfunc='mean')

age_group,jovem final,jovem inicial,jovem plena,meia idade,terceira idade
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
business,85.250723,36.026458,65.822203,109.684561,153.824143
civil servant,147.303672,48.93662,88.465369,181.402168,177.175156
employee,94.478993,38.790919,69.640947,122.322528,162.086764
entrepreneur,,,21.702003,,
paternity/maternity_leave,137.364998,,,,
retiree,15303.789748,13948.510826,15158.844303,15195.198148,15224.511305
student,,24.114648,,,
unemployed,,,14063.519451,16470.951611,


Será utilizado a mediana pois, essa tabela também possui valores atípicos.

In [58]:
# Vamos escrever uma função que calcule médias ou medianas (dependendo da sua decisão) com base no seu parâmetro identificado
def func_ausente_employed(age_group,income_type):
    try:
        return pivot_employed[age_group][income_type]
    except:
        return 'erro'

In [59]:
# Verifique se a função funciona
func_ausente_employed('jovem final','business')

68.18675317413005

In [60]:
# Aplicar função ao days_employed
dados['days_emp_median'] = dados.apply(lambda row:func_ausente_employed(row['age_group'],row['income_type']),axis=1)
dados['days_employed'] = dados['days_employed'].fillna(dados['days_emp_median'])

In [61]:
# Verifique se a função funcionou
dados[dados['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group,median_t_in,days_emp_median
5931,0,,58,bachelor's degree,0,married,0,M,entrepreneur,0,30382.954,buy residential real estate,meia idade,erro,


In [62]:
median_days = pivot_employed['meia idade'].median()

In [63]:
# Substituir valores ausentes
dados['days_employed'] = dados['days_employed'].fillna(median_days)

Aqui os valores ausentes foram substituidos pela média da mediana na coluna "meia idade" que foi calculada na tabela pivot.

In [64]:
# Verifique as entradas em todas as colunas - certifique-se de corrigir todos os valores ausentes
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21453 entries, 0 to 21452
Data columns (total 15 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21453 non-null  int64  
 1   days_employed     21453 non-null  float64
 2   dob_years         21453 non-null  int64  
 3   education         21453 non-null  object 
 4   education_id      21453 non-null  int64  
 5   family_status     21453 non-null  object 
 6   family_status_id  21453 non-null  int64  
 7   gender            21453 non-null  object 
 8   income_type       21453 non-null  object 
 9   debt              21453 non-null  int64  
 10  total_income      21453 non-null  float64
 11  purpose           21453 non-null  object 
 12  age_group         21453 non-null  object 
 13  median_t_in       21453 non-null  object 
 14  days_emp_median   21452 non-null  float64
dtypes: float64(3), int64(5), object(7)
memory usage: 2.5+ MB


## Categorização de dados

A categorização irá reduzir dados para que a visualização e comparação dos valores fiquem melhores.  

In [65]:
# Exiba os valores dos dados selecionados para categorização
dados[['education','purpose',]].head()

Unnamed: 0,education,purpose
0,bachelor's degree,purchase of the house
1,secondary education,car purchase
2,secondary education,purchase of the house
3,secondary education,supplementary education
4,secondary education,to have a wedding


In [66]:
# Verifique os valores exclusivos
print(dados['education'].unique())
print()
print(dados['purpose'].unique())


["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']

['purchase of the house' 'car purchase' 'supplementary education'
 'to have a wedding' 'housing transactions' 'education' 'having a wedding'
 'purchase of the house for my family' 'buy real estate'
 'buy commercial real estate' 'buy residential real estate'
 'construction of own property' 'property' 'building a property'
 'buying a second-hand car' 'buying my own car'
 'transactions with commercial real estate' 'building a real estate'
 'housing' 'transactions with my real estate' 'cars' 'to become educated'
 'second-hand car purchase' 'getting an education' 'car'
 'wedding ceremony' 'to get a supplementary education'
 'purchase of my own house' 'real estate transactions'
 'getting higher education' 'to own a car' 'purchase of a car'
 'profile education' 'university education'
 'buying property for renting out' 'to buy a car' 'housing renovation'
 'going to university']


Observando os pedidos de emprestimos é possivel perceber que muitos dos propósitos são parecidos só que descritos de maneiras diferentes .Compra de imoveis, veliculos e educação, são os principais pedidos, úteis para a categorização.
Já em educação é possivel separar em 2 grupos, ensino superior e inferior.

In [67]:
# Vamos escrever uma função para categorizar os dados com base em tópicos comunss
def cate_edu(education):
    if education == "bachelor's degree" or education =='graduate degree' or education == 'some college':
        return 'ensino superior'
    return 'ensino inferior'

def cate_pur(purpose):
    if 'education' in purpose or 'university' in purpose :
        return 'educação'
    if 'educated' in purpose:
        return 'educação'
    if 'car' in purpose:
        return 'veículo'
    if 'property' in purpose or 'house' in purpose:
        return 'imovel'
    if  'housing' in purpose or 'real estate' in purpose:
        return 'imovel'
    if 'wedding' in purpose:
        return 'casamento'
    

In [68]:
# Crie uma coluna com as categorias e conte os valores para elas
dados['nivel_de_ensino'] = dados['education'].apply(cate_edu)
dados['finalidade_de_credito'] = dados['purpose'].apply(cate_pur)
dados['nivel_de_ensino'].value_counts()

ensino inferior    15453
ensino superior     6000
Name: nivel_de_ensino, dtype: int64

In [69]:
dados['finalidade_de_credito'].value_counts()

imovel       10811
veículo       4306
educação      4013
casamento     2323
Name: finalidade_de_credito, dtype: int64

In [70]:
# Examinar todos os dados numéricos em sua coluna selecionada para categorização
dados['total_income'].value_counts()

19860.3340    485
25005.8240    305
18046.5560    271
23181.0850    184
24590.6965    152
             ... 
27020.8950      1
23686.8350      1
9606.2940       1
28156.7620      1
13127.5870      1
Name: total_income, Length: 19362, dtype: int64

In [71]:
# Obter estatísticas resumidas para a coluna
dados['total_income'].describe()

count     21453.000000
mean      26475.773090
std       15744.751015
min        3306.762000
25%       17199.980000
50%       23181.085000
75%       31504.756000
max      362496.645000
Name: total_income, dtype: float64

Irei usar os intervalos de 25% , 50% e 75%. Assim a categorização vai ser dividida de forma proporcional.

In [72]:
# Criar função para categorização em diferentes grupos numéricos com base em intervalos
def cate_num(total_income):
    if total_income <= 17217:
        return 'baixo'
    if total_income <= 23245:
        return 'medio'
    if total_income <= 31740:
        return 'alto'
    if total_income <= 362496:
        return 'muito alto'

In [73]:
# Criar coluna com categorias
dados['nivel_de_renda'] = dados['total_income'].apply(cate_num)

In [74]:
# Conte os valores de cada categoria para ver a distribuição
dados['nivel_de_renda'].value_counts()

medio         5485
baixo         5370
alto          5350
muito alto    5247
Name: nivel_de_renda, dtype: int64

## Verificar as Hipóteses


**Existe alguma relação entre ter filhos e pagar um empréstimo em dia?**

In [75]:
# Verifique os dados do numero de filhos e do pagamento em dia
dados.groupby('children')['debt'].sum()

children
0    1072
1     444
2     194
3      27
4       4
5       0
Name: debt, dtype: int64

In [76]:
# Calcular a taxa padrão com base no numero de filho
dados.groupby('children')['debt'].mean()*100

children
0    7.542391
1    9.234609
2    9.454191
3    8.181818
4    9.756098
5    0.000000
Name: debt, dtype: float64

**Conclusão**

A diferença de taxa de quem tem filho pra quem não tem é grande, mostrando que existe relação entre ter filhos e pagar as dívidas em dia . 


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [77]:
# Verifique os dados de status da família e do pagamento em dia
print(dados.groupby('family_status')['debt'].sum())


family_status
civil_partnership    388
divorced              85
dowager               63
married              931
unmarried            274
Name: debt, dtype: int64


In [78]:
# Calcular a taxa padrão com base no status da família
dados.groupby('family_status')['debt'].mean()*100

family_status
civil_partnership    9.349398
divorced             7.112971
dowager              6.569343
married              7.545182
unmarried            9.750890
Name: debt, dtype: float64

**Conclusão**

A porcentagem de debitos para pessoas viuvas e divorciadas é menor do que dos casais com união civil e solteiros.Podemos concluir que o status de familia influencia no pagamento de dívidas. 

**Existe uma correlação entre o nível de renda e o pagamento em dia?**

In [79]:
# Verifique os dados do nível de renda e do pagamento em dia
dados.groupby('nivel_de_renda')['debt'].sum()


nivel_de_renda
alto          474
baixo         427
medio         472
muito alto    368
Name: debt, dtype: int64

In [80]:
# Calcular a taxa de inadimplência com base no nível de renda
dados.groupby('nivel_de_renda')['debt'].mean()*100

nivel_de_renda
alto          8.859813
baixo         7.951583
medio         8.605287
muito alto    7.013532
Name: debt, dtype: float64

**Conclusão**

As médias do nível de renda não são muito diferentes, a variação é baixa, podemos concluir nível de renda não tem relação com os pagamentos em dia.

**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [81]:
# Confira os percentuais de inadimplência para cada finalidade de crédito e analise-os
dados.groupby('finalidade_de_credito')['debt'].mean()*100


finalidade_de_credito
casamento    8.006888
educação     9.220035
imovel       7.233373
veículo      9.359034
Name: debt, dtype: float64

**Conclusão**

Os pedidos para imoveis foram os que tiverm a menor taxa de inadimplentes, enquanto educação e  compra de veiculo foram as taxas mais altas, mostrando que tem sim relação.

# Conclusão Geral 

Nesta análise foi percebido dados faltantes nas colunas "days_employed" e "total_income", que foram aparentemente produzidos por erro de processamento ou os clientes não os preencheram, os dados de "days_employed" foram substituidos pela mediana com base na relação no tipo de renda e grupo de idade. Já os dados de "total_income" foram preenchido com a mediana de educação com relação ao gênero e grupo de idade./
Para que os dados pudessem ser preenchidos, foi necessario se livrar de duplicatas em que existiam mais de uma linha repetida e duplicatas com caracteres diferentes com o mesmo valor.

Outros erros que tambem foram identificados foram:
1. Numeros negativos e atípicos na coluna "children" foi substutido pela mediana de filhos .
2. Numeros negativos na coluna "days_employed" que foram trasnformados em numeros absolutos e covertidos em dias.
- Numeros 0 em "dob_years" foi substituido pela mediana de idade.
- Em "gender" o valor "XNA" foi substituido pela moda. 

Depois de corrigir os erros do DataFrame foram criadas categorizações para auxiliar nas análises, nelas foram possiveis chegar as seguintes conclusões:
1. O numero de filhos tem influência no pagamentos de dívidas.
2. Comparando o estado civil de quem não paga suas divida em dia observamos que os viuvos possuem a porcentagem menor, as pessoas casadas ficam no meio termo e os solteiros junto as parcerias civis tem menos chances de pagar suas dividas, isso nos mostra que existe relação entre status familiar e pagamento de dívidas. 
3. O nível de renda não interfere no na taxa de inadimplecias segundos os dados.
4. Na finalidade de crédito a educação e compra de veículos, apresentaram as maiores porcentagem de inadimplentes, enquanto a compra de imoveis apresentou valores mais baixos.


<div class="alert alert-block alert-info">
    
<strong> FINAL DA REVISÃO V1 </strong>
<hr>
Lucas, chegamos ao final da primeira revisão.

Você fez um grande trabalho até agora. Parabéns! 

O seu projeto será aceito **após a correção dos pontos críticos** citados na revisão.

Você está no caminho certo. Siga firme nos seus estudos e continue dando seu melhor sempre!

Te vejo na próxima revisão,

Raquel
    
</div>

<div class="alert alert-block alert-info">
    
<strong> FINAL DA REVISÃO V1 </strong>
<hr>
Lucas, chegamos na segunda e última revisão.

Wooooow, que progresso, hein? Parabéns, seu projeto foi aprovado!

Espero que meus comentários tenham te ajudado de alguma forma!

Nos vemos em outro projeto,

Raquel
    
</div>

</div>