# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

[Neste caderno, você recebe dicas e instruções breves e sugestões de raciocínio. Não os ignore, pois eles são projetados para te equipar com a estrutura do projeto e o ajudarão a analisar o que você está fazendo em um nível mais profundo. Antes de enviar seu projeto, certifique-se de remover todas as dicas e descrições fornecidas a você. Em vez disso, faça com que este relatório pareça que você está enviando para seus colegas de equipe para demonstrar suas descobertas - eles não devem saber que você teve qualquer ajuda externa nossa! Para ajudá-lo, colocamos as dicas que você deve remover entre colchetes.]

[Antes de mergulhar na análise de seus dados, explique os propósitos do projeto e as hipóteses que você testará.]

## Abra o arquivo de dados e veja as informações gerais.

[Comece importando as bibliotecas e carregando os dados. Você pode perceber que precisa de bibliotecas adicionais à medida que avança, o que é totalmente bom - apenas certifique-se de atualizar esta seção quando o fizer.]

In [1]:
# Carregando todas as bibliotecas
import pandas as pd
import numpy as np

# Carregue os dados
credit_scoring = pd.read_csv('/datasets/credit_scoring_eng.csv') 

## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo

[Agora vamos explorar nossos dados. Você vai querer ver quantas colunas e linhas ele tem, veja algumas linhas para verificar possíveis problemas com os dados.]

In [2]:
# Vamos ver quantas linhas e colunas nosso conjunto de dados tem
credit_scoring.shape


(21525, 12)

In [3]:
# vamos exibir as primeiras N linhas
credit_scoring.head(30)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


[Descreva o que você vê e observa em sua amostra de dados exibida. Há algum problema que possa precisar de mais investigação e alterações?] 

**Pude perceber que na coluna days_employed muitos dos valores estão negativos, o que não faz sentido. Além disso pude perceber a existência de valores nulos.**

In [4]:
# Obter informações sobre dados
credit_scoring.info()
credit_scoring.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


[Existem valores ausentes em todas as colunas ou apenas em algumas? Descreva brevemente o que você vê em 1-2 frases.] 

**Apenas em duas colunas. Na days_employed a total_income. Vale notar que o número de entradas não nulas é igual nas duas colunas. Analisando as primeiras linhas, sempre que aparece um valor ausente na coluna days_employed, também há ausência de valor em total_income. O que sinaliza uma relação entre as entradas ausentes na tabela.**     

In [5]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes

credit_scoring[credit_scoring['days_employed'].isna()]
                                                                                                                                

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


[Os valores ausentes parecem simétricos? Podemos ter certeza desta suposição? Explique brevemente seus pensamentos nesta seção. Você provavelmente pode querer realizar investigações adicionais e contar os valores ausentes em todas as linhas com valores ausentes para confirmar que as amostras ausentes são do mesmo tamanho.] 

**Como afirmei anteriormente, parece haver uma simetria entre os dados ausentes. Todos os dados ausentes estão nas colunas days_employed e total_income. Para confirmar essa suposição irei filtrar a tabela com os dados ausentes nas duas colunas e ver se o número de linhas equivale a quando filtrei só por uma coluna.** 

In [6]:
# Vamos aplicar várias condições para filtrar dados e observar o número de linhas na tabela filtrada.

credit_scoring.loc[(credit_scoring['days_employed'].isna()) & (credit_scoring['total_income'].isna())]



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


**Conclusão intermediária**

[O número de linhas na tabela filtrada corresponde ao número de valores ausentes? Que conclusão podemos tirar disso?] 

**O que suspeitava aconteceu. Após os dois filtros, podemos perceber que os valores ausentes estão presentes nas mesmas linhas das colunas onde existem valores ausentes.** 

[Calcule a porcentagem dos valores ausentes em comparação com todo o conjunto de dados. É um pedaço de dados consideravelmente grande? Nesse caso, você pode querer preencher os valores ausentes. Para fazer isso, primeiro devemos considerar se os dados ausentes podem ser devidos à característica específica do cliente, como tipo de emprego ou outra coisa. Você precisará decidir qual característica você acha que pode ser o motivo. Em segundo lugar, devemos verificar se há alguma dependência de valores ausentes em relação ao valor de outros indicadores com as colunas com características identificadas específicas do cliente.] 

**Cerca de 10,1% dos dados nas colunas days_employed e total_income são ausentes. Uma proporção bem relativa.** 

[Explique seus próximos passos e como eles se correlacionam com as conclusões que você fez até agora.]

In [7]:
# Vamos investigar clientes que não possuem dados sobre as características identificadas e a coluna com os valores ausentes
round((credit_scoring['days_employed'].isna().mean()*100),2)
tabela_ausentes = credit_scoring.loc[(credit_scoring['days_employed'].isna()) & (credit_scoring['total_income'].isna())]
tabela_ausentes['dob_years'].value_counts() 
credit_scoring['dob_years'].value_counts()
tabela_ausentes['education_id'].value_counts() 
credit_scoring['education_id'].value_counts()
tabela_ausentes['family_status_id'].value_counts() 
credit_scoring['family_status_id'].value_counts()
tabela_ausentes['gender'].value_counts() 
credit_scoring['gender'].value_counts()
tabela_ausentes['income_type'].value_counts() 
credit_scoring['income_type'].value_counts()
tabela_ausentes['debt'].value_counts() 
credit_scoring['debt'].value_counts()
tabela_ausentes['purpose'].value_counts()
credit_scoring['purpose'].value_counts()

wedding ceremony                            797
having a wedding                            777
to have a wedding                           774
real estate transactions                    676
buy commercial real estate                  664
buying property for renting out             653
housing transactions                        653
transactions with commercial real estate    651
purchase of the house                       647
housing                                     647
purchase of the house for my family         641
construction of own property                635
property                                    634
transactions with my real estate            630
building a real estate                      626
buy real estate                             624
building a property                         620
purchase of my own house                    620
housing renovation                          612
buy residential real estate                 607
buying my own car                       

In [8]:
# Verificar a distribuição
credit_scoring['days_employed'].quantile(np.linspace(0,1,11))

0.0    -18388.949901
0.1     -4779.926832
0.2     -3212.156113
0.3     -2357.029907
0.4     -1687.668878
0.5     -1203.369529
0.6      -819.649418
0.7      -452.643928
0.8      -150.955390
0.9    360310.974923
1.0    401755.400475
Name: days_employed, dtype: float64

[Descreva suas descobertas aqui.]

**Possíveis motivos para valores ausentes nos dados**

[Proponha suas ideias sobre por que você acha que os valores podem estar ausentes. Você acha que eles estão ausentes aleatoriamente ou há algum padrão?] 

**Pelo que vi nos dados, os dados ausentes não parecem estar correlacionados as outras colunas onde não há valores ausentes, pois não consegui perceber nenhum padrão.**

[Vamos começar a verificar se os valores ausentes são aleatórios.]

In [9]:
# Verificar a distribuição em todo o conjunto de dados



**Conclusão intermediária**

[A distribuição no conjunto de dados original é semelhante à distribuição da tabela filtrada? O que isso significa para nós?]

[Se você acha que ainda não podemos tirar conclusões, vamos investigar melhor nosso conjunto de dados. Vamos pensar em outros motivos que podem levar à ausência de dados e verificar se podemos encontrar algum padrão que possa nos levar a pensar que os valores ausentes não são aleatórios. Como este é o seu trabalho, esta seção é opcional.] 

**Não vi relação entre os daods ausentes e as outras colunas**

In [10]:
# Verifique outros motivos e padrões que possam levar a valores ausentes



**Conclusão intermediária**

[Podemos finalmente confirmar que os valores ausentes são acidentais? Verifique se há qualquer outra coisa que você acha que pode ser importante aqui.]

In [11]:
# Verificando outros padrões - explique quais

**Conclusões**

[Você encontrou algum padrão? Como você chegou a essa conclusão?] 

**Não chegeui a nenhum padrão.** 

[Explique como você abordará os valores ausentes. Considere as categorias em que os valores estão ausentes.]

[Planeje brevemente suas próximas etapas para transformar dados. Você provavelmente precisará abordar diferentes tipos de problemas: duplicatas, registros diferentes, artefatos incorretos e valores ausentes.]

## Transformação de dados

[Vamos examinar cada coluna para ver quais problemas podemos ter nelas.]

[Comece removendo duplicatas e corrigindo informações educacionais, se necessário.]

In [12]:
# Vamos ver todos os valores na coluna de educação para verificar se e quais grafias precisarão ser corrigidas
credit_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [13]:
# Corrija os registros, se necessário
credit_scoring['education'] = credit_scoring['education'].str.lower()


In [14]:
# Verificando todos os valores na coluna para ter certeza de que os corrigimos
credit_scoring['education'].value_counts()


secondary education    15233
bachelor's degree       5260
some college             744
primary education        282
graduate degree            6
Name: education, dtype: int64

[Verifique os dados na coluna `children`]

In [15]:
# Vamos ver a distribuição de valores na coluna `children`
credit_scoring['children'].unique()
credit_scoring[credit_scoring['children'] == -1]['children'].count()
credit_scoring[credit_scoring['children'] == 20]['children'].count()
porc_children = ((credit_scoring[credit_scoring['children'] == -1]['children'].count())+(credit_scoring[credit_scoring['children'] == 20]['children'].count()))/(credit_scoring['children'].count())*100
round(porc_children,2)

0.57

[Há alguma coisa estranha na coluna? Se sim, qual é a porcentagem de dados problemáticos? Como elas podem ter ocorrido? Tome uma decisão sobre o que você fará com esses dados e explique seu raciocínio.] 

**Existe o problema de encontrarmos 76 linhas com valor 20 e 47 linhas com valor -1. Esses valores não fazem sentido para o número de filhos de uma pessoa. Logo, parece se tratar de um erro de digitação. Esses dados representem 0,57% do total. Como considero um erro de digitação. Irei substituir -1 por 1 e 20 por 2.**

In [16]:
# [corrija os dados com base na sua decisão]
credit_scoring['children'] = credit_scoring['children'].replace(-1,1)
credit_scoring['children'] = credit_scoring['children'].replace(20,2)

In [17]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido

credit_scoring['children'].unique()

array([1, 0, 3, 2, 4, 5])

[Verifique os dados na coluna `days_employed`. Em primeiro lugar, pense sobre que tipo de problemas pode haver, o que você pode querer verificar e como você fará isso.]

In [18]:
# Encontre dados problemáticos em `days_employed`, se existirem, e calcule a porcentagem

credit_scoring[credit_scoring['days_employed'] <0]['days_employed'].count() + credit_scoring['days_employed'].isna().sum() + credit_scoring[credit_scoring['days_employed'] >30000]['days_employed'].count()
credit_scoring.loc[(credit_scoring['days_employed'] <0) & (credit_scoring['income_type'] == 'employee')]
credit_scoring['days_employed'].isna().sum()
credit_scoring[credit_scoring['days_employed'] <0].head(50)
credit_scoring[credit_scoring['days_employed'] <0].max()
credit_scoring.loc[(credit_scoring['days_employed'] <0) & (credit_scoring['dob_years'] > 50)]


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
13,0,-1846.641941,54,some college,2,married,0,F,employee,0,20873.317,car purchase
14,0,-1844.956182,56,bachelor's degree,0,civil partnership,1,F,business,1,26420.466,buy residential real estate
49,0,-1181.443228,54,secondary education,1,married,0,F,employee,0,7134.689,car
53,0,-4219.883386,61,secondary education,1,divorced,3,F,business,0,49832.576,purchase of my own house
59,0,-4341.786775,53,secondary education,1,civil partnership,1,F,business,0,41819.121,real estate transactions
...,...,...,...,...,...,...,...,...,...,...,...,...
21476,0,-2539.502794,52,bachelor's degree,0,married,0,M,business,0,84392.453,transactions with my real estate
21477,0,-1628.432350,54,secondary education,1,civil partnership,1,F,employee,0,11477.425,having a wedding
21492,0,-1618.645283,54,secondary education,1,married,0,M,business,0,47237.474,buy residential real estate
21499,0,-9929.015065,57,secondary education,1,civil partnership,1,M,business,0,25208.505,wedding ceremony


[Se a quantidade de dados problemáticos for alta, pode ser devido a alguns problemas técnicos. Provavelmente, podemos querer propor a razão mais óbvia pela qual isso poderia ter acontecido e quais poderiam ter sido os dados corretos, pois não podemos descartar essas linhas problemáticas.] 

**Na minha análise todos os valores da coluna estão com problemas. Primeiro os valores não são inteiros. Teoricamente os dias seriam contados inteiros. Além disso, todos os valores ou estão negativos, ou ausentes ou são muito grandes (não faz sentido alguem ter mais de 30mil dias de experiencia de trabalho).**

In [19]:
# Aborde os valores problemáticos, se existirem

def days_employed_fix(days):
    if days < 0:
        return (days*(-1))
    elif days > 10000:
        return (days/(9))
    else:
        return days
 


In [20]:
# Verifique o resultado - certifique-se de que está corrigido
credit_scoring['days_employed'] = credit_scoring['days_employed'].apply(days_employed_fix)
credit_scoring['days_employed'].min()
credit_scoring['days_employed'].max()

44639.488941703334

[Vamos agora olhar para a idade do cliente e se há algum problema aí. Novamente, pense em quais dados podem ser estranhos nesta coluna, ou seja, quais não podem ser a idade de alguém.] 

**Não podemos ter idade Zero !**

In [21]:
# Verifique o `dob_years` para valores suspeitos e conte a porcentagem
credit_scoring['dob_years'].unique()
credit_scoring[credit_scoring['dob_years'] == 0]['dob_years'].count()/21525*100
credit_scoring['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

[Decida o que você fará com os valores problemáticos e explique por quê.] 

Usarei o valor da mediana das idades tirando o zero para substituir o valor errado

In [22]:
# Resolva os problemas na coluna `dob_years`, se existirem
credit_scoring[credit_scoring['dob_years'] != 0]['dob_years'].median()
credit_scoring['dob_years'] = credit_scoring['dob_years'].replace(0,43).astype('int')



In [23]:
# Verifique o resultado - certifique-se de que está corrigido
credit_scoring['dob_years'].unique()

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51, 59, 29, 60, 55, 58, 71, 22, 73, 66,
       69, 19, 72, 70, 74, 75])

[Agora vamos verificar a coluna `family_status`. Veja que tipo de valores existem e quais problemas você pode precisar resolver.]

In [24]:
# Vamos ver os valores da coluna

credit_scoring['family_status'].value_counts()


married              12380
civil partnership     4177
unmarried             2813
divorced              1195
widow / widower        960
Name: family_status, dtype: int64

In [25]:
# Aborde os valores problemáticos em `family_status`, se eles existirem

credit_scoring.loc[(credit_scoring['days_employed'].isna()) & (credit_scoring['total_income'].isna())]['family_status'].value_counts()

married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64

In [26]:
# Verifique o resultado - certifique-se de que está corrigido


[Agora vamos verificar a coluna `gender`. Veja que tipo de valores existem e quais problemas você pode precisar resolver] 

**Encontramos um valor XNA. Não sei se trata-se de alguém que não se identica com genero male/female ou se apenas esqueceu de preenceher essa informação. Como ocorre apenas uma vez, resolvi excluir essa linha, pois não impactará no estudo.**  


In [27]:
# Vamos ver os valores na coluna
credit_scoring['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [28]:
# Aborde os valores problemáticos, se existirem

credit_scoring = credit_scoring.drop(credit_scoring[credit_scoring['gender'] == 'XNA'].index)

In [29]:
# Verifique o resultado - certifique-se de que está corrigido
credit_scoring['gender'].value_counts()


F    14236
M     7288
Name: gender, dtype: int64

[Agora vamos verificar a coluna `income_type`. Veja que tipo de valores existem e quais problemas você pode precisar resolver]

In [30]:
# Vamos ver os valores na coluna
credit_scoring['income_type'].value_counts()

employee                       11119
business                        5084
retiree                         3856
civil servant                   1459
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [31]:
# Aborde os valores problemáticos, se existirem
credit_scoring.loc[(credit_scoring['days_employed'].isna()) & (credit_scoring['total_income'].isna())]['income_type'].value_counts()

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [32]:
# Verifique o resultado - certifique-se de que está corrigido





[Agora vamos ver se temos duplicatas em nossos dados. Se o fizermos, você precisará decidir o que fará com eles e explicar o porquê.]

In [33]:
# Verificar duplicatas
credit_scoring.duplicated().sum()


71

In [34]:
# Aborde as duplicatas, se existirem
credit_scoring = credit_scoring.drop_duplicates().reset_index(drop=True) 

In [35]:
# Última verificação se temos duplicatas
credit_scoring

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,37807.341339,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21449,0,38215.267126,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [36]:
#Verifique o tamanho do conjunto de dados que você tem agora após suas primeiras manipulações com ele
credit_scoring.shape

(21453, 12)

[Descreva seu novo conjunto de dados: diga brevemente o que mudou e qual é a porcentagem das alterações, se houver.]


# Trabalhando com valores ausentes

[Para acelerar o trabalho com alguns dados, você pode querer trabalhar com dicionários para alguns valores, onde os IDs são fornecidos. Explique por quê e com quais dicionários você trabalhará.] 

**não sei se é assim que deveria responder essa**

In [37]:
# Encontre os dicionários

dic_education = {"secondary education":1 , "bachelor's degree": 0 , "some college": 2 , "primary education":3 , "graduate degree": 4 }     


dic_family = {'married' : 0 , 'civil partnership' : 1 , 'unmarried' : 4 , 'divorced' : 3  , 'widow / widower' : 2   }            
   
            
 
       


### Restaurar valores ausentes em `total_income`

[Informe brevemente quais colunas têm valores ausentes que você precisa resolver. Explique como você irá corrigi-los.]

**As colunas total_income e days_employed possuem valores ausentes. Irei tentar relacionar a coluna total_income com alguma outra. Assim poderei criar categorias e substituir pelas medias ou medianas dessas categorias. A coluna days_employed resolvi excluir, porque além dos dados ausentes, ela possui dados negativos e os que não os são, são muito altos. Para mim os dados dessa coluna não fazem sentido. Logo, decidi exclui-los da análise.**

[Comece abordando os valores ausentes da receita total. Criar e categoria de idade para os clientes. Crie uma nova coluna com a categoria de idade. Essa estratégia pode ajudar no cálculo de valores para a renda total..]


In [38]:
# Vamos escrever uma função que calcule a categoria de idade

credit_scoring['dob_years'].value_counts()
def assign_age_group(age):
    if age < 0 or pd.isna(age):
        return 'NA'
    elif age < 10:
        return '0-9'
    elif 10 <= age <=19:
        return '10-19'
    elif 20 <= age <=29:
        return '20-29'
    elif 30 <= age <=39:
        return '30-39'
    elif 40 <= age <=49:
        return '40-49'
    elif 50 <= age <=59:
        return '50-59'
    elif 60 <= age <=69:
        return '60-69'
    else:
        return '70+'

In [39]:
# Teste se a função funciona
assign_age_group(55)

'50-59'

In [40]:
# Criar coluna nova com base na função

credit_scoring['age_group'] = credit_scoring['dob_years'].apply(assign_age_group)

In [41]:
# Verificar como os valores na nova coluna
credit_scoring


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,37807.341339,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21448,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,40-49
21449,0,38215.267126,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,60-69
21450,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,30-39
21451,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,30-39


[Pense nos fatores dos quais a renda geralmente depende. Eventualmente, você desejará descobrir se deve usar valores médios ou medianos para substituir valores ausentes. Para tomar essa decisão, você provavelmente vai querer olhar para a distribuição dos fatores que você identificou como tendo impacto na renda de alguém.] 

**Dentre as variáveis disponiveis, a idade, o grau de escolaridade e o tipo de emprego podem impactar na renda de alguém**

[Crie uma tabela que tenha apenas dados sem valores ausentes. Esses dados serão usados para restaurar os valores ausentes.]

In [42]:
# Crie uma tabela sem valores ausentes e exiba algumas de suas linhas para garantir que ela fique boa
filter_null = credit_scoring.loc[(credit_scoring['days_employed'].isna()) & (credit_scoring['total_income'].isna())]
filter_nonull = credit_scoring.loc[~(credit_scoring['days_employed'].isna()) & ~(credit_scoring['total_income'].isna())]
filter_nonull.head(25)


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,age_group
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,40-49
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase,30-39
2,0,5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,30-39
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,30-39
4,0,37807.341339,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,50-59
5,0,926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house,20-29
6,0,2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions,40-49
7,0,152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education,50-59
8,2,6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding,30-39
9,0,2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family,40-49


In [43]:
# Veja os valores médios de renda com base em seus fatores identificados
filter_nonull.groupby('age_group')['total_income'].mean()

filter_nonull['total_income'].median()
filter_null['age_group'].value_counts()

30-39    553
40-49    530
50-59    479
20-29    295
60-69    236
70+        9
10-19      1
Name: age_group, dtype: int64

In [44]:
# Veja os valores medianos de renda com base em seus fatores identificados
filter_nonull.groupby('age_group')['total_income'].median()



age_group
10-19    14934.9010
20-29    22798.6650
30-39    24667.5280
40-49    24755.6960
50-59    22203.0745
60-69    19817.4400
70+      18751.3240
Name: total_income, dtype: float64

[Repita essas comparações para vários fatores. Certifique-se de considerar diferentes aspectos e explicar seu processo de pensamento.]



In [45]:
# Veja os valores médios de renda com base em seus fatores identificados
filter_nonull.groupby('education')['total_income'].mean()
filter_null['education'].value_counts()

secondary education    1479
bachelor's degree       534
some college             69
primary education        21
Name: education, dtype: int64

In [46]:
# Veja os valores medianos de renda com base em seus fatores identificados
filter_nonull.groupby('education')['total_income'].median()


education
bachelor's degree      28054.5310
graduate degree        25161.5835
primary education      18741.9760
secondary education    21836.5830
some college           25608.7945
Name: total_income, dtype: float64

In [47]:
# Veja os valores médios de renda com base em seus fatores identificados
filter_nonull.groupby('income_type')['total_income'].mean()
filter_null['income_type'].value_counts()

employee         1070
business          501
retiree           386
civil servant     145
entrepreneur        1
Name: income_type, dtype: int64

In [48]:
# Veja os valores medianos de renda com base em seus fatores identificados

filter_nonull.groupby('income_type')['total_income'].median()


income_type
business                       27571.0825
civil servant                  24071.6695
employee                       22815.1035
entrepreneur                   79866.1030
paternity / maternity leave     8612.6610
retiree                        18962.3180
student                        15712.2600
unemployed                     21014.3605
Name: total_income, dtype: float64

[Tome uma decisão sobre quais características definem mais a renda e se você usará uma mediana ou uma média. Explique por que você tomou essa decisão] 

**Após analisar as opções, irei escolher a idade como a característica que mais define a renda, pois os dados nulos estão mais bem distribuídos e sem tanta variabilidade. Acho que escolhendo a idade não irei distorcer tanto a análise. Vou escolher e mediana, pois a média parece estar puxando os valores para cima, provavelmente isso acontece por alguns outliers na amostra.** 


In [49]:
#  Escreva uma função que usaremos para preencher os valores ausentes

def preencher_total_income(row): 
    total_income = row['total_income']
    age_group = row['age_group']

    if pd.isna(total_income):
        if age_group == '10-19':
          return (filter_nonull.groupby('age_group')['total_income'].median()[0])
        elif age_group == '20-29':
          return (filter_nonull.groupby('age_group')['total_income'].median()[1])
        elif age_group == '30-39':
          return (filter_nonull.groupby('age_group')['total_income'].median()[2])
        elif age_group == '40-49':
          return (filter_nonull.groupby('age_group')['total_income'].median()[3])
        elif age_group == '50-59':
          return (filter_nonull.groupby('age_group')['total_income'].median()[4])
        elif age_group == '60-69':
          return (filter_nonull.groupby('age_group')['total_income'].median()[5])
        else:
          return (filter_nonull.groupby('age_group')['total_income'].median()[6])
    return total_income        
        

In [50]:
# Verifique se funciona
row_values = [22, '40-49'] 
row_columns = ['total_income', 'age_group']
row = pd.Series(data = row_values, index = row_columns)
preencher_total_income(row)

22

In [51]:
# Aplique em todas as linhas
credit_scoring['total_income'] = credit_scoring.apply(preencher_total_income, axis=1)

In [52]:
# Verifique se temos algum erro
credit_scoring.loc[:50,['dob_years','total_income','age_group']]


Unnamed: 0,dob_years,total_income,age_group
0,42,40620.102,40-49
1,36,17932.802,30-39
2,33,23341.752,30-39
3,32,42820.568,30-39
4,53,25378.572,50-59
5,27,40922.17,20-29
6,43,38484.156,40-49
7,50,21731.829,50-59
8,35,15337.093,30-39
9,41,23108.15,40-49


[Se você encontrou erros ao preparar os valores para dados ausentes, provavelmente significa que há algo especial nos dados da categoria. Pense um pouco - você pode querer corrigir algumas coisas manualmente, se houver dados suficientes para encontrar medianos/médios.]


In [53]:
# Substituir valores ausentes se houver algum erro
credit_scoring['total_income'].isna().sum()

0

[Quando você achar que terminou com `total_income`, verifique se o número total de valores nesta coluna corresponde ao número de valores em outras.]

In [54]:
# Verificar o número de entradas nas colunas



###  Restaurar valores em `days_employed`

[Pense nos parâmetros que podem ajudá-lo a restaurar os valores ausentes nesta coluna. Eventualmente, você desejará descobrir se deve usar valores médios ou medianos para substituir valores ausentes. Você provavelmente fará uma pesquisa semelhante à que fez ao restaurar dados em uma coluna anterior.]

In [55]:
# Distribuição de `days_employed` medianos com base em seus parâmetros identificados
filter_nonull.groupby('age_group')['days_employed'].median()



age_group
10-19      724.492610
20-29     1004.573780
30-39     1601.784231
40-49     2108.529344
50-59     4796.767897
60-69    39437.291010
70+      40148.554828
Name: days_employed, dtype: float64

In [56]:
# Distribuição de `days_employed` médios com base em seus parâmetros identificados
filter_nonull.groupby('age_group')['days_employed'].mean()

age_group
10-19      633.678086
20-29     1306.939746
30-39     2252.347595
40-49     3844.136597
50-59    16626.082844
60-69    32314.611443
70+      36116.217872
Name: days_employed, dtype: float64

[Decida o que você usará: médias ou medianas. Explique por quê.] 

**Sinceramente os dados dessa coluna não fazem sentido para mim. Apenas a média de 40-49 faz algum sentido. As outras ou são negativas ou muito grandes. Acho que o ideal é excluir essa coluna mesmo.**

In [57]:
# Vamos escrever uma função que calcule médias ou medianas (dependendo da sua decisão) com base no seu parâmetro identificado
def preencher_days_employed(row): 
    days_employed = row['days_employed']
    age_group = row['age_group']

    if pd.isna(days_employed):
        if age_group == '10-19':
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[0])
        elif age_group == '20-29':
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[1])
        elif age_group == '30-39':
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[2])
        elif age_group == '40-49':
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[3])
        elif age_group == '50-59':
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[4])
        elif age_group == '60-69':
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[5])
        else:
          return (filter_nonull.groupby('age_group')['days_employed'].mean()[6])
    return days_employed   

In [58]:
# Verifique se a função funciona
credit_scoring['days_employed'] = credit_scoring.apply(preencher_days_employed, axis=1)


In [59]:
# Aplicar função ao income_type
credit_scoring['days_employed'].isna().sum()


0

In [60]:
# Verifique se a função funcionou
credit_scoring['days_employed']= credit_scoring['days_employed'].astype('int')


In [61]:
# Substituir valores ausentes


[Quando você achar que terminou com `total_income`, verifique se o número total de valores nesta coluna corresponde ao número de valores em outras.]

In [62]:
# Verifique as entradas em todas as colunas - certifique-se de corrigir todos os valores ausentes

credit_scoring['days_employed'].max()

44639

## Categorização de dados

[Para responder às perguntas e testar as hipóteses, você vai querer trabalhar com dados categorizados. Veja as perguntas que lhe foram colocadas e que você deve responder. Pense em quais dados precisarão ser categorizados para responder a essas perguntas. Abaixo, você encontrará um modelo por meio do qual poderá trabalhar à sua maneira ao categorizar os dados. O primeiro processamento passo a passo abrange os dados de texto; o segundo aborda os dados numéricos que precisam ser categorizados. Você pode usar ambas ou nenhuma das instruções sugeridas - você decide.]

[Independente de como você decidir abordar a categorização, certifique-se de fornecer uma explicação clara do por quê você tomou sua decisão. Lembre-se: este é o seu trabalho e você toma todas as decisões nele.]


In [63]:
# Exiba os valores dos dados selecionados para categorização
credit_scoring['purpose'].value_counts()


wedding ceremony                            791
having a wedding                            768
to have a wedding                           765
real estate transactions                    675
buy commercial real estate                  661
housing transactions                        652
buying property for renting out             651
transactions with commercial real estate    650
purchase of the house                       646
housing                                     646
purchase of the house for my family         638
construction of own property                635
property                                    633
transactions with my real estate            627
building a real estate                      624
purchase of my own house                    620
buy real estate                             620
building a property                         619
housing renovation                          607
buy residential real estate                 606
buying my own car                       

[Vamos verificar valores exclusivos]

In [64]:
# Verifique os valores exclusivos

[Quais grupos principais você pode identificar com base nos valores exclusivos?]

[Com base nesses temas, provavelmente desejaremos categorizar nossos dados.]


In [65]:
# Vamos escrever uma função para categorizar os dados com base em tópicos comunss

def purpose_group_func(purpose):
    if 'wedding' in purpose:
        return 'wedding'
    elif 'real estate' in purpose:
        return 'real estate'
    elif 'housing' in purpose:
        return 'real estate'
    elif 'house' in purpose:
        return 'real estate'
    elif 'property' in purpose:
        return 'real estate'
    elif 'car' in purpose:
        return 'car'
    else:
        return 'education'


credit_scoring['purpose_group'] = credit_scoring['purpose'].apply(purpose_group_func)




In [66]:
# Crie uma coluna com as categorias e conte os valores para elas

credit_scoring['purpose_group'].value_counts()

real estate    10810
car             4306
education       4013
wedding         2324
Name: purpose_group, dtype: int64

[Se você decidir categorizar os dados numéricos, também precisará criar as categorias para isso.] 

**Vou categorizar o total_income**

In [67]:
# Examinar todos os dados numéricos em sua coluna selecionada para categorização
credit_scoring['total_income'].min()
credit_scoring['total_income'].max()
credit_scoring['total_income'].median()
credit_scoring['total_income'].mean()

26444.635425698038

In [68]:
# Obter estatísticas resumidas para a coluna
credit_scoring['total_income'].quantile(np.linspace(0,1,6))


0.0      3306.7620
0.2     15765.1912
0.4     21324.1778
0.6     25027.6506
0.8     34337.1868
1.0    362496.6450
Name: total_income, dtype: float64

[Decida quais intervalos você usará para agrupar e explique por quê.] 

**Irei categorizar os dados em quintis, pois acredito uma boa métrica para divisão de rendimentos em classes.**

In [69]:
# Criar função para categorização em diferentes grupos numéricos com base em intervalos

def total_income_func(income):
    if income <= 15765.1912:
        return 'class E'
    elif 15765.1912 < income <= 21324.1778:
        return 'class D'
    elif 21324.1778 < income <= 25027.6506:
        return 'class C'
    elif 25027.6506 < income <= 34337.1868:
        return 'class B'    
    return 'class A'





In [70]:
# Criar coluna com categorias
credit_scoring['total_income_group'] = credit_scoring['total_income'].apply(total_income_func)

In [71]:
# Conte os valores de cada categoria para ver a distribuição
credit_scoring['total_income_group'].value_counts()

class A    4291
class E    4291
class C    4291
class D    4290
class B    4290
Name: total_income_group, dtype: int64

## Verificar as Hipóteses


**Existe uma correlação entre o nível de renda e do pagamento em dia?**

In [72]:
# Verifique os dados das crianças e do pagamento em dia

credit_scoring.groupby('children')['debt'].sum()
# Calcular a taxa de inadimplência com base no número de filhos

round(((credit_scoring.groupby('children')['debt'].sum() / credit_scoring.groupby('children')['debt'].count())*100),2)

children
0    7.54
1    9.17
2    9.49
3    8.18
4    9.76
5    0.00
Name: debt, dtype: float64

**Conclusão**

[Escreva suas conclusões com base em suas manipulações e observações.]

**Não parece haver uma correlação linear entre as variáveis. Entretanto, podemos concluir que as famílias sem filhos possuem uma taxa de inadimplência menor em relação as que possuem filhos.** 


**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [73]:
# Verifique os dados de status da família e do pagamento em dia

credit_scoring.groupby('family_status')['debt'].sum()

# Calcular a taxa padrão com base no status da família

round(((credit_scoring.groupby('family_status')['debt'].sum() / credit_scoring.groupby('family_status')['debt'].count())*100),2)

family_status
civil partnership    9.35
divorced             7.11
married              7.55
unmarried            9.75
widow / widower      6.57
Name: debt, dtype: float64

**Conclusão**

[Escreva suas conclusões com base em suas manipulações e observações.] 

**Os clientes que são casados ou já foram casados (divorciados e viúvos) tendem a pagar mais suas contas em dia.** 

**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [74]:
# Verifique os dados do nível de renda e do pagamento em dia

credit_scoring.groupby('total_income_group')['debt'].sum()

# Calcular a taxa de inadimplência com base no nível de renda

round(((credit_scoring.groupby('total_income_group')['debt'].sum() / credit_scoring.groupby('total_income_group')['debt'].count())*100),2)

total_income_group
class A    6.99
class B    8.62
class C    8.88
class D    8.07
class E    8.02
Name: debt, dtype: float64

**Conclusão**

[Escreva suas conclusões com base em suas manipulações e observações.] 

**Como era previsível o nível mais alto de renda tem uma taxa de inadimplência menor. Vale destacar que os níveis médios possuem uma inadimplência até maior que a dos níveis de renda mais baixos.**


**Como a finalidade do crédito afeta a taxa de inadimplência?**

In [75]:
# Confira os percentuais de inadimplência para cada finalidade de crédito e analise-os

round(((credit_scoring.groupby('purpose_group')['debt'].sum() / credit_scoring.groupby('purpose_group')['debt'].count())*100),2)

purpose_group
car            9.36
education      9.22
real estate    7.23
wedding        8.00
Name: debt, dtype: float64

**Conclusão**

[Escreva suas conclusões com base em suas manipulações e observações.]

**As finalidades de crédito parecem explicar os níveis de inadimplência. Os créditos educacionais e para financiamento de automóveis tendem a ter uma inadimplência maior em relação ao crédito imobiliário e os empréstimos feitos para casamentos.**  


# Conclusão Geral 

[Liste suas conclusões nesta seção final. Certifique-se de incluir todas as suas conclusões importantes que o levaram à maneira como você processou e analisou os dados. Cubra os valores ausentes, duplicatas e possíveis razões e soluções para artefatos problemáticos que você teve que resolver.]

[Liste suas conclusões sobre as perguntas feitas aqui também.]

**Antes de começar a analisar os dados da tabela, primeiramente tentei entender onde estavam os problemas dela. Busquei por valores ausentes e percebi que duas colunas tinham os mesmos números de entradas faltando.  Entretanto, não consegui relacionar esses dados faltantes com as outras colunas onde não havia valores ausentes. Após a identificação dos dados ausentes comecei a transformação de dados nas outras colunas. Algumas delas estavam com pequenas distorções que foram resolvidas. Depois disso, identifiquei e exclui linhas duplicadas. Voltando a trabalhar com os valores ausentes, resolvi substituir os dados nulos da coluna total_income pela mediana da categoria criada por idade. Aprofundando a análise da coluna days_employed, cheguei à conclusão de que os valores que não eram nulos não faziam muito sentido, pois eram negativos (não faz sentido dias de trabalho negativos) ou eram extremamente altos (como alguém trabalha mais de 300 mil dias). Como não cheguei a uma conclusão sobre como tratar esses problemas, resolvi não usar essa coluna na análise dos dados. Na última etapa do estudo criei algumas categorias para facilitar as análises. Categorizei as colunas purpose e total_income. Por fim, verifiquei algumas hipóteses propostas pelo projeto, chegando as seguintes conclusões:**

**1)Não parece haver uma correlação linear entre o nível de renda e o pagamento em dia. Entretanto, podemos concluir que as famílias sem filhos possuem uma taxa de inadimplência menor em relação as que possuem filhos.**

**2)	Os clientes que são casados ou já foram casados (divorciados e viúvos) tendem a pagar mais suas contas em dia.**

**3)	Como era previsível o nível mais alto de renda tem uma taxa de inadimplência menor. Vale destacar que os níveis médios
possuem uma inadimplência até maior que a dos níveis de renda mais baixos.**

**4)	As finalidades de crédito parecem explicar os níveis de inadimplência. Os créditos educacionais e para financiamento de automóveis tendem a ter uma inadimplência maior em relação ao crédito imobiliário e os empréstimos feitos para casamentos.**

