# Análise do risco de inadimplência dos mutuários

Seu projeto é preparar um relatório para a divisão de empréstimos de um banco. Você precisará descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes.

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. A **contagem de crédito** é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

[Neste caderno, você recebe dicas e instruções breves e sugestões de raciocínio. Não os ignore, pois eles são projetados para te equipar com a estrutura do projeto e o ajudarão a analisar o que você está fazendo em um nível mais profundo. Antes de enviar seu projeto, certifique-se de remover todas as dicas e descrições fornecidas a você. Em vez disso, faça com que este relatório pareça que você está enviando para seus colegas de equipe para demonstrar suas descobertas - eles não devem saber que você teve qualquer ajuda externa nossa! Para ajudá-lo, colocamos as dicas que você deve remover entre colchetes.]

[Antes de mergulhar na análise de seus dados, explique os propósitos do projeto e as hipóteses que você testará.]

## Abra o arquivo de dados e veja as informações gerais.

[Comece importando as bibliotecas e carregando os dados. Você pode perceber que precisa de bibliotecas adicionais à medida que avança, o que é totalmente bom - apenas certifique-se de atualizar esta seção quando o fizer.]

In [None]:
# Carregando todas as bibliotecas
import pandas as pd

# Carregue os dados
data = pd.read_csv('/datasets/credit_scoring_eng.csv')

## Tarefa 1. Exploração de dados

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo

In [None]:
# Vamos ver quantas linhas e colunas nosso conjunto de dados tem
data.shape

(21525, 12)

In [None]:
# vamos exibir as primeiras N linhas
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,SECONDARY EDUCATION,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,BACHELOR'S DEGREE,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [None]:
data.min()

children                             -1
days_employed             -18388.949901
dob_years                             0
education             BACHELOR'S DEGREE
education_id                          0
family_status         civil partnership
family_status_id                      0
gender                                F
income_type                    business
debt                                  0
total_income                   3306.762
purpose             building a property
dtype: object

In [None]:
data.max()

children                          20
days_employed          401755.400475
dob_years                         75
education               some college
education_id                       4
family_status        widow / widower
family_status_id                   4
gender                           XNA
income_type               unemployed
debt                               1
total_income              362496.645
purpose             wedding ceremony
dtype: object

In [None]:
# Obter informações sobre dados
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
data.dtypes

children              int64
days_employed       float64
dob_years             int64
education            object
education_id          int64
family_status        object
family_status_id      int64
gender               object
income_type          object
debt                  int64
total_income        float64
purpose              object
dtype: object

## O que foi descoberto?

__Analisando as informações, observa-se os seguintes dados:__
    
   * Há 21525 linhas e 12 colunas.
   * Existem NaN em days_employed e total_income (19351), #Observar se há alguma similaridade entre os dados.
   * Em days_employed a númeração que era pra ser posítiva está negativa. 
   * Observa-se também que há -1 até 20 filhos.
   * dob_years deverá ser visualizada com mais cuidado.
   * Em gender encontra-se uma ou mais entrada com XNA
   * Tipos de dados estão corretos.
   
   
#### Com base nas informações acima e processos básicos de Análise de Dados, precisa ser verificado a entrada de duplicatas, deixando os objetos no mesmo tipo de caixa e analisando se há dados influenciáveis.

## Explorando as informações encontradas.

In [None]:
# Vejamos a tabela filtrada com valores ausentes na primeira coluna com dados ausentes

print(data[data['days_employed'].isna()].head(10))

    children  days_employed  dob_years            education  education_id  \
12         0            NaN         65  secondary education             1   
26         0            NaN         41  secondary education             1   
29         0            NaN         63  secondary education             1   
41         0            NaN         50  secondary education             1   
55         0            NaN         54  secondary education             1   
65         0            NaN         21  secondary education             1   
67         0            NaN         52    bachelor's degree             0   
72         1            NaN         32    bachelor's degree             0   
82         2            NaN         50    bachelor's degree             0   
83         0            NaN         52  secondary education             1   

        family_status  family_status_id gender    income_type  debt  \
12  civil partnership                 1      M        retiree     0   
26        

In [None]:
data.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

[Os valores ausentes parecem simétricos? Podemos ter certeza desta suposição? Explique brevemente seus pensamentos nesta seção. Você provavelmente pode querer realizar investigações adicionais e contar os valores ausentes em todas as linhas com valores ausentes para confirmar que as amostras ausentes são do mesmo tamanho.]

In [None]:
# Vamos aplicar várias condições para filtrar dados e observar o número de linhas na tabela filtrada.

data_nan = data[(data['days_employed'].isnull()) & (data['total_income'].isnull())]
data_nan.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
65,0,,21,secondary education,1,unmarried,4,M,business,0,,transactions with commercial real estate
67,0,,52,bachelor's degree,0,married,0,F,retiree,0,,purchase of the house for my family
72,1,,32,bachelor's degree,0,married,0,M,civil servant,0,,transactions with commercial real estate
82,2,,50,bachelor's degree,0,married,0,F,employee,0,,housing
83,0,,52,secondary education,1,married,0,M,employee,0,,housing


**Conclusão intermediária**

__Problemas__

* Em 'days_employed' há float, porém deveria ter apenas int.
* 'days_employed' tem muitos valores negativos, porque?
* 'days_employed' valores exacerbados. 
* 'education' com algumas células tem valores iguais, porém escritos de com letras maiúsculas
* 'purpose' pode ser descrito de melhor forma
* valores estranhos em 'children'


Possíveis motivos para valores ausentes nos dados

* Possiveis NaN's em 'total_income' sejam causados por não empregados, onde 'days_employed' = 0. Assim, nota-se que 'total_income' influencia em 'days_employed' ausente.

O que precisa ser feito

* Substituir os valores NaN em 'days_employed' e 'total_income' por 0.
* Mudar os valores escritos com letras maiusculas em 'education' para letras minusculas e aprofundar algumas análises.
* Deixar 'purpose' mais simples.
* Corrigir os valores estranhos em 'children'.
* Analisar outras colunas e verificar se há dados incompatíveis.

<div class="alert alert-block alert-success">
<b>Comentário do corretor</b> <a class="tocSkip"></a>

Ótimas conclusões!
</div>

In [None]:
# Analisar valores NaN em total_income e em days_employed. Dessa forma, se nenhum valor for diferente dos NaN, entende-se que os dados estão correlatos.

len(data_nan[data_nan['total_income'].isna()==False])

0

__Conclui-se que total_income e days_employed são valores ausentes similares.__

## Transformação de dados

In [None]:
# Primeiro iremos passar todas as linhas para str_lower, deixando o dataframe mais organizado e paralelo.

data['education'] = data['education'].str.lower()
data['family_status'] = data['family_status'].str.lower()
data['income_type'] = data['income_type'].str.lower()
data['purpose'] = data['purpose'].str.lower()

data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.17,purchase of the house
6,0,-2879.202052,43,bachelor's degree,0,married,0,F,business,0,38484.156,housing transactions
7,0,-152.779569,50,secondary education,1,married,0,M,employee,0,21731.829,education
8,2,-6929.865299,35,bachelor's degree,0,civil partnership,1,F,employee,0,15337.093,having a wedding
9,0,-2188.756445,41,secondary education,1,married,0,M,employee,0,23108.15,purchase of the house for my family


In [None]:
# Verificar se há duplicadas em cada coluna

print(data['education'].unique())
print()
print(data['family_status'].unique())
print()
print(data['income_type'].unique())
print()
print(data['purpose'].unique())

["bachelor's degree" 'secondary education' 'some college'
 'primary education' 'graduate degree']

['married' 'civil partnership' 'widow / widower' 'divorced' 'unmarried']

['employee' 'retiree' 'business' 'civil servant' 'unemployed'
 'entrepreneur' 'student' 'paternity / maternity leave']

['purchase of the house' 'car purchase' 'supplementary education'
 'to have a wedding' 'housing transactions' 'education' 'having a wedding'
 'purchase of the house for my family' 'buy real estate'
 'buy commercial real estate' 'buy residential real estate'
 'construction of own property' 'property' 'building a property'
 'buying a second-hand car' 'buying my own car'
 'transactions with commercial real estate' 'building a real estate'
 'housing' 'transactions with my real estate' 'cars' 'to become educated'
 'second-hand car purchase' 'getting an education' 'car'
 'wedding ceremony' 'to get a supplementary education'
 'purchase of my own house' 'real estate transactions'
 'getting higher education

In [None]:
# Vamos ver os valores da coluna 'family_status'

data['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

* Nessa coluna está tudo correto

In [None]:
# Vamos ver os valores na coluna 'gender'

data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [None]:
# Vamos ver quantos % XNA representa e se podemos exclui-lá

data_wrong_gender = data[data['gender']=='XNA']['gender'].count()
print(f'% de gender = XNA é: {data_wrong_gender/data.shape[0]:.1%}')

% de gender = XNA é: 0.0%


* XNA não representa nada na nossa base de dados, assim podemos deleta-lá

In [None]:
#Eliminando as entradas de 'gender' == 'XNA'

data = data[data['gender']!='XNA']
data['gender'].value_counts()

F    14236
M     7288
Name: gender, dtype: int64

* Já na linha de cima observamos que não há mais esse valor.

In [None]:
# Observa-se então que em 'purpose' há valores incorretos, vamos abordar melhor a coluna

data['purpose'].unique()

array(['purchase of the house', 'car purchase', 'supplementary education',
       'to have a wedding', 'housing transactions', 'education',
       'having a wedding', 'purchase of the house for my family',
       'buy real estate', 'buy commercial real estate',
       'buy residential real estate', 'construction of own property',
       'property', 'building a property', 'buying a second-hand car',
       'buying my own car', 'transactions with commercial real estate',
       'building a real estate', 'housing',
       'transactions with my real estate', 'cars', 'to become educated',
       'second-hand car purchase', 'getting an education', 'car',
       'wedding ceremony', 'to get a supplementary education',
       'purchase of my own house', 'real estate transactions',
       'getting higher education', 'to own a car', 'purchase of a car',
       'profile education', 'university education',
       'buying property for renting out', 'to buy a car',
       'housing renovation', 'going

In [None]:
# Corrija os registros, se necessários

def new_purposes(old_values):
    if 'educat' in old_values:
        return 'education'
    elif 'university' in old_values:
        return 'education'
    elif 'hous' in old_values:
        return 'real state'
    elif 'wedding' in old_values:
        return 'wedding'
    elif 'residential' in old_values:
        return 'real state'
    elif 'property' in old_values:
        return 'real state'
    elif 'real' in old_values:
        return 'real state'
    elif 'car' in old_values:
        return 'car'
    else:
        return 'unknown'

# Com base na função acima, iremos incrementar os valores obtidos na coluna 'purpose' para que assim não tenha valores divergentes.
data['new_purpose'] = data['purpose'].apply(new_purposes)

print(data['new_purpose'].unique())
print('~~~~~~~~~~~~~~~~')
print(data['new_purpose'].value_counts())

['real state' 'car' 'education' 'wedding']
~~~~~~~~~~~~~~~~
real state    10839
car            4315
education      4022
wedding        2348
Name: new_purpose, dtype: int64


__Problema de valores divergentes e dados diversos resolvido.__

### Verificar os dados na coluna 'children'

In [None]:
# Vamos ver a distribuição de valores na coluna `children`

print(data['children'].min())
print('----')
print(data['children'].max())

-1
----
20


In [None]:
# Não é possível alguem ter -1 filho e em prizando pela média da população uma pessoa também não deve ter 20 filhos. Assim Vamos corrigir esses valores.

data = data[data['children'] != -1]
data = data[data['children'] != 20]

data.groupby('children')['children'].count()

#Valores corrigidos

children
0    14148
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [None]:
# Vamos passar a coluna 'dob_years', vamos checar alguns dados e ver se há problemas.

print(data['dob_years'].min())
print('--')
print(data['dob_years'].max())
print('--')
print(data['dob_years'].value_counts())

0
--
75
--
35    614
40    603
41    603
34    597
38    595
42    592
33    577
39    572
31    556
36    553
29    543
44    543
48    536
30    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
53    457
57    457
51    446
59    441
55    441
26    406
60    376
25    356
61    353
62    351
63    268
64    263
24    262
23    252
65    194
66    183
22    183
67    167
21    110
0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64


 __Não existem pessoas com idade = 0 e valor se repete 100 vezes.__

In [None]:
# Vamos determinar se excluir essa linha afetara signifivamente ao DataFrame.

data_wrong_age = data[data['dob_years']==0]['dob_years'].count()
print(f'% de dob_years = 0 é: {data_wrong_age/data.shape[0]:.1%}')

% de dob_years = 0 é: 0.5%


__Como 'dob_years' é 0.5% do DataFrame, não impactara muito na base de dados.__

In [None]:
# Retirando os dados
data = data[data['dob_years'] != 0]

In [None]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido

data_wrong_age = data[data['dob_years']==0]['dob_years'].count()
print(f'% de dob_years = 0 é: {data_wrong_age/data.shape[0]:.1%}')

% de dob_years = 0 é: 0.0%


### Agora vamos passar para a coluna 'days_employed'.

In [None]:
# Vamos começar transformando os NaN em 0, partindo do príncipio que desempregados não tem renda.

data['days_employed'] = data['days_employed'].fillna(0)
data['total_income'] = data['total_income'].fillna(0)

# Use as formulas abaixo para ver se há problema ainda.

#print(data.isna().sum())
#data.head(15)
#print(data['days_employed'].dtypes)
#print(data['total_income'].dtypes)

**Pode ser observado duas coisas aqui que podem vir a ser um problema, os dados são float64 e 'days_employed' tem valores negativos**

In [None]:
# Os valores em 'days_employed' e 'total_income' podem ser floats, entretanto para facilitar a analise, transformamos eles em 'int'.

data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
#print(data.head(20))

In [None]:
# Ainda há um problema com os dados acima, pois, 'days_employed' encontram-se negativos quando na verdade são positivos.

def positivos(entry):
    if entry < 0:
        return entry*-1
    else: 
        return entry

data['days_employed'] = data['days_employed'].apply(positivos)

#Aqui podera ser observado de modo separado de no DataFrame

#print(data['days_employed'])
#data.head(15)

In [None]:
# Vamos verificar o número de pessoas aposentadas.

qt_incomes = data['income_type'].count()
aposentados = data[data['income_type']=='retiree'].count()

print(f'O número de aposentados em % é de: {aposentados/qt_incomes:.%}')

TypeError: unsupported format string passed to Series.__format__

In [None]:
# Verificando se 'retiree' possuem valores em 'days_employed' = 0. Assim, saberemos se isso é o correto.

days_worked0 = data[data['days_employed'] == 0]
days_worked0 = days_worked0[days_worked0['income_type'] == 'retiree']
days_worked0.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,new_purpose
12,0,0,65,secondary education,1,civil partnership,1,M,retiree,0,0,to have a wedding,wedding
29,0,0,63,secondary education,1,unmarried,4,F,retiree,0,0,building a real estate,real state
55,0,0,54,secondary education,1,civil partnership,1,F,retiree,1,0,to have a wedding,wedding
67,0,0,52,bachelor's degree,0,married,0,F,retiree,0,0,purchase of the house for my family,real state
145,0,0,62,secondary education,1,married,0,M,retiree,0,0,building a property,real state
247,1,0,60,bachelor's degree,0,married,0,F,retiree,1,0,going to university,education
280,0,0,66,secondary education,1,married,0,F,retiree,0,0,housing transactions,real state
322,0,0,56,secondary education,1,civil partnership,1,F,retiree,1,0,to have a wedding,wedding
361,0,0,59,secondary education,1,widow / widower,2,F,retiree,0,0,housing,real state
415,0,0,57,bachelor's degree,0,widow / widower,2,F,retiree,0,0,housing,real state


### Será analisado o income_type agora

In [None]:
# Verifique 'income_type' e compare com 

data['income_type'].value_counts()

employee                       10996
business                        5033
retiree                         3819
civil servant                   1447
entrepreneur                       2
unemployed                         2
student                            1
paternity / maternity leave        1
Name: income_type, dtype: int64

In [None]:
# Vamos verificar se há duplicatas e qual o número delas

data.duplicated().sum()

71

**Há 71 duplicatas na DataFrame**

In [None]:
# Vamos remover as duplicatas e vamos conferir se foram excluidas.

data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().sum()

0

**Problem Resolvido**

In [None]:
#Verificando se há NaN
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
new_purpose         0
dtype: int64

### __Resumo atual__
  
* Em 'days_employed' há float, porém deveria ter apenas int. __resolvido__
* 'days_employed' tem muitos valores negativos, porque? __resolvido__
* 'days_employed' valores exacerbados. __resolvido__
* 'education' com algumas células tem valores iguais, porém escritos de com letras maiúsculas __resolvido__
* 'purpose' pode ser descrito de melhor forma __resolvido__
* valores estranhos em 'children'  __resolvido__

Possíveis motivos para valores ausentes nos dados

* Possiveis NaN's em 'total_income' sejam causados por não empregados, onde 'days_employed' = 0. Assim, nota-se que 'total_income' influencia em 'days_employed' ausente. __compreendido e resolvido__

O que precisa ser feito

* Substituir os valores NaN em 'days_employed' e 'total_income' por 0. __resolvido__
* Mudar os valores escritos com letras maiusculas em 'education' para letras minusculas e aprofundar algumas análises. __resolvido__
* Deixar 'purpose' mais simples. __resolvido__ 
* Corrigir os valores estranhos em 'children'. __resolvido__
* Analisar outras colunas e verificar se há dados incompatíveis
    * Remover duplicatas __resolvido__
    * Remover NaN __resolvido__
    * Retirar valores indesejados __resolvido__

## Verificar as Hipóteses


**Vamos verificar se há correlações entre algumas caracteristicas e o pagamento em dia.**

In [None]:
# Verifique os dados das crianças e do pagamento em dia

data.groupby('children')['debt'].mean()

children
0    0.075458
1    0.092028
2    0.095145
3    0.082317
4    0.097561
5    0.000000
Name: debt, dtype: float64

**Conclusão**

Pessoas quais tem 0 ou 5 filhos tentem mais em manter seus pagamentos em dia.

**Existe uma correlação entre o status familiar e o pagamento em dia?**

In [None]:
# Verifique os dados de status da família e do pagamento em dia

data.groupby('family_status')['debt'].mean()

family_status
civil partnership    0.093142
divorced             0.071247
married              0.075575
unmarried            0.097842
widow / widower      0.065539
Name: debt, dtype: float64

**Conclusão**

Pessoas quais tem classificadas como 'married' e 'widow/widowe' tentem mais em manter seus pagamentos em dia.

**Existe uma correlação entre o gender e o pagamento em dia?**

In [None]:
# Verifique os dados do nível de renda e do pagamento em dia

data.groupby('gender')['debt'].mean()

gender
F    0.070180
M    0.102649
Name: debt, dtype: float64

**Conclusão**

Aqui observamos uma certa discrepância entre os dois gêneros usados na pesquisa. Emprestar dinheiro para homens é mais arriscado do que para mulheres.

**Existe relação entre total_income e o pagamento do empréstimo em dia?**

In [None]:
# Analisar os dados

data['total_income'].describe()

count     21230.000000
mean      24171.397362
std       17593.205611
min           0.000000
25%       14250.250000
50%       21721.000000
75%       31326.500000
max      362496.000000
Name: total_income, dtype: float64

In [None]:
#Podemos separar em grupos para segregar o total e ficar algo mais palpavél na analise.

def grup_income(wage):
    if wage == 0:
        return 'zero'
    elif wage <= 14250:
        return '25%'
    elif wage <= 21721:
        return '50%'
    elif wage <= 31326:
        return '75%'
    elif wage <= 362496+1:
        return '100%'
    else:
        return 'checar'
    
#Criando uma coluna
data['income_group'] = data['total_income'].apply(grup_income)

In [None]:
#Observando se a coluna tem valores corretos.
data['income_group'].unique()

array(['100%', '50%', '75%', '25%', 'zero'], dtype=object)

**Valores corretos**

In [None]:
data.groupby('income_group')['income_group'].count()

income_group
100%    5308
25%     3227
50%     5309
75%     5305
zero    2081
Name: income_group, dtype: int64

**Analisando mais de perto o número total do salário**

**Conclusão**

* Tabela de riscos fica de tal forma:
* Ricos - 7,2%
* Pobres - 7,7%
* Classe média-baixa - 8,4%
* Classe média-alta - 8,9%
* Sem renda - 8,1%

# Conclusão Geral 

Ao final do projeto, pode ser concluido que havia poucas entradas/valores errados ou ausentes.


__As mudanças que precisaram ser feitas nos dados foram:__

* corrigir entradas erradas na coluna 'children'
* apagar entradas onde 'dob_years' era igual a 0
* apagar a entrada onde o gênero era igual a 'XNA'
* nova coluna criada para agrupar melhor os objetivos dos empréstimos
* apagar duplicatas
* corrigir valores negativos


Sobre as conclusões, elas tornaram possível imaginar um perfil de maior risco, risco médio e risco baixo, para que algum steak-holder consiga usar para validar suas decisões.

__Sendo assim, podemos citar esses perfis.__

* Perfil de risco baixo

 * Ricos
 * Possuem mais de um ou mais filho | até o quinto
 * São Widow/widower

* Perfil de risco moderado

 * Sem Renda
 * Possuem secondary education
 * São divorciados

* Perfil de risco alto

 * Classe média-baixa
 * Possuem apenas primary education
 * Nunca foram casados(unmarried)