# ✨ <u>Projeto Sprint 2</u>

<br>


# <i>Análise do Risco de Inadimplência dos Mutuários</i>

O objetivo desse projeto é preparar um **relatório para a divisão de empréstimos de um banco**. Onde será necessário descobrir se o estado civil de um cliente e o número de filhos têm impacto sobre se ele deixará de pagar um empréstimo. O banco já tem alguns dados sobre a capacidade de crédito dos clientes e esses dados estão no arquivo CSV "credit_scoring_eng".

Seu relatório será considerado ao criar uma **pontuação de crédito** de um cliente em potencial. Lembrando que a  contagem de crédito é usada para avaliar a capacidade de um devedor em potencial de pagar seu empréstimo.

<br>

**<u>Hipóteses a serem testadas:</u>**
- Existe alguma relação entre ter filhos e pagar um empréstimo em dia?
- Existe alguma relação entre o estado civil e o pagamento de um empréstimo no prazo estipulado?
- Existe uma relação entre o nível de renda e o pagamento de um empréstimo no prazo?
- Como as diferentes finalidades do empréstimo afetam o pagamento pontual do empréstimo?

<br>

**Desenvolvido por: Yasmin Zanon Barg.**

---

# Conteúdo <a id='back'></a>

* [Etapa 1. Visão Geral dos Dados](#data_review)
    * [1.1 Overview do Dataframe](#data_review_overview)
    * [1.2 Conhecendo os Dados das Colunas do Dataframe](#data_review_columns)
    * [1.3 Examinando os Valores Faltantes](#data_review_valores_faltantes)
    * [1.4 Conclusões](#data_review_conclusions)
* [Etapa 2. Pré-Processamento de Dados](#data_preprocessing)
    * [2.1 Ajustando Valores das Colunas](#ajustando_valores)
    * [2.2 Duplicatas](#duplicates)
    * [2.3 Valores Ausentes](#missing_values)
    * [2.4 Conclusões](#data_preprocessing_conclusions)
* [Etapa 3. Categorizando Dados](#categorizando_dados)
    * [3.1 Coletando Dados Para a Hipótese 1](#dados_filhos)
    * [3.2 Coletando Dados Para a Hipótese 2](#dados_estado_civil)
    * [3.3 Coletando Dados Para a Hipótese 3](#dados_renda)
    * [3.4 Coletando Dados Para a Hipótese 4](#dados_finalidades)
* [Etapa 4. Validando Hipóteses](#hypotheses)
    * [4.1 Hipótese 1: Existe Alguma Relação Entre ter Filhos e Pagar um Empréstimo em dia?](#filhos)
    * [4.2 Hipótese 2: Existe Alguma Relação Entre o Estado Civil e o Pagamento de um Empréstimo no prazo Estipulado?](#estado_civil)
    * [4.3 Hipótese 3: Existe Uma Relação Entre o Nível de Renda e o Pagamento de um Empréstimo no Prazo?](#renda)
    * [4.4 Hipótese 4: Como as Diferentes Finalidades do Empréstimo Afetam o Pagamento Pontual do Empréstimo?](#finalidades)
* [Conclusão Final](#end)

---

## Etapa. Visão Geral do Dados <a id='data_review'></a>

Essa fase tem o próposito de explorar os dados entregues e nos familiarizar com eles para podermos seguir com as próximas etapas das analises.

### Overview do Dataframe <a id='data_review_overview'></a>

In [None]:
# Primeiramente é necessário importar as bibliotecas necessárias
import pandas as pd 


# Carregando os dados
credit_scoring = pd.read_csv('credit_scoring_eng.csv')

**Descrição dos dados**
- `children` - o número de crianças na família
- `days_employed` - experiência de trabalho em dias
- `dob_years` - idade do cliente em anos
- `education` - educação do cliente
- `education_id` - identificador de educação
- `family_status` - estado civil do cliente
- `family_status_id` - identificador de estado civil
- `gender` - gênero do cliente
- `income_type` - tipo de emprego
- `debt` - havia alguma dívida no pagamento do empréstimo
- `total_income` - renda mensal
- `purpose` - o objetivo de obter um empréstimo

**Agora utilizaremos as funções: `info()`, `head()` e `describe()` para explorar e nos familiarizar ainda mais com os dados que estão no dataframe credit_scoring**

In [None]:
# Vamos ver quantas linhas e colunas nosso conjunto de dados tem
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [None]:
# vamos exibir as primeiras linhas
credit_scoring.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.42261,33,Secondary Education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding


In [None]:
# Tendo um overview das váriaveis númericas
credit_scoring.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,26787.568355
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,16475.450632
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,3306.762
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,16488.5045
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,23202.87
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,32549.611
max,20.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


### Conhecendo os Dados das Colunas do Dataframe <a id='data_review_columns'></a>

**Agora iremos analisar os valores das colunas individualmente:**

* `children` = o número de crianças na família

In [1]:
# Explorando os valores e as quantidades de dados
credit_scoring['children'].value_counts(dropna=False)

NameError: ignored

* `days_employed` = quanto tempo o cliente trabalhou

In [2]:
# Explorando os valores e as quantidades de dados
credit_scoring['days_employed'].value_counts(dropna=False)

NameError: ignored

* `dob_years` = a idade do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['dob_years'].value_counts(dropna=False)

* `education` = o nível de educação do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['education'].value_counts(dropna=False)

* `education_id` = identificador da educação do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['education_id'].value_counts(dropna=False)

* `family_status` = estado civil do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['family_status'].value_counts(dropna=False)

* `family_status_id` = identificador do estado civil do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['family_status_id'].value_counts(dropna=False)

* `gender` = o sexo do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['gender'].value_counts(dropna=False)

* `income_type` = o tipo de renda do cliente

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['income_type'].value_counts(dropna=False)

* `debt` = se o cliente já deixou de pagar um empréstimo

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['debt'].value_counts(dropna=False)

* `total_income` = renda mensal

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['total_income'].value_counts(dropna=False)

* `purpose` = motivo para fazer um empréstimo

In [None]:
# Explorando os valores e as quantidades de dados
credit_scoring['purpose'].value_counts(dropna=False)

### Examinando os Valores Faltantes <a id='data_review_valores_faltantes'></a>

In [None]:
# Utilizando a função isna() em conjunto com sum() para obter as informações dos dados com valores ausentes
credit_scoring.isna().sum()


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [None]:
# Filtrando o dataframe "credit_scoring" para mostrar somente os valores faltantes 
credit_scoring_NaN = credit_scoring[credit_scoring['days_employed'].isna()]
credit_scoring_NaN

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,secondary education,1,civil partnership,1,M,retiree,0,,to have a wedding
26,0,,41,secondary education,1,married,0,M,civil servant,0,,education
29,0,,63,secondary education,1,unmarried,4,F,retiree,0,,building a real estate
41,0,,50,secondary education,1,married,0,F,civil servant,0,,second-hand car purchase
55,0,,54,secondary education,1,civil partnership,1,F,retiree,1,,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Secondary Education,1,married,0,M,business,0,,purchase of a car
21495,1,,50,secondary education,1,civil partnership,1,F,employee,0,,wedding ceremony
21497,0,,48,BACHELOR'S DEGREE,0,married,0,F,business,0,,building a property
21502,1,,42,secondary education,1,married,0,F,employee,0,,building a real estate


In [None]:
# Calculando a porcentagem do nosso dataframe que está comprometido com valores faltantes

percentage_nan = (len(credit_scoring_NaN.index) / len(credit_scoring.index))*100
percentage_nan

10.099883855981417

**Observações:**

Identificado que simetricamente quando há um valor é NaN na coluna "days_employed" ela também será NaN na coluna "total_income".

Também foi calculado que um pouco mais de 10% da nossa amostra está comprometida devido aos valores NaN, o que é um valor consideravel do nosso dataframe.

Agora iremos verificar se há alguma dependência de valores ausentes em relação aos outros valores dos indicadores, caso não tenha, poderemos substituir esses valores pela média ou mediana.

In [None]:
credit_scoring_NaN['children'].value_counts(dropna=False)

 0     1439
 1      475
 2      204
 3       36
 20       9
 4        7
-1        3
 5        1
Name: children, dtype: int64

In [None]:
credit_scoring_NaN['dob_years'].value_counts(dropna=False)

34    69
40    66
31    65
42    65
35    64
36    63
47    59
41    59
30    58
28    57
57    56
58    56
54    55
38    54
56    54
37    53
52    53
39    51
33    51
50    51
51    50
45    50
49    50
29    50
43    50
46    48
55    48
48    46
53    44
44    44
60    39
61    38
62    38
64    37
32    37
27    36
23    36
26    35
59    34
63    29
25    23
24    21
66    20
65    20
21    18
22    17
67    16
0     10
68     9
69     5
20     5
71     5
70     3
72     2
19     1
73     1
Name: dob_years, dtype: int64

In [None]:
credit_scoring_NaN['education'].value_counts(dropna=False)

secondary education    1408
bachelor's degree       496
SECONDARY EDUCATION      67
Secondary Education      65
some college             55
Bachelor's Degree        25
BACHELOR'S DEGREE        23
primary education        19
Some College              7
SOME COLLEGE              7
Primary Education         1
PRIMARY EDUCATION         1
Name: education, dtype: int64

In [None]:
credit_scoring_NaN['education_id'].value_counts(dropna=False)

1    1540
0     544
2      69
3      21
Name: education_id, dtype: int64

In [None]:
credit_scoring_NaN['family_status_id'].value_counts(dropna=False)

0    1237
1     442
4     288
3     112
2      95
Name: family_status_id, dtype: int64

In [None]:
credit_scoring_NaN['gender'].value_counts(dropna=False)

F    1484
M     690
Name: gender, dtype: int64

In [None]:
credit_scoring_NaN['family_status'].value_counts(dropna=False)

married              1237
civil partnership     442
unmarried             288
divorced              112
widow / widower        95
Name: family_status, dtype: int64

In [None]:
credit_scoring_NaN['income_type'].value_counts(dropna=False)

employee         1105
business          508
retiree           413
civil servant     147
entrepreneur        1
Name: income_type, dtype: int64

In [None]:
credit_scoring_NaN['debt'].value_counts(dropna=False)

0    2004
1     170
Name: debt, dtype: int64

In [None]:
credit_scoring['purpose'].value_counts(dropna=False)

wedding ceremony                            797
having a wedding                            777
to have a wedding                           774
real estate transactions                    676
buy commercial real estate                  664
buying property for renting out             653
housing transactions                        653
transactions with commercial real estate    651
purchase of the house                       647
housing                                     647
purchase of the house for my family         641
construction of own property                635
property                                    634
transactions with my real estate            630
building a real estate                      626
buy real estate                             624
purchase of my own house                    620
building a property                         620
housing renovation                          612
buy residential real estate                 607
buying my own car                       

**Observações:**

Todas as colunas possuem valores bem diverisificados e não foi possível identificar nenhum padrão entre os valores das colunas e dos valores faltantes.

### Conclusões <a id='data_review_conclusions'></a> 

**Ao realizar a exploração de dados no dataframe 'credit_scoring' foi possível identificar os seguintes problemas que precisam ser tratados:**


**1º)** Os valores da coluna <i>"education"</i> possuem categorias repetidas, devido `erro de grafia`;

**2º)** A coluna <i>"children"</i> possui `valores negativos` que não eram pra existir, além de 76 clientes que possuem a quantidade colossal de 20 filhos;

**3º)** A coluna <i>"days_employed"</i> também possuem `valores negativos` que precisam ser analisados;

**4º)** Todas as colunas estão com seus nomes corretamente formatados (em minusculo, singular e com snake_case), entretanto a coluna <i>"dob_years"</i> que carrega os valores da idade dos clientes poderia ter um `nome mais claro`, como: "customer_age". Ademais, essa coluna também possui alguns `valores de idade zerado`;

**5º)** A coluna <i>"gender"</i> tem uma pessoa com o sexo "XNA" que `não existe`;

**6º)** Precisa ser visto também as `duplicatas` desse dataframe;

**7º)** Será necessário ajustar os 4348  `valores faltantes` das colunas <i>"days_employed"</i> e <i>"total_income"</i>.

<div class="alert alert-block alert-success">
<b>Comentário do corretor</b> <a class="tocSkip"></a>

Bem observado!
</div>

[Voltar ao Índice](#back)

---

## Etapa. Pré-processamento de dados <a id='data_preprocessing'></a>

Aqui iremos sanar os sete tópicos informados na secção a cima que precisam de ajuste, como valores ausentes, duplicatas e erros de grafia que depois de tratados, nos permitiram manipular os dados e tomar decisões mais precisas.

### Ajustando valores das colunas <a id='ajustando_valores'></a>

**1º Passo** -  Corrigir os `erros de grafia` dos valores na coluna <i>"education"</i>:

In [None]:
# Validando todos os valores
credit_scoring['education'].unique()

array(["bachelor's degree", 'secondary education', 'Secondary Education',
       'SECONDARY EDUCATION', "BACHELOR'S DEGREE", 'some college',
       'primary education', "Bachelor's Degree", 'SOME COLLEGE',
       'Some College', 'PRIMARY EDUCATION', 'Primary Education',
       'Graduate Degree', 'GRADUATE DEGREE', 'graduate degree'],
      dtype=object)

In [None]:
# Alterando todos valores para letra minuscúla
credit_scoring['education'] = credit_scoring['education'].str.lower() 

In [None]:
# Verificando se o ajuste a cima deu certo
credit_scoring['education'].unique()


array(["bachelor's degree", 'secondary education', 'some college',
       'primary education', 'graduate degree'], dtype=object)

**2º Passo** -  Corrigir o `valor negativo` e a quantidade colossal de `20 filhos` da coluna <i>"children"</i>:

In [None]:
# Vamos ver a distribuição de valores na coluna `children`
credit_scoring['children'].value_counts(dropna=False)

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [None]:
# Calculando a porcentagem da amostra que posssui valor negativo
percentage_negative_children = (47 / len(credit_scoring['children'].index)) * 100
percentage_negative_children

0.2183507549361208

Como a taxa é muito pequena, menor que 1%, será excluido os dados negativos para não comprometer a análise.

In [None]:
# Deletando o registro que possui o valor negativo
negative_children = credit_scoring[credit_scoring['children'] < 0]
credit_scoring = credit_scoring.drop(negative_children.index)

In [None]:
# É muito díficil uma família ter 20 filhos, então provavelmente essa quantidade foi escrita errada, adicionando um zero atrás
credit_scoring['children'] = credit_scoring['children'].replace(20, 2)

In [None]:
# Verificar a coluna `children` novamente para ter certeza de que está tudo corrigido
credit_scoring['children'].value_counts(dropna=False)

0    14149
1     4818
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

**3º Passo** -  Corrigir os `valores negativos` da coluna <i>"days_employed"</i>:

In [None]:
# Quantidade de valores da coluna `days_employed` negativos:
negative_days_employed = credit_scoring[credit_scoring['days_employed'] < 0]
negative_days_employed

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,-4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,-5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,-4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
5,0,-926.185831,27,bachelor's degree,0,civil partnership,1,M,business,0,40922.170,purchase of the house
...,...,...,...,...,...,...,...,...,...,...,...,...
21519,1,-2351.431934,37,graduate degree,4,divorced,3,M,employee,0,18551.846,buy commercial real estate
21520,1,-4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21522,1,-2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,-3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


In [None]:
# Porcentagem dos valores negativos da coluna "days_employed"
percentage_negative_days_employed = (15869 / len(credit_scoring['days_employed'].index)) * 100
percentage_negative_days_employed

73.884905484682

Cerca de 73% do nosso dataframe possue valores negativos, o que leva a conclusão que provavelmente esses erros foram ocasionados por problemas técnicos que multiplicaram esses dados por -1, deixando eles negativos e a solução seria usar o método abs() para deixar os valores positivos novamente e deixar eles o mais próximo da realidade.

OBS: Os valores NaN serão tratados posteriormente.

In [None]:
# Usando a função abs() para deixar os valores positivos
days_employed = abs(credit_scoring['days_employed'])
credit_scoring['days_employed'] = days_employed

In [None]:
# Verifique o resultado - certifique-se de que está corrigido
credit_scoring

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house
1,1,4024.803754,36,secondary education,1,married,0,F,employee,0,17932.802,car purchase
2,0,5623.422610,33,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house
3,3,4124.747207,32,secondary education,1,married,0,M,employee,0,42820.568,supplementary education
4,0,340266.072047,53,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions
21521,0,343937.404131,67,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car
21522,1,2113.346888,38,secondary education,1,civil partnership,1,M,employee,1,14347.610,property
21523,3,3112.481705,38,secondary education,1,married,0,M,employee,1,39054.888,buying my own car


**4º Passo** - Mudar o `nome da coluna` <i>"dob_years"</i> e análisar os 101 valores que estão com a `idade zerada`:

In [None]:
# Deixando o nome da coluna mais claro
credit_scoring = credit_scoring.rename(columns={
'dob_years': 'customer_age',
})

In [None]:
credit_scoring.columns

Index(['children', 'days_employed', 'customer_age', 'education',
       'education_id', 'family_status', 'family_status_id', 'gender',
       'income_type', 'debt', 'total_income', 'purpose'],
      dtype='object')

In [None]:
# Verificando os valores da coluna `customer_age`
credit_scoring['customer_age'].value_counts(dropna=False)

35    616
40    607
41    605
34    600
38    596
42    595
33    579
39    573
31    558
36    555
29    545
44    545
30    539
48    537
37    535
50    512
43    512
49    508
32    508
28    501
45    497
27    492
56    487
52    484
47    480
54    477
46    472
58    461
53    458
57    458
51    447
59    443
55    442
26    407
60    377
25    357
61    354
62    352
63    268
24    264
64    264
23    253
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     84
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: customer_age, dtype: int64

In [None]:
# Analisadndo o dataframe somente com os valores que estão zerados:

customer_age_zero = credit_scoring[credit_scoring['customer_age'] == 0]
customer_age_zero

Unnamed: 0,children,days_employed,customer_age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,346541.618895,0,secondary education,1,married,0,F,retiree,0,11406.644,car
149,0,2664.273168,0,secondary education,1,divorced,3,F,employee,0,11228.230,housing transactions
270,3,1872.663186,0,secondary education,1,married,0,F,employee,0,16346.633,housing renovation
578,0,397856.565013,0,secondary education,1,married,0,F,retiree,0,15619.310,construction of own property
1040,0,1158.029561,0,bachelor's degree,0,divorced,3,F,business,0,48639.062,to own a car
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,,0,secondary education,1,married,0,F,employee,0,,housing
20462,0,338734.868540,0,secondary education,1,married,0,F,retiree,0,41471.027,purchase of my own house
20577,0,331741.271455,0,secondary education,1,unmarried,4,F,retiree,0,20766.202,property
21179,2,108.967042,0,bachelor's degree,0,married,0,M,business,0,38512.321,building a real estate


Como se trata de uma váriavel quantitativa e que não há valores atípicos significativos, será necessário calcular a média entre as idade e adiciona-las na tabela para não deixar os valores ausentes.

In [None]:
# Filtrando onde não tem os valores zerados
credit_scoring_no_zero = credit_scoring[credit_scoring['customer_age']!= 0]

# Calculando a média da idade para cada gênero
age_avg = credit_scoring_no_zero['customer_age'].mean()

credit_scoring['customer_age'] = credit_scoring['customer_age'].replace(0, 43.49950881788838)

In [None]:
# Verifique o resultado - certifique-se de que está corrigido
credit_scoring[credit_scoring['customer_age'] == 0]

Unnamed: 0,children,days_employed,customer_age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


**5º Passo** - Ajustar a coluna <i>"gender"</i> que tem uma pessoa com o sexo "XNA" que `não existe`

In [None]:
# Validando os valores da coluna "genre" 
credit_scoring['gender'].value_counts(dropna=False)

F      14201
M       7276
XNA        1
Name: gender, dtype: int64

In [None]:
# Como se trata de apenas um valor, iremos deleta-lo, para não impactar na nossa análise:

XNA_gender = credit_scoring[credit_scoring['gender'] == 'XNA']
credit_scoring = credit_scoring.drop(XNA_gender.index)

In [None]:
# Verificando o resultado 
credit_scoring['gender'].value_counts(dropna=False)


F    14201
M     7276
Name: gender, dtype: int64

### Duplicatas <a id='duplicates'></a>

In [None]:
# Verificando as duplicatas
credit_scoring.duplicated().sum()


71

In [None]:
# Deletando os valores duplicados
credit_scoring = credit_scoring.drop_duplicates().reset_index(drop = True)

In [None]:
# Validando se o ajuste deu certo
credit_scoring.duplicated().sum()

0

In [None]:
#Verificando o tamanho do conjunto de dados após modificação
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21406 entries, 0 to 21405
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21406 non-null  int64  
 1   days_employed     19306 non-null  float64
 2   customer_age      21406 non-null  float64
 3   education         21406 non-null  object 
 4   education_id      21406 non-null  int64  
 5   family_status     21406 non-null  object 
 6   family_status_id  21406 non-null  int64  
 7   gender            21406 non-null  object 
 8   income_type       21406 non-null  object 
 9   debt              21406 non-null  int64  
 10  total_income      19306 non-null  float64
 11  purpose           21406 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


In [None]:
# Tendo um overview dos dados
credit_scoring.describe()

Unnamed: 0,children,days_employed,customer_age,education_id,family_status_id,debt,total_income
count,21406.0,19306.0,21406.0,21406.0,21406.0,21406.0,19306.0
mean,0.479445,66935.93726,43.478905,0.817014,0.973933,0.081286,26792.210382
std,0.756517,139052.078307,12.21501,0.548862,1.421618,0.27328,16485.907915
min,0.0,24.141633,19.0,0.0,0.0,0.0,3306.762
25%,0.0,926.990457,33.0,1.0,0.0,0.0,16481.73675
50%,0.0,2194.190166,43.0,1.0,0.0,0.0,23201.8735
75%,1.0,5541.117779,53.0,1.0,1.0,0.0,32551.97425
max,5.0,401755.400475,75.0,4.0,4.0,1.0,362496.645


### Valores ausentes  <a id='missing_values'></a>

Como visto anteriormente,todas as colunas possuem valores bem diverisificados e não foi possível identificar nenhum padrão entre os valores das colunas e dos valores faltantes.

Entretanto para que a gente não perca dez por cento do nosso dataframe, iremos substituir esses valores faltantes que são quantitativos pela média ou mediana da coluna, assim não comprometendo os nossos dados.

Lembrando asque se trata de 4348 valores faltantes das colunas "days_employed" e "total_income".

**1º) Análisando a coluna "days_employed" para substituir seus valores:**

In [None]:
# Verificando se há valores atípicos da nossa coluna:
credit_scoring['days_employed'].describe()

count     19306.000000
mean      66935.937260
std      139052.078307
min          24.141633
25%         926.990457
50%        2194.190166
75%        5541.117779
max      401755.400475
Name: days_employed, dtype: float64

OBS: Descobrimos que a coluna "days_employed" possui valores atípicos que distorcem nossa média, então iremos utilizar o valor da médiana, que é o valor exato da metade da nossa amostra.

In [None]:
# Valor da mediana
days_employed_median = credit_scoring['days_employed'].median()

In [None]:
# Substituindo os valores ausentes da coluna "days_employed"
credit_scoring['days_employed'] = credit_scoring['days_employed'].fillna(days_employed_median)

In [None]:
# Conferindo se o ajuste funcionou no dataframe:
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21406 entries, 0 to 21405
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21406 non-null  int64  
 1   days_employed     21406 non-null  float64
 2   customer_age      21406 non-null  float64
 3   education         21406 non-null  object 
 4   education_id      21406 non-null  int64  
 5   family_status     21406 non-null  object 
 6   family_status_id  21406 non-null  int64  
 7   gender            21406 non-null  object 
 8   income_type       21406 non-null  object 
 9   debt              21406 non-null  int64  
 10  total_income      19306 non-null  float64
 11  purpose           21406 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


**2º) Análisando a coluna "total_income" para substituir seus valores:**

In [None]:
# Verificando se há valores atípicos da nossa coluna:
credit_scoring['total_income'].describe()

count     19306.000000
mean      26792.210382
std       16485.907915
min        3306.762000
25%       16481.736750
50%       23201.873500
75%       32551.974250
max      362496.645000
Name: total_income, dtype: float64

OBS: Podemos notar que a coluna "total_income" não possui valores atípicos, tanto que a média e a mediana possui valores bem próximos, então para substituir os dados faltantes dessa coluna, será utilizado a média.


In [None]:
# Valor da média
total_income_mean = credit_scoring['total_income'].mean()

In [None]:
# Substituindo os valores ausentes da coluna "total_income"
credit_scoring['total_income'] = credit_scoring['total_income'].fillna(total_income_mean)

In [None]:
# Conferindo se o ajuste funcionou no dataframe:
credit_scoring.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21406 entries, 0 to 21405
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21406 non-null  int64  
 1   days_employed     21406 non-null  float64
 2   customer_age      21406 non-null  float64
 3   education         21406 non-null  object 
 4   education_id      21406 non-null  int64  
 5   family_status     21406 non-null  object 
 6   family_status_id  21406 non-null  int64  
 7   gender            21406 non-null  object 
 8   income_type       21406 non-null  object 
 9   debt              21406 non-null  int64  
 10  total_income      21406 non-null  float64
 11  purpose           21406 non-null  object 
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


### Conclusões  <a id='#data_preprocessing_conclusions'></a>

Nesta fase nós tratamos alguns problemas:

- Valores negativos
- Valores zerados
- Erros de grafia
- Valores ausentes
- Duplicatas

E agora possuimos resultados mais precisos e mais fáceis de entender para seguirmos com as próximas etapas.

[Voltar ao Índice](#back)

---

## Categorização de dados <a id='categorizando_dados'></a>

Nesta etapa iremos organizar alguns dados selecionados em grupos para nós auxiliar a responder as hipóteses na próxima fase.

### Coletando dados para a hipótese 1 <a id='dados_filhos'></a>

Existe alguma relação entre ter filhos e pagar um empréstimo em dia?

In [None]:
# Exibindo os valores unicos da coluna "children"

credit_scoring['children'].unique()


array([1, 0, 3, 2, 4, 5])

In [None]:
# Exibindo a quantidade de dados que temos por valores

credit_scoring['children'].value_counts(dropna=False)

0    14090
1     4808
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [None]:
# Comparando a quantidade de filho com a quantidade de clientes que não ter pagaram o empréstimo

credit_scoring.groupby('children')['debt'].sum()

children
0    1063
1     444
2     202
3      27
4       4
5       0
Name: debt, dtype: int64

In [None]:
# Calculando taxa em relação a quantidade de filho e a de crédito
avg_children_debt = (credit_scoring.groupby('children')['debt'].sum() / credit_scoring['children'].value_counts(dropna=False)) *100
avg_children_debt

children
0    7.544358
1    9.234609
2    9.492481
3    8.181818
4    9.756098
5    0.000000
dtype: float64

É possível validar que a porcentagem vária um pouco dependendo da quantidade de filho que o cliente tem, então para filtrar a pontuação de crédito que o cliente terá, iremos categorizar esses dados com uma função chamada "calculate_points":

In [None]:
def calculate_points(row):
    children = row['children']

    points = 0
    
    if children == 0 | children == 3:
        points += 1
    if children == 1 | children == 2 | children == 4:
        points += 2
    return points


In [None]:
# Criando uma coluna no dataframe para armazenar os pontos
credit_scoring['points'] = credit_scoring.apply(
    calculate_points, axis=1
)

credit_scoring


Unnamed: 0,children,days_employed,customer_age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,points
0,1,8437.673028,42.0,bachelor's degree,0,married,0,F,employee,0,40620.102,purchase of the house,0
1,1,4024.803754,36.0,secondary education,1,married,0,F,employee,0,17932.802,car purchase,0
2,0,5623.422610,33.0,secondary education,1,married,0,M,employee,0,23341.752,purchase of the house,0
3,3,4124.747207,32.0,secondary education,1,married,0,M,employee,0,42820.568,supplementary education,1
4,0,340266.072047,53.0,secondary education,1,civil partnership,1,F,retiree,0,25378.572,to have a wedding,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21401,1,4529.316663,43.0,secondary education,1,civil partnership,1,F,business,0,35966.698,housing transactions,0
21402,0,343937.404131,67.0,secondary education,1,married,0,F,retiree,0,24959.969,purchase of a car,0
21403,1,2113.346888,38.0,secondary education,1,civil partnership,1,M,employee,1,14347.610,property,0
21404,3,3112.481705,38.0,secondary education,1,married,0,M,employee,1,39054.888,buying my own car,1


### Coletando dados para a hipótese 2 <a id='dados_estado_civil'></a>

In [None]:
# Exibindo os valores unicos da coluna "family_status"

credit_scoring['family_status'].unique()

array(['married', 'civil partnership', 'widow / widower', 'divorced',
       'unmarried'], dtype=object)

In [None]:
# Exibindo a quantidade de dados que temos por valores

credit_scoring['family_status'].value_counts(dropna=False)

married              12310
civil partnership     4145
unmarried             2805
divorced              1191
widow / widower        955
Name: family_status, dtype: int64

In [None]:
# Comparando estado civil do cliente com a quantidade que não pagaram o empréstimo

credit_scoring.groupby('family_status')['debt'].sum()

family_status
civil partnership    388
divorced              85
married              930
unmarried            274
widow / widower       63
Name: debt, dtype: int64

In [None]:
# Calculando taxa de relação ao estado civil e ao crédito
avg_family_status_debt = (credit_scoring.groupby('family_status')['debt'].sum() / credit_scoring['family_status'].value_counts(dropna=False)) *100
avg_family_status_debt.sort_values()

widow / widower      6.596859
divorced             7.136860
married              7.554833
civil partnership    9.360676
unmarried            9.768271
dtype: float64

In [None]:
# Verificando o valor de cada id

credit_scoring.groupby('family_status_id')['family_status'].unique()

family_status_id
0              [married]
1    [civil partnership]
2      [widow / widower]
3             [divorced]
4            [unmarried]
Name: family_status, dtype: object

Agora que já possuimos as porcentagens em mãos, podemos implentar mais a nossa função "calculate_points":

In [None]:
def calculate_points(row):
    children = row['children']
    family_status_id = row['family_status_id']
    
    
    points = 0
    
    # Levando em consideração a taxa de inadimplência de clientes que possuem filhos
    if children == 0 or children == 3:
        points += 1
    if children == 1 or children == 2 or children == 4:
        points += 2
    
    # Levando em consideração a taxa de inadimplência em relação ao estado civil do cliente
    if family_status_id == 3 or family_status_id == 0:
        points += 1
    if family_status_id == 1:
        points += 2
    if family_status_id == 4:    
        points += 3
        
    return points  

SyntaxError: invalid syntax (3127132130.py, line 11)

In [None]:
# Validando os novos valores
credit_scoring['points'] = credit_scoring.apply(
    calculate_points, axis=1
)

credit_scoring

### Coletando Dados para a Hipótese 3 <a id='dados_renda'></a>

In [None]:
# Tendo uma noção geral dos dados
credit_scoring['total_income'].describe()

In [None]:
# Utilizando a função calculate_income_status para filtrar os valores das rendas

def calculate_income_status(row):
    total_income = row['total_income']
    
    if total_income <= 5000:
        return "low income"
    if total_income <= 15000:
        return "median income"
    if total_income <= 30000:
        return "reasonable income"                      
    if total_income <= 60000:
        return "good income"
    return "great income" 
    

OBS: Não foi informado em qual moeda o salário mensal foi nos dado, então não é possível validar se esses valores são altos ou não.

In [None]:
# Criando a coluna para os filtros realizados a cima
credit_scoring['income_status'] = credit_scoring.apply(
    calculate_income_status, axis=1
)

credit_scoring


In [None]:
# Validando os valores
credit_scoring['income_status'].value_counts(dropna=False).sort_values()

In [None]:
# Comparando os status de renda com os clientes que não pagam empréstimos
credit_scoring.groupby('income_status')['debt'].sum().sort_values()

In [None]:
# Calculando taxa em relação a renda dos clientes e a de crédito
avg_total_income_debt = (credit_scoring.groupby('income_status')['debt'].sum().sort_values() / credit_scoring['income_status'].value_counts(dropna=False).sort_values()) *100
avg_total_income_debt.sort_values()

In [None]:
# Acrescentando mais uma validação em nossa função "calculate_points"

def calculate_points(row):
    children = row['children']
    family_status_id = row['family_status_id']
    income_status = row['income_status']
    
    points = 0
    
    # Levando em consideração a taxa de inadimplência de clientes que possuem filhos
    if children == 0 or children == 3:
        points += 1
    if children == 1 or children == 2:
        points += 2
    
    # Levando em consideração a taxa de inadimplência em relação ao estado civil do cliente
    if family_status_id == 3 or family_status_id == 0:
        points += 1
    if family_status_id == 1:
        points += 2
    if family_status_id == 4:    
        points += 3
    
    # Levando em consideração a taxa de inadimplência em relação a renda mensal do cliente
    if income_status == "good income" or income_status == "low income":
        points += 1
    if income_status == "median income":
        points += 2
    if income_status == "reasonable income":
        points += 3
        
    return points  

In [None]:
# Aplicando coluna que aplica a quantidade de pontos:

credit_scoring['points'] = credit_scoring.apply(calculate_points, axis=1)

credit_scoring.head()

### Coletando Dados para a Hipótese 4 <a id='dados_finalidades'></a>

In [None]:
# Verificando valores da tabela "purpose"
credit_scoring['purpose'].value_counts(dropna=False).sort_values()

In [None]:
# Categorizando a coluna purpose:

def purpose_categorizing(row):
    purpose = row['purpose']
    
    if purpose == "to become educated" or purpose == "profile education" or purpose == "getting higher education" or purpose == "getting an education" or purpose == "to get a supplementary education" or purpose == "education" or purpose == "university education" or purpose == "supplementary education" or purpose == "going to university":
        return "education"
    if purpose == "purchase of a car" or purpose == "car purchase" or purpose == "cars" or purpose == "to own a car" or purpose == "second-hand car purchase" or purpose == "buying a second-hand car" or purpose == "buying my own car" or purpose == "to buy a car" or purpose == "car":
        return "car"
    if purpose == "housing renovation" or purpose == "buy residential real estate" or purpose == "buy real estate" or purpose == "transactions with my real estate" or purpose == "construction of own property" or purpose == "building a property" or purpose == "purchase of the house for my family" or purpose == "property" or purpose == "purchase of my own house" or purpose == "building a real estate" or purpose == "housing transactions" or purpose == "transactions with commercial real estate" or purpose == "housing" or purpose == "buying property for renting out" or purpose == "purchase of the house" or purpose == "buy commercial real estate" or purpose == "real estate transactions":
        return "property"
    if purpose == "having a wedding" or purpose == "to have a wedding" or purpose == "wedding ceremony":
        return "wedding"
    else:
        return "unknown"

In [None]:
# Aplicando função na coluna
credit_scoring['purpose'] = credit_scoring.apply(purpose_categorizing, axis=1)

credit_scoring.head()

In [None]:
# Validando os valores da "purpose"
credit_scoring['purpose'].value_counts(dropna=False).sort_values()


In [None]:
# Comparando os motivos de empréstimos com os clientes que não o pagam
credit_scoring.groupby('purpose')['debt'].sum().sort_values()

In [None]:
# Calculando taxa em relação a renda dos clientes e a de crédito
avg_purpose_debt = (credit_scoring.groupby('purpose')['debt'].sum().sort_values() / credit_scoring['purpose'].value_counts(dropna=False).sort_values()) *100
avg_purpose_debt.sort_values()

In [None]:
# Acrescentando mais uma validação em nossa função "calculate_points"

def calculate_points(row):
    children = row['children']
    family_status_id = row['family_status_id']
    income_status = row['income_status']
    purpose = row['purpose']
    
    points = 0
    
    # Levando em consideração a taxa de inadimplência de clientes que possuem filhos
    if children == 0 or children == 3:
        points += 1
    if children == 1 or children == 2:
        points += 2
    
    # Levando em consideração a taxa de inadimplência em relação ao estado civil do cliente
    if family_status_id == 3 or family_status_id == 0:
        points += 1
    if family_status_id == 1:
        points += 2
    if family_status_id == 4:    
        points += 3
    
    # Levando em consideração a taxa de inadimplência em relação a renda mensal do cliente
    if income_status == "good income" or income_status == "low income":
        points += 1
    if income_status == "median income":
        points += 2
    if income_status == "reasonable income":
        points += 3
    
    # Levando em consideração a taxa de inadimplência em relação ao motivo de empréstimo do cliente
    if purpose == "property" or purpose == "wedding":
        points += 1
    if purpose == "education" or purpose == "car":
        points += 2
        
    return points  

In [None]:
# Testando função
row_values = [0, 2, "reasonable income","car"]
row_columns = ['children','family_status_id', 'income_status','purpose']
row = pd.Series(data=row_values, index=row_columns)
print(calculate_points(row))

In [None]:
# Aplicando coluna que aplica a quantidade de pontos:

credit_scoring['points'] = credit_scoring.apply(calculate_points, axis=1)

credit_scoring.head()

In [None]:
# Verificando os valores da coluna "points":

credit_scoring['points'].value_counts(dropna=False).sort_values()

**Observação:**

Quando maior o número da coluna "points"(máximo 10 pontos), maior a chance do cliente não pagar o seu empréstimo.

[Voltar ao Índice](#back)

---

## Validando Hipóteses <a id='hypotheses'></a>


### Existe Alguma Relação Entre ter Filhos e Pagar um Empréstimo em dia? <a id='filhos'></a>

**Resposta**

Podemos notar com os valores das porcentagens que quando o cliente possui um filho ou mais, a tendência é que a taxa aumente, ou seja, que há mais possibilidade dele não pagar seu empréstimo.

In [None]:
avg_children_debt.sort_values()

OBS: A única execção da taxa é referente aos clientes que possuem 5 filhos, entretando temos muito pouca amostra desses clientes.

### Existe Alguma Relação Entre o Estado Civil e o Pagamento de um Empréstimo no prazo Estipulado? <a id='estado_civil'></a>

**Resposta**

Existe sim, foi realizado análise pelos porcentuais é foi possível ver nitídamente a diferença entre as taxas, dependendo do estado civil do cliente.

In [None]:
avg_family_status_debt.sort_values()

### Existe Uma Relação Entre o Nível de Renda e o Pagamento de um Empréstimo no Prazo? <a id='renda'></a>

**Resposta**

Após separar os valores das rendas em catagorias, foi possível realizar algumas análises que notar que quanto mais alto a renda, maior a probabilidade de não deixar de pagar o empréstimo

In [None]:
avg_total_income_debt.sort_values()

### Como as diferentes finalidades do empréstimo afetam o pagamento pontual do empréstimo? <a id='finalidades'></a>

**Resposta**

Depois de categorizar todos os motivos de empréstimo dos clientes, foi realizado um calculo para trazer a porcentagem em relação a empréstimos não pagos e os seus motivos.

Onde foi possível chegar a conclusão que comprar um carro ou investir em educação foi o que deixou os empréstimos mais atrasados.

In [None]:
avg_purpose_debt

[Voltar ao Índice](#back)

---

## Conclusão Final  <a id='end'></a>

Neste projeto foi colocado em prática todos as etapas de exploração de dados que foram aprendidas até a sprint 2 do curso "Ciêntista de Dados" da Practicum:

- Leitura dos dados
- Pré-processamento
- Análise dos dados
- Apresentado os resultados

Utilizei a linguagem python e a biblioteca pandas para realizar a manipulação desses dados, me possibilitando tratar todos os problemas encontrados na nossa amostra.

Depois dos dados tratados, foi realizado a categorização dos dados, onde foi criado uma nova coluna no dataframe, "points", onde é possível verificar a pontuação de um determinado cliente. Lembrando que quanto maior o número, maior é a tendência deste não pagar o empréstimo.

E no final comprovamos com números que as nossas hipóteses estavam corretas!

[Voltar ao Índice](#back)