<img src="images/dataset-cover.jpg" width=796 height=400 />

# Sobre o conjunto de dados

## Declaração do problema

Você está trabalhando como cientista de dados em uma empresa financeira global. Ao longo dos anos, a empresa coletou dados bancários básicos e muitas informações relacionadas ao crédito. A gestão quer construir um sistema inteligente para segregar as pessoas em faixas de pontuação de crédito para reduzir os esforços manuais.

## Tarefa

Dadas as informações relacionadas ao crédito de uma pessoa, construir um modelo de aprendizado de máquina que possa classificar a pontuação de crédito.

### Importação das Bibliotecas

In [1]:
# BIBLIOTECAS
import pandas as pd
import numpy as np
import warnings
import seaborn as sns
import matplotlib.pyplot as plt

### Configurações

In [2]:
# Mostra todas as colunas do dataset
pd.set_option('display.max_columns', None)

# Desabilita os avisos - warnings
warnings.filterwarnings("ignore")

### Carregamento dos datasets

In [3]:
train = pd.read_csv('datasets/train.csv', low_memory=False)
test = pd.read_csv('datasets/test.csv', low_memory=False)

### Visualização dos Datasets

In [4]:
train.head(1)

Unnamed: 0,ID,Customer_ID,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,Num_Credit_Card,Interest_Rate,Num_of_Loan,Type_of_Loan,Delay_from_due_date,Num_of_Delayed_Payment,Changed_Credit_Limit,Num_Credit_Inquiries,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance,Credit_Score
0,0x1602,CUS_0xd40,January,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,4,3,4,"Auto Loan, Credit-Builder Loan, Personal Loan,...",3,7,11.27,4.0,_,809.98,26.82262,22 Years and 1 Months,No,49.574949,80.41529543900253,High_spent_Small_value_payments,312.49408867943663,Good


In [5]:
test.head(1)

Unnamed: 0,ID,Customer_ID,Month,Name,Age,SSN,Occupation,Annual_Income,Monthly_Inhand_Salary,Num_Bank_Accounts,Num_Credit_Card,Interest_Rate,Num_of_Loan,Type_of_Loan,Delay_from_due_date,Num_of_Delayed_Payment,Changed_Credit_Limit,Num_Credit_Inquiries,Credit_Mix,Outstanding_Debt,Credit_Utilization_Ratio,Credit_History_Age,Payment_of_Min_Amount,Total_EMI_per_month,Amount_invested_monthly,Payment_Behaviour,Monthly_Balance
0,0x160a,CUS_0xd40,September,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,4,3,4,"Auto Loan, Credit-Builder Loan, Personal Loan,...",3,7,11.27,2022.0,Good,809.98,35.030402,22 Years and 9 Months,No,49.574949,236.64268203272132,Low_spent_Small_value_payments,186.26670208571767


- Os datasets train e test são idênticos, ou seja, eles já estão separados corretamente para o uso da criação dos modelos de Machine Learning.


### Informações do Datasets

In [6]:
# Dimensão das linhas e variáveis dos Datasets
print('Quantidade de dados em train: ', train.shape[0])
print('Quantidade de variáveis em train: ', train.shape[1])
print('------------------------------------')
print('Quantidade de dados em test: ', test.shape[0])
print('Quantidade de variáveis em test: ', test.shape[1])

Quantidade de dados em train:  100000
Quantidade de variáveis em train:  28
------------------------------------
Quantidade de dados em test:  50000
Quantidade de variáveis em test:  27


In [7]:
# Infos train
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 28 columns):
 #   Column                    Non-Null Count   Dtype  
---  ------                    --------------   -----  
 0   ID                        100000 non-null  object 
 1   Customer_ID               100000 non-null  object 
 2   Month                     100000 non-null  object 
 3   Name                      90015 non-null   object 
 4   Age                       100000 non-null  object 
 5   SSN                       100000 non-null  object 
 6   Occupation                100000 non-null  object 
 7   Annual_Income             100000 non-null  object 
 8   Monthly_Inhand_Salary     84998 non-null   float64
 9   Num_Bank_Accounts         100000 non-null  int64  
 10  Num_Credit_Card           100000 non-null  int64  
 11  Interest_Rate             100000 non-null  int64  
 12  Num_of_Loan               100000 non-null  object 
 13  Type_of_Loan              88592 non-null   ob

In [8]:
# Infos test                                                
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 27 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID                        50000 non-null  object 
 1   Customer_ID               50000 non-null  object 
 2   Month                     50000 non-null  object 
 3   Name                      44985 non-null  object 
 4   Age                       50000 non-null  object 
 5   SSN                       50000 non-null  object 
 6   Occupation                50000 non-null  object 
 7   Annual_Income             50000 non-null  object 
 8   Monthly_Inhand_Salary     42502 non-null  float64
 9   Num_Bank_Accounts         50000 non-null  int64  
 10  Num_Credit_Card           50000 non-null  int64  
 11  Interest_Rate             50000 non-null  int64  
 12  Num_of_Loan               50000 non-null  object 
 13  Type_of_Loan              44296 non-null  object 
 14  Delay_

###  Missing Values

In [9]:
train.isna().sum() / len(train) * 100

ID                           0.000
Customer_ID                  0.000
Month                        0.000
Name                         9.985
Age                          0.000
SSN                          0.000
Occupation                   0.000
Annual_Income                0.000
Monthly_Inhand_Salary       15.002
Num_Bank_Accounts            0.000
Num_Credit_Card              0.000
Interest_Rate                0.000
Num_of_Loan                  0.000
Type_of_Loan                11.408
Delay_from_due_date          0.000
Num_of_Delayed_Payment       7.002
Changed_Credit_Limit         0.000
Num_Credit_Inquiries         1.965
Credit_Mix                   0.000
Outstanding_Debt             0.000
Credit_Utilization_Ratio     0.000
Credit_History_Age           9.030
Payment_of_Min_Amount        0.000
Total_EMI_per_month          0.000
Amount_invested_monthly      4.479
Payment_Behaviour            0.000
Monthly_Balance              1.200
Credit_Score                 0.000
dtype: float64

In [10]:
test.isna().sum() / len(train) * 100

ID                          0.000
Customer_ID                 0.000
Month                       0.000
Name                        5.015
Age                         0.000
SSN                         0.000
Occupation                  0.000
Annual_Income               0.000
Monthly_Inhand_Salary       7.498
Num_Bank_Accounts           0.000
Num_Credit_Card             0.000
Interest_Rate               0.000
Num_of_Loan                 0.000
Type_of_Loan                5.704
Delay_from_due_date         0.000
Num_of_Delayed_Payment      3.498
Changed_Credit_Limit        0.000
Num_Credit_Inquiries        1.035
Credit_Mix                  0.000
Outstanding_Debt            0.000
Credit_Utilization_Ratio    0.000
Credit_History_Age          4.470
Payment_of_Min_Amount       0.000
Total_EMI_per_month         0.000
Amount_invested_monthly     2.271
Payment_Behaviour           0.000
Monthly_Balance             0.562
dtype: float64

- Temos valores ausentes (Missing Values) nos Datasets.
- Possiveis variáveis com dtypes diferentes nos Datasets.

### Renomear as colunas

In [11]:
lst_columns = {'Customer_ID':'id_cliente',
               'Month':'mes',
               'Name':'nome',
               'Age':'idade',
               'SSN':'cpf',
               'Occupation':'profissao',
               'Annual_Income':'renda_anual',
               'Monthly_Inhand_Salary':'salario_mensal',
               'Num_Bank_Accounts':'numero_de_contas_bancarias',
               'Num_Credit_Card':'numero_de_cartoes_de_credito',
               'Interest_Rate':'taxa_de_juro',
               'Num_of_Loan':'numero_de_emprestimos',
               'Type_of_Loan':'tipo_de_emprestimo',
               'Delay_from_due_date':'atraso_na_data_de_vencimento',
               'Num_of_Delayed_Payment':'numero_de_atrasos_de_pagamento',
               'Changed_Credit_Limit':'limite_de_credito_alterado',
               'Num_Credit_Inquiries':'numero_de_consultas_de_credito',
               'Credit_Mix':'mix_de_credito',
               'Outstanding_Debt':'divida_a_pagar',
               'Credit_Utilization_Ratio':'taxa_de_utilizacao_de_credito',
               'Credit_History_Age':'tempo_do_historico_de_credito',
               'Payment_of_Min_Amount':'pagamento_do_valor_minimo',
               'Total_EMI_per_month':'total_por_mes_parcelas_mensais_faceis_emi',
               'Amount_invested_monthly':'valor_investido_mensalmente',
               'Payment_Behaviour':'comportamento_do_pagamento',
               'Monthly_Balance':'saldo_mensal',
               'Credit_Score':'pontuacao_de_credito'
               }

In [12]:
train.rename(
    columns = lst_columns, inplace = True
)

In [13]:
test.rename(
    columns = lst_columns, inplace = True
)

### Alterar os tipos das colunas nos Datasets

In [14]:
# Lista das colunas para conversão
lst_columns_to_change = ['idade', 'renda_anual', 
                      'numero_de_emprestimos', 'numero_de_atrasos_de_pagamento',
                      'limite_de_credito_alterado', 'divida_a_pagar', 'valor_investido_mensalmente',
                      'saldo_mensal']

# loop para percorrer a partir da lista lst_columns_to_change os datasets e mudar o tipo das colunas train e test

# train
for i_train in lst_columns_to_change:
    train[i_train] = pd.to_numeric(train[i_train], errors = 'coerce')

# test
for i_test in lst_columns_to_change:
    test[i_test] = pd.to_numeric(test[i_test], errors = 'coerce')
    

# aqui foi mudado individualmente a coluna idade para o formato int64
train['idade'] = train['idade'].astype('Int64')
test['idade'] = test['idade'].astype('Int64')


## Análise Exploratória dos Dados

### Análise Univariada

#### 1. Qual é a distribuição dos meses dos clientes?

In [15]:
train.mes.value_counts()

January     12500
February    12500
March       12500
April       12500
May         12500
June        12500
July        12500
August      12500
Name: mes, dtype: int64

- Como meses são variáveis qualitativas ordinais, seria ideal ordenar numericamente cada mês. 

In [16]:
month_map = { 'January':1,
              'February':2,
              'March':3,
              'April':4,
              'May':5,
              'June':6,
              'july':7,
              'August':8}

train['mes'] = train['mes'].map(month_map)
test['mes'] = test['mes'].map(month_map)

train['mes'] = pd.to_numeric(train['mes'], errors = 'coerce').astype('Int64')
test['mes'] = pd.to_numeric(test['mes'], errors = 'coerce').astype('Int64')

In [17]:
train.mes.value_counts()

1    12500
2    12500
3    12500
4    12500
5    12500
6    12500
8    12500
Name: mes, dtype: Int64

- São 12.500 valores em cada mês de Janeiro até o mês de Agosto.

#### 2. Qual é a distribuição da idade dos clientes?

In [23]:
train.idade.value_counts().sort_values(ascending = False)

38      2833
28      2829
31      2806
26      2792
32      2749
        ... 
7178       1
5621       1
1908       1
3023       1
1342       1
Name: idade, Length: 1661, dtype: Int64

- Temos idades fora da realidade, ex: 1342, 669, 2620, será preciso entender melhor o que acontece.

In [18]:
train.idade.unique()

<IntegerArray>
[  23, -500, <NA>,   28,   34,   54,   55,   21,   31,   33,
 ...
 6135,  920, 4402, 8490, 2406, 8315, 8425, 6476, 2263, 1342]
Length: 1662, dtype: Int64

In [20]:
train.idade.max()

8698

In [21]:
train.idade.min()

-500

- Há valores sem sentido na coluna idade, mas utilizando o value_counts a idade 38 apareceu com mais frequência.

In [24]:
train.head()

Unnamed: 0,ID,id_cliente,mes,nome,idade,cpf,profissao,renda_anual,salario_mensal,numero_de_contas_bancarias,numero_de_cartoes_de_credito,taxa_de_juro,numero_de_emprestimos,tipo_de_emprestimo,atraso_na_data_de_vencimento,numero_de_atrasos_de_pagamento,limite_de_credito_alterado,numero_de_consultas_de_credito,mix_de_credito,divida_a_pagar,taxa_de_utilizacao_de_credito,tempo_do_historico_de_credito,pagamento_do_valor_minimo,total_por_mes_parcelas_mensais_faceis_emi,valor_investido_mensalmente,comportamento_do_pagamento,saldo_mensal,pontuacao_de_credito
0,0x1602,CUS_0xd40,1,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,4,3,4.0,"Auto Loan, Credit-Builder Loan, Personal Loan,...",3,7.0,11.27,4.0,_,809.98,26.82262,22 Years and 1 Months,No,49.574949,80.415295,High_spent_Small_value_payments,312.494089,Good
1,0x1603,CUS_0xd40,2,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,4,3,4.0,"Auto Loan, Credit-Builder Loan, Personal Loan,...",-1,,11.27,4.0,Good,809.98,31.94496,,No,49.574949,118.280222,Low_spent_Large_value_payments,284.629162,Good
2,0x1604,CUS_0xd40,3,Aaron Maashoh,-500,821-00-0265,Scientist,19114.12,,3,4,3,4.0,"Auto Loan, Credit-Builder Loan, Personal Loan,...",3,7.0,,4.0,Good,809.98,28.609352,22 Years and 3 Months,No,49.574949,81.699521,Low_spent_Medium_value_payments,331.209863,Good
3,0x1605,CUS_0xd40,4,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,,3,4,3,4.0,"Auto Loan, Credit-Builder Loan, Personal Loan,...",5,4.0,6.27,4.0,Good,809.98,31.377862,22 Years and 4 Months,No,49.574949,199.458074,Low_spent_Small_value_payments,223.45131,Good
4,0x1606,CUS_0xd40,5,Aaron Maashoh,23,821-00-0265,Scientist,19114.12,1824.843333,3,4,3,4.0,"Auto Loan, Credit-Builder Loan, Personal Loan,...",6,,11.27,4.0,Good,809.98,24.797347,22 Years and 5 Months,No,49.574949,41.420153,High_spent_Medium_value_payments,341.489231,Good
