# 💲 Credit Card Approval 💲

<br>

In this Notebook we will predict wether a person will pay or not their credit card, using that information, we will discover if a credit card should be approved to that said person.

<br><br>

#### This Notebook is divided into the following sections:

<br>

- Importing 
- Cleaning
- Exploratory Data Visualization
- Training
- Hyperparameter Tuning
- Formatting answer

## 1. Importing

<br>

### 1.1 Importing Tools

In [1]:
# Importing Basic Tools
import pandas            as pd
import seaborn           as sns
import matplotlib.pyplot as plt

In [149]:
# Importing Preprocessing Tools
from sklearn.preprocessing import RobustScaler
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose       import make_column_transformer

### 1.2 Importing Data

In [228]:
# Importing Data

test = pd.read_csv('conjunto_de_teste.csv', index_col = 'id_solicitante')
train = pd.read_csv('conjunto_de_treinamento.csv.zip', index_col = 'id_solicitante')

# 2. Cleaning

<br>

## 2.1 Checking NaN

In [145]:
# Checking if there is any NaN value

# This shows the percentage of information that is Nan
train.isna().sum() * 100 / len(train.index)

produto_solicitado                  0.0
dia_vencimento                      0.0
forma_envio_solicitacao             0.0
tipo_endereco                       0.0
sexo                                0.0
idade                               0.0
estado_civil                        0.0
qtde_dependentes                    0.0
nacionalidade                       0.0
estado_onde_nasceu                  0.0
estado_onde_reside                  0.0
possui_telefone_residencial         0.0
codigo_area_telefone_residencial    0.0
tipo_residencia                     0.0
meses_na_residencia                 0.0
possui_email                        0.0
renda_mensal_regular                0.0
renda_extra                         0.0
possui_cartao_visa                  0.0
possui_cartao_mastercard            0.0
possui_cartao_diners                0.0
possui_cartao_amex                  0.0
possui_outros_cartoes               0.0
qtde_contas_bancarias               0.0
valor_patrimonio_pessoal            0.0


In [146]:
test.isnull().sum() * 100 / len(test.index)

produto_solicitado                  0.0
dia_vencimento                      0.0
forma_envio_solicitacao             0.0
tipo_endereco                       0.0
sexo                                0.0
idade                               0.0
estado_civil                        0.0
qtde_dependentes                    0.0
nacionalidade                       0.0
estado_onde_nasceu                  0.0
estado_onde_reside                  0.0
possui_telefone_residencial         0.0
codigo_area_telefone_residencial    0.0
tipo_residencia                     0.0
meses_na_residencia                 0.0
possui_email                        0.0
renda_mensal_regular                0.0
renda_extra                         0.0
possui_cartao_visa                  0.0
possui_cartao_mastercard            0.0
possui_cartao_diners                0.0
possui_cartao_amex                  0.0
possui_outros_cartoes               0.0
qtde_contas_bancarias               0.0
valor_patrimonio_pessoal            0.0


As we can see, the colunms `profissao_companheiro` and `grau_instrucao_companheiro`, have a higher than 50% of NaN values, because of that, they'll be deleted.

In [229]:
# Creating a list of Dataframes, so all changes are done on both
dfs = [test, train]

# List o f Columns to be deleted
deleted_columns = ['possui_telefone_celular', 
                   'grau_instrucao', 
                   'qtde_contas_bancarias_especiais',
                   'profissao_companheiro',
                   'grau_instrucao_companheiro']

# List of the columns that are numerical
numerical =        ['idade',  
                    'qtde_dependentes',
                    'meses_na_residencia', 
                    'renda_mensal_regular', 
                    'renda_extra', 
                    'qtde_contas_bancarias', 
                    'valor_patrimonio_pessoal',
                    'meses_no_trabalho']

# List of the columns that are categorical
categorical_1  =     ['possui_email', 
                    'possui_cartao_visa', 
                    'possui_cartao_mastercard', 
                    'possui_cartao_diners', 
                    'possui_cartao_amex', 
                    'possui_outros_cartoes', 
                    'possui_carro',   
                    'possui_telefone_trabalho']

categorical_2 =   [ 'vinculo_formal_com_empresa',
                    'profissao', 
                    'ocupacao',
                    'possui_telefone_residencial',
                    'produto_solicitado', 
                    'dia_vencimento', 
                    'forma_envio_solicitacao', 
                    'tipo_endereco', 
                    'sexo', 
                    'estado_civil', 
                    'nacionalidade' ] 
                    
                    
# Deletando por enquanto
categories_multi = ['estado_onde_nasceu', 
                    'estado_onde_reside',
                    'codigo_area_telefone_residencial',
                    'estado_onde_trabalha', 
                    'codigo_area_telefone_trabalho',
                    'local_onde_reside', 
                    'local_onde_trabalha']

def Cleaning_Pipeline(dfs, deleted_columns, numerical, categorical):

    for df in dfs:
        
        # These columns were advised to be deleted
        df.drop(columns = list(deleted_columns + categories_multi) , inplace = True)
        
        df.sexo.replace(' ', 'N', inplace = True)
        
        for col, content in df.items():
            
            if col in list(numerical): 

                df[col].fillna(inplace = True, value = df[col].median())

            elif col not in list(numerical + ['inadimplente']):

                df[col].fillna(inplace = True, value = df[col].mode().iloc[0])
                
                
# Testing Pipeline
Cleaning_Pipeline(dfs,deleted_columns, numerical, categorical)

In [230]:
# Enconding Columns

train = pd.get_dummies(data = train, columns = categorical_1, drop_first = True)
train = pd.get_dummies(data = train, columns = categorical_2)

test = pd.get_dummies(data = test, columns = categorical_1, drop_first = True)
test = pd.get_dummies(data = test, columns = categorical_2)

In [None]:
# Scaling Numerical Data