In [504]:
# Autor: Valkson Saraiva

# Fonte para Download do Dataset: https://www.openml.org/d/31

# Descrição dos dados: 
# Este conjunto de dados classifica as pessoas descritas por um conjunto de atributos como riscos de crédito bons ou ruins.

# Algoritmo de Classificação: Random Forest Classifier

import pandas as pd
from sklearn import preprocessing
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import accuracy_score
from sklearn.utils import resample
from sklearn.metrics import confusion_matrix

In [479]:
data = pd.read_csv('C:/dataset_31_credit-g.csv')

In [480]:
# Transforma classes em 0 ou 1 e verifica balanceamento
class_le = preprocessing.LabelEncoder()
data["class"] = class_le.fit_transform(data['class'])
data['class'].value_counts()

1    700
0    300
Name: class, dtype: int64

In [481]:
# Faz o balanceamento das classes, pois tinham 700 registros em uma e apenas 300 na outra.
# O melhor resultado foi alcançado replicando os dados da classe minoritária até chegar aos 700 da classe majoritária
df_majority = data[data["class"]==1]
df_minority = data[data["class"]==0]

# Replicando os dados da classe minoritária até chegar aos 700 da classe majoritária
df_minority_upsampled = resample(df_minority, 
                                 replace=True,     # sample with replacement
                                 n_samples=700,    # to match majority class
                                 random_state=123) # reproducible results
data = pd.concat([df_majority, df_minority_upsampled])

# Reduzindo a classe majoritária aos 300 da classe minoritária
#df_majority_downsampled = resample(df_majority, 
#                                 replace=False,    # sample without replacement
#                                 n_samples=300,     # to match minority class
#                                 random_state=123) # reproducible results
#data = pd.concat([df_minority, df_majority_downsampled])
 
# Exibindo as quantidades de registros de cada classe
data["class"].value_counts()

1    700
0    700
Name: class, dtype: int64

In [482]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["checking_status"].unique()
checking_status_mapper = {'\'no checking\'':1,
                '\'<0\'':2, 
                '\'0<=X<200\'':3,
                '\'>=200\'':4}

data = pd.concat([data, pd.get_dummies(data['checking_status'].replace(checking_status_mapper),prefix='checking_status')], axis=1)

In [483]:
#Reescalando dados numéricos
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))
duration_scale = minmax_scale.fit_transform(data["duration"].values.reshape(-1,1))
data["duration"] = duration_scale

age_scale = minmax_scale.fit_transform(data["age"].values.reshape(-1,1))
data["age"] = age_scale

credit_amount_scale = minmax_scale.fit_transform(data["credit_amount"].values.reshape(-1,1))
data["credit_amount"] = credit_amount_scale




In [484]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["credit_history"].unique()
credit_history_mapper = {
                '\'critical/other existing credit\'':1,
                '\'existing paid\'':2, 
                '\'delayed previously\'':3,
                '\'no credits/all paid\'':4,
                '\'all paid\'':5}

data = pd.concat([data, pd.get_dummies(data['credit_history'].replace(credit_history_mapper),prefix='credit_history')], axis=1)

In [485]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["purpose"].unique()
purpose_mapper = {
                'radio/tv':1,
                'education':2, 
                'furniture/equipment':3,
                '\'new car\'':4,
                '\'used car\'':5,
                'business':6,
                '\'domestic appliance\'':7,
                'repairs':8,
                'other':9,
                'retraining':10}

data = pd.concat([data, pd.get_dummies(data['purpose'].replace(purpose_mapper),prefix='purpose')], axis=1)

In [486]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["savings_status"].unique()
savings_status_mapper = {
                '\'no known savings\'':1,
                '\'<100\'':2, 
                '\'100<=X<500\'':3,
                '\'500<=X<1000\'':4,
                '\'>=1000\'':5}

data = pd.concat([data, pd.get_dummies(data['savings_status'].replace(savings_status_mapper),prefix='savings_status')], axis=1)

In [487]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["employment"].unique()
employment_mapper = {
                'unemployed':1,
                '\'<1\'':2, 
                '\'1<=X<4\'':3,
                '\'4<=X<7\'':4,
                '\'>=7\'':5}

data = pd.concat([data, pd.get_dummies(data['employment'].replace(employment_mapper),prefix='employment')], axis=1)

In [488]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["personal_status"].unique()
personal_status_mapper = {
                '\'male single\'':1,
                '\'female div/dep/mar\'':2, 
                '\'male div/sep\'':3,
                '\'male mar/wid\'':4}

data = pd.concat([data, pd.get_dummies(data['personal_status'].replace(personal_status_mapper),prefix='personal_status')], axis=1)

In [489]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["other_parties"].unique()
other_parties_mapper = {
                'none':1,
                'guarantor':2, 
                '\'co applicant\'':3}

data = pd.concat([data, pd.get_dummies(data['other_parties'].replace(other_parties_mapper),prefix='other_parties')], axis=1)

In [490]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["property_magnitude"].unique()
property_magnitude_mapper = {
                '\'real estate\'':1,
                '\'life insurance\'':2, 
                '\'no known property\'':3,
                'car':4}

data = pd.concat([data, pd.get_dummies(data['property_magnitude'].replace(property_magnitude_mapper),prefix='property_magnitude')], axis=1)

In [491]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["other_payment_plans"].unique()
other_payment_plans_mapper = {
                'none':1,
                'bank':2, 
                'stores':3}

data = pd.concat([data, pd.get_dummies(data['other_payment_plans'].replace(other_payment_plans_mapper),prefix='other_payment_plans')], axis=1)

In [492]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["housing"].unique()
housing_mapper = {
                'own':1,
                '\'for free\'':2, 
                'rent':3}

data = pd.concat([data, pd.get_dummies(data['housing'].replace(housing_mapper),prefix='housing')], axis=1)

In [493]:
# Transformando dados categóricos em novas colunas(features) com 0 ou 1
# Alterando os valores para número, para o nome das features não ficarem muito extensos.
# Incluindo o prefixo das colunas com o nome original da feature

#data["job"].unique()
job_mapper = {
                'skilled':1,
                '\'unskilled resident\'':2, 
                '\'high qualif/self emp/mgmt\'':3, 
                '\'unemp/unskilled non res\'':4}

data = pd.concat([data, pd.get_dummies(data['job'].replace(job_mapper),prefix='job')], axis=1)

In [494]:
# Transformando os valores em 0 ou 1
own_telephone_le = preprocessing.LabelEncoder()
data["own_telephone"] = own_telephone_le.fit_transform(data['own_telephone'])

In [495]:
# Transformando os valores em 0 ou 1
foreign_worker_le = preprocessing.LabelEncoder()
data["foreign_worker"] = foreign_worker_le.fit_transform(data['foreign_worker'])

In [496]:
# Criando vetor para filtrar as features selecionadas para treinar o modelo
features = ['checking_status_1', 'checking_status_2','checking_status_3','checking_status_4','duration',
            'credit_history_1','credit_history_2','credit_history_3', 'credit_history_4','credit_history_5',
            'purpose_1','purpose_2','purpose_3','purpose_4','purpose_5','purpose_6','purpose_7','purpose_8','purpose_9',
            'purpose_10','credit_amount','savings_status_1','savings_status_2','savings_status_3','savings_status_4',
            'savings_status_5','employment_1','employment_2','employment_3','employment_4','employment_5',
            'installment_commitment','personal_status_1','personal_status_2' ,'personal_status_3' ,'personal_status_4',
            'other_parties_1','other_parties_2','other_parties_3','residence_since',
            'property_magnitude_1','property_magnitude_2','property_magnitude_3','property_magnitude_4',
            'age','other_payment_plans_1','other_payment_plans_2','other_payment_plans_3','housing_1','housing_2','housing_3',
            'existing_credits','job_1','job_2','job_3','job_4','num_dependents','own_telephone','foreign_worker'
           ]

In [497]:
# Separando os dados de treinamento e teste do modelo. 30% para teste.
X_train, X_test, y_train, y_test = train_test_split(data[features], data["class"], test_size=0.3, random_state=0)

In [498]:
# Criando a instância do random forest classifier para identificar quais features mais representam os dados
clf = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1)

# Train the classifier
clf.fit(X_train, y_train)

# Print the name and gini importance of each feature
for feature in zip(features, clf.feature_importances_):
    print(feature)

('checking_status_1', 0.062122061567868286)
('checking_status_2', 0.038024977033000042)
('checking_status_3', 0.015708140730398751)
('checking_status_4', 0.0085763691989088914)
('duration', 0.075815079450171588)
('credit_history_1', 0.025170614409581946)
('credit_history_2', 0.012992843690814763)
('credit_history_3', 0.0085389627856566012)
('credit_history_4', 0.012116276094129011)
('credit_history_5', 0.0078592507655325678)
('purpose_1', 0.012722074782807086)
('purpose_2', 0.0080030694949578558)
('purpose_3', 0.015053354540754753)
('purpose_4', 0.013768777244989573)
('purpose_5', 0.0094131952453632862)
('purpose_6', 0.0075910499321156944)
('purpose_7', 0.0020678379928174705)
('purpose_8', 0.0064200102936834598)
('purpose_9', 0.0014025689034887574)
('purpose_10', 0.00096670277499794522)
('credit_amount', 0.097815050125862266)
('savings_status_1', 0.014149038953822704)
('savings_status_2', 0.021373751343754979)
('savings_status_3', 0.0081396359877101473)
('savings_status_4', 0.005636324

In [499]:
# Criando um seletor para filtrar apenas as features cuja representatividade é superior a 0.03
# Testei incluindo features com menor representatividade mas não obtive um resultado melhor
sfm = SelectFromModel(clf, threshold=0.03)

# Train the selector
sfm.fit(X_train, y_train)

SelectFromModel(estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10000, n_jobs=-1,
            oob_score=False, random_state=0, verbose=0, warm_start=False),
        norm_order=1, prefit=False, threshold=0.03)

In [500]:
# Listando as features filtradas
for feature_list_index in sfm.get_support(indices=True):
    print(features[feature_list_index])

checking_status_1
checking_status_2
duration
credit_amount
installment_commitment
residence_since
age


In [456]:
# Criando novos datasets contendo apenas as features selecionadas
X_important_train = sfm.transform(X_train)
X_important_test = sfm.transform(X_test)

In [501]:
# Criando nova instância do random forest classifier e treinando-o apenas com as features selecionadas
clf_important = RandomForestClassifier(n_estimators=10000, random_state=0, n_jobs=-1)

# Treinando-o apenas com as features selecionadas
clf_important.fit(X_important_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10000, n_jobs=-1,
            oob_score=False, random_state=0, verbose=0, warm_start=False)

In [502]:
# Aplicando os dados de teste para o modelo predizer a classificação
y_pred = clf.predict(X_test)

# Visualizando a acurácia do Modelo
accuracy_score(y_test, y_pred)

0.91190476190476188

In [507]:
# Matriz de confusão - Visualizando se o modelo realmente acertou a marioria das classes, tanto positivas quanto negativas.
print(pd.crosstab(y_test,y_pred,rownames=['Real'], colnames=['Predito'], margins=True))

Predito    0    1  All
Real                  
0        197   16  213
1         21  186  207
All      218  202  420
