Algoritmo Naive Bayes

In [2]:
# Bibliotecas necessárias
import pandas as pd
# Dividir os dados entre treino e teste
from sklearn.model_selection import train_test_split
# Algoritmo Naive Bayes
from sklearn.naive_bayes import GaussianNB
# Realizar o label encoder
from sklearn.preprocessing import LabelEncoder
# Criar a matriz de confusão e obter a acurácia
from sklearn.metrics import confusion_matrix, accuracy_score
# Modelo para obter os atributos mais importantes da base
from sklearn.ensemble import ExtraTreesClassifier

In [3]:
# Leitura da base de dados
database = pd.read_csv('credit.csv')
# Exibe as primeiras cinco linhas da base de dados
database.head()

Unnamed: 0,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,other_parties,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,<0,6,'critical/other existing credit',radio/tv,1169,'no known savings',>=7,4,'male single',none,...,'real estate',67,none,own,2,skilled,1,yes,yes,good
1,0<=X<200,48,'existing paid',radio/tv,5951,<100,1<=X<4,2,'female div/dep/mar',none,...,'real estate',22,none,own,1,skilled,1,none,yes,bad
2,'no checking',12,'critical/other existing credit',education,2096,<100,4<=X<7,2,'male single',none,...,'real estate',49,none,own,1,'unskilled resident',2,none,yes,good
3,<0,42,'existing paid',furniture/equipment,7882,<100,4<=X<7,2,'male single',guarantor,...,'life insurance',45,none,'for free',1,skilled,2,none,yes,good
4,<0,24,'delayed previously','new car',4870,<100,1<=X<4,3,'male single',none,...,'no known property',53,none,'for free',2,skilled,2,none,yes,bad


In [4]:
# Seleciona os atributos da base de dados
X = pd.DataFrame(database.iloc[:,0:20])
# Seleciona a classe da base de dados
y = pd.DataFrame(database.iloc[:,20])

Como o Naive Bayes não consegue processar dados que são categóricos, é necessário fazer a transformação deles em variáveis numéricas através do Label Encoder

In [5]:
# Índice das colunas que possuem informações categóricas
categorical_variables = [0, 2, 3, 5, 6, 8, 9, 11, 13, 14, 16, 18, 19]

# Laço de repetição que irá transformar as colunas categóricas em numéricas
for i in categorical_variables:
    X.iloc[:,i] = LabelEncoder().fit_transform(X.iloc[:,i])

In [6]:
# Divisão da base de dados entre treinamento e teste, sendo 70% para treinamento e 30% para teste
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X,
                                                                  y,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

Para se obter um melhor modelo de Machine Learning é interessante que seja selecionado apenas as colunas mais relevantes da base de dados, através de um método que irá retornar a importância de cada atributo

In [7]:
# Cria um modelo a partir de um algoritmo RandomForest
classifier = ExtraTreesClassifier()
classifier.fit(X_treinamento, y_treinamento)
# Exibe o valor de relevância de cada uma das variáveis, afim de selecionar apenas as que possuem os maiores valores
print(classifier.feature_importances_)

  classifier.fit(X_treinamento, y_treinamento)


[0.10948064 0.08791166 0.06107924 0.05926906 0.08233415 0.04707562
 0.0531162  0.05142252 0.04520691 0.02419854 0.05059258 0.04973894
 0.06795756 0.03589957 0.03569208 0.03590695 0.04232623 0.02384893
 0.02922612 0.00771651]


In [8]:
# Cria um dataframe com os nomes das colunas e os scores de cada uma delas de maneira decrescente
feature_importances = pd.DataFrame(classifier.feature_importances_,
                                   index = X.columns,
                                   columns = ['importance']).sort_values('importance', ascending = False)

feature_importances

Unnamed: 0,importance
checking_status,0.109481
duration,0.087912
credit_amount,0.082334
age,0.067958
credit_history,0.061079
purpose,0.059269
employment,0.053116
installment_commitment,0.051423
residence_since,0.050593
property_magnitude,0.049739


In [9]:
# Seleciona apenas as cinco variáveis da base de dados que possuem maior grau de relevância
X = X[['checking_status', 'duration', 'credit_amount', 'age', 'credit_history']]
X

Unnamed: 0,checking_status,duration,credit_amount,age,credit_history
0,2,6,1169,67,1
1,1,48,5951,22,3
2,0,12,2096,49,1
3,2,42,7882,45,3
4,2,24,4870,53,2
...,...,...,...,...,...
995,0,12,1736,31,3
996,2,30,3857,40,3
997,0,12,804,38,3
998,2,45,1845,23,3


In [10]:
# Divisão da base de dados entre treinamento e teste (30% para testar e 70% para treinar)
X_treinamento, X_teste, y_treinamento, y_teste = train_test_split(X,
                                                                  y,
                                                                  test_size = 0.3,
                                                                  random_state = 0)

In [11]:
# Criação e treinamento do modelo
naive_bayes = GaussianNB()
naive_bayes.fit(X_treinamento, y_treinamento)

  y = column_or_1d(y, warn=True)


GaussianNB()

In [12]:
# Previsões utilizando os registros de teste
predict = naive_bayes.predict(X_teste)
predict

array(['bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'bad', 'bad', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'good',
       'good', 'bad', 'good', 'good', 'good', 'bad', 'good', 'good',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'bad', 'good', 'good', 'good', 'bad', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'bad', 'good', 'good',
       'good', 'good', 'good', 'good', 'good', 'good', 'bad', 'bad',
       'good', 'good', 'good', 'good', 'good', 'good', 'good', 'good',
       'bad', 'bad', 'good', 'good', 'good', 'good', 'good', 'bad',
       'good', 'good', 'good', 'bad', 'good', 'good', 'good', 'good',
       'good', 'good', 'b

In [13]:
# Cria a matriz de confusão
confusion = confusion_matrix(y_teste, predict)
confusion

array([[ 24,  62],
       [ 20, 194]], dtype=int64)

In [14]:
# Obtêm a acurácia obtida pelo algoritmo de Naive Bayes
accuracy = accuracy_score(y_teste, predict)
accuracy

0.7266666666666667

A acurácia obtida pelo algoritmo de Naive Bayes foi de 72,6%