# Testes com algoritmos de classificação

Vamos analisar o acesso a crédito de uma base de dados.

In [40]:
# Bibliotecas

import pandas as pd
import numpy as np
import statistics
from scipy import stats
import math

In [2]:
# Lendo arquivo

dataset = pd.read_csv("credit_data.csv")

In [3]:
# Observando se alguma coluna tem algum valor nulo
# Nesse caso, a coluna age tem 3 valores nulos, para isso precisamos tratar, nesse caso vamos retirar

dataset.isnull().sum()

i#clientid    0
income        0
age           3
loan          0
c#default     0
dtype: int64

In [4]:
# Retirando os valores nulos

dataset.dropna(inplace=True) # Funcao que tira os valores nulos
dataset.shape

(1997, 5)

In [5]:
X = dataset.iloc[:, 1:4].values # Selecionando os valores
y = dataset.iloc[:, 4].values # Selecionando os valores

In [6]:
# Poderia tambem fazer dessa forma:

# X = dataset.drop(['i#clientid', 'c#default'], axis=1)
# y = dataset['c#default']

In [7]:
# Importando as bibliotecas de machine learning

from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

Para um melhor desempenho e validação do modelo, vamos realizar 30 testes de avaliaçao, pois alguns artigos científicos necessitam de tal forma desenvolver tais validações para o modelo.

In [8]:
resultados_naive_bayes = []
resultados_logistica = []
resultados_random_forest = []

for i in range(30):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=i) 
    # Amostra estratificada baseada no y e o random_state vai mudar a cada iteração as amostras
    
    # Modelo Gaussiano
    naive_bayes = GaussianNB()
    naive_bayes.fit(X_train, y_train)
    resultados_naive_bayes.append(accuracy_score(y_test, naive_bayes.predict(X_test)))
    
    # Modelo Logistico
    logistica = LogisticRegression()
    logistica.fit(X_train, y_train)
    resultados_logistica.append(accuracy_score(y_test, logistica.predict(X_test)))
    
    # Modelo Random Forest
    random_forest = RandomForestClassifier()
    random_forest.fit(X_train, y_train)
    resultados_random_forest.append(accuracy_score(y_test, random_forest.predict(X_test)))

In [9]:
print(f'Resultados Naive Bayes Classifier - 30 Iterações: {resultados_naive_bayes}')
print()
print(f'Resultados Logistic Regression Classifier - 30 Iterações: {resultados_logistica}')
print()
print(f'Resultados Logistic Random Forest Classifier - 30 Iterações: {resultados_random_forest}')

Resultados Naive Bayes Classifier - 30 Iterações: [0.925, 0.925, 0.9325, 0.925, 0.92, 0.905, 0.9175, 0.9175, 0.9125, 0.9325, 0.9225, 0.9125, 0.935, 0.9175, 0.925, 0.9175, 0.9275, 0.92, 0.9325, 0.92, 0.93, 0.905, 0.9175, 0.9325, 0.9425, 0.9375, 0.94, 0.92, 0.935, 0.925]

Resultados Logistic Regression Classifier - 30 Iterações: [0.9325, 0.91, 0.9125, 0.9225, 0.9075, 0.89, 0.91, 0.9075, 0.8775, 0.915, 0.9175, 0.9, 0.925, 0.9175, 0.9025, 0.9125, 0.9525, 0.91, 0.9225, 0.9075, 0.925, 0.905, 0.9075, 0.945, 0.9225, 0.9275, 0.9225, 0.9175, 0.91, 0.9]

Resultados Logistic Random Forest Classifier - 30 Iterações: [0.98, 0.99, 0.98, 0.995, 0.985, 0.9825, 0.985, 0.9875, 0.9775, 0.985, 0.98, 0.975, 0.98, 0.9875, 0.98, 0.9775, 0.9875, 0.9825, 0.99, 0.985, 0.9825, 0.9775, 0.985, 0.9825, 0.9825, 0.9925, 0.9875, 0.985, 0.99, 0.985]


#### Avaliação dos modelos de algortimos propostos anteriormente

In [10]:
# Transformando para o formato numpy, pois o seu formato original é lista

resultados_naive_bayes = np.array(resultados_naive_bayes)
resultados_logistica = np.array(resultados_logistica)
resultados_random_forest = np.array(resultados_random_forest)

##### Extraindo a média dos modelos para cada algoritmo:

In [11]:
resultados_naive_bayes.mean(), resultados_logistica.mean(), resultados_random_forest.mean()

(0.92425, 0.9145, 0.9840833333333333)

##### Moda dos modelos

In [12]:
stats.mode(resultados_naive_bayes), stats.mode(resultados_logistica), stats.mode(resultados_random_forest)

(ModeResult(mode=array([0.9175]), count=array([5])),
 ModeResult(mode=array([0.9075]), count=array([4])),
 ModeResult(mode=array([0.985]), count=array([7])))

##### Mediana

In [13]:
np.median(resultados_naive_bayes), np.median(resultados_logistica), np.median(resultados_random_forest)

(0.925, 0.9125, 0.985)

Percebe-se que não se tem muita varianção da mediana para a média. Nesse caso, os valores são consistentes. 

##### Variância

In [14]:
np.set_printoptions(suppress=True)
np.var(resultados_naive_bayes), np.var(resultados_logistica), np.var(resultados_random_forest)

(8.756250000000001e-05, 0.00020933333333333337, 2.186805555555557e-05)

O algoritmo que obtem mais consistência é o valor que têm-se a menor variância.

In [15]:
np.min([8.756250000000001e-05, 0.00020933333333333337, 3.072222222222222e-05])

3.072222222222222e-05

Nesse caso, o random forest possui a menor variância e possui a melhor consistência do algoritmo.

In [16]:
np.max([8.756250000000001e-05, 0.00020933333333333337, 3.072222222222222e-05])

0.00020933333333333337

O algoritmo que possui maior variação dos resultados em relação a média é o de logistic regression. Logo, é o algoritmo que mais oscila. 

##### Desvio Padrão

In [17]:
np.std(resultados_naive_bayes), np.std(resultados_logistica), np.std(resultados_random_forest)

(0.00935748363610645, 0.014468356276140472, 0.004676329282199402)

O menor desvio padrão é do random forest. De fato, a média é 0.9838, isso indica que os outros valores ficam a uma distância apenas de 0.0055 comparados com o valor da média. 

##### Coeficiente de variação

In [18]:
stats.variation(resultados_naive_bayes)*100, stats.variation(resultados_logistica)*100, stats.variation(resultados_random_forest)*100

(1.0124407504578252, 1.5821056616884057, 0.4751964720670067)

Logo, o coeficiente de variação diz respeito a variação dos dados em relação a média. O Random forest possuí o menor coeficiente de variação.

# Vamos agora utilizar a validação cruzada, para diminuir o coeficiente de variação

In [19]:
from sklearn.model_selection import cross_val_score, KFold

In [20]:
X = dataset.iloc[:, 1:4].values # Selecionando os valores
y = dataset.iloc[:, 4].values # Selecionando os valores

In [21]:
resultados_naive_bayes_cv = []
resultados_logistica_cv = []
resultados_random_forest_cv = []

for i in range(30):
    kfold = KFold(n_splits=10, shuffle = True, random_state = i) # Divisao  da base de dados, em 10 pedaços, pegar os registros sorteados e o random_state varia cada vez executando o for
    
    # Modelo Gaussiano
    naive_bayes = GaussianNB()
    scores = cross_val_score(naive_bayes, X, y, cv=kfold) # cross_val_score é dividido a base de dados em fatia, para fazer o treinamento e testes
    resultados_naive_bayes_cv.append(scores.mean())
    
    # Modelo Logistico
    logistica = LogisticRegression()
    scores = cross_val_score(logistica, X, y, cv=kfold) # Vai ter 10 resultados, 1 resultado para cada pedaço
    resultados_logistica_cv.append(scores.mean()) # Vai retornar a média dos 10 resultados para cada iteraçao, nesse caso ao total será 300 testes por algoritmo, juntando 900 testes
    
    # Modelo Random Forest
    random_forest = RandomForestClassifier()
    scores = cross_val_score(random_forest, X, y, cv=kfold)
    resultados_random_forest_cv.append(scores.mean())

In [22]:
scores # Da ultima iteracao

array([0.99      , 0.99      , 0.985     , 0.99      , 0.97      ,
       0.985     , 0.985     , 0.98994975, 0.98492462, 0.99497487])

In [23]:
scores.mean() # Media da ultima irecao

0.9864849246231155

In [24]:
print("Resultados do Naive Bayes com KFOLD - 30 Médias:")
print(resultados_naive_bayes_cv)

Resultados do Naive Bayes com KFOLD - 30 Médias:
[0.9248618090452261, 0.9249170854271356, 0.9248894472361808, 0.9228819095477387, 0.9248718592964824, 0.9253894472361809, 0.9243844221105528, 0.9248894472361808, 0.9248718592964824, 0.9238894472361808, 0.9253844221105527, 0.9244020100502512, 0.9253743718592965, 0.924394472361809, 0.9253869346733667, 0.9248819095477387, 0.9258844221105527, 0.924894472361809, 0.9238819095477387, 0.9258844221105529, 0.9258944723618091, 0.9253894472361811, 0.92436432160804, 0.9263844221105527, 0.9228944723618092, 0.9253894472361809, 0.9248869346733668, 0.9253919597989949, 0.9253819095477386, 0.9258844221105527]


In [25]:
print("Resultados do Logistic com KFOLD - 30 Médias:")
print(resultados_logistica_cv)

Resultados do Logistic com KFOLD - 30 Médias:
[0.9113718592964826, 0.9103668341708543, 0.918359296482412, 0.9158768844221106, 0.9133417085427136, 0.9108718592964824, 0.9188366834170856, 0.9188969849246231, 0.913356783919598, 0.9148693467336683, 0.9098718592964824, 0.9183542713567838, 0.9183793969849248, 0.9213618090452261, 0.9098643216080402, 0.914356783919598, 0.9103693467336684, 0.915856783919598, 0.9128542713567839, 0.9123668341708543, 0.9208944723618091, 0.9108668341708542, 0.9103467336683417, 0.9133768844221105, 0.9098592964824121, 0.9148768844221105, 0.910859296482412, 0.9113768844221104, 0.9113668341708543, 0.9098442211055277]


In [26]:
print("Resultados do Random Forest com KFOLD - 30 Médias:")
print(resultados_random_forest_cv)

Resultados do Random Forest com KFOLD - 30 Médias:
[0.9874798994974874, 0.9824773869346733, 0.9839773869346734, 0.9854723618090453, 0.9889849246231156, 0.9854798994974875, 0.9874773869346735, 0.9864874371859296, 0.9864773869346735, 0.9864798994974875, 0.9884798994974874, 0.9879698492462312, 0.9864773869346732, 0.9879798994974875, 0.9894899497487437, 0.9874798994974874, 0.9874874371859297, 0.9874748743718593, 0.9849773869346734, 0.9839773869346734, 0.9879773869346733, 0.9874773869346735, 0.9829748743718595, 0.9879798994974875, 0.9874798994974874, 0.9844874371859296, 0.9864798994974875, 0.9869824120603015, 0.9894924623115579, 0.9864849246231155]


Não utilizando o KFOLD:

In [27]:
stats.variation(resultados_naive_bayes)*100, stats.variation(resultados_logistica)*100, stats.variation(resultados_random_forest)*100

(1.0124407504578252, 1.5821056616884057, 0.4751964720670067)

Utilizando o KFOLD:

In [28]:
stats.variation(resultados_naive_bayes_cv)*100, stats.variation(resultados_logistica_cv)*100, stats.variation(resultados_random_forest_cv)*100

(0.08641071566366061, 0.38801026116292653, 0.17795622808493566)

Observando os valores percebe-se que a variação diminui muito em comparação aos valores anteriores, ainda mais, avaliando os modelos observa-se que o naive bayes obteve o menor coeficiente de variação.

# Seleção de atributos utilizando variaância

Conceito da variância para seleção dos melhores atributos para definição do modelo de aprendizagem de máquina.

In [29]:
np.random.rand(50)

array([0.27452804, 0.18747493, 0.07462934, 0.60550817, 0.13149002,
       0.20420578, 0.72402617, 0.11911056, 0.92805432, 0.20887415,
       0.82475314, 0.51394126, 0.40250912, 0.06619833, 0.52760694,
       0.53391448, 0.87052667, 0.61337792, 0.97538812, 0.92425047,
       0.28161264, 0.06250543, 0.49531722, 0.43197204, 0.80873843,
       0.99069919, 0.8795136 , 0.54732117, 0.51237313, 0.71469991,
       0.57671011, 0.07920536, 0.71578347, 0.85729166, 0.49532699,
       0.18361237, 0.72292068, 0.21326841, 0.57657264, 0.06949085,
       0.37736518, 0.44627061, 0.17486813, 0.86273214, 0.52775546,
       0.64013943, 0.34287845, 0.07888737, 0.17272707, 0.73444394])

In [31]:
np.random.randint(0,2)

1

In [33]:
# Criando base de dados

base_selecao = {'a': np.random.rand(20), 
              'b': np.array([0.5] * 20), 
              'classe': np.random.randint(0, 2, size=20)
             }

In [34]:
base_selecao

{'a': array([0.80417469, 0.4698496 , 0.90833012, 0.97174349, 0.51015163,
        0.52448808, 0.96444665, 0.2773719 , 0.91314725, 0.71218456,
        0.61644513, 0.56527899, 0.11817503, 0.3540379 , 0.31350376,
        0.61004323, 0.1143775 , 0.71939473, 0.24600376, 0.22977128]),
 'b': array([0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5,
        0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5]),
 'classe': array([0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1])}

In [36]:
dataset = pd.DataFrame(base_selecao) # transformando para um dataframe
dataset.head()

Unnamed: 0,a,b,classe
0,0.804175,0.5,0
1,0.46985,0.5,0
2,0.90833,0.5,0
3,0.971743,0.5,0
4,0.510152,0.5,0


In [37]:
dataset.describe() # Estatística para a base de dados

Unnamed: 0,a,b,classe
count,20.0,20.0,20.0
mean,0.547146,0.5,0.4
std,0.279673,0.0,0.502625
min,0.114378,0.5,0.0
25%,0.304471,0.5,0.0
50%,0.544884,0.5,0.0
75%,0.74059,0.5,1.0
max,0.971743,0.5,1.0


Std é quanto o valor está afastado da média, é o desvio padrao. 

In [38]:
# Calculando a variância para cada atributo

np.var(dataset['a']), np.var(dataset['b'])

(0.07430621528221719, 0.0)

In [44]:
math.sqrt(0.07430621528221719) # Desvio padrao

0.27259166399986845

In [45]:
X = dataset.iloc[:, 0:2].values 

In [47]:
from sklearn.feature_selection import VarianceThreshold

# Biblioteca responsável por realizar a análise das features mais importantes a partir da variância

In [48]:
selecao = VarianceThreshold(threshold=0.07) # Exclui os valores de atributos menores que o indicado

X_novo = selecao.fit_transform(X)

In [51]:
X_novo.shape # Nota-se que só é utilizado 20 atributos e 1 coluna para o novo df que tem importancia

(20, 1)

In [52]:
selecao.variances_

array([0.07430622, 0.        ])

In [54]:
indices = np.where(selecao.variances_ > 0.07)

É importante ressaltar que atributos com variância muito pequena ou 0, podem ser excluídos da base de dados. Pois, geralmente é notável que os atributos se tornam homogênos e não afetam, não tem relação.