**Validação cruzada**

A validação cruzada é utilizada para verificar qual algoritmo é melhor, isto é, comparar os resultados de diferentes algoritmos. A ideia que trabalhamos até o momento foi dividir a base de dados em conjunto de dados de treinamento e conjunto de dados de teste. Tais dados eram fixos, o que pode acarretar em problemas. Para um determinado conjunto de dados os resultados podem ser diferentes dos resultados obtidos com outra parte do conjunto de dados. Para solucionar esse problema e avaliar qual algoritmo tem melhor eficácia, particionamos o conjunto de dados em partes iguais e executamos o algoritmo o suficiente para utilizar todo os dados em treinamento e teste. Ou seja, se dividirmos o conjunto de dados inicial em 10 partes iguais, na primeira execução a primeira parte será usada no teste e as 9 restantes no treinamento; na segunda execução, a primeira parte e as últimas 7 serão usadas no treinamento, enquanto a segunda parte será utilizada no teste.
Na validação cruzada, o resultado da eficácia será a média das eficácias usando cada partição dos dados.



In [None]:
import numpy as np

In [None]:
#importando as bibliotecas responsáveis pela implementação dos algoritmos de aprendizado de máquina, temos:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

In [None]:
#Importando a biblioteca responsável pela implementação da validação cruzada, temos:
#a variável Kfold faz a partição da base de dados em partes iguais;
#a função cross_val_score recebe os dados particionados e faz os testes com cada parte
from sklearn.model_selection import cross_val_score, KFold

In [None]:
#abrindo a base de dados base credit, temos:
import pickle
with open('credit.pkl','rb') as f:
  x_credit_treinamento, y_credit_treinamento, x_credit_teste,y_credit_teste = pickle.load(f)

In [None]:
x_credit_treinamento.shape, y_credit_treinamento.shape

((1500, 3), (1500,))

In [None]:
x_credit_teste.shape, y_credit_teste.shape

((500, 3), (500,))

In [None]:
#concatenando a base de dados de treinamento e a base de dados de teste, temos:
x_credit = np.concatenate((x_credit_treinamento,x_credit_teste),axis=0)
y_credit = np.concatenate((y_credit_treinamento,y_credit_teste),axis=0)

In [None]:
x_credit.shape, y_credit.shape

((2000, 3), (2000,))

In [None]:
resultados_arvore = []
resultados_random_forest=[]
resultados_knn=[]
resultados_regressao=[]
resultados_svm=[]
resultados_neural=[]

**Validação cruzada árvore de decisão**

In [None]:
#Quando usamos a técnica de validação cruzada, devemos especificar o valor de K, isto é, em quantas partes devemos dividir
#a base de dados para realizar a operação. Um único teste retorna k resultados, correspondentes ao número de partes em que a base de dados
#foi dividida. No entanto, podemos realizar n teste, isto é, executar a mesma operação n vezes e obter a média das acurácias para cada parte. 
#Note que, na primeira execução, a primeira parte é usada no teste e as demais são usadas para o treinamento do algoritmo, a eficácia é armazenada
#para essa primeira operação usando a primeira parte como teste. Quando testamos n vezes, vamos ter n valores de eficácia usando a primeira parte
#no teste. Podemos obter a média dos n teste e obter um vetor com k valores médios de acurácia. Em seguida, tiramos a média dos k valores e 
#obtemos a acurácia média do algoritmo de aprendizado para compararmos com os demais algoritmos de machine learning.

In [None]:
#esse comando indica que vamos realizar 30 testes, note que esse valor corresponde ao 'n' explicado na linha anterior. No primeito teste
#rodamos o algoritmo de aprendizado de máquina k vezes, e fazemos o mesmo processo n vezes. Gerando n x k resultados de acurária.
#n_splits indica a quantidade de partes em que a base de dados será dividida
#shuffle indica se os dados devem ser embaralhados antes da divisão dos dados
#random_state deve ter valores diferentes para cada teste, de modo que os dados contidos em cada parte sejam diferentes
#caso o random_state seja um número fixo, a divisão dos dados será a mesma e, consequentemente, os resultados serão iguais.
#Por este motivo, colocamos i, pois o i irá assumir valores diferentes em cada teste, garantindo que os resultados serão diferentes.
#Note os resultados exibidos na tela. Cada linha representa um teste, realizamos 30 testes, então temos 30 linhas.
#Em cada linha, cada coluna é uma resultado utilizando partes diferentes da partição realizada pela função Kfold. Como dividimos 10 partes
#para cada linha temos 10 resultados de acurácia. Em seguida, calculamos a média de acurácia para cada teste, mostrada abaixo.
for i in range(30):
  kfold = KFold(n_splits=10,shuffle=True,random_state=i)
  arvore = DecisionTreeClassifier(criterion='entropy',min_samples_leaf=3,min_samples_split=2,splitter='best')
  scores = cross_val_score(arvore,x_credit,y_credit,cv=kfold)
  print(scores)
  print(scores.mean())

In [None]:
#Esse algoritmo é o mesmo implementado na linha acima. Aqui vamos mostrar como armazenamos os resultados em uma lista de valores.

for i in range(30):
  kfold = KFold(n_splits=10,shuffle=True,random_state=i)
  arvore = DecisionTreeClassifier(criterion='entropy',min_samples_leaf=3,min_samples_split=2,splitter='best')
  scores = cross_val_score(arvore,x_credit,y_credit,cv=kfold)
  resultados_arvore.append(scores.mean())

In [None]:
#a acurácia do algoritmo será a média dos 30 valores, ou seja, a média dos 30 testes realizados
resultados_arvore

[0.9864999999999998,
 0.984,
 0.9904999999999999,
 0.9875,
 0.9890000000000001,
 0.9884999999999999,
 0.9899999999999999,
 0.9884999999999999,
 0.9870000000000001,
 0.9865,
 0.9875,
 0.9894999999999999,
 0.9879999999999999,
 0.9869999999999999,
 0.985,
 0.9854999999999998,
 0.986,
 0.99,
 0.9875,
 0.9894999999999999,
 0.9854999999999998,
 0.9880000000000001,
 0.9889999999999999,
 0.9889999999999999,
 0.9880000000000001,
 0.9894999999999999,
 0.9879999999999999,
 0.9890000000000001,
 0.985,
 0.9880000000000001]

In [None]:
#Eficácia média do algoritmo usando a base de dados base credit:
media = 0
soma = 0
for i in resultados_arvore:
  soma = float(i) + soma
media = soma/len(resultados_arvore)
print(media)

0.9877499999999999


In [None]:
len(resultados_arvore)

30

**Validação cruzada random forest**

In [None]:
#Agora implementamos a validação cruzada para o random forest:
for i in range(30):
  kfold = KFold(n_splits=10,shuffle=True,random_state=i)
  random_forest = RandomForestClassifier(criterion='gini',min_samples_leaf=1,min_samples_split=4,n_estimators=40)
  scores = cross_val_score(random_forest,x_credit,y_credit,cv=kfold)
  resultados_random_forest.append(scores.mean())

In [None]:
resultados_random_forest

In [None]:
len(resultados_random_forest)

30

In [None]:
#A acurácia média da random forest usando a base de dados credit é dada por:
soma=0
media=0
for i in resultados_random_forest:
  soma = float(i)+soma
media = soma/len(resultados_random_forest)
print(media)

0.9867333333333331


**Validação cruzada usando o algoritmo KNN**

In [None]:
for i in range(30):
  kfold = KFold(n_splits=10,shuffle=True,random_state=i)
  knn = KNeighborsClassifier(n_neighbors=20,p=1)
  score = cross_val_score(knn,x_credit,y_credit,cv=kfold)
  resultados_knn.append(scores.mean())

In [None]:
resultados_knn

[0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986,
 0.986]

In [None]:
len(resultados_knn)

30

In [None]:
#A acurácia média do algoritmo KNN na base de dados credit é dada por:
soma=0
media=0
for i in resultados_knn:
  soma=float(i)+soma
media = soma/len(resultados_knn)
print(media)

0.9860000000000004


**Validação cruzada com o algoritmo de regressão logística**

In [None]:
for i in range(30):
  kfold = KFold(n_splits=10,shuffle=True,random_state=i)
  regressao = LogisticRegression(C=1.0,solver='sag',tol=0.0001)
  score = cross_val_score(regressao,x_credit,y_credit,cv=kfold)
  resultados_regressao.append(score.mean())

In [None]:
resultados_regressao

In [None]:
len(resultados_regressao)

30

In [None]:
#A eficiência do algoritmo de regressao logistica é dada por:
media = 0
soma= 0
for i in resultados_regressao:
  soma=soma+float(i)
media = soma/len(resultados_regressao)
print(media)

0.9469166666666666


**Validação cruzada com SVM**

In [None]:
for i in range(30):
  kfold=KFold(n_splits=10,shuffle=True,random_state=i)
  svm = SVC(C=1.5,kernel='rbf',tol=0.01)
  score = cross_val_score(svm,x_credit,y_credit,cv=kfold)
  resultados_svm.append(score.mean())

In [None]:
resultados_svm

[0.9835,
 0.9835,
 0.9834999999999999,
 0.985,
 0.9855,
 0.9835,
 0.9839999999999998,
 0.9845,
 0.9825000000000002,
 0.9834999999999999,
 0.9824999999999999,
 0.9825000000000002,
 0.984,
 0.984,
 0.9834999999999999,
 0.984,
 0.9845,
 0.9844999999999999,
 0.9844999999999999,
 0.9839999999999998,
 0.9835,
 0.9845,
 0.9844999999999999,
 0.9870000000000001,
 0.9834999999999999,
 0.982,
 0.9825000000000002,
 0.9850000000000001,
 0.983,
 0.986]

In [None]:
len(resultados_svm)

30

In [None]:
#a acurácia média do algoritmo SVM é dada por:
soma=0
media=0
for i in resultados_svm:
  soma=soma+float(i)
media=soma/len(resultados_svm)
print(media)

0.9839499999999999


**Validação cruzada com redes neurais**

In [None]:
for i in range(30):
  kfold=KFold(n_splits=10,shuffle=True,random_state=i)
  neural = MLPClassifier(activation='relu',batch_size=10,hidden_layer_sizes=(50,50),max_iter=1000,solver='sgd',tol=0.0001)
  score = cross_val_score(neural,x_credit,y_credit,cv=kfold)
  resultados_neural.append(score.mean())



In [None]:
x_credit_treinamento.shape

(1500, 3)