# **AVALIAÇÃO DE ALGORITMOS**

> Todo o processo aqui tratado será feito com algoritmos de classificação, porém tudo se aplica da mesma maneira para os algoritmos de regressão, porém no lugar de utilizar os valores de precisão para colocar na tabela, utilize o score do algoritmo com relação a base de testes, porém também pode-se utilizar o erro quadrático médio como parâmetro.

> Não irei rodar nenhum dos códigos, pois antes seria necessário efetuar os treinamentos de todos os métodos, e isso não é muito viável nesse caso. Então apenas deixarei a implantação.

> Tenha em mente que previsores = x, classe = y.

Para verificar qual é o melhor algoritmo para cada base de dados que se está trabalhando, não basta aplicar todos os métodos e ver qual é o que resultou na maior precisão.

---
- Link para aprender mais:
    - [Machine Learning Underfitting e Overfitting - IAexpert](https://iaexpert.com.br/index.php/2018/06/22/machine-learning-underfitting-e-overfitting/).
---
## VALIDAÇÃO CRUZADA

Ao dividir uma base de dados em treinamento e teste pode-se ocorrer de que dados que foram utilizados para teste sejam bons para a criação do algoritmo, visto que eles pode conter uma boa caracterização do objeto de estudo. Para evitar que isso aconteça:
- Divide-se a base em `k` partes
- Uma dessas partes será utilizada para teste e o restante para treinamento.
- Agora a parte que foi utilizada para teste anteriormente passa a ser utilizada para treinamento, e uma das outras passa para teste.
- O processo é repetido `k` vezes, assim todas as partes serão utilizadas para teste e treinamento.
- A precisão do algoritmo será dada pela média das precisões em cada situação. 

![](https://upload.wikimedia.org/wikipedia/commons/1/1c/K-fold_cross_validation_EN.jpg)

Fonte: https://en.wikipedia.org/wiki/Cross-validation_(statistics)

---
- Links para aprender mais:
    - [Machine Learning Introdução a Validação Cruzada - IAexpert](https://iaexpert.com.br/index.php/2018/06/13/machine-learning-introducao-a-validacao-cruzada/).
    - [Model Evaluation in Regression Models - Cognitive Class](https://youtu.be/81vMze7TzuU)
---    
### **K-Fold cross validation**

Para efetuar a validação cruzada siga o código abaixo:

```python
#------------------------Pegando os valores pre processados-------------------#
# Não divida em base de treinamento e teste.                                  #
# Pegar apenas previsores e classe como um todo                               #
#-----------------------------------------------------------------------------#

#---------------------------------Bibliotecas---------------------------------#
from sklearn.model_selection import cross_val_score
# import classe necessária para o método desejado.

#------------------Criar classificador com o método desejado------------------#
# Não utiliza o método fit.                                                   #
#-----------------------------------------------------------------------------#
                                      #
                                      #
                                      #
#--------------------Precisão em cada um dos cv testes------------------------#
# cv = número de divisões, consequentemente 10 testes                         #
#-----------------------------------------------------------------------------#
resultados = cross_val_score(classificador, previsores, classe, cv = 10)

#------------------------Retorna a média dos resultados-----------------------#
resultados.mean()

#--------------------Retorna o desvio padrão dos resultados-------------------#
# Valores altos de desvio padrão indicam overfitting                          #
#-----------------------------------------------------------------------------#
resultados.std()

```

Para exemplificar vou utilizar o método de Naive Bayes por ser mais rápido.

- **Classe**:
    - [sklearn.model_selection.cross_val_score](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.cross_val_score.html#sklearn.model_selection.cross_val_score)

```python
#---------------------------------Bibliotecas---------------------------------#
from sklearn.model_selection import cross_val_score

#------------------Criar classificador com o método desejado------------------#
# Não utiliza o método fit.                                                   #
#-----------------------------------------------------------------------------#
from sklearn.naive_bayes import GaussianNB
classificador = GaussianNB()

#--------------------Precisão em cada um dos cv testes------------------------#
# cv = número de divisões, consequentemente 10 testes                         #
#-----------------------------------------------------------------------------#
resultados = cross_val_score(classificador, previsores, classe, cv = 10)
print('resultados: {}\n'.format(resultados))

#------------------------Retorna a média dos resultados-----------------------#
print('média: {}\n'.format(resultados.mean()))

#--------------------Retorna o desvio padrão dos resultados-------------------#
# Valores altos de desvio padrão indicam overfitting                          #
#-----------------------------------------------------------------------------#
print('desvio padrão: {}\n'.format(resultados.std()))
```

### **StratifileKFold**

É um outro método de fazer validação cruzada, porém um pouco mais eficiente, pois ele garante uma boa distribuição entre os dados para teste e treinamento. Para efetuar esse processo siga o código:

```python
#------------------------Pegando os valores pre processados-------------------#
# Não divida em base de treinamento e teste.                                  #
# Pegar apenas previsores e classe como um todo                               #
#-----------------------------------------------------------------------------#

#---------------------------------Bibliotecas---------------------------------#
import numpy as np
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import accuracy_score
# import classe necessária para o método desejado

#-------------Criação do objeto que fará a divisão dos dados------------------#
# n_splits: número de divisões.                                               #
# shuffle: garantir aleatoriedade da divisão dos dados.                       #
#-----------------------------------------------------------------------------#
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=0)

#--------------Criação de listas necessárias para os métodos------------------#
b = np.zeros(shape = (previsores.shape[0],1))
resultados = []

#---Divide os indices dos dados de treinamento e teste para cada treinamento--#
for indice_treinamento, indice_teste in kfold.split(previsores, b):
    #----------------Criar classificador com o método desejado----------------#
                                        #
                                        #
    #--------------------------Utilizando o método fit------------------------#
    classificador.fit(previsores[indice_treinamento], classe[indice_treinamento])

    #----Passando os dados de teste palas árvores e armazenando as previsões--#

    previsoes = classificador.predict(previsores[indice_teste])

    #------------Verificando a precisão e acumando em uma lista---------------#
    precisao = accuracy_score(classe[indice_teste], previsoes)
    resultados.append(precisao)

#----------Passando para arry para retirar a média e desvio padrão----------#
resultados = np.asanyarray(resultados)
print('precisão: {} \n' .format(resultados.mean()))
print('desvio padrão: {} \n' .format(resultados.std()))

```
Para exemplificar será utilizado novamente o método de Naive Bayes

- **Classe**:
    - [sklearn.model_selection.StratifiedKFold](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html)

```python
#---------------------------------Bibliotecas---------------------------------#
from sklearn.model_selection import StratifiedKFold
from sklearn.naive_bayes import GaussianNB

#-------------Criação do objeto que fará a divisão dos dados------------------#
# n_splits: número de divisões.                                               #
# shuffle: garantir aleatoriedade da divisão dos dados.                       #
#-----------------------------------------------------------------------------#
kfold = StratifiedKFold(n_splits=10, shuffle=True, random_state=0)

#--------------Criação de listas necessárias para os métodos------------------#
b = np.zeros(shape = (previsores.shape[0],1))
resultados = []

#---Divide os índices dos dados de treinamento e teste para cada treinamento--#
for indice_treinamento, indice_teste in kfold.split(previsores, b):
    #----------------Criar classificador com o método desejado----------------#
    classificador = GaussianNB()

    #--------------------------Utilizando o método fit------------------------#
    classificador.fit(previsores[indice_treinamento], classe[indice_treinamento])

    #----Passando os dados de teste palas árvores e armazenando as previsões--#

    previsoes = classificador.predict(previsores[indice_teste])

    #-----------Verificando a precisão e acumulando em uma lista--------------#
    precisao = accuracy_score(classe[indice_teste], previsoes)
    resultados.append(precisao)

#----------Passando para arry para retirar a média e desvio padrão----------#
resultados = np.asanyarray(resultados)
print('precisão: {} \n' .format(resultados.mean()))
print('desvio padrão: {} \n' .format(resultados.std()))
```

## VERIFICANDO O MELHOR CÓDIGO

Para isso vamos utilizar o teste de Friedman e Nemenyi.
- Friedman: Se existe diferença entre os dados.
- Nemenyi: Se existe diferença estatística entre os dados.

Caso o teste de Friedman acuse que existe diferença partimos para o teste de Nemenyi.

- 1. Efetue a validação cruzada para cada um dos métodos.
    - 30 vezes cada método com o random_state mudando de 1 a cada validação.

- 2. Monte uma tabela com os resultados das precisões para cada valor de random_state e retira a media.
    
|random_state|Naive Bayes|Árvore|Random Forest|
|-|-|-|-|
|1|precisão 1|precisão 1|precisão 1|
|2|precisão 2|precisão 2|precisão 2|
|.|.|.|.|
|.|.|.|.|
|.|.|.|.|
|30|precisão 30|precisão 30|precisão 30|
|Média|Média Naive Bayes|Média Árvore|Média Random Forest|
    
- 3. Para cada valor de random_state veja em que posição (1º, 2º,...) ficou cada um dos algoritmos
    - Exemplo: precisão 1(Naive Bayes) > precisão 1(Random Forest) > precisão 1(Árvore)
               precisão 2(Random Forest) > precisão 2(Naive Bayes) > precisão 2(Árvore)
               precisão 30(Naive Bayes) > precisão 30(Árvore) > precisão 30(Random Forest)
               Média Naive Bayes > Média Árvore > Média Random Forest
    - Utilize uma função [ORDEM.MÉD](https://help.libreoffice.org/Calc/Statistical_Functions_Part_Five/pt-BR#ORDEM.M.C3.89D) que exite no libreoffice, ou crie a sua no python.
    
|random_state|Naive Bayes|Árvore|Random Forest|
|-|-|-|-|
|1|1|3|2|
|2|2|3|1|
|.|.|.|.|
|.|.|.|.|
|.|.|.|.|
|30|1|2|3|
|Média|1|2|3|
    
- 4. Salve essa ultima tabela em formato .csv.
- 5. Baixe e instale o [R](http://nbcgib.uesc.br/mirrors/cran/) e a biblioteca [TStools](http://kourentzes.com/forecasting/2014/04/19/tstools-for-r/).
- 6. Execute o código abaixo no R:

```R
#---------------------------------Biblioteca----------------------------------#
require(TStools)

#-----------------------------Passando os dados-------------------------------#
dados <- read.csv("dados-testes.csv")

#------------------Transformando os dados na forma de matriz------------------#
matriz <- as.matrix(dados)

#--------------Efetuando o teste de friedman e nemenyi na matriz--------------#
TStools::nemenyi(matriz, conf.int = 0.95, plottype = "vline")

```
Para esse teste foi utilizada a base de dados credit_data.csv, o resultado que foi obtido foi a figura abaixo:

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/021%20-%20Valida%C3%A7%C3%A3o/Imagens/Figura.png?raw=true)

Veja que na figura temos o indicativo de que há diferença no teste de Friedman. Sendo assim vamos olhar o gráfico que é o teste de Nemenyi.

Se Quisermos saber se um algoritmo é superior ao outro o valor que temos entre eles deve ser maior que o valor dado por CD.
                                                                                                                   
- Exemplo: RNA = 1, Random Forest = 2.33, CD = 1.917
    
    2.33 - 1 = 1.33 < 1.917. Logo RNA não é superior a Random Forest nessa base de dados.

Para facilitar a interpretação do gráfico, veja que temos linhas traçadas na vertical e pontilhadas na horizontal. se uma linha vertical ligar dois pontos sem cortar nenhum pontilhado horizontal quer dizer que não é superior, caso corte algum é superior.

> OBS.: O método que possui o menor valor é considerado o melhor método (caso passe nos testes).