# Redes Neurais Artificiais 2020.1 -- Projeto Prático 3.4

**Disciplina**: Redes Neurais Artificiais 2020.1  
**Professora**: Elloá B. Guedes (ebgcosta@uea.edu.br)  
**Github**: http://github.com/elloa  
        

Levando em conta a base de dados **_Forest Cover Type_**, esta terceira parte do Projeto Prático 3 diz respeito à proposição e avaliação de múltiplas redes neurais artificiais do tipo feedforward multilayer perceptron para o problema da classificação multi-classe da cobertura florestal em uma área do Roosevelt National Forest.

## Busca em Grade

Uma maneira padrão de escolher os parâmetros de um modelo de Machine Learning é por meio de uma busca em grade via força bruta. O algoritmo da busca em grade é dado como segue:

1. Escolha a métrica de desempenho que você deseja maximizar  
2. Escolha o algoritmo de Machine Learning (exemplo: redes neurais artificiais). Em seguida, defina os parâmetros ou hiperparâmetros deste tipo de modelo sobre os quais você dseja otimizar (número de épocas, taxa de aprendizado, etc.) e construa um array de valores a serem testados para cada parâmetro ou hiperparâmetro.  
3. Defina a grade de busca, a qual é dada como o produto cartesiano de cada parâmetro a ser testado. Por exemplo, para os arrays [50, 100, 1000] e [10, 15], tem-se que a grade é [(50,10), (50,15), (100,10), (100,15), (1000,10), (1000,15)].
4. Para cada combinação de parâmetros a serem otimizados, utilize o conjunto de treinamento para realizar uma validação cruzada (holdout ou k-fold) e calcule a métrica de avaliação no conjunto de teste (ou conjuntos de teste)
5. Escolha a combinação de parâmetros que maximizam a métrica de avaliação. Este é o modelo otimizado.

Por que esta abordagem funciona? Porque a busca em grade efetua uma pesquisa extensiva sobre as possíveis combinações de valores para cada um dos parâmetros a serem ajustados. Para cada combinação, ela estima a performance do modelo em dados novos. Por fim, o modelo com melhor métrica de desempenho é escolhido. Tem-se então que este modelo é o que melhor pode vir a generalizar mediante dados nunca antes vistos.

## Efetuando a Busca em Grade sobre Hiperparâmetros das Top-6 RNAs

Considerando a etapa anterior do projeto prático, foram identificadas pelo menos 6 melhores Redes Neurais para o problema da classificação multi-classe da cobertura florestal no conjunto de dados selecionado. Algumas destas redes possuem atributos categóricos como variáveis preditoras, enquanto outras possuem apenas os atributos numéricos como preditores.

A primeira etapa desta segunda parte do projeto consiste em trazer para este notebook estas seis arquiteturas, ressaltando:

1. Número de neurônios ocultos por camada  
2. Função de Ativação  
3. Utilização ou não de atributos categóricos   
4. Desempenho médio +- desvio padrão nos testes anteriores  
5. Número de repetições que a equipe conseguiu realizar para verificar os resultados  

Elabore uma busca em grade sobre estas arquiteturas que contemple variações nos hiperparâmetros a seguir, conforme documentação de [MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)

A. Solver  (Não usar o LBFGS, pois é mais adequado para datasets pequenos)  
B. Batch Size  
C. Learning Rate Init  
D. Paciência (n_iter_no_change)  
E. Épocas  

Nesta busca em grande, contemple a utilização do objeto [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

## Validação Cruzada k-fold

Na elaboração da busca em grid, vamos avaliar os modelos propostos segundo uma estratégia de validação cruzada ainda não explorada até o momento: a validação cruzada k-fold. Segundo a mesma, o conjunto de dados é particionado em k partes: a cada iteração, separa-se uma das partes para teste e o modelo é treinado com as k-1 partes remanescentes. Valores sugestivos de k na literatura são k = 3, 5 ou 10, pois o custo computacional desta validação dos modelos é alto. A métrica de desempenho é resultante da média dos desempenhos nas k iterações. A figura a seguir ilustra a ideia desta avaliação

<img src = "https://ethen8181.github.io/machine-learning/model_selection/img/kfolds.png" width=600></img>

Considerando a métrica de desempenho F1-Score, considere a validação cruzada 5-fold para aferir os resultados da busca em grande anterior.

#### As 6 melhores arquiteturas da etapa anterior
 
 
1.  Arquitetura  1
 
 *  2 camadas ocultas, a primeira camada oculta tem 10 neurônios, a segunda camada oculta tem 9 neurônios
 *  Função de ativação: ReLU
 *  Não utiliza atributos categóricos
 *  Resultados da etapa anterior: acurácia = 0.7217 +-0.0057, F-Score = 0.7111 +-0.0066
 *  10 repetições
 
2.  Arquitetura 2
 
 *  1 camada oculta com 10 neurônios
 *  Função de ativação: logística
 *  Não utiliza atributos categóricos
 *  Resultados da etapa anterior: acurácia = 0.7135 +-0.0021, F-Score = 0.7001 +-0.0025
 *  10 repetições
 
3.  Arquitetura 3
 
 *  1 camada oculta com 9 neurônios
 *  Função de ativação: logística
 *  Não utiliza atributos categóricos
 *  Resultados da etapa anterior: acurácia = 0.7126 +-0.0031, F-Score = 0.699 +-0.0035
 *  10 repetições
 
4.  Arquitetura 4
 
 *  1 camada oculta com 10 neurônios
 *  Função de ativação: tangente hiperbólica
 *  Utiliza atributos categóricos
 *  Resultados da etapa anterior: acurácia = 0.7173 +-0.0026, F-Score = 0.7051 +-0.0026
 *  10 repetições
 
5.  Arquitetura 5
 
 *  1 camada oculta com 9 neurônios
 *  Função de ativação: ReLU
 *  Utiliza atributos categóricos
 *  Resultados da etapa anterior: acurácia = 0.7102 +-0.0052, F-Score = 0.6969 +-0.0056
 *  10 repetições

6.  Arquitetura 6
 
 *  1 camada oculta com 6 neurônios
 *  Função de ativação: tangente hiperbólica
 *  Utiliza atributos categóricos
 *  Resultados da etapa anterior: acurácia = 0.7056 +-0.0032, F-Score = 0.6904 +-0.0038
 *  10 repetições


#### Importação das bibliotecas

In [46]:
from sklearn.metrics import f1_score, accuracy_score, make_scorer, plot_confusion_matrix, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split
from sklearn.utils._testing import ignore_warnings
from sklearn.exceptions import ConvergenceWarning
from sklearn.model_selection import GridSearchCV
from sklearn.neural_network import MLPClassifier
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import pickle

#### Base de dados

In [2]:
from google.colab import files
uploaded = files.upload()

Saving covtype.csv to covtype.csv


In [2]:
data = pd.read_csv('covtype.csv')

### Redes que não usam os atributos categóricos

#### Removendo os atributos categóricos

In [15]:
#Gerando o dataset sem os atributos categoricos
columns_out = []

for i in range(1, 5):
    columns_out.append('Wilderness_Area' + str(i))
    
for i in range(1, 41):
    columns_out.append('Soil_Type' + str(i))
    
data_num = data.drop(columns=columns_out)

In [16]:
#Dataframe apenas com os atributos preditores
data_atr = data_num.drop(columns=['Cover_Type'])

In [17]:
#Atributos preditivos
X = np.array(data_atr[0:])

#Atributo alvo
y = data['Cover_Type'].to_numpy()

In [18]:
#Separando os dados em treino e teste da mesma forma como feito no pp3.3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

#### Grid search

In [19]:
#Parâmetros para a busca em grade (GridSearch)
parameter_space = {'solver': ['sgd','adam'],
                   'batch_size': [32, 512],
                   'learning_rate_init': [0.001, 0.01],
                   'max_iter': [300],
                   'n_iter_no_change': [10]}

In [20]:
#Usar o F-Score e a acurácia como métricas de desempenho
scores = {'F-Score': make_scorer(f1_score , average='weighted'),
          'Accuracy': make_scorer(accuracy_score)}

#Usar o F-Score como principal métrica de desempenho
metric = 'F-Score'

In [21]:
#Função para o grid search para uma arquitetura
@ignore_warnings(category=ConvergenceWarning)
def gs(architecture):

    #Escalonamento dos atributos
    X_train_std = (X_train - np.mean(X_train))/np.std(X_train)

    model_gs = MLPClassifier(hidden_layer_sizes=architecture[0], activation=architecture[1])
    clf = GridSearchCV(model_gs, parameter_space, scoring=scores, n_jobs=-1, refit=metric, cv=5, verbose=160)
    clf.fit(X_train_std, y_train)

    return clf

In [22]:
#Função para apresentação dos F-Score por conjunto de parâmetros
def fs(gridsearch):

    print("")
    print("F-Score por configuração")
    means = gridsearch.cv_results_['mean_test_F-Score']
    stds = gridsearch.cv_results_['std_test_F-Score']
    for mean, std, params in zip(means, stds, gridsearch.cv_results_['params']):
        print("%0.4f (+/-%0.04f) para %r" % (mean, std * 2, params))
        print("---------------------------------------------------")

In [23]:
#Função para apresentação das acurácias por conjunto de parâmetros
def acc(gridsearch):
    print("")
    print("Acurácia por configuração")
    means = gridsearch.cv_results_['mean_test_Accuracy']
    stds = gridsearch.cv_results_['std_test_Accuracy']
    for mean, std, params in zip(means, stds, gridsearch.cv_results_['params']):
        print("%0.4f (+/-%0.04f) para %r" % (mean, std * 2, params))
        print("---------------------------------------------------")

In [24]:
#Função para apresentação dos resultados
def results(gridsearch):

    print("")
    print("Melhores parâmetros encontrados:\n", gridsearch.best_params_)

    fs(gridsearch)

    acc(gridsearch)

    print("---------------------------------------------------")
    print("")

Arquitetura 1

*  2 camadas ocultas, a primeira camada oculta tem 10 neurônios, a segunda camada oculta tem 9 neurônios
*  Função de ativação: ReLU

In [25]:
print("")
print("Arquitetura 1")
print("")

clf = gs([(10,9), 'relu'])

results(clf)


Arquitetura 1

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed: 31.6min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed: 33.0min
[Parallel(n_jobs=-1)]: Done   3 tasks      | elapsed: 42.7min
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed: 46.6min
[Parallel(n_jobs=-1)]: Done   5 tasks      | elapsed: 70.9min
[Parallel(n_jobs=-1)]: Done   6 tasks      | elapsed: 83.2min
[Parallel(n_jobs=-1)]: Done   7 tasks      | elapsed: 85.8min
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed: 90.9min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 98.4min
[Parallel(n_jobs=-1)]: Done  10 tasks      | elapsed: 119.1min
[Parallel(n_jobs=-1)]: Done  11 tasks      | elapsed: 121.7min
[Parallel(n_jobs=-1)]: Done  12 tasks      | elapsed: 129.8min
[Parallel(n_jobs=-1)]: Done  13 tasks      | elapsed: 130.1min
[Parallel(n_jobs=-1)]: Done  14 tasks 

Arquitetura 2

*  1 camada oculta com 10 neurônios
*  Função de ativação: logística



In [15]:
print("")
print("Arquitetura 2")
print("")

clf = gs([(10,), 'logistic'])

results(clf)



Arquitetura 2

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed: 34.0min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed: 35.3min
[Parallel(n_jobs=-1)]: Done   3 tasks      | elapsed: 35.3min
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed: 35.3min
[Parallel(n_jobs=-1)]: Done   5 tasks      | elapsed: 68.4min
[Parallel(n_jobs=-1)]: Done   6 tasks      | elapsed: 69.6min
[Parallel(n_jobs=-1)]: Done   7 tasks      | elapsed: 76.1min
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed: 76.3min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 91.3min
[Parallel(n_jobs=-1)]: Done  10 tasks      | elapsed: 91.9min
[Parallel(n_jobs=-1)]: Done  11 tasks      | elapsed: 102.7min
[Parallel(n_jobs=-1)]: Done  12 tasks      | elapsed: 109.7min
[Parallel(n_jobs=-1)]: Done  13 tasks      | elapsed: 111.9min
[Parallel(n_jobs=-1)]: Done  14 tasks  

3.  Arquitetura 3
 
 *  1 camada oculta com 9 neurônios
 *  Função de ativação: logística

In [26]:
print("")
print("Arquitetura 3")
print("")

clf = gs([(9,), 'logistic'])

results(clf)


Arquitetura 3

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed: 31.6min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed: 35.1min
[Parallel(n_jobs=-1)]: Done   3 tasks      | elapsed: 35.2min
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed: 35.3min
[Parallel(n_jobs=-1)]: Done   5 tasks      | elapsed: 66.4min
[Parallel(n_jobs=-1)]: Done   6 tasks      | elapsed: 66.8min
[Parallel(n_jobs=-1)]: Done   7 tasks      | elapsed: 74.4min
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed: 74.6min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 91.8min
[Parallel(n_jobs=-1)]: Done  10 tasks      | elapsed: 96.4min
[Parallel(n_jobs=-1)]: Done  11 tasks      | elapsed: 98.9min
[Parallel(n_jobs=-1)]: Done  12 tasks      | elapsed: 101.7min
[Parallel(n_jobs=-1)]: Done  13 tasks      | elapsed: 109.2min
[Parallel(n_jobs=-1)]: Done  14 tasks   

### Redes que usam os atributos categóricos

In [3]:
#Dataframe com os atributos preditores numéricos e categóricos
data_atr_c = data.drop(columns=['Cover_Type'])

In [64]:
#Atributos preditivos
X = np.array(data_atr_c[0:])

#Atributo alvo
y = data['Cover_Type'].to_numpy()

array([5, 5, 2, ..., 3, 3, 3])

In [59]:
#Separando os dados em treino e teste da mesma forma como feito no pp3.3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

4  Arquitetura 4
 
 *  1 camada oculta com 10 neurônios
 *  Função de ativação: tangente hiperbólica

In [12]:
print("")
print("Arquitetura 4")
print("")

clf = gs([(10,), 'tanh'])

results(clf)


Arquitetura 4

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed: 20.9min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed: 24.7min
[Parallel(n_jobs=-1)]: Done   3 tasks      | elapsed: 27.2min
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed: 30.5min
[Parallel(n_jobs=-1)]: Done   5 tasks      | elapsed: 44.2min
[Parallel(n_jobs=-1)]: Done   6 tasks      | elapsed: 46.0min
[Parallel(n_jobs=-1)]: Done   7 tasks      | elapsed: 49.2min
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed: 49.5min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 60.8min
[Parallel(n_jobs=-1)]: Done  10 tasks      | elapsed: 62.4min
[Parallel(n_jobs=-1)]: Done  11 tasks      | elapsed: 65.8min
[Parallel(n_jobs=-1)]: Done  12 tasks      | elapsed: 71.0min
[Parallel(n_jobs=-1)]: Done  13 tasks      | elapsed: 76.9min
[Parallel(n_jobs=-1)]: Done  14 tasks     

Arquitetura 5

*  1 camada oculta com 9 neurônios
*  Função de ativação: ReLU

In [19]:
print("")
print("Arquitetura 5")
print("")

clf = gs([(9,), 'relu'])

results(clf)


Arquitetura 5

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed: 20.2min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed: 22.7min
[Parallel(n_jobs=-1)]: Done   3 tasks      | elapsed: 24.4min
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed: 27.2min
[Parallel(n_jobs=-1)]: Done   5 tasks      | elapsed: 39.9min
[Parallel(n_jobs=-1)]: Done   6 tasks      | elapsed: 41.2min
[Parallel(n_jobs=-1)]: Done   7 tasks      | elapsed: 41.9min
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed: 44.1min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 51.2min
[Parallel(n_jobs=-1)]: Done  10 tasks      | elapsed: 53.4min
[Parallel(n_jobs=-1)]: Done  11 tasks      | elapsed: 56.1min
[Parallel(n_jobs=-1)]: Done  12 tasks      | elapsed: 59.5min
[Parallel(n_jobs=-1)]: Done  13 tasks      | elapsed: 60.7min
[Parallel(n_jobs=-1)]: Done  14 tasks     

6.  Arquitetura 6
 
 *  1 camada oculta com 6 neurônios
 *  Função de ativação: tangente hiperbólica

In [13]:
print("")
print("Arquitetura 6")
print("")

clf = gs([(6,), 'tanh'])

results(clf)


Arquitetura 6

Fitting 5 folds for each of 8 candidates, totalling 40 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done   1 tasks      | elapsed: 17.6min
[Parallel(n_jobs=-1)]: Done   2 tasks      | elapsed: 20.1min
[Parallel(n_jobs=-1)]: Done   3 tasks      | elapsed: 20.2min
[Parallel(n_jobs=-1)]: Done   4 tasks      | elapsed: 22.7min
[Parallel(n_jobs=-1)]: Done   5 tasks      | elapsed: 36.0min
[Parallel(n_jobs=-1)]: Done   6 tasks      | elapsed: 43.6min
[Parallel(n_jobs=-1)]: Done   7 tasks      | elapsed: 44.9min
[Parallel(n_jobs=-1)]: Done   8 tasks      | elapsed: 45.8min
[Parallel(n_jobs=-1)]: Done   9 tasks      | elapsed: 53.7min
[Parallel(n_jobs=-1)]: Done  10 tasks      | elapsed: 55.3min
[Parallel(n_jobs=-1)]: Done  11 tasks      | elapsed: 55.4min
[Parallel(n_jobs=-1)]: Done  12 tasks      | elapsed: 58.1min
[Parallel(n_jobs=-1)]: Done  13 tasks      | elapsed: 60.3min
[Parallel(n_jobs=-1)]: Done  14 tasks     

## Identificando a mellhor solução

Como resultado da busca em grade com validação cruzada 5-fold, identifique o modelo otimizado com melhor desempenho para o problema. Apresente claramente este modelo, seus parâmetros, hiperparâmetros otimizados e resultados para cada um dos folds avaliados. Esta é a melhor solução identificada em decorrência deste projeto

<div style="text-align: justify">
       Com base no F-Score como métrica principal de desempenho, o modelo otimizado com o melhor desempenho para o problema é a arquitetura 4, a qual consistia de apenas uma camada oculta com 10 neurônios utilizando como função de ativação a tangente hiperbólica. Com um F-Score de 0.7115, a melhor configuração dessa arquitetura possuía um batch_size = 32, taxa de aprendizagem = 0.001, número máximo de épocas = 300, paciência = 10 e o solver = adam. Para cada arquitetura em cada uma de suas configurações de parâmetros e hiperparâmetros a acurácia também foi verificada, e para esse rede o resultado foi de 0.7227, ou aproximadamente 72,27%.
</div>
        Em suma.

 
* Melhor solução
  * Arquitetura 4
    * 1 camada oculta com 10 neurônios
    * Função de ativação: tangente hiperbólica
 
* Melhores parâmetros da melhor solução
  * solver = 'adam'
  * batch_size = 32
  * taxa de aprendizagem = 0.001
  * paciência = 10
  * épocas = 300
 
* Resultados da melhor solução com os melhores parâmetros
  * F-Score: 0.7115
  * Acurácia: 0.7227
 





## Empacotando a solução

Suponha que você deve entregar este classificador ao órgão responsável por administrar o Roosevelt National Park. Para tanto, você deve fazer uma preparação do mesmo para utilização neste cenário. Uma vez que já identificou os melhores parâmetros e hiperparâmetros, o passo remanescente consiste em treinar o modelo com estes valores e todos os dados disponíveis, salvando o conjunto de pesos do modelo ao final para entrega ao cliente. Assim, finalize o projeto prático realizando tais passos.

1. Consulte a documentação a seguir:
https://scikit-learn.org/stable/modules/model_persistence.html
2. Treine o modelo com todos os dados
3. Salve o modelo em disco  
4. Construa uma rotina que recupere o modelo em disco  
5. Mostre que a rotina é funcional, fazendo previsões com todos os elementos do dataset e exibindo uma matriz de confusão das mesmas