# Redes Neurais Artificiais 2021.1

- **Disciplina**: Redes Neurais Artificiais 2021.1  
- **Professora**: Elloá B. Guedes (ebgcosta@uea.edu.br)  
- **Github**: http://github.com/elloa  
        

Levando em conta a base de dados **_Forest Cover Type_**, esta parte do Projeto Prático diz respeito à proposição e avaliação de múltiplas redes neurais artificiais do tipo feedforward multilayer perceptron para o problema da classificação multi-classe da cobertura florestal em uma área do Roosevelt National Forest.

## Busca em Grade

Uma maneira padrão de escolher os parâmetros de um modelo de Machine Learning é por meio de uma busca em grade via força bruta. O algoritmo da busca em grade é dado como segue:

1. Escolha a métrica de desempenho que você deseja maximizar  
2. Escolha o algoritmo de Machine Learning (exemplo: redes neurais artificiais). Em seguida, defina os parâmetros ou hiperparâmetros deste tipo de modelo sobre os quais você dseja otimizar (número de épocas, taxa de aprendizado, etc.) e construa um array de valores a serem testados para cada parâmetro ou hiperparâmetro.  
3. Defina a grade de busca, a qual é dada como o produto cartesiano de cada parâmetro a ser testado. Por exemplo, para os arrays [50, 100, 1000] e [10, 15], tem-se que a grade é [(50,10), (50,15), (100,10), (100,15), (1000,10), (1000,15)].
4. Para cada combinação de parâmetros a serem otimizados, utilize o conjunto de treinamento para realizar uma validação cruzada (holdout ou k-fold) e calcule a métrica de avaliação no conjunto de teste (ou conjuntos de teste)
5. Escolha a combinação de parâmetros que maximizam a métrica de avaliação. Este é o modelo otimizado.

Por que esta abordagem funciona? Porque a busca em grade efetua uma pesquisa extensiva sobre as possíveis combinações de valores para cada um dos parâmetros a serem ajustados. Para cada combinação, ela estima a performance do modelo em dados novos. Por fim, o modelo com melhor métrica de desempenho é escolhido. Tem-se então que este modelo é o que melhor pode vir a generalizar mediante dados nunca antes vistos.

## Efetuando a Busca em Grade sobre Hiperparâmetros das Top-6 RNAs

Considerando a etapa anterior do projeto prático, foram identificadas pelo menos 6 melhores Redes Neurais para o problema da classificação multi-classe da cobertura florestal no conjunto de dados selecionado. Algumas destas redes possuem atributos categóricos como variáveis preditoras, enquanto outras possuem apenas os atributos numéricos como preditores.

A primeira etapa desta segunda parte do projeto consiste em trazer para este notebook estas seis arquiteturas, ressaltando:

1. Número de neurônios ocultos por camada  
2. Função de Ativação  
3. Utilização ou não de atributos categóricos   
4. Desempenho médio +- desvio padrão nos testes anteriores  
5. Número de repetições que a equipe conseguiu realizar para verificar os resultados  

Elabore uma busca em grade sobre estas arquiteturas que contemple variações nos hiperparâmetros a seguir, conforme documentação de [MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)

A. Solver  (Não usar o LBFGS, pois é mais adequado para datasets pequenos)  
B. Batch Size  
C. Learning Rate Init  
D. Paciência (n_iter_no_change)  
E. Épocas  

Nesta busca em grande, contemple a utilização do objeto [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

## Validação Cruzada k-fold

Na elaboração da busca em grid, vamos avaliar os modelos propostos segundo uma estratégia de validação cruzada ainda não explorada até o momento: a validação cruzada k-fold. Segundo a mesma, o conjunto de dados é particionado em k partes: a cada iteração, separa-se uma das partes para teste e o modelo é treinado com as k-1 partes remanescentes. Valores sugestivos de k na literatura são k = 3, 5 ou 10, pois o custo computacional desta validação dos modelos é alto. A métrica de desempenho é resultante da média dos desempenhos nas k iterações. A figura a seguir ilustra a ideia desta avaliação

<img src = "https://ethen8181.github.io/machine-learning/model_selection/img/kfolds.png" width=600></img>

Considerando a métrica de desempenho F1-Score, considere a validação cruzada 5-fold para aferir os resultados da busca em grande anterior.

## Identificando a mellhor solução

Como resultado da busca em grande com validação cruzada 5-fold, identifique o modelo otimizado com melhor desempenho para o problema. Apresente claramente este modelo, seus parâmetros, hiperparâmetros otimizados e resultados para cada um dos folds avaliados. Esta é a melhor solução identificada em decorrência deste projeto

## Empacotando a solução

Suponha que você deve entregar este classificador ao órgão responsável por administrar o Roosevelt National Park. Para tanto, você deve fazer uma preparação do mesmo para utilização neste cenário. Uma vez que já identificou os melhores parâmetros e hiperparâmetros, o passo remanescente consiste em treinar o modelo com estes valores e todos os dados disponíveis, salvando o conjunto de pesos do modelo ao final para entrega ao cliente. Assim, finalize o projeto prático realizando tais passos.

1. Consulte a documentação a seguir:
https://scikit-learn.org/stable/modules/model_persistence.html  
2. Treine o modelo com todos os dados  
3. Salve o modelo em disco  
4. Construa uma rotina que recupere o modelo em disco  
5. Mostre que a rotina é funcional, fazendo previsões com todos os elementos do dataset e exibindo uma matriz de confusão das mesmas

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import precision_score, recall_score,accuracy_score,f1_score
import matplotlib.pyplot as plt
import math as mt

## Busca em Grade

In [2]:
data = pd.read_csv('covtype.csv')

In [3]:
data = data.drop(columns=['Soil_Type1','Soil_Type2','Soil_Type3','Soil_Type4','Soil_Type5','Soil_Type6','Soil_Type7','Soil_Type8','Soil_Type9','Soil_Type10',
                  'Soil_Type11','Soil_Type12','Soil_Type13','Soil_Type14','Soil_Type15','Soil_Type16','Soil_Type17','Soil_Type18','Soil_Type19','Soil_Type20',
                  'Soil_Type21','Soil_Type22','Soil_Type23','Soil_Type24','Soil_Type25','Soil_Type26','Soil_Type27','Soil_Type28','Soil_Type29','Soil_Type30',
                  'Soil_Type31','Soil_Type32','Soil_Type33','Soil_Type34','Soil_Type35','Soil_Type36','Soil_Type37','Soil_Type38','Soil_Type39','Soil_Type40'])

In [6]:
X = data[['Elevation','Aspect','Slope','Horizontal_Distance_To_Hydrology','Vertical_Distance_To_Hydrology','Horizontal_Distance_To_Roadways','Hillshade_9am','Hillshade_Noon','Hillshade_3pm','Horizontal_Distance_To_Fire_Points','Wilderness_Area1','Wilderness_Area2','Wilderness_Area3','Wilderness_Area4']]# Passando os atributos usadas para o treino
y = data[['Cover_Type']]# classe para treino

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7,shuffle = True)

In [8]:
X_train_std = (X_train - np.mean(X_train))/np.std(X_train)
X_test_std = (X_test - np.mean(X_train))/np.std(X_train)

In [10]:
clf = MLPClassifier(max_iter=300,solver='sgd')

In [11]:
parameters = {'hidden_layer_sizes': [(10,30,10),(20,)],
              'activation': ['tanh', 'relu'],
              'alpha': [0.0001, 0.05],
              'learning_rate': ['constant','adaptive'],
             }

In [12]:
from sklearn.model_selection import GridSearchCV
grid = GridSearchCV(estimator = clf,          
                    param_grid = parameters,  # É aquele dicionário com valores para serem testados.
                    n_jobs=-1,
                    cv=5)

In [13]:
# Treinando o grid.
grid.fit(X_train_std, y_train)



  return f(*args, **kwargs)


GridSearchCV(cv=5, estimator=MLPClassifier(max_iter=300, solver='sgd'),
             n_jobs=-1,
             param_grid={'activation': ['tanh', 'relu'],
                         'alpha': [0.0001, 0.05],
                         'hidden_layer_sizes': [(10, 30, 10), (20,)],
                         'learning_rate': ['constant', 'adaptive']})

from sklearn.metrics import classification_report
mlp = MLPClassifier(random_state=1,hidden_layer_sizes = (12,), max_iter=300,activation = 'relu', solver = 'sgd',verbose=False)
mlp.fit(X_train_std, y_train)
prediction=mlp.predict(X_train_std)
print(classification_report(y_train, prediction))

In [14]:
# Imprimindo os resultados.
pd.DataFrame(grid.cv_results_)

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_activation,param_alpha,param_hidden_layer_sizes,param_learning_rate,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,1007.080824,18.148316,0.328047,0.017113,tanh,0.0001,"(10, 30, 10)",constant,"{'activation': 'tanh', 'alpha': 0.0001, 'hidde...",0.801001,0.796981,0.801849,0.792503,0.803371,0.799141,0.003935,1
1,1044.778111,1.809247,0.315549,0.011694,tanh,0.0001,"(10, 30, 10)",adaptive,"{'activation': 'tanh', 'alpha': 0.0001, 'hidde...",0.795321,0.796255,0.7966,0.804699,0.790143,0.796603,0.00467,2
2,581.155608,55.736741,0.16246,0.012498,tanh,0.0001,"(20,)",constant,"{'activation': 'tanh', 'alpha': 0.0001, 'hidde...",0.761304,0.766332,0.761562,0.76194,0.764891,0.763206,0.002026,9
3,622.472871,28.744907,0.187456,0.029638,tanh,0.0001,"(20,)",adaptive,"{'activation': 'tanh', 'alpha': 0.0001, 'hidde...",0.759718,0.761267,0.762878,0.761535,0.761719,0.761423,0.001015,10
4,1039.321238,1.781932,0.312428,0.009879,tanh,0.05,"(10, 30, 10)",constant,"{'activation': 'tanh', 'alpha': 0.05, 'hidden_...",0.792555,0.794153,0.795678,0.783971,0.791962,0.791664,0.004059,3
5,1056.279235,8.616055,0.312426,0.00988,tanh,0.05,"(10, 30, 10)",adaptive,"{'activation': 'tanh', 'alpha': 0.05, 'hidden_...",0.791326,0.790576,0.793551,0.785311,0.7875,0.789653,0.00291,5
6,442.11217,51.636255,0.178084,0.036434,tanh,0.05,"(20,)",constant,"{'activation': 'tanh', 'alpha': 0.05, 'hidden_...",0.753743,0.758882,0.757493,0.760514,0.758056,0.757738,0.002242,11
7,537.119665,72.263234,0.174959,0.018217,tanh,0.05,"(20,)",adaptive,"{'activation': 'tanh', 'alpha': 0.05, 'hidden_...",0.758747,0.759411,0.759608,0.757478,0.753077,0.757664,0.002412,12
8,955.218299,2.923224,0.162462,0.015931,relu,0.0001,"(10, 30, 10)",constant,"{'activation': 'relu', 'alpha': 0.0001, 'hidde...",0.792936,0.792014,0.791129,0.785791,0.788655,0.790105,0.002585,4
9,955.286187,9.682417,0.155037,0.010157,relu,0.0001,"(10, 30, 10)",adaptive,"{'activation': 'relu', 'alpha': 0.0001, 'hidde...",0.785892,0.795284,0.785818,0.785778,0.786664,0.787887,0.003713,6


In [15]:
print('Best parameters found:\n', grid.best_params_)

Best parameters found:
 {'activation': 'tanh', 'alpha': 0.0001, 'hidden_layer_sizes': (10, 30, 10), 'learning_rate': 'constant'}


In [17]:
prediction = grid.predict(X_train_std)

In [19]:
from sklearn.metrics import classification_report
print(classification_report(y_train, prediction))

              precision    recall  f1-score   support

           1       0.82      0.78      0.80    148331
           2       0.81      0.87      0.84    198428
           3       0.74      0.80      0.77     24932
           4       0.74      0.49      0.59      1908
           5       0.80      0.26      0.39      6652
           6       0.58      0.49      0.53     12178
           7       0.83      0.72      0.77     14279

    accuracy                           0.80    406708
   macro avg       0.76      0.63      0.67    406708
weighted avg       0.80      0.80      0.80    406708

