# Redes Neurais Artificiais 2020.1 -- Projeto Prático 3.4

**Disciplina**: Redes Neurais Artificiais 2020.1  
**Professora**: Elloá B. Guedes (ebgcosta@uea.edu.br)  
**Github**: http://github.com/elloa  
        
### Alunos

Leonardo Monteiro Neres de Lima - 1615080320 (lmndl.eng16@uea.edu.br) <br>
Thatielen Oliveira Pereira - 1515080618 (top.eng@uea.edu.br) <br>
Vyctor Lima Negreiros - 1615080372 (vln.eng16@uea.edu.br) <br>

Levando em conta a base de dados **_Forest Cover Type_**, esta quarta parte do Projeto Prático 3 diz respeito à proposição e avaliação de múltiplas redes neurais artificiais do tipo feedforward multilayer perceptron para o problema da classificação multi-classe da cobertura florestal em uma área do Roosevelt National Forest.

## Busca em Grade

Uma maneira padrão de escolher os parâmetros de um modelo de Machine Learning é por meio de uma busca em grade via força bruta. O algoritmo da busca em grade é dado como segue:

1. Escolha a métrica de desempenho que você deseja maximizar  
2. Escolha o algoritmo de Machine Learning (exemplo: redes neurais artificiais). Em seguida, defina os parâmetros ou hiperparâmetros deste tipo de modelo sobre os quais você dseja otimizar (número de épocas, taxa de aprendizado, etc.) e construa um array de valores a serem testados para cada parâmetro ou hiperparâmetro.  
3. Defina a grade de busca, a qual é dada como o produto cartesiano de cada parâmetro a ser testado. Por exemplo, para os arrays [50, 100, 1000] e [10, 15], tem-se que a grade é [(50,10), (50,15), (100,10), (100,15), (1000,10), (1000,15)].
4. Para cada combinação de parâmetros a serem otimizados, utilize o conjunto de treinamento para realizar uma validação cruzada (holdout ou k-fold) e calcule a métrica de avaliação no conjunto de teste (ou conjuntos de teste)
5. Escolha a combinação de parâmetros que maximizam a métrica de avaliação. Este é o modelo otimizado.

Por que esta abordagem funciona? Porque a busca em grade efetua uma pesquisa extensiva sobre as possíveis combinações de valores para cada um dos parâmetros a serem ajustados. Para cada combinação, ela estima a performance do modelo em dados novos. Por fim, o modelo com melhor métrica de desempenho é escolhido. Tem-se então que este modelo é o que melhor pode vir a generalizar mediante dados nunca antes vistos.

## Efetuando a Busca em Grade sobre Hiperparâmetros das Top-6 RNAs

Considerando a etapa anterior do projeto prático, foram identificadas pelo menos 6 melhores Redes Neurais para o problema da classificação multi-classe da cobertura florestal no conjunto de dados selecionado. Algumas destas redes possuem atributos categóricos como variáveis preditoras, enquanto outras possuem apenas os atributos numéricos como preditores.

A primeira etapa desta segunda parte do projeto consiste em trazer para este notebook estas seis arquiteturas, ressaltando:

1. Número de neurônios ocultos por camada  
2. Função de Ativação  
3. Utilização ou não de atributos categóricos   
4. Desempenho médio +- desvio padrão nos testes anteriores  
5. Número de repetições que a equipe conseguiu realizar para verificar os resultados  

Elabore uma busca em grade sobre estas arquiteturas que contemple variações nos hiperparâmetros a seguir, conforme documentação de [MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)

A. Solver  (Não usar o LBFGS, pois é mais adequado para datasets pequenos)  
B. Batch Size  
C. Learning Rate Init  
D. Paciência (n_iter_no_change)  
E. Épocas  

Nesta busca em grande, contemple a utilização do objeto [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)

## Validação Cruzada k-fold

Na elaboração da busca em grid, vamos avaliar os modelos propostos segundo uma estratégia de validação cruzada ainda não explorada até o momento: a validação cruzada k-fold. Segundo a mesma, o conjunto de dados é particionado em k partes: a cada iteração, separa-se uma das partes para teste e o modelo é treinado com as k-1 partes remanescentes. Valores sugestivos de k na literatura são k = 3, 5 ou 10, pois o custo computacional desta validação dos modelos é alto. A métrica de desempenho é resultante da média dos desempenhos nas k iterações. A figura a seguir ilustra a ideia desta avaliação

<img src = "https://ethen8181.github.io/machine-learning/model_selection/img/kfolds.png" width=600></img>

Considerando a métrica de desempenho F1-Score, considere a validação cruzada 5-fold para aferir os resultados da busca em grande anterior.

## Arquiteturas Consideradas (Segundo F-Score)


### 3 Melhores Redes Segundo Arquiteturas Próprias

#### Rede 1:

- Neurônios por Camada: 20, 10
- Função de Ativação: relu
- Utilização de Atributos Categóricos: Não
- F-Score Médio: 0.6085 +- 0.0138
- Iterações: 200

#### Rede 2:

- Neurônios por Camada: 20, 20
- Função de Ativação: relu
- Utilização de Atributos Categóricos: Não
- F-Score Médio: 0.5989 +- 0.0155
- Iterações: 150

#### Rede 3:

- Neurônios por Camada: 10, 8
- Função de Ativação: relu
- F-Score Médio: 0.5473 +- 0.0169
- Iterações: 100

### 3 Melhores Redes Segundo a Regra da Pirâmide Geométrica

#### Rede 1:

- Neurônios por Camada: 16, 8
- Função de Ativação: relu
- Utilização de Atributos Categóricos: Não
- F-Score Médio: 0.6044
- Iterações: 150

#### Rede 2:

- Neurônios por Camada: 15, 10
- Função de Ativação: relu
- Utilização de Atributos Categóricos: Não
- F-Score Médio: 0.5682
- Iterações: 200

#### Rede 3:

- Neurônios por Camada: 12, 8
- Função de Ativação: relu
- Utilização de Atributos Categóricos: Não
- F-Score Médio: 0.5677
- Iterações: 100

In [1]:
import numpy as np, pandas as pd, os
from joblib import dump, load
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score
from sklearn.model_selection import GridSearchCV
from sklearn.neural_network import MLPClassifier
from warnings import filterwarnings

In [2]:
filterwarnings('ignore')

### Leitura de Dados e Remoção de Atributos Categóricos

In [3]:
data = pd.read_csv(os.path.join('..', os.path.join('datasets', 'covtype.csv')), sep=';')

In [4]:
patterns = ['Soil_Type', 'Wilderness_Area']
numeric_columns = [column for column in data.columns if not any(pattern in column for pattern in patterns)]

data = data[numeric_columns]

In [5]:
print(data.columns.to_list())

['Elevation', 'Aspect', 'Slope', 'Horizontal_Distance_To_Hydrology', 'Vertical_Distance_To_Hydrology', 'Horizontal_Distance_To_Roadways', 'Hillshade_9am', 'Hillshade_Noon', 'Hillshade_3pm', 'Horizontal_Distance_To_Fire_Points', 'Cover_Type']


### Separação e Escalonamento de Dados

In [6]:
X, Y = data[data.columns.drop('Cover_Type')], data['Cover_Type']
X_std = (X - np.mean(X)) / np.std(X)

### Definindo as 6 Melhores Redes

In [7]:
models = [
    { 'hidden_layer_sizes': (20, 10,), 'activation': 'relu' },
    { 'hidden_layer_sizes': (20, 20,), 'activation': 'relu' },
    { 'hidden_layer_sizes': (10, 8,),  'activation': 'relu' },
    { 'hidden_layer_sizes': (16, 8,),  'activation': 'relu' },
    { 'hidden_layer_sizes': (15, 10,), 'activation': 'relu' },
    { 'hidden_layer_sizes': (12, 8,),  'activation': 'relu' },
]

### Definindo Parâmetros da Busca em Grade

In [8]:
param_grid = {
    'solver': ['adam', 'sgd'], 
    'batch_size': [500, 1000],
    'learning_rate_init': [0.001, 0.01],
    'max_iter': [50, 100],
    'n_iter_no_change': [5, 10]
}

### Execução da Busca em Grade

In [9]:
gs_results = []

for model in models:
    mlp = MLPClassifier(hidden_layer_sizes=model['hidden_layer_sizes'], activation=model['activation'])
    
    gs = GridSearchCV(mlp, param_grid, n_jobs=-1, cv=5, scoring='f1_micro')
    gs.fit(X_std, Y)
    
    gs_results.append(gs)

## Identificando a mellhor solução

Como resultado da busca em grande com validação cruzada 5-fold, identifique o modelo otimizado com melhor desempenho para o problema. Apresente claramente este modelo, seus parâmetros, hiperparâmetros otimizados e resultados para cada um dos folds avaliados. Esta é a melhor solução identificada em decorrência deste projeto

In [31]:
results = []

for gs in gs_results:
    result = {'estimator': gs.best_estimator_, 'params': gs.best_params_, 'score': gs.best_score_ }
    results.append(result)

results.sort(key=lambda x: x['score'], reverse=True)

In [44]:
metrics = []

for result in results:
    metric = result['params'].copy()
    metric['score'] = result['score']
    metrics.append(metric)
    
df_results = pd.DataFrame(metrics)
df_results

Unnamed: 0,batch_size,learning_rate_init,max_iter,n_iter_no_change,solver,score
0,1000,0.001,50,5,sgd,0.639262
1,1000,0.001,50,10,sgd,0.638241
2,1000,0.001,50,5,sgd,0.627214
3,1000,0.001,50,10,sgd,0.626102
4,1000,0.001,50,10,sgd,0.625273
5,1000,0.001,50,10,sgd,0.62161


### Melhor Modelo

In [46]:
results[0]['estimator']

MLPClassifier(batch_size=1000, hidden_layer_sizes=(15, 10), max_iter=50,
              n_iter_no_change=5, solver='sgd')

## Empacotando a solução

Suponha que você deve entregar este classificador ao órgão responsável por administrar o Roosevelt National Park. Para tanto, você deve fazer uma preparação do mesmo para utilização neste cenário. Uma vez que já identificou os melhores parâmetros e hiperparâmetros, o passo remanescente consiste em treinar o modelo com estes valores e todos os dados disponíveis, salvando o conjunto de pesos do modelo ao final para entrega ao cliente. Assim, finalize o projeto prático realizando tais passos.

1. Consulte a documentação a seguir:
https://scikit-learn.org/stable/modules/model_persistence.html  
2. Treine o modelo com todos os dados  
3. Salve o modelo em disco  
4. Construa uma rotina que recupere o modelo em disco  
5. Mostre que a rotina é funcional, fazendo previsões com todos os elementos do dataset e exibindo uma matriz de confusão das mesmas

### Retreinando Melhor Modelo com Todos os Dados

In [42]:
best_model = results[0]['estimator']
best_model.fit(X_std, Y)

MLPClassifier(batch_size=1000, hidden_layer_sizes=(15, 10), max_iter=50,
              n_iter_no_change=5, solver='sgd')

### Salvando Melhor Modelo

In [47]:
if not os.path.exists(os.path.join('..', 'models')):
    os.makedirs(os.path.join('..', 'models'))

dump(best_model, os.path.join('..', os.path.join('models', 'model.joblib')))

['../models/model.joblib']

### Recuperando Melhor Modelo

In [48]:
def load_model(name):
    if not os.path.join('..', os.path.join('models', name)):
        print("Nenhum modelo com o nome informado encontrado")
        return None
    
    model = load(os.path.join('..', os.path.join('models', name)))
    return model

In [49]:
mlp = load_model('model.joblib')
mlp

MLPClassifier(batch_size=1000, hidden_layer_sizes=(15, 10), max_iter=50,
              n_iter_no_change=5, solver='sgd')

### Aferindo Métricas do Modelo Recuperado

In [50]:
Y_pred = mlp.predict(X_std)

**Matriz de Confusão**

In [51]:
confusion_matrix(Y, Y_pred)

array([[150660,  57158,     93,      0,      0,     11,   3918],
       [ 55192, 223262,   3916,      0,     90,    812,     29],
       [     0,   6878,  26208,    304,      0,   2364,      0],
       [     0,     39,   1813,    371,      0,    524,      0],
       [    82,   9218,     34,      0,    159,      0,      0],
       [     0,   5577,   9089,     47,      0,   2654,      0],
       [ 11842,     94,      0,      0,      0,      0,   8574]])

**F-Score**

In [52]:
f1_score(Y, Y_pred, average='micro')

0.7089147900559714

**Acurácia**

In [53]:
accuracy_score(Y, Y_pred)

0.7089147900559714