# Atividade Prática 2.1 - Idade do Abalone

* Disciplina _Inteligência Artificial Aplicada_
* Professora: Elloá B. Guedes (ebgcosta@uea.edu.br)
* Data de apresentação: 13 de janeiro de 2023
* Data limite de entrega: 25 de janeiro de 2023


## Equipe
* Integrante 1: *Aurelio Aquino*
* Integrante 2: *Jailson Bina*
* Integrante 3: *Sthephany Costa*
* Integrante 4: *Erica Veras*
* Integrante 5: *Michelle de Carvalho*
* Integrante 6: *Guilherme Rodamilans*
* Integrante 7: *Fabiano Dolzanes*


O Abalone é um gênero (_Haliotis_) de um moluscos gastrópodes marinhos da família _Haliotidae_. Foi identificado por Linnaeus em 1758 e suas diversas espécies podem ser encontradas em águas costeiras de quase todo o mundo. É usado na indústria alimentícia e em itens decorativos, tais como jóias ou instrumentos musicais [1](https://pt.wikipedia.org/wiki/Abalone). A idade do abalone pode ser obtida diretamente a partir de medidas físicas, porém é necessário cortar a concha, efetuar um processo de pigmentação, e então contar o número de anéis por meio de um microscópio -- tarefa considerada monótona e custosa [2](https://archive.ics.uci.edu/ml/datasets/Abalone).

Outras medidas do Abalone, entretanto, são mais fáceis de obter, não danificam a concha e podem ser utilizadas para estimar a idade com um modelo inteligente por meio de um processo de Aprendizado Supervisionado. Nesta Atividade Avaliativa de caráter prático, almeja-se a proposição e avaliação de múltiplas Redes Neurais Artificiais (RNAs) do tipo _Feedforward Multilayer Perceptron_ (MLP) para o problema da classificação multi-classe da idade do abalone a partir de atributos preditores.

Base de dados original: https://archive.ics.uci.edu/ml/datasets/Abalone  
Base de dados preparada: abalone.csv (Disponível no Google Classroom)

## Aquecimento

1. Abrir a base de dados
2. Separar os atributos preditores (X) e o atributo-alvo (y) nas respectivas variáveis
3. Imprimir a dimensão da base de dados (quantidade de exemplos, quantidade de atributos preditores)
4. Efetue uma partição holdout 70/30 com o sklearn, distribuindo os exemplos de maneira aleatória

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import mean_squared_error

In [2]:
df = pd.read_csv('abalone.csv') 
df

Unnamed: 0,Length,Diameter,Height,Whole weight,Shucked weight,Viscera weight,Shell weight,Age,F,I,M
0,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7,0,0,1
1,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9,1,0,0
2,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10,0,0,1
3,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7,0,1,0
4,0.425,0.300,0.095,0.3515,0.1410,0.0775,0.1200,8,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...
4171,0.565,0.450,0.165,0.8870,0.3700,0.2390,0.2490,11,1,0,0
4172,0.590,0.440,0.135,0.9660,0.4390,0.2145,0.2605,10,0,0,1
4173,0.600,0.475,0.205,1.1760,0.5255,0.2875,0.3080,9,0,0,1
4174,0.625,0.485,0.150,1.0945,0.5310,0.2610,0.2960,10,1,0,0


In [3]:
X = df.drop(columns=['Age'])
Y = df['Age']

In [4]:
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3)

## Normalização dos Atributos Preditores

O treinamento de uma RNA MLP é mais eficiente quando os valores que lhes são fornecidos como entrada são pequenos, pois isto favorece a convergência. Isto é feito por meio do escalonamento dos atributos preditores para o intervalo [0,1], mas precisa ser feito de maneira cautelosa, para que informações do conjunto de teste não sejam fornecidas no treinamento.

Há duas estratégias para tal escalonamento: normalização e padronização. Ambas possuem características particulares, vantagens e limitações, como é possível ver aqui: https://www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalization-standardization/

No nosso caso, vamos usar a normalização. Assim, com os atributos preditores do treinamento, isto é, X_train, deve-se efetuar as seguintes operações

X_train_norm = (X_train - min(X_train))/(max(X_train) - min(X_train))

Em seguida, o mesmo deve ser feito com os atributos preditores do conjunto de testes, mas com padronização relativa ao conjunto de treinamento:

X_test_norm = (X_test - min(X_train)))/(max(X_train) - min(X_train))

Se todo o conjunto X for utilizado no escalonamento, a rede neural receberá informações do conjunto de teste por meio dos valores mínimo e máximo utilizados para preparar os dados de treinamento, o que não é desejável.

In [5]:
X_train_norm = (X_train - X_train.min(axis=0))/(X_train.max(axis=0) - X_train.min(axis=0))
X_test_norm = (X_test - X_test.min(axis=0))/(X_test.max(axis=0) - X_test.min(axis=0))

## Treinando a primeira RNA MLP para o Abalone

1. Treine uma RNA MLP Classificadora para este problema com uma única camada e dez neurônios  
    1.1 Utilize a função de ativação ReLU  
    1.2 Utilize o solver Adam    
    1.3 Imprima o passo a passo do treinamento    
    1.4 Utilize o número máximo de épocas igual a 300  
2. Imprima um gráfico com a perda da RNA MLP ao longo do treinamento  
    2.1 Houve Early Stopping?  
3. Com o modelo em questão, após o treinamento, apresente:  
    3.1 Matriz de confusão para o conjunto de teste  
    3.2 Acurácia  
    3.3 F-Score  
    3.4 Precisão  
    3.5 Revocação  
    
No tocante ao Passo 3, construa funções para esta tarefa, pois serão recorrentemente utilizadas ao longo do trabalho

In [6]:
rede = MLPClassifier((10,), activation='relu', solver='adam', verbose=True, max_iter=300)
rede.fit(X_train, Y_train)

Iteration 1, loss = 3.17054990
Iteration 2, loss = 3.12126827
Iteration 3, loss = 3.06834575
Iteration 4, loss = 3.00766941
Iteration 5, loss = 2.93944790
Iteration 6, loss = 2.86677871
Iteration 7, loss = 2.79224906
Iteration 8, loss = 2.72129993
Iteration 9, loss = 2.65408398
Iteration 10, loss = 2.59325416
Iteration 11, loss = 2.53949924
Iteration 12, loss = 2.49653407
Iteration 13, loss = 2.46231504
Iteration 14, loss = 2.43370926
Iteration 15, loss = 2.40952745
Iteration 16, loss = 2.38801716
Iteration 17, loss = 2.37004346
Iteration 18, loss = 2.35371732
Iteration 19, loss = 2.33952761
Iteration 20, loss = 2.32705298
Iteration 21, loss = 2.31588706
Iteration 22, loss = 2.30577383
Iteration 23, loss = 2.29689099
Iteration 24, loss = 2.28890205
Iteration 25, loss = 2.28155913
Iteration 26, loss = 2.27470727
Iteration 27, loss = 2.26915898
Iteration 28, loss = 2.26318878
Iteration 29, loss = 2.25807951
Iteration 30, loss = 2.25278499
Iteration 31, loss = 2.24812409
Iteration 32, los



In [None]:
mean_squared_error(Y_test, rede.predict(X_test))

## Estimando o número de neurônios

Um dos problemas de pesquisa com redes neurais artificiais consiste na determinação do número de neurônios em sua arquitetura. Embora não seja possível definir a priori qual rede neural é adequada para um problema, pois isto só é possível mediante uma busca exaustiva, há regras na literatura que sugerem o número de neurônios escondidos, tal como a regra da Pirâmide Geométrica, dada a seguir:

$$N_h = \alpha \cdot \sqrt{N_i \cdot N_o},$$

em que $N_h$ é o número de neurônios ocultos (a serem distribuídos em uma ou duas camadas ocultas), $N_i$ é o número de neurônios na camada de entrada e $N_o$ é o número de neurônios na camada de saída. 

1. Consulte a documentação da classe MLPClassifier (disponível em https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html) e obtenha os valores de $N_i$ e $N_o$.
2. Teste os valores de $\alpha$ como sendo iguais a $0.5$, $2$ e $3$.
3. Proponha pelo menos 30 arquiteturas de neurônios para RNAS MLPs segundo a regra da pirâmide geométrica  
    3.1 Ao final desta etapa, deve-se obter uma lista contendo 30 elementos do tipo 2-tupla  
    3.2 Obtenha as arquiteturas usando laços, listas, tuplas, etc. Soluções _hard-coded_ são desencorajadas  

## Busca em Grade

Uma maneira padrão de escolher os parâmetros de um modelo de _Machine Learning_ é por meio de uma busca em grade via força bruta. O algoritmo da busca em grade é dado como segue:

1. Escolha a métrica de desempenho que você deseja maximizar  
2. Escolha o algoritmo de Machine Learning (exemplo: MLPClassifier). Em seguida, defina os parâmetros ou hiperparâmetros deste tipo de modelo sobre os quais você dseja otimizar (número de épocas, taxa de aprendizado, etc.) e construa um array de valores a serem testados para cada parâmetro ou hiperparâmetro.  
3. Defina a grade de busca, a qual é dada como o produto cartesiano de cada parâmetro a ser testado. Por exemplo, para os arrays [50, 100, 1000] e [10, 15], tem-se que a grade é [(50,10), (50,15), (100,10), (100,15), (1000,10), (1000,15)].
4. Para cada combinação de parâmetros a serem otimizados, utilize o conjunto de treinamento para realizar uma validação cruzada (holdout ou k-fold) e calcule a métrica de avaliação no conjunto de teste (ou conjuntos de teste)
5. Escolha a combinação de parâmetros que maximizam a métrica de avaliação. Este é o modelo otimizado.

Por que esta abordagem funciona? Porque a busca em grade efetua uma pesquisa extensiva sobre as possíveis combinações de valores para cada um dos parâmetros a serem ajustados. Para cada combinação, ela estima a performance do modelo em dados novos. Por fim, o modelo com melhor métrica de desempenho é escolhido. Tem-se então que este modelo é o que melhor pode vir a generalizar mediante dados nunca antes vistos.

Sua busca em grade deve considerar:

1. Validação Cruzada Holdout 70/30 com normalização, como definido anteriormente, com aferição de desempenho no conjunto de testes
2. Parâmetros:  
  2.1 30 arquiteturas propostas para o número de neurônios ocultos no item anterior  
  2.2 Funções de ativação (ReLU e Sigmóide)
3. Hiperparâmetros:  
  3.1 Batch_size: 16 ou 32  
  3.2 Solver: Adam  
  3.3 $\beta_1$: 1, 0.9, 0.8  
  3.4 $\beta_1$: 0.999, 0.95, 0.9  
  3.5 Paciência (n_iter_no_change): 25 ou 50    
4. Nesta busca em grande, contemple a utilização do objeto [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)
5. Apresente as três propostas com melhor desempenho na busca em grade

## Otimização por Ajuste Fino (Fine-Tuning)

Considerando a etapa anterior, foram identificadas 3 melhores RNAs MLPs com seus parâmetros e hiperparâmetros para o problema da classificação multi-classe da idade do Abalone. Uma das questões remanescentes é se o número de épocas foi suficiente para o treinamento e melhor aprendizado das características do problema, mas lembrando-se de prevenir overfitting.

Com essas Top-3 RNAs identificadas, faça o que se pede:
1. Aumente o número de épocas do treinamento para 600
2. Aumenta a paciência para 60 (10% das épocas do treinamento)

Repita o treinamento e o teste das 3 melhores RNAs e verifique se houve melhoria de desempenho. Apresente detalhadamente, para cada uma das redes, as métricas de acurácia, precisão, revocação e F1-Score (weighted), bem como a matriz de confusão.

## Validação Cruzada k-fold

Na elaboração da busca em grade e com sua posterior otimização, fomos capazes de identificar as três melhores arquiteturas para o problema. O passo seguinte consiste em avaliar a robustez da RNA MLP com melhor desempenho. Caso os valores de desempenho tenham sido muito próximos, assuma que é a melhor rede é a que possui menos parâmetros, isto é, a menor quantidade de pesos.

Nessa etapa, vamos utilizar uma estratégia de validação cruzada ainda não explorada até o momento: a validação cruzada k-fold. Segundo a mesma, o conjunto de dados é particionado em k partes: a cada iteração, separa-se uma das partes para teste e o modelo é treinado com as k-1 partes remanescentes. Valores sugestivos de k na literatura são k = 3, 5 ou 10, pois o custo computacional desta validação dos modelos é alto. A métrica de desempenho é resultante da média dos desempenhos nas k iterações. A figura a seguir ilustra a ideia desta avaliação

<img src = "https://ethen8181.github.io/machine-learning/model_selection/img/kfolds.png" width=600></img>

Considerando a métrica de desempenho F1-Score, avalie a melhor RNA MLP no tocante ao seu desempenho em uma validação cruzada $10$-fold. Consulte: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.KFold.html. Apresente claramente os resultados obtidos desta validação.

## Empacotando a solução

Suponha que você deva entregar este classificador ao órgão responsável pelo manejo dos abalones em uma determinada região. Para tanto, você deve fazer uma preparação do mesmo para utilização neste cenário. Uma vez que já identificou os melhores parâmetros e hiperparâmetros, o passo remanescente consiste em treinar o modelo com estes valores e todos os dados disponíveis, salvando o conjunto de pesos do modelo ao final para entrega ao cliente. Assim, finalize o projeto prático realizando tais passos.

1. Consulte a documentação a seguir:
https://scikit-learn.org/stable/modules/model_persistence.html  
2. Treine o modelo com todos os dados  
3. Salve o modelo em disco  
4. Construa uma rotina que recupere o modelo em disco  
5. Mostre que a rotina é funcional, fazendo previsões com todos os elementos do dataset e exibindo uma matriz de confusão das mesmas