# Classification Seeds Data Set

Na avaliação será levado em conta:
1. Corretude das tarefas solicitadas
2. Qualidade e boas práticas de codificação
3. Eficiência na manipulação dos dados

O objetivo deste quarto projeto prático da disciplina Redes Neurais Artificias é conduzir um processo de Aprendizado de Máquina com tarefa de classificação multiclasse que utilize redes neurais artificiais do tipo multilayer perceptron para endereçar esta tarefa.

Cada equipe deve produzir um Jupyter Notebook contendo boas práticas de programação que ilustrem os passos detalhados desta tarefa, com justificativas e comentários sempre que necessários.

- Kid Mendes de Oliveira Neto - 1615310011
- Wilson Calixto Cordovil Junior - 1515310026

#### Importação das Bibliotecas

In [2]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import GridSearchCV
from sklearn.neural_network import MLPClassifier
from math import sqrt
%matplotlib inline

#### Obtenha o seeds dataset do repositório da Universidade de California em Irvine

In [3]:
seeds_dataset = pd.read_csv('train.csv', sep=',')
#seeds_dataset.columns = ["area", "perimeter", "compactness", "length", "width", "asymmetry", "length groove", "wheat"]
seeds_dataset.head()

Unnamed: 0,id,Age,BMI,Glucose,Insulin,HOMA,Leptin,Adiponectin,Resistin,MCP.1,Classification
0,114,47,22.03,84,2.869,0.59,26.65,38.04,3.32,191.72,1
1,104,75,30.48,152,7.01,2.6283,50.53,10.06,11.73,99.45,2
2,90,25,22.86,82,4.09,0.8273,20.45,23.67,5.14,313.73,1
3,8,54,24.2188,86,3.73,0.7913,8.6874,3.7052,10.3446,635.049,2
4,9,69,35.0927,101,5.646,1.4066,83.4821,6.797,82.1,263.499,1


#### Efetue a partição do dataset 

In [13]:
X_train = seeds_dataset.drop(['id','Classification','Leptin','Adiponectin','MCP.1'], axis=1) 
#X_train = seeds_dataset.drop(['id','Classification'], axis=1) 
#['Age', 'BMI', 'Glucose', 'Insulin', 'HOMA', 'Resistin']
Y_train = seeds_dataset['Classification']

#### Utilizar a regra da pirâmide geométrica para identificar o número de neurônios nas camadas ocultas

In [5]:
def geometric_pyramid(alpha, ni, no):
    return int(alpha * sqrt(ni*no))

#### Preparando os parâmetros o qual deve variar a função de ativação e o número de neurônios nas camadas ocultas.

In [6]:
#Quantidade de neurônios em cada camada oculta. Ex: (13,), (2,), (6,7), (9,)
hidden_layer_sizes = [
    (1), 
    (1,1),
    (2) 
    
]

#Dicionário que servirá para a variação dos parâmetros na Rede Neural
param_grid = {
    'activation': ['identity', 'logistic', 'tanh', 'relu'],
    'hidden_layer_sizes': hidden_layer_sizes,
    'learning_rate_init': [0.01, 0.001, 0.0005, 0.0001],
}

#### Busca em grade utilizando o solver lbfgs

In [15]:
mlp = MLPClassifier(solver='lbfgs')
#grid_lbfgs = GridSearchCV(mlp, param_grid, cv=3, scoring='accuracy')
grid_lbfgs = GridSearchCV(mlp, param_grid, cv=3, scoring='f1')
grid_lbfgs.fit(X_train, Y_train)

print("Função de ativação: {}\nQuantidade de neurônios nas camadas ocultas: {}\nTaxa de Aprendizagem: {}\nMelhor acurácia: {}"
      .format(grid_lbfgs.best_params_['activation'], grid_lbfgs.best_params_['hidden_layer_sizes'],
              grid_lbfgs.best_params_['learning_rate_init'], grid_lbfgs.best_score_))

Função de ativação: identity
Quantidade de neurônios nas camadas ocultas: (1, 1)
Taxa de Aprendizagem: 0.0005
Melhor acurácia: 0.717391304347826


#### Busca em grade utilizando o solver sgd

In [8]:
mlp = MLPClassifier(solver='sgd')
grid_sgd = GridSearchCV(mlp, param_grid, cv=3, scoring='f1')
grid_sgd.fit(X_train, Y_train)

print("Função de ativação: {}\nQuantidade de neurônios nas camadas ocultas: {}\nTaxa de Aprendizagem: {}\nMelhor acurácia: {}"
      .format(grid_sgd.best_params_['activation'], grid_sgd.best_params_['hidden_layer_sizes'],
              grid_sgd.best_params_['learning_rate_init'], grid_sgd.best_score_))

Função de ativação: logistic
Quantidade de neurônios nas camadas ocultas: 1
Taxa de Aprendizagem: 0.0001
Melhor acurácia: 0.6370364140946935


#### Busca em grade utilizando o solver adam

In [9]:
mlp = MLPClassifier(solver='adam')
grid_adam = GridSearchCV(mlp, param_grid, cv=3, scoring='f1')
grid_adam.fit(X_train, Y_train)

print("Função de ativação: {}\nQuantidade de neurônios nas camadas ocultas: {}\nTaxa de Aprendizagem: {}\nMelhor acurácia: {}"
      .format(grid_adam.best_params_['activation'], grid_adam.best_params_['hidden_layer_sizes'],
              grid_adam.best_params_['learning_rate_init'], grid_adam.best_score_))

Função de ativação: tanh
Quantidade de neurônios nas camadas ocultas: (1, 1)
Taxa de Aprendizagem: 0.001
Melhor acurácia: 0.6522200639549074
