# Multilayer Perceptron

***

## Índice

1. [Importando bibliotecas](#importando-bibliotecas)
2. [Treinamento do modelo](#treinamento-do-modelo)
3. [Melhorando o modelo](#melhorando-o-modelo)
4. [Um dataset mais complicado](#um-dataset-mais-complicado)

## Importando bibliotecas

In [None]:
# Bibliotecas de manipualção e visualização de dados
import numpy as np
import matplotlib.pyplot as plt
from mlxtend.plotting import plot_decision_regions

# Classes do modelo
from sklearn.neural_network import MLPClassifier

# Funções de avaliação dos modelos
from sklearn.metrics import classification_report
from sklearn.model_selection import train_test_split

# Função para carregar nosso dataset
from sklearn.datasets import load_wine

def show_decision_region(x, y, clf, f0, f1):
    plot_decision_regions(x, y, clf=clf)
    plt.xlabel(f0)
    plt.ylabel(f1)
    if clf.__class__.__name__ == "KNeighborsClassifier":
        plt.title(clf.__class__.__name__ + " k = " + str(clf.n_neighbors))
    else:
        plt.title(clf.__class__.__name__)
    plt.show()

# criar uma função 
def show_dataset(x, y):
    pass

## Treinamento do modelo

Vamos estudar a implementação do MLP no sklearn. Primeiro, o MLPClassifier treina iterativamente, já que em cada passo de otimização, as derivadas parciais da função de custo (loss function) em relação aos parâmetros da rede (pesos e bias de cada camada) são calculadas. 

Alguns parâmetros importantes no MLP:
 
- hidden_layer_sizes: Tupla que controla a profundidade (quantidade de camadas) e números de neurônios na por cada camada escondida. Por exemplo: (100, 10,) cria uma rede com 100 neuronios na primeira camada escondida e 10 na segunda camada. O número de neurônios na entrada da rede é o número de features. A saída da ultima camada escondida tem o tamanho da quantidade de classes ou dimensões (regressão).
- activation: Define {‘identity’, ‘logistic’, ‘tanh’, ‘relu’} funções de ativação.
    - identity: $f(x) = x$
    - logistic: $1 / (1 + e^{-x})$
    - tanh: $tanh(x)$
    - relu: $max(0, x)$
- batch_size: default=’auto’ Tamanho do batch de treinamento, se for mantido em "auto", $batch_size=min(200, n\_samples)$.
- learning_rate: default=’constant’ Esquema de redução de _learning_rate_. Caso seja constante, a mesma _learning_rate_ no início do treino segue até o fim.
- max_iter: default=200 Número máximo de iterações, caso o modelo não atinja convergência.
- tol: Caso a função de custo no treinamento não melhorar mais do que _tol_, é considerado que o modelo atingiu convergência.
- early_stopping: default=False Se esse parâmetro for verdadeiro, separa automaticamente uma fração do dataset de treino em um dataset de validação, de tamanho validation_fraction_.
- validation_fraction: default=0.1, representando 10% do dataset para validação.
- n_iter_no_change default=10 Número máximo de épocas em que o algoritmo deve parar caso não melhore mais que _tol_.

In [None]:
# carregar dataset
X, y = load_wine(return_X_y=True, as_frame=True)

# definição de classes e features
class_a = 0
class_b = 1
feature_0 = "alcohol"
feature_1 = "color_intensity"

# filtrar classes e features
class_0_instances = (y == class_a)
class_1_instances = (y == class_b)

filtered_y = y[class_0_instances | class_1_instances]
filtered_X = X[class_0_instances | class_1_instances]
filtered_X = filtered_X[[feature_0, feature_1]]

# dividir classificador em treino e teste
X_train, X_test, y_train, y_test = train_test_split(filtered_X[[feature_0, feature_1]], filtered_y, test_size=0.3, random_state=199)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.3, random_state=199)

In [None]:
model_a = MLPClassifier(random_state=199)
model_a.fit(X_train, y_train)

show_decision_region(
    np.array(
        [
            X_val[feature_0].values, 
            X_val[feature_1].values,
        ]
    ).T, 
    y_val.values, 
    model_a, 
    feature_0, 
    feature_1
)

print(classification_report(y_val, model_a.predict(X_val)))

In [None]:
# como se comportou o treinamento do modelo?
plt.plot(model.loss_curve_)

O que podemos fazer para melhorar _model_a_? 

É possível criar um [pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html) de objetos que podem auxiliar nosso classificador, como [preprocessamento](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing). Um pipeline é criado com uma lista de transformações e um classificador, que tem como propósito agregar vários passos em apenas um objeto, deixando transparente que tipo de processamento é realizado.

Alguns modelos de [preprocessamento](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing):

Standard Scaler: $Z = \frac{X-\mu}{\sigma}$

Min-max Scaler: $\frac{X-min(X)}{max(X) - min(X)}$




     

In [None]:
model_b = ...

In [None]:
print(classification_report(y_val, model_a.predict(X_val)))
print(classification_report(y_val, model_b.predict(X_val)))

## Um dataset mais complicado

Agora que já vimos algumas características do MLP no dataset que já conhecemos, como podemos resolver um desafio maior?

In [None]:
from sklearn.datasets import make_moons
from sklearn.preprocessing import StandardScaler

from matplotlib.colors import ListedColormap

# criação do dataset
X, y = make_moons(n_samples=900, noise=0.2, random_state=199)

# cores e simbolos para as classses
colors = {0: "steelblue", 1: "darkorange", 2: "mediumseagreen"}
markers = {0: "s", 1: "^", 2:"o"}

# visualização do dataset
plt.scatter(
    X[y==0, 0],
    X[y==0, 1], 
    c=colors[0], 
    marker=markers[0]
)
plt.scatter(
    X[y==1, 0], 
    X[y==1, 1], 
    c=colors[1], 
    marker=markers[1]
)

In [None]:
# vamos classificar esse dataset usando um MLP