## Neural networks Regression


#### MLPRegressor do módulo sklearn.neural_network


#### Por que regressão com MLP?

De maneira mais geral, porque alguns problemas de aprendizado profundo são problemas de regressão.

E, assim como na classificação, o uso de perceptrons de várias camadas é um bom ponto de partida para aprender sobre as arquiteturas mais complexas usadas para a regressão no aprendizado profundo.

In [8]:
from sklearn.neural_network import MLPRegressor

import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

from sklearn.datasets import load_breast_cancer

In [5]:
cancer = load_breast_cancer()

(X_cancer, y_cancer) = load_breast_cancer(return_X_y = True)




Utilize regressor perceptron de várias camadas importando a classe MLPRegressor do módulo sklearn.neural_network e, em seguida, crie o objeto MLPRegressor. 

Ao criar o objeto, definimos o número de camadas e unidades ocultas em cada camada oculta. Usando o mesmo parâmetro hidden_layer_sizes.

E observe que primeiro aplicamos o <b>MinMaxScaler</b> para pré-processar os recursos de entrada.

Aqui, combinaremos uma rede mais complexa, usando 2 camadas ocultas com 100 unidades cada. Com uma configuração de regularização mais alta de alfa em 5.0 e usando o solucionador lgbfs novamente.




> Novamente, como na classificação, o efeito de aumentar a quantidade de regularização de L2, aumentando o alfa é restringir a regressão para usar modelos cada vez mais simples, com pesos cada vez menores.


A principal maneira de controlar a complexidade do modelo para o MLP é controlar o tamanho e a estrutura da unidade oculta. Usando o parâmetro hidden_layers_sizes que controla o número de camadas ocultas e o número de unidades dentro de cada camada.

Alpha controla a quantidade de regularização que ajuda a restringir a complexidade do modelo, restringindo a magnitude dos pesos do modelo.

Finalmente, você pode experimentar pelo menos três opções diferentes para a função de ativação não linear, usando o parâmetro de ativação.

Anteriormente, vimos o parâmetro solver, para especificar o algoritmo que aprende os pesos da rede.

<b>lbfgs</b> solver é o algoritmo que realmente faz o trabalho numérico de encontrar os pesos ideais. E uma maneira intuitiva de visualizar esse processo. É que todos os algoritmos do solucionador precisam fazer uma espécie de escalada em uma paisagem muito acidentada, com muitos mínimos locais. Onde cada mínimo local corresponde a um conjunto ideal localmente de pesos. Ou seja, uma escolha de configuração de peso melhor do que qualquer opção próxima de pesos. Assim, em toda essa paisagem de mínimos locais muito esburacados. Alguns terão pontuações mais altas de validação nos dados do teste e outros terão menores. Então, dependendo da inicialização aleatória inicial dos pesos. E a natureza da trajetória no caminho de busca que um solucionador percorre nessa paisagem esburacada. O <b>lbfgs</b> solver pode terminar em diferentes mínimos locais, que podem ter diferentes pontuações de validação. O solver padrão, <b>adam</b>, tende a ser eficiente e eficaz em grandes conjuntos de dados, com milhares de exemplos de treinamento. Para conjuntos de dados pequenos, como muitos dos que usamos nesses exemplos, o solucionador de <b>lbfgs</b> tende a ser mais rápido e a encontrar pesos mais eficazes. 




In [12]:

from sklearn.neural_network import MLPClassifier
from sklearn.preprocessing import MinMaxScaler


scaler = MinMaxScaler()
# Muitos algoritmos de aprendizado de máquina têm melhor desempenho quando as variáveis de entrada 
#numéricas são escaladas para um intervalo padrão. Isso inclui algoritmos que usam uma soma 
#ponderada da entrada, como regressão linear, e algoritmos que usam medidas de distância, 
#como k-vizinhos mais próximos. As duas técnicas mais populares para dimensionar dados numéricos 
#antes da modelagem são normalização e padronização. A normalização dimensiona cada variável de 
#entrada separadamente para o intervalo 0-1, que é o intervalo para valores de ponto flutuante onde
#temos mais precisão. A padronização dimensiona cada variável de entrada separadamente subtraindo 
#a média (chamada de centralização) e dividindo 
#pelo desvio padrão para mudar a distribuição para ter uma média zero e um desvio padrão um.

X_train, X_test, y_train, y_test = train_test_split(X_cancer, y_cancer, random_state = 0)
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

clf = MLPClassifier(hidden_layer_sizes = [100, 100], alpha = 5.0,
                   random_state = 0, solver='lbfgs').fit(X_train_scaled, y_train)

print('Breast cancer dataset')
print('Acurácia training set: {:.2f}'
     .format(clf.score(X_train_scaled, y_train)))
print('Acurácia test set: {:.2f}'
     .format(clf.score(X_test_scaled, y_test)))


Breast cancer dataset
Acurácia training set: 0.98
Acurácia test set: 0.97
