# Perceptron

Um dos algoritmos de aprendizado de máquina mais simples é o Perceptron. O objetivo é criar um modelo capaz de separar as classes a partir de uma reta.

**Algumas vantagens:**

- É muito simples e possui custo muito baixo.
- Se o problema for linearmente separável, é capaz de encontrar uma reta que separa as classes.

**Algumas desvantagens:**

- A maioria dos problemas do mundo real não são linearmente separáveis, o perceptron não converge nesses casos.
- A reta encontrada apenas separa as classes, não temos nenhuma garantia dessa separação ser **"boa"*** para o conjunto de testes

__*este problema será abordado na próxima aula, sobre SVM__

## No scikit-learn

No scikit-learn, o perceptron pode ser implementado por 2 classes:
 - [Perceptron](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html)
 - [SGDClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html#sklearn.linear_model.SGDClassifier)

## Como utilizar o perceptron para a tarefa de classificação?


Utilizando a classe **Perceptron**

In [14]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import Perceptron
from sklearn.model_selection import KFold
from sklearn.pipeline import make_pipeline 
from sklearn.model_selection import cross_val_score
import numpy as np


X, y = load_iris(return_X_y=True)


cv = KFold(n_splits=10, shuffle=True, random_state=42)

model = make_pipeline(StandardScaler(), Perceptron(random_state=0))
performance = cross_val_score(model, X, y, cv=cv, scoring = "accuracy")

print(np.mean(performance))

0.8466666666666667


Utilizando a classe **SGDClassifier**

In [15]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import KFold
from sklearn.pipeline import make_pipeline 
from sklearn.model_selection import cross_val_score
import numpy as np


X, y = load_iris(return_X_y=True)

cv = KFold(n_splits=10, shuffle=True, random_state=42)

model = make_pipeline(StandardScaler(), SGDClassifier(loss="perceptron", eta0=1, learning_rate="constant", penalty=None))
performance = cross_val_score(model, X, y, cv=cv, scoring = "accuracy")

print(np.mean(performance))

0.8466666666666667


# Multilayer Perceptron (MLP)

A MLP é um método mais robusto que o perceptron, que através da conexão de neurônios e uma ou mais camadas intermediárias, consegue aprender a aproximar funções lineares e não lineares.

**Algumas vantagens:**

- Eficiência computacional, pode ser facilmente paralelizável
- Estima a função de decisão necessária diretamente por meio do treinamento.
- Uma MLP de duas camadas escondidas com nós suficientes é provada matematicamente ser um aproximador universal de qualquer função.

**Algumas desvantagens:**

- Convergência pode ser lenta
- Mínimos locais afetam o treinamento
- O conjunto de retas encontrado apenas separa as classes, não temos nenhuma garantia dessa separação ser **boa*** para o conjunto de testes 

__*este problema será abordado na próxima aula, sobre SVM__


## No scikit-learn

No scikit-learn, a MLP pode ser encontrada tanto para classificação [MLPClassifier](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html) quanto para regressão [MLPRegressor](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html#sklearn.neural_network.MLPRegressor). 


## Como utilizar a MLP para a tarefa de classificação?

In [2]:
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neural_network import MLPClassifier
from sklearn.model_selection import KFold
from sklearn.pipeline import make_pipeline 
from sklearn.model_selection import cross_val_score
import numpy as np


X, y = load_iris(return_X_y=True)

cv = KFold(n_splits=10, shuffle=True, random_state=42)

model = make_pipeline(StandardScaler(), MLPClassifier(max_iter=1000))
performance = cross_val_score(model, X, y, cv=cv, scoring = "accuracy")

print(np.mean(performance))

0.9666666666666668


Para acessar os pesos calculados no processo de treinamento, você pode usar o atributo `coefs_` da sua rede neural já treinada.

In [12]:
rede = model.fit(X,y)
rede['mlpclassifier'].coefs_

[array([[-0.22665195,  0.14521306, -0.04231073,  0.09941253, -0.50270479,
          0.15274635,  0.22467538,  0.15216429,  0.16266826, -0.01581403,
         -0.00586683,  0.33643897,  0.14945403, -0.14824915, -0.03608964,
         -0.01673601,  0.16008484,  0.18526999,  0.02085585,  0.08757106,
          0.07509402,  0.07960244, -0.00848978,  0.18726588, -0.03801754,
         -0.27308653,  0.00643824,  0.09595058,  0.10791603, -0.25940136,
          0.04033327, -0.03267171,  0.28012002, -0.09023729,  0.22007843,
         -0.15789588,  0.07294502,  0.15651243,  0.28494676,  0.04049199,
          0.07099127,  0.06319616, -0.03854872, -0.17166416, -0.13518824,
         -0.04573259, -0.11042408,  0.17002945, -0.19973903,  0.22974515,
         -0.27871943, -0.08790089, -0.10347021, -0.12018615, -0.22330153,
          0.21193187,  0.14656037,  0.47921121,  0.33196992, -0.0768321 ,
          0.19175733, -0.29483725,  0.25046983, -0.01176216,  0.00258607,
          0.08900837, -0.07894917, -0.

### Hiperparâmetros

As redes neurais possuem muitos hiperparâmetros e elas são muito sensíveis a variação deles. A lista complexta de hiperparâmetros para MLPCLassifier pode ser acessada [aqui](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier)

# Para pensar e praticar

1. O perceptron é um modelo simples e seu algoritmo foi discutido em vídeo-aula. Como implementá-lo em Python sem usar o sklearn? Como você estruturaria em código os pesos do perceptron? Como você implementaria o cálculo do perceptron? E a função de ajuste dos pesos?  


2. Durante a vídeo-aula vimos que uma rede neural pode ser definida de acordo com os componentes de sua arquitetura e aprendizado, como **unidade de processamento**, **conexões**, **topologia** e **algoritmo de aprendizado**. Analisando a [lista de hiperparâmetros](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html#sklearn.neural_network.MLPClassifier), quais deles definiem cada um desses componentes?


3. Redes neurais são muito úteis quando usamos dados estruturados e também dados não estruturados, como imagens, vídeos ou audio. Mesmo redes neurais rasas como vimos em aula, podem ser capazes de aprender com imagens mais simples. A base MNIST, por exemplo, contém imagens digitalizadas de dígitos (como zero, um, dois) escritos à mão. Esta base pode ser acessada diretamente do repositório [OpenML](https://www.openml.org/) em Python, como no código abaixo. Você consegue criar uma rede neural capaz de predizer os dígitos? O que acontece quando você altera os componentes da sua rede neural? 

In [17]:
from sklearn.datasets import fetch_openml

X, y = fetch_openml('mnist_784', version=1, return_X_y=True)