# Dia 3

Tópicos que serão abordados: 
- Redes Neurais
    - Perceptrons
    - Multilayer Perceptrons
    
**Documentação:**<br>
http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html <br>
http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_digits.html <br>
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html <br>
http://scikit-learn.org/stable/modules/neural_networks_supervised.html <br>
http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Perceptron.html <br>
http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html <br>
http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html

# Redes Neurais
Para certos tipos de problemas, redes neurais estão entre os métodos mais efetivos e robustos de aprendizado conhecidos hoje. Os algoritmos supervisionados baseados em redes neurais no scikit-learn, que iremos cobrir hoje, usam um algoritmo de *backpropagation* que já foi verificado surpreendentemente bem-sucedido em diversas aplicações práticas, como reconhecimento de caracteres escritos à mão, de palavras faladas, e de faces.

## Perceptron

O Perceptron é uma rede neural artificial criada por [Frank Rosenblatt](http://csis.pace.edu/~ctappert/srd2011/rosenblatt-contributions.htm), tida como a rede neural mais simples, sendo um classificador linear.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import perceptron
import pandas as pd
%matplotlib inline

Configurando os dados para a classificação:

In [None]:
inputs = pd.DataFrame({
'x' : [2, 1, 2, 5, 7, 2, 3, 6, 1, 2, 5, 4, 6, 5],
'y' : [2, 3, 3, 3, 3, 4, 4, 4, 5, 5, 5, 6, 6, 7],
'Targets' : [0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1]
})

Visualizando os dados:

In [None]:
# Seta um arranjo de cores
colormap = np.array(['r', 'k'])
 
# Plotar os dados em seus respectivos eixos
# Configura o arranjo de cores para os Targets
plt.scatter(inputs.x, inputs.y, c=colormap[inputs.Targets], s=40)

In [None]:
# Cria objeto Perceptron
net = perceptron.Perceptron(n_iter=100, verbose=0, random_state=None, fit_intercept=True, eta0=0.002)
 
# Treina objeto Perceptron
net.fit(inputs[['x', 'y']], inputs['Targets'])

# Print the results
pred = net.predict(inputs[['x', 'y']])
print("Prediction", pred)
print("Actual", np.array(inputs.Targets))
print("Training accuracy ", net.score(inputs[['x', 'y']], inputs[['Targets']]) * 100, "%", sep='')

Plotando os resultados:

In [None]:
# Plot the original data
plt.scatter(inputs.x, inputs.y, c=colormap[inputs.Targets], s=40)
 
# Calc the hyperplane (decision boundary)
ymin, ymax = plt.ylim()
w = net.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(ymin, ymax)
yy = a * xx - (net.intercept_[0]) / w[1]
 
# Plot the hyperplane
plt.plot(xx, yy, 'k-')
plt.ylim([0,8]) # Set the y axis size

### Exercício 1:

Utilize o seguinte conjunto de dados para demonstrar que um Perceptron é capaz de "executar" uma porta lógica AND

In [None]:
inputs = pd.DataFrame({
'A' : [0, 0, 1, 1],
'B' : [0, 1, 0, 1],
'Targets' : [0, 0, 0, 1]
})

In [None]:
colormap = np.array(['r', 'k'])
plt.scatter(inputs.A, inputs.B, c=colormap[inputs.Targets], s=40)

In [None]:
# Solução

### Exercício 2:

Repita o processo para uma porta OR:


In [None]:
inputs = pd.DataFrame({
'A' : [0, 0, 1, 1],
'B' : [0, 1, 0, 1],
'Targets' : [0, 1, 1, 1]
})

In [None]:
# Solução

### Exercício 3: Uma porta XOR

É possível implementar uma porta XOR com apenas um perceptron? Teste!

In [None]:
inputs = pd.DataFrame({
'A' : [0, 0, 1, 1],
'B' : [0, 1, 0, 1],
'Targets' : [0, 1, 1, 0]
})

colormap = np.array(['r', 'k'])
plt.scatter(inputs.A, inputs.B, c=colormap[inputs.Targets], s=40)

In [None]:
inputs = pd.DataFrame({
'A' :       [1,1,1,1,2,2,2,2,3,3,3,3,4,4,4,4,5,5,5,5],
'B' :       [1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4,1,2,3,4],
'Targets' : [0,0,0,0,0,0,0,0,1,1,0,0,1,1,1,0,1,1,1,1]
})

In [None]:
# Solução

## Multilayer Perceptron

### Diagnóstico de câncer de mama
Usaremos uma base de dados pré-carregada do scikit-learn (cópia desta: https://goo.gl/U2Uwz2). Nela, cada uma das 569 instâncias contém 30 atributos númericos coletados de uma amostra de tecido, que serão usados para determinar a natureza de um nódulo no tecido mamário (0 - maligno ou 1 - benigno).

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

cancer = load_breast_cancer()
X = cancer.data
y = cancer.target

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=3)

Após importar os dados, e separá-los entre um conjunto de treino e um de teste, temos que lidar agora com uma das desvantagens do tipo de modelos de redes neurais com as quais iremos trabalhar (*Multi-layer Perceptron* ou MLP): MLPs são sensíveis a escala dos atributos. Isto quer dizer que teremos que "normalizar" os valores dos atributos como parte do pré-processamento dos nossos dados.

In [None]:
from sklearn.preprocessing import StandardScaler

# Instanciamos o scaler do sklearn
scaler = StandardScaler()

# fit computa a média e o desvio padrão que serão usados
# para a normalização dos dados, a partir dos dados de treinamento
scaler.fit(X_train)

# Agora transformamos de fato todos os dados
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

Agora iremos instanciar um objeto MLPClassifier, já que o problema é de classificação, treiná-lo com nossos dados, e testar suas previsões. Neste momento, teremos que lidar com outra dificuldade desses modelos: o ajuste dos seus diferentes hiperparâmetros, como número de neurons ocultos, camadas, e número máximo de iterações.

In [None]:
from sklearn.neural_network import MLPClassifier

# Por padrão, por exemplo, temos uma única camada oculta com 100 neurons
mlpc = MLPClassifier()
print(mlpc)

In [None]:
mlpc.fit(X_train, y_train)
score = mlpc.score(X_test, y_test)

print(score * 100, '%', sep='')
print((1-score) * y_test.shape[0], 'erros de diagnóstico')

Agora podemos observar uma desvantagem particular de redes neurais: os pesos que a rede adquire após o treinamento são geralmente de difícil interpretação. O comportamento de rede neurais não é tão facilmente interpretado como, por exemplo, o comportamento de uma árvore de decisão.

Outra observação importante é que as funções de perda de MLPs tem mais de um mínimo local. Portanto dependendo de como os pesos são inicializados, teremos uma acurácia diferente.

Tendo apontado essas desvantagens de MLPs e de outros tipos de redes neurais, eles ainda são métodos de aprendizado extremamente úteis por sua capacidade de aprender modelos não-lineares, de aprender modelos em tempo real a medida que novos dados são disponibilizados e por sua robustez, isso é, boa performance com dados ruidosos e inexatos. <br>
De fato, quando mencionamos acima que redes neurais são especialmente bem-sucedidas com certos tipos de problemas, queremos dizer problemas nos quais os dados de treinamento são complexos, ruidosos, e inexatos, como aqueles obtidos de sensores, câmeras, e microfones.

### Reconhecimento de dígitos
Faremos mais um exemplo de classificação, dessa vez para a identificação de dígitos escritos à mão. Usando a função load_digits de sklearn.datasets, obtemos um conjunto de 1797 imagens *grayscale* de 8x8 pixels (images), e as mesmas imagens no formato de arrays de tamanho 64 (data) que podemos usar para treinar e testar um novo modelo. Dessa forma, cada atributo é a luminosidade de um determinado pixel da imagem.

In [None]:
from sklearn.datasets import load_digits
import matplotlib.pyplot as plt

digits = load_digits()
print(digits.data.shape)

img = 1400
print(digits.data[img])
plt.gray()
plt.matshow(digits.images[img])
plt.show()

### Exercício 4:

Tente agora processar os dados, treinar e testar um MLPClassifier. Tente também analisar seus resultados. Como alterar os hiperparâmetros afeta esses resultados? E o tempo de execução? Há grande variação no modelo resultante entre uma execução e outra? <br>
Note que não estamos trabalhando com grandes quantidades de dados. Em aplicações práticas testar um única idéia pode custar horas de processamento.

In [None]:
# Solução

### Aproximação de uma função
Agora veremos um exemplo que usa um MLP para regressão. Vamos aproximar a simples função quadrática y=x<sup>2</sup> a partir de dados ruidosos sobre a função. Nesse caso sabemos a função que queremos aproximar, mas em aplicações reais teríamos apenas os pontos de dados coletados e tentaríamos aproximar uma função com eles. <br>
Observe o exemplo abaixo. Como estão os resultados do nosso modelo? Podemos fazer alguma mudança para melhorá-los?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.neural_network import MLPRegressor
%matplotlib inline

#np.random.seed(3)
# Primeiramente geramos dados aleatórios:
interval = 4
n = 20
e = 2
# aqui geramos n pontos aleatórios em (-interval, interval) 
X_train = np.random.uniform(-interval, interval, size = n)
# e para cada um deles damos um y = x^2 mais um erro ou ruído
# que teríamos ao obter esses dados
y_train = X_train**2 + e*np.random.randn(n, )

# Então vamos transformar nossos dados em nparrays com as
# dimenções certas para treinar o objeto MLPRegressor
X_train = np.reshape(X_train, [n, 1])
y_train = np.reshape(y_train, [n ,])

# Agora visualizamos esses pontos
plt.scatter(X_train, y_train, color='c')

In [None]:
# Instanciamos o MLPRegressor e o treinamos
mlpr = MLPRegressor(alpha=0.00001, hidden_layer_sizes = (2,5,2), max_iter = 50000, 
                 activation = 'tanh')
mlpr.fit(X_train, y_train)

# Agora vamos testá-lo
test_density = 100
# fazemos um arranjo com test_density pontos uniformemente
# espaçados no intervalo (-interval, interval)
X_test = np.linspace(-interval, interval, test_density)
# e mudamos também suas dimensões para passá-lo pro nosso preditor
X_test = np.reshape(X_test, [test_density, 1])

# Finalmente usamos nosso modelo para estimar uma função e a visualizamos
y_pred = mlpr.predict(X_test)
plt.scatter(X_train, y_train, color='c')
plt.plot(X_test, X_test**2, color = 'k', ls='--')
plt.plot(X_test, y_pred, color='b')

Se ainda não o fez, tente agora alterar alguns dos hiperparâmetros mais importantes de MLPClassifier e MLPRgressor listados abaixo, e analize seus resultados.
- **alpha** é um parâmetro de regularização. Quanto maior, maior será a penalidade por pesos grandes no aprendizado da rede. default=0.0001
- **hidden_layer_sizes** é uma tupla definindo o número de layers ocultas no seu MLP e o tamanho de cada uma. default=(100,)
- **max_iter** define o número máximo de iterações de aprendizado, se o algoritmo não convergir antes disso (terminar por falta de melhoria entre uma iteração e outra). default=200
- **solver** define o algoritmo usado para otimização dos pesos, uma escolha dentre {'lbfgs', 'sgd', 'adam'}. 'adam' geralmente funciona bem para datasets grandes (milhares de amostras). 'lbfgs' pode ser melhor em performance e tempo de convergência para datasets menores. Mas 'sgd' pode superar os outros dois sob certas condições, contato que se escolha bem o learning_rate. default='adam'
- **learning_rate** define a "velocidade" de aprendizado do seu modelo, podendo escolher entre 'constant', que mantém a taxa dada pelo parâmetro **learning_rate_init** (default=0.001); 'invscaling', que gradualmente diminui essa taxa; e 'adaptive' que mantêm a taxa enquanto o modelo está melhorando mas a diminui quando ele "estagna". default='constant'
- **activation** define a função de ativação dos Perceptrons dentre {'identity', 'logistic', 'tanh', 'relu'}, sobre as quais não entraremos em detalhes. default='relu' <br>
Veja mais sobre na documentação no topo da página.