## Exercício de Retropropagação
Neste exercício utilizaremos retropropagação para treinar um perceptron multicamadas (com uma única camada oculta). Experimentaremos com diferentes padrões e veremos quão rapidamente ou lentamente os pesos convergem. Observaremos o impacto e a interação de diferentes parâmetros como taxa de aprendizagem, número de iterações e número de pontos de dados.

In [None]:
from __future__ import division, print_function
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Preencha o código abaixo para que ele crie um perceptron multicamadas com uma única camada oculta (com 4 nós) e o treine via retropropagação. Especificamente, seu código deve:

1. Inicializar os pesos com valores aleatórios entre -1 e 1
1. Realizar a computação de propagação direta (feed-forward)
1. Calcular a função de perda
1. Calcular os gradientes para todos os pesos via retropropagação
1. Atualizar as matrizes de peso (usando um parâmetro learning_rate)
1. Executar os passos 2-5 por um número fixo de iterações
1. Plotar as acurácias e log loss e observar como elas mudam ao longo do tempo


Uma vez que seu código esteja funcionando, teste-o para os diferentes padrões abaixo.

- Quais padrões a rede neural conseguiu aprender rapidamente e quais demoraram mais?
- Que taxas de aprendizagem e números de iterações funcionaram bem?
- Se você tiver tempo, tente variar o tamanho da camada oculta e experimente com diferentes funções de ativação (ex: ReLu)

In [None]:
## O código abaixo gera dois valores x e um valor y de acordo com diferentes padrões
## Também cria um termo de "viés" (um vetor de 1s)
## O objetivo é então aprender o mapeamento de x para y usando uma rede neural via retropropagação

num_obs = 500
x_mat_1 = np.random.uniform(-1,1,size = (num_obs,2))
x_mat_bias = np.ones((num_obs,1))
x_mat_full = np.concatenate( (x_mat_1,x_mat_bias), axis=1)

# ESCOLHA UM PADRÃO ABAIXO e comente o restante.

# # Padrão circular
# y = (np.sqrt(x_mat_full[:,0]**2 + x_mat_full[:,1]**2)<.75).astype(int)

# # Padrão losango
y = ((np.abs(x_mat_full[:,0]) + np.abs(x_mat_full[:,1]))<1).astype(int)

# # Quadrado centralizado
# y = ((np.maximum(np.abs(x_mat_full[:,0]), np.abs(x_mat_full[:,1])))<.5).astype(int)

# # Padrão ângulo reto espesso
# y = (((np.maximum((x_mat_full[:,0]), (x_mat_full[:,1])))<.5) & ((np.maximum((x_mat_full[:,0]), (x_mat_full[:,1])))>-.5)).astype(int)

# # Padrão ângulo reto fino
# y = (((np.maximum((x_mat_full[:,0]), (x_mat_full[:,1])))<.5) & ((np.maximum((x_mat_full[:,0]), (x_mat_full[:,1])))>0)).astype(int)


print('shape of x_mat_full is {}'.format(x_mat_full.shape))
print('shape of y is {}'.format(y.shape))

fig, ax = plt.subplots(figsize=(5, 5))
ax.plot(x_mat_full[y==1, 0],x_mat_full[y==1, 1], 'ro', label='class 1', color='darkslateblue')
ax.plot(x_mat_full[y==0, 0],x_mat_full[y==0, 1], 'bx', label='class 0', color='chocolate')
# ax.grid(True)
ax.legend(loc='best')
ax.axis('equal');

Aqui estão algumas funções auxiliares

In [None]:
def sigmoid(x):
    """
    Função sigmoide
    """
    return 1.0 / (1.0 + np.exp(-x))


def loss_fn(y_true, y_pred, eps=1e-16):
    """
    Função de perda que gostaríamos de otimizar (minimizar)
    Estamos usando Perda Logarítmica
    http://scikit-learn.org/stable/modules/model_evaluation.html#log-loss
    """
    y_pred = np.maximum(y_pred,eps)
    y_pred = np.minimum(y_pred,(1-eps))
    return -(np.sum(y_true * np.log(y_pred)) + np.sum((1-y_true)*np.log(1-y_pred)))/len(y_true)


def forward_pass(W1, W2):
    """
    Executa uma computação direta da rede neural
    Recebe a entrada `x_mat` (variável global) e produz a saída `y_pred`
    Também produz o gradiente da função de perda logarítmica
    """
    global x_mat
    global y
    global num_
    # Primeiro, calcule as novas previsões `y_pred`
    z_2 = np.dot(x_mat, W_1)
    a_2 = sigmoid(z_2)
    z_3 = np.dot(a_2, W_2)
    y_pred = sigmoid(z_3).reshape((len(x_mat),))
    # Agora calcule o gradiente
    J_z_3_grad = -y + y_pred
    J_W_2_grad = np.dot(J_z_3_grad, a_2)
    a_2_z_2_grad = sigmoid(z_2)*(1-sigmoid(z_2))
    J_W_1_grad = (np.dot((J_z_3_grad).reshape(-1,1), W_2.reshape(-1,1).T)*a_2_z_2_grad).T.dot(x_mat).T
    gradient = (J_W_1_grad, J_W_2_grad)
    
    # retorno
    return y_pred, gradient


def plot_loss_accuracy(loss_vals, accuracies):
    fig = plt.figure(figsize=(16, 8))
    fig.suptitle('Log Loss and Accuracy over iterations')
    
    ax = fig.add_subplot(1, 2, 1)
    ax.plot(loss_vals)
    ax.grid(True)
    ax.set(xlabel='iterations', title='Log Loss')
    
    ax = fig.add_subplot(1, 2, 2)
    ax.plot(accuracies)
    ax.grid(True)
    ax.set(xlabel='iterations', title='Accuracy');

Complete o pseudocódigo abaixo

In [None]:
#### Inicialize os parâmetros da rede

np.random.seed(1241)

W_1 = 
W_2 = 
num_iter = 
learning_rate = 
x_mat = x_mat_full


loss_vals, accuracies = [], []
for i in range(num_iter):
    ### Execute uma computação direta e obtenha o gradiente
    
    ## Atualize as matrizes de peso
    
    ### Calcule a perda e a acurácia

    ## Imprima a perda e a acurácia a cada 200ª iteração
    
plot_loss_accuracy(loss_vals, accuracies)

#### Plotar as respostas previstas com erros em amarelo