MiniNN 
===

Tutorial introdutório sobre Redes Neurais, proposto Lucas de Magalhães Araújo. O objetivo deste tutorial é mostrar o processo de treinamento em Redes Neurais mínimas, nas quais parâmetros (pesos) ótimos são conhecidos. A implementação deste tutorial foi feita usando framework [Keras](https://keras.io/).

**Sua tarefa será encontrar parâmetros de treinamento de cada modelo de modo que eles aprendam!**

---

### Como ajustar parâmetros de treinamento (hiperparâmetros)

Chamamos de *hiperparâmetros* os parâmetros relacionados ao processo de treinamento da rede. Idealmente, queremos encontrar o conjunto de valores que convirjam a rede à configuração ótima no menor tempo possível. Abaixo, estão algumas sugestões de como realizar o ajuste destes hiperparâmetros. Estas sugestões são empíricas: encontrar o conjunto de hiperparâmetros que gera o resultado ótimo é um problema [NP-Difícil](https://en.wikipedia.org/wiki/NP-hardness). Uma estratégia geral é buscar valores em *espaço de log* - 1e1, 1e0, 1e-1, 1e-2 etc - e após realizar busca fina entre duas ordens de grandeza.

 - *Taxa de aprendizagem*: se o custo (loss) está oscilando ou aumentando, diminua a taxa de aprendizagem; se o custo está estático ou diminuindo muito lentamente, aumente a taxa de aprendizagem. 
 - *Número de épocas*: uma *época* corresponde a uma passagem por todas as amostras do conjunto de treinamento. Se o custo ainda estiver decaindo, esta quantidade pode ser aumentada.
 - *Tamanho do batch*: o custo computacional da otimização cresce com o número de amostras. Na ordem de centenas de milhares ou milhões, pode se tornar impraticável. Uma estratégia é otimizar em *batches* (bateladas) ao invés de usar todo o conjunto de treinamento a cada iteração. Ademais, em muitos casos a convergência usando-se batches pequenos é mais rápida.
 - *Momento*: podemos pensar no momento como a *inércia* na descida de gradiente. Momento 0.0 implica em nenhuma inércia (ou máximo atrito na superfície de busca). Momento 1.0 implica em inércia total - sempre irá divergir para infinito (nenhum atrito na superfície de busca). Valores típicos são 0.0 (sem momento) ou no intervalo [0.9, 1.0).
 
 
Outros aspectos que auxiliam na convergência já estão implementados (tipo de otimizador, função de ativação, método de inicialização dos pesos etc)

**Observação**: o processo de convergência é sensível ao estado inicial da rede! Como os pesos iniciais são definidos aleatoriamente a cada execução, múltiplas tentativas com os mesmos hiperparâmetros podem gerar resultados drasticamente diferentes. Portanto, execute cada modelo algumas vezes e observe a variação nas respostas.

In [None]:
# Importa bibliotecas e define funções auxiliares

from __future__ import print_function
import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt
keras = tf.contrib.keras 

Sequential = tf.contrib.keras.models.Sequential
Dense = tf.contrib.keras.layers.Dense
Activation = tf.contrib.keras.layers.Activation
Callback = tf.contrib.keras.callbacks.Callback

def abs_distance(y_true, y_pred):
    return np.abs(y_true-y_pred)

%matplotlib notebook

Dataset
===

Cria um dataset representando a relação de identidade y=x. Dataset contém 10.000 pontos no intervalo [-1000, 1000]

---

In [None]:
num_samples = 10000

# Sorteia 10.000 pontos aleatórios no intervalo [0,1] com distribuição uniforme 
train_data = np.random.random(size=num_samples)
# Reescala amostra para o intervalo [-1000, 1000]
train_data = 2000 * train_data - 1000
target = train_data.copy()

# Plota pontos escolhidos
plt.scatter(train_data,target, c='g', marker='.', alpha=0.7)
plt.grid(True)
plt.title(u'10.000 pontos da função identidade (y=x) no intervalo [-1000, 1000]')
plt.show()

Ex. 0 - Regressor Linear
===

Este primeiro exemplo ajusta uma reta ao conjunto de treinamento. Obviamente, dado $y = ax + b$, esperamos encontrar $a = 1.0$ e $b = 0.0$ (identidade).

Rode multiplas vezes este exemplo ajustando os parâmetros:
 - **learn_rate**: float $\gt0$. Taxa de aprendizagem do otimizador;
 - **num_epochs**: int $\ge1$. Número de épocas do treinamento (uma época equivale a passar por todas as amostras de treino);
 - **batch_size**: int $\ge1, \le$ tamanho do conjunto de treinamento. Tamanho do batch. Ex: se batch_size = 1000, então serão necessárias 10 iterações para percorrer uma época; se batch_size = 1, então serão necessárias 10000 iterações para percorrer uma época, etc.
 

In [None]:
# *** PARÂMETROS ***
learn_rate = 1e-2
num_epochs = 10
batch_size = 10000

# ******************

# Constrói o modelo. Uma camada densa sem função de ativação 
# equivale a um regressor linear!
model = Sequential()
model.add(Dense(1, input_dim=1, kernel_initializer='normal'))

# Define o otimizador a ser usado. SGD - Stochastic Gradient Descent
SGD = tf.contrib.keras.optimizers.SGD
# Computa o decay a partir de decay_per_epoch
optimizer = SGD(lr=learn_rate)

# Combina o modelo e o otimizador. Como é um problema de regressão, 
# utiliza 'erro quadrático médio' como função de custo (função a ser minimizada)
model.compile(optimizer=optimizer,
              loss='mean_squared_error',
              metrics=[abs_distance])
          
# Mostra condição inicial do peso e bias
print("Pré-treino:")
print(" - peso:", model.get_weights()[0][0][0])
print(" - bias:", model.get_weights()[1][0])
print()
          
# Realiza o treino
model.fit(train_data, target, epochs=num_epochs, batch_size=batch_size)

# Mostra peso e bias após treinamento
print("\nPós-treino:")
print(" - peso:", model.get_weights()[0][0][0])
print(" - bias:", model.get_weights()[1][0])
print()

**Teste**: escolha amostras de teste em diferentes ordens de grandeza e observe o erro. Qual a influência do *bias*?

In [None]:
# Amostra de teste (escolha diferentes valores)
test_sample = 1.000

# Predição com o modelo treinado
target_prediction = model.predict(np.array([test_sample]), batch_size=1)[0][0]

print("Teste:", test_sample)
print("Predição:", target_prediction)
print("Erro absoluto:", np.abs(target_prediction-test_sample))
print("Erro percentual: %.4f%%" % (np.abs(target_prediction-test_sample)/float(test_sample) * 100))

Ex. 1 - Regressão com MiniNN
===

O próximo exemplo ajusta uma rede neural com somente dois neurônios ao conjunto de treinamento. Este é um problema de regressão, ou seja, dada uma entrada $x$, queremos estimar um alvo $y$ (neste caso, $y=x$). A arquitetura desta rede está representada no diagrama abaixo:

![Arquitetura MiniNN - Regressor](MiniNN_Regressor.png)

A função de ativação da camada escondida é a ReLU - Rectified Linear Unit, dada por:

$ReLU(x) =
\left\{
	\begin{array}{ll}
		x  & \mbox{if } x \geq 0 \\
		0 & \mbox{if } x < 0
	\end{array}
\right.$

Há infinitas soluções possíveis, porém uma simples é:
 * $w_0^0 = w_0^1 = 1$ (identifica o caminho positivo $x \ge 0$ );
 * $w_1^0 = w_1^1 = -1$ (identifica o caminho negativo $x < 0$ );
 * $b_0^0 = b_0^1 = b_1 = 0$ (identidade não tem bias).

Rode multiplas vezes este exemplo ajustando os parâmetros:
 - **learn_rate**: float $\ge0$. Taxa de aprendizagem do otimizador;
 - **num_epochs**: int $\ge1$. Número de épocas do treinamento;
 - **batch_size**: int $\ge1, \le$ tamanho do conjunto de treinamento. Tamanho do batch;
 - **momentum**: float $\ge0$, $\lt1$. Taxa do *momento* ("inércia") do otimizador. Ver explicação do funcionamento em http://ruder.io/optimizing-gradient-descent/index.html#momentum
 
Observe como os pesos iniciais (definidos aleatoriamente a cada execução) afetam a resposta.

In [None]:
# *** PARÂMETROS ***
learn_rate = 1e-2
num_epochs = 10 
batch_size = 10000
momentum = 0.0

# ******************

# Constrói o modelo. Na primeira camada, usamos função de ativação ReLU
model = Sequential()
model.add(Dense(2, activation='relu', input_dim=1, kernel_initializer='normal'))
model.add(Dense(1, kernel_initializer='normal'))


# Define o otimizador a ser usado. SGD - Stochastic Gradient Descent
SGD = tf.contrib.keras.optimizers.SGD
# Computa o decay a partir de decay_per_epoch
optimizer = SGD(lr=learn_rate, momentum=momentum, nesterov=True)

# Combina o modelo e o otimizador. Como é um problema de regressão, 
# utiliza 'erro quadrático médio' como função de custo (função a ser minimizada)
model.compile(optimizer=optimizer,
              loss='mean_squared_error',
              metrics=[abs_distance])
          
# Mostra condição inicial do peso e bias
print("Pré-treino:")
print(" - pesos camada 0:", model.get_weights()[0][0])
print(" - bias  camada 0:", model.get_weights()[1])
print(" - pesos camada 1:", model.get_weights()[2])
print(" - bias  camada 1:", model.get_weights()[3])
print()
          
# Realiza o treino
model.fit(train_data, target, epochs=num_epochs, batch_size=batch_size)

# Mostra peso e bias após treinamento
print("\nPós-treino:")
print(" - pesos camada 0:", model.get_weights()[0][0])
print(" - bias  camada 0:", model.get_weights()[1])
print(" - pesos camada 1:", model.get_weights()[2])
print(" - bias  camada 1:", model.get_weights()[3])
print()

**Teste**: escolha amostras de teste em diferentes ordens de grandeza e observe o erro. Note que o *caminho negativo* e o *caminho positivo* podem ter erros diferentes (por que?)

In [None]:
# Amostra de teste (escolha diferentes valores)
test_sample = -1.0

# Predição com o modelo treinado
target_prediction = model.predict(np.array([test_sample]), batch_size=1)[0][0]

print("Teste:", test_sample)
print("Predição:", target_prediction)
print("Erro absoluto:", np.abs(target_prediction-test_sample))
print("Erro percentual: %.4f%%" % (np.abs(target_prediction-test_sample)/float(test_sample) * 100))

Ex. 2 - Classificação com MiniNN
===

Este exemplo mapeia uma rede com dois neurônios para a operação lógica XOR (ou exclusivo). Esta operação pode ser definida como

$XOR(x_0, x_1) =
\left\{
	\begin{array}{ll}
		1 \space(true) & \mbox{if } x_0\neq x_1 \\
		0 \space(false) & \mbox{if } x_0=x_1
	\end{array}
\right.$

Este é um problema de classificação, ou seja, dadas entradas $x_0, x_1$, queremos classificar a entrada como verdadeira ou falsa. Este é um exemplo mínimo de relação não-linear, ou seja, não há uma reta que consiga fazer a separação das classes.

A arquitetura desta rede está representada no diagrama abaixo:

![Arquitetura MiniNN - Classificador](MiniNN_Classification.png)

A função de ativação da camada escondida é a [Sigmóide](https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_sigm%C3%B3ide), dada por

$\Sigma (z) = {\large \frac{1}{1+e^{-z}}}$

onde $z$ é combinação linear dos elementos da camanda anterior. A saída da função sigmóide é *contínua* no intervalo $(0,1)$, porém podemos estabelecer um *limiar* $T$ tal que a resposta $y$ da rede será $0$, se $y\le T$ e $1$, se $y > T$. Um limiar típico seria $T=0.5$.

**Exercício**: encontre conjunto adequado de pesos e biases para que esta Rede Neural expresse a relação XOR. *(A última célula deste Notebook oferece uma resposta possível)*

In [None]:
# Cria dataset contendo a relação XOR

train_data = [[0.0, 0.0], [0.0, 1.0], [1.0, 0.0], [1.0, 1.0]]
train_data = np.array(train_data, dtype=np.float32)
labels = [[0.0], [1.0], [1.0], [0.0]]
labels = np.array(labels)

# Plota pontos escolhidos
fig = plt.figure(num=None, figsize=(3.5, 3.5), dpi=80, facecolor='w', edgecolor='k')
plt.scatter(train_data[1],train_data[2], c='b', marker='o', s=400)
plt.scatter(train_data[2],train_data[2], c='r', marker='o', s=400)
plt.grid(True)
plt.locator_params(nbins=2)
plt.title(u'XOR')
plt.tight_layout()
plt.show()

Rode multiplas vezes este exemplo ajustando os parâmetros:
 - **learn_rate**: float $\ge0$. Taxa de aprendizagem do otimizador;
 - **num_epochs**: int $\ge1$. Número de épocas do treinamento;
 - **batch_size**: int $\ge1, \le$ tamanho do conjunto de treinamento. Tamanho do batch;
 - **momentum**: float $\ge0$, $\lt1$. Taxa do *momento* ("inércia") do otimizador.

**Obs**: Durante o treinamento, a informação *acc* se refere à acurácia do modelo. Para este modelo, podemos ter acc $\in$ {0%, 25%, 50%, 75%, 100%} 

In [None]:
# *** PARÂMETROS ***
learn_rate = 1e-2
num_epochs = 10
batch_size = 4
momentum = 0.0

# ******************

# Constrói o modelo. Na primeira camada, usamos função de ativação ReLU
initializer = keras.initializers.RandomUniform(minval=-1.00, maxval=1.00, seed=None)
model = Sequential()
model.add(Dense(2, activation='sigmoid', input_dim=2, kernel_initializer=initializer))
# Descomente a linha abaixo para adicionar uma camada escondida
#model.add(Dense(2, activation='sigmoid', kernel_initializer=initializer))
model.add(Dense(1, activation='sigmoid', kernel_initializer=initializer))


# Define o otimizador a ser usado. SGD - Stochastic Gradient Descent
SGD = tf.contrib.keras.optimizers.SGD
# Computa o decay a partir de decay_per_epoch
optimizer = SGD(lr=learn_rate, momentum=momentum, nesterov=True)

# Combina o modelo e o otimizador. Como é um problema de regressão, 
# utiliza 'erro quadrático médio' como função de custo (função a ser minimizada)
model.compile(optimizer=optimizer,
              loss='binary_crossentropy',
              metrics=['accuracy'])
          
# Realiza o treino
model.fit(train_data, labels, epochs=num_epochs, batch_size=batch_size)

In [None]:
# Predição com o modelo treinado
prediction = model.predict(train_data, batch_size=4)

loss = 0
print("X1\tX2\tY")
for i in range(4):
    print("%.1f\t%.1f\t%.3f" % (train_data[i,0], train_data[i,1], prediction[i])) 
    loss += abs_distance(labels[i], prediction[i])

print("\nDistância L1:", loss[0]/4)

Curiosamente difícil conseguir a convergência! O paper [Learning XOR: exploring the space of a classic problem](http://yen.cs.stir.ac.uk/~kjt/techreps/pdf/TR148.pdf) faz uma exploração e explicação aprofundada da dificuldade em convergir uma Rede Neural ao problema XOR. Por alto, há diversos mínimos locais que podem interromper a convergência ao mínimo global. Este problema é especialmente sensível ao estado inicial da rede.

Abaixo, temos uma possível resposta para os pesos e biases da rede

In [None]:
# Rede Neural com os pesos pré-definidos que computa a operação XOR

def sigmoid(z):
    return 1.0 / (1 + np.exp(-z))

def xor(x):
    x0 = x[0]
    x1 = x[1]
    h0 = sigmoid(100*x0 - 100*x1 - 50) # X0 and not X1
    h1 = sigmoid(100*x1 - 100*x0 - 50) # not X0 and X1
    return sigmoid(100*h0 + 100*h1 - 50) # H0 or H1

loss = 0
print("X1\tX2\tY")
for i in range(4):
    print("%.1f\t%.1f\t%.3f" % (train_data[i,0], train_data[i,1], xor(train_data[i]))) 
    loss += abs_distance(labels[i], xor(train_data[i]))

print("\nDistância L1:", loss[0]/4)