# Otimization for Neural Networks

- Cost Function
  - Mean Square Error
  - Mean Absolute Error
  - Cross Entropy Error
- Backpropagation Algorithm
  - Feedforward
  - Backpropagation
- Stocastic Gradient Descent
  - Stocastic
  - Mini-lote
- Local Minimum Problem
- Overfit and Underfit
- Undertanding Learning Rate
- Dropout
- Regularization

<br/>

### **Cost (Loss) Function**
- Tem por objetivo encontrar valores de **W** e **b** que minimizam o erro.
- Não há mudanças na forma de calcular o custo do modelo linear
  
<img src="reports/error_formula_linear_model.png" align="center" height=auto width=50%/>

- Para calcular a quantidade de error por hipótese é usado:
  - MSE (Mean Square Error)
  - MAE (Mean Absolute Error)
  - CEE (Cross Entropy Error)

<br/>

#### Mean Square Error (MSE/ L2 Loss)
- Usado para classificação linear multipla.
- **MSE não pode ser usado para classifcação binária.**.
- Por dado
\begin{align*}
  & SE = (y_i - (m x_i + b))^2
\end{align*}
- Média
\begin{align*}
  & MSE = \frac{1}{N} \sum_{i=0}^n(y_i - (m x_i + b))^2
\end{align*}

#### Using scikit-learn

In [151]:
from sklearn.metrics import mean_squared_error 


y_true = [1, 1, 2, 2, 4]
y_pred = [0.6, 1.29, 1.99, 2.69, 3.4]

In [152]:
mean_squared_error(y_true, y_pred)

0.21606

#### Using Numpy

In [153]:
def mean_square_error_np(y_true: list, y_pred: list):
    """
    :Params:
        Y_true: list of true values    
        Y_pred: list of predicted values
    
    :Returns:
        mean square error loss
    """
    y_true = np.asarray(y_true)
    y_pred = np.asarray(y_pred)
     
    return ((y_true - y_pred)**2).mean() 

In [154]:
mean_square_error_np(y_true, y_pred)

0.21606

#### Mean Absolute Error (MAE/ L1 loss)
- Calcula a **diferença absoluta** entre os valores estimados e valores reais.
- Math

\begin{align*}
  & MAE = \sum_{i=0}^n|y_i - (m x_i + b)|
\end{align*}

In [27]:
def mae(true, pred):
    """
    true: array of true values    
    pred: array of predicted values
    
    returns: mean absolute error loss
    """
    
    return np.sum(np.abs(true - pred))

### MSE vs. MAE (L2 loss vs L1 loss)
- Um grande problema no uso da função loss com MAE é que seu gradiente é o mesmo, o que significa que o gradiente será grande mesmo para pequenos valores de perda. Isso não é bom para aprender.
- O MSE se comporta bem nesse caso e convergirá mesmo com uma taxa de aprendizado fixa. O gradiente de perda de MSE é alto para valores de perda maiores e diminui à medida que a perda se aproxima de 0, tornando-o mais preciso no final do treinamento (veja a figura abaixo).

<img src="reports/mse_mae.png" align="center" height=auto width=90%/>

- **Use MSE para por default mas se houver outliers use MAE.**

<br/>

#### Cross Entropy Error (log loss)
- Entropia é um medida da incerteza associado a uma determinada distribuição.
- Calcula a probabilidade de um valor predito ser diferente do valor real. 
- Usado para **classificação binária**.
- Math
\begin{align*}
 CEE = -{(y\log(hyp) + (1 - y)\log(1 - hyp))}
\end{align*}

- Example
  - O eixo `x` são as features
  - A cor de cada bola é p `label`
<img src="reports/linw.png" align="center" height=auto width=90%/>

Este é um problema de classficação binária. Então podemos perguntar:
- `Qual a probabilidade de um ponto ser verde?`
- A partir disso, temos
  - verde = 1
  - vermelho = 0

- Depois de prevermos a classificação de cada ponto, como podemos avaliar quão boas (ou ruins) são as probabilidades previstas? Este é todo o objetivo da loss function ! 

#### Using scikit-learn

In [122]:
import numpy as np
from sklearn.metrics import log_loss


x = np.array([-2.2, -1.4, -.8, .2, .4, .8, 1.2, 2.2, 2.9, 4.6])
y_true = np.array([0.0, 0.0, 1.0, 0.0, 1.0, 1.0, 1.0, 1.0, 1.0, 1.0])

y_pred = [0.19, 0.33, 0.47, 0.7, 0.74, 0.81, 0.86, 0.94, 0.97, 0.99]

In [123]:
loss = log_loss(y, y_pred)
loss

0.3335227947407202

#### Using Numpy

In [147]:
def cross_entropy_error(y_true, y_pred): 
    y_true = np.asarray(y_true)
    y_pred = np.asarray(y_pred)
    
    return (-(y_true) * np.log(y_pred) + (1 - y_true) * np.log(1 - y_pred)).mean()

In [148]:
cross_entropy_error(y_true, y_pred)

-0.029511485707022563

<br/>

## **Backpropagation Algoritm**
_Using a model's outputs to train in to do even better._

**A retropropagação é o mecanismo central pelo qual as redes neurais aprendem.** 

<img src="reports/Backpropagation GIF-source.gif" align="center" height=auto width=50%/>


Pode ser visto como o descent gradient.
Este é a estratégia de otimização mais usada em neural networks.


É um Algoritmo feito por 2 partes:
- Feedforward, que é o processo que neural networks usam para identificar erros de predição. 
- Backpropation, que é usar o descent gradient para atualizar os pesos **w**.

### Steps
**Feedforward**
1. Realizar uma operação de feedforward (propagação) com os pesos **w** aleatórios.
2. Comparar a saída do modelo com a saída desejada.
3. Calcular o erro.

<img src="reports/feedfoward_complete.gif" align="center" height=auto width=60%/>

**Backpropagation**
4. Executar a operação de feedforward de forma reversa (backpropagation) para espalhar o erro para cada um dos pesos.
5. Usar isso para atualizar os pesos e conseguir um modelo mais adequado.
6. Continuar este processo até que tenhamos um modelo que funcione bem.

<img src="reports/backpropagation.gif" align="center" height=auto width=60%/>

<br/>

### Running
**Feedforward**

Quando há uma classificação errada o modelo "pergunta" ao dado:
```
O que posso fazer para melhorar a sua classificação?
```

<img src="reports/feed.png" align="center" height=auto width=70%/>

O dado responderá:
```
Quero que a região azul se aproxime de mim !
O modelo de cima esta me classificando errado
O modelo de baixo esta me classificando corretamente
```

<img src="reports/feed_aws.png" align="center" height=auto width=70%/>

<br/>
<br/>

**Backpropagation**
Então o que precisamos é que o modelo de baixo tenha maior relevância na neural network. Para isso é necessário atualizar os pesos **w** de cada modelo

<img src="reports/feedforwad.gif" align="center" height=auto width=70%/>

<br/>

## Época
- No contexto de treinamento de um modelo, época é um termo usado para se referir a uma iteração em que o modelo vê todo o treinamento definido para atualizar seus pesos.

In [162]:
class ADD():
    def __init__(self):
        pass

    def forward(self, x1, x2):
        return x1 + x2

    def backward(self, d):
        dx = d * 1
        dy = d * 1
        return dx, dy

    
class MUL():
    def __init__(self):
        self.x1 = None
        self.x2 = None 

    def forward(self, x1, x2):
        self.x1 = x1
        self.x2 = x2
        return x1 * x2

    def backward(self, d):
        dx1 = d * self.x2
        dx2 = d * self.x1
        return dx1, dx2

In [163]:
# Inputs
x1 = 2
x2 = 5
C = 3

# Nodes
mul = MUL()
add = ADD()

# Forward
s1 = mul.forward(x1, x2)
s2 = C
y = add.forward(s1, s2)

# Backward
# Let's assume dCOST/dY is 1
ds1, ds2 = add.backward(1)
dc = ds2
dx1, dx2 = mul.backward(ds1)

print("Y: {0}".format(y))
print("dCOST/dX1: {0}".format(dx1))
print("dCOST/dX2: {0}".format(dx2))
print("dCOST/dC: {0}".format(dc))

Y: 13
dCOST/dX1: 5
dCOST/dX2: 2
dCOST/dC: 1


<br/>

## **Gradient Descent**

### Stochastic Gradient Descent ("on-line")
- Gradiente é uma função vetorial que representa a inclinação e sentido da tangente na função cost.
- O símbolo ∇ (nabla) representa o gradiente.
- Trajetória estocástica permite escapar de um míminos locais.

#### Running
A descida do gradiente estocástico (SGD) **realiza uma atualização de parâmetro para cada exemplo de treinamento**. Portanto, em vez de repetir cada observação, basta uma para executar a atualização do parâmetro. O SGD geralmente é mais rápido que a descida do gradiente em lote, mas suas atualizações frequentes causam uma variação maior na taxa de erros,

- alta variação daa funcao loss

<img src="reports/Stogra.png" align="center" height=auto width=70%/>

### Gradient Descent Mini-lote 
_É melhor dar pequenos passos imprecisos do que dar um passo certeiro !_

- A descida do gradiente de mini-lote executa uma atualização para um lote de observações.
- Durante a fase de training, a atualização de pesos geralmente não se baseia em todo o conjunto de treinamento de uma só vez devido a complexidades de computação. Em vez disso, **a etapa de atualização é realizada em mini-lotes**, onde o número de pontos de dados em um lote é um hiperparâmetro que podemos ajustar.
- Convergência mais rápida, especialmente com grandes quantidade de dados ou dados redundantes

#### Gradient Descent with TensorFlow

In [168]:
import tensorflow as tf
import matplotlib.pyplot as plt

# y = x
x_data = [1,2,3]
y_data = [1,2,3]

# Weight
W = tf.Variable(tf.random_normal([1]), name="weight")
# [1] means its rank is 1, and the number of data is 1.

# Placeholder for X & Y
X = tf.placeholder(tf.float32)
Y = tf.placeholder(tf.float32)

# Simplified hypothesis
hypothesis = X * W

# Cost function: Mean Square Error
cost = tf.reduce_sum(tf.square(hypothesis - Y))

# Minimize error
# Gradient descent using derivative
# W -= learning_rate * dereivative
learning_rate = 0.01
gradient = tf.reduce_mean((W * X - Y) * X)
descent = W - learning_rate * gradient
update = W.assign(descent)
# It can be relpaced by
# optimizer = tf.train.GradientDescentOptimizer(learning_rate=0.01)
# train = optimizer.minimize(cost)

# Launch the graph in a session
sess = tf.Session()
# Initializes global variables in the graph
sess.run(tf.global_variables_initializer())

# For graph
steps = []
outputs = {"cost" : [], "weight" : []}

# Train
for step in range(51):
    # W is a variable, update is an operation to update W
    # After update, W will be updated.
    sess.run(update, feed_dict={X: x_data,Y: y_data})

    _cost = sess.run(cost, feed_dict={X: x_data, Y: y_data})
    _W = sess.run(W)

    steps.append(step)
    outputs["cost"].append(_cost)
    outputs["weight"].append(_W)

    if step in (1, 10, 20, 30, 40, 50):
        print("Step: {0:4d}, Cost: {1:13.10f}, Weight: {2:13.10f}".\
              format(step, _cost, _weight[0]))

# Draw graph
for k, v in outputs.items():
    plt.plot(steps, v)
    plt.title(k)
    plt.xlabel("step")
    plt.ylabel(k)
    plt.show()

AttributeError: module 'tensorflow' has no attribute 'random_normal'

<br/>

## **Local Minimum Problem**

<img src="reports/gradient_descent_local_min.png" align="center" height=auto width=100%/>

O gradient descent nos dá alterações muuuuito pequenas. Isso se torna um problema pois pode cair em mínimos locais. É neste momento que temos que mudar a activate function !

<br/>

### Random Restart
Para solucionar este problema começamos a calcular o gradient dscent em ponto aleatórios

<img src="reports/ramdom_restart.gif" align="center" height=auto width=100%/>

Isso aumenta a probabilidade de encontrar o mínimo local.

<br/>

## **Undertanding Learning Rate**
Valor muito alto de learning rate faz as epochs serem rápidas mas o modelo perderá o minímo local o tornando caótico.

<img src="reports/learning_rate.png" align="rightr" height=auto width=80%/>

Um bom valor em learning rate faz com que o modelo diminua quando se aproxima do mínimo local.

<br/>

## **Underfit and Overfit in Neural Networks**

<img src="reports/under_overfit.png" align="center" height=auto width=85%/>

Se juntarmos somente os pontos de cada epoch podemos notar qual é o melhor resultado

<img src="reports/points.png" align="center" height=auto width=95%/>

#### Model Complexity

<img src="reports/model_complexity.png" align="center" height=auto width=95%/>

Para encontrar o ponto ideal é necessário usar o algoritmo **early stopping** gradient descent até que ele começe a aumentar.

### Most Common Ways to Prevent Overfitting in Neural Networks
- Obetermais dados de treinamento.
- Reduzir a capadidade da rede.
- Adicionar weight de regularização.
- Adicionar dropout.

<br/>

## **Regularization**
Uma maneira comum de mitigar o overfit é restringir a complexidade de uma rede, forçando seus pesos apenas a aceitar valores pequenos, o que torna a distribuição dos valores de peso mais "regular". Isso é chamado de **regularização de peso é feito adicionando à função de loss de uma rede, um custo**. Há 2 tipos de custos:
- Regularização de L1: em que o custo adicionado é proporcional ao valor absoluto dos coeficientes de pesos.
- Regularização de L2: em que o custo adicionado é proporcional ao quadrado do valor dos coeficientes de pesos.

#### NOTES
- **A regularização L1 empurra pesos para exatamente zero**, incentivando um modelo esparso.
- **A regularização de L2 penalizará os parâmetros de pesos sem torná-los escassos**, pois a penalidade é zero para pesos pequenos. uma razão pela qual L2 é mais comum.

In [10]:
import tensorflow as tf

from tensorflow.keras import layers
from tensorflow.keras import regularizers

print(tf.__version__)


FEATURES = 28

combined_model = tf.keras.Sequential([
    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
                 activation='elu', input_shape=(FEATURES,)),
    layers.Dropout(0.5),
    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
                 activation='elu'),
    layers.Dropout(0.5),
    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
                 activation='elu'),
    layers.Dropout(0.5),
    layers.Dense(512, kernel_regularizer=regularizers.l2(0.0001),
                 activation='elu'),
    layers.Dropout(0.5),
    layers.Dense(1, activation='sigmoid')
])

combined_model

2.0.0-dev20191002


<tensorflow.python.keras.engine.sequential.Sequential at 0x7f15042369b0>

### Quiz

<img src="reports/quiz_overfit.png" align="center" height=auto width=75%/>

A predição são sigmoide

<img src="reports/quis_2.png" align="center" height=auto width=75%/>

O modelo 2 pode até apresentar melhores resultados mas não generaliza tão bem quanto o primiero.

<img src="reports/large_coefficients_overfitting.png" align="center" height=auto width=75%/>

<img src="reports/regularization_penalize.png" align="center" height=auto width=75%/>

<img src="reports/l1_l2.png" align="center" height=auto width=75%/>

<br/>

## **Dropout**
As vezes uma parte da neural network tem muito peso e acaba dominando o training.

<img src="reports/drop_out.png" align="center" height=auto width=95%/>

Uma solução para isso é desligar alguns perceptrons aleatóriamente. Para isso damos uma probabilidade em cada epoch de um nodo ser desligado 

<img src="reports/dropout.gif" align="center" height=auto width=95%/>

<br/>

## **Keras Optimazation**
Existem vários otimizadores no Keras, que encorajamos que você explore mais a fundo, neste link ou nesta excelente postagem de blog. Estes otimizadores usam uma combinação dos truques acima, além de outros. Alguns dos mais comuns são:

### SGD
Este é o gradiente descendente estocástico. Ele usa os seguintes parâmetros:

- Taxa de aprendizagem.
- Momentum (que usa a média ponderada dos passos anteriores para conseguir um impulso para superar flutuações e o treinamento não ficar preso em mínimos locais).
- Momentum de Nesterov (que reduz a velocidade do gradiente quando se está mais próximo da solução).

### Adam
Adam (Adaptive Moment Estimation ou estimação adaptativa de momento) usa um decaimento exponencial mais complicado que consiste em não só considerar a média (primeiro momento), mas também a variância (segundo momento) dos últimos passos.

## RMSProp
RMSProp (RMS é a sigla em inglês para raiz quadrada do erro médio) reduz a taxa de aprendizagem ao dividi-la por uma média de gradientes elevados ao quadrado que decai exponencialmente.

#### References
- [1] https://towardsdatascience.com/understanding-binary-cross-entropy-log-loss-a-visual-explanation-a3ac6025181a

---