# Tarefa de Programação: Otimization Methods

## Introdução

Bem-vindo à quarta tarefa (obrigatória) do Curso 2 da Especialização em Deep Learning! Neste notebook, você adquirirá habilidades com alguns métodos de otimização mais avançados que podem acelerar o aprendizado e talvez até mesmo levá-lo a um valor final melhor para a função de custo. Ter um bom algoritmo de otimização pode ser a diferença entre esperar dias e apenas algumas horas para obter um bom resultado.


# Optimization Methods

Until now, you've always used Gradient Descent to update the parameters and minimize the cost. In this notebook, you'll gain skills with some more advanced optimization methods that can speed up learning and perhaps even get you to a better final value for the cost function. Having a good optimization algorithm can be the difference between waiting days vs. just a few hours to get a good result. 

By the end of this notebook, you'll be able to: 

* Apply optimization methods such as (Stochastic) Gradient Descent, Momentum, RMSProp and Adam
* Use random minibatches to accelerate convergence and improve optimization

Gradient descent goes "downhill" on a cost function $J$. Think of it as trying to do this: 
<img src="images/cost.jpg" style="width:650px;height:300px;">
<caption><center> <u> <b>Figure 1</b> </u>: <b>Minimizing the cost is like finding the lowest point in a hilly landscape</b><br> At each step of the training, you update your parameters following a certain direction to try to get to the lowest possible point. </center></caption>

**Notations**: As usual, $\frac{\partial J}{\partial a } = $ `da` for any variable `a`.

Let's get started!

# Métodos de Otimização

Até agora, você sempre usou o Gradient Descent para atualizar os parâmetros e minimizar o custo. Neste notebook, você adquirirá habilidades com alguns métodos de otimização mais avançados que podem acelerar o aprendizado e talvez até mesmo levá-lo a um valor final melhor para a função de custo. Ter um bom algoritmo de otimização pode ser a diferença entre esperar dias e apenas algumas horas para obter um bom resultado.

Ao final deste caderno, você será capaz de:

* Aplicar métodos de otimização como (Estocástico) Gradient Descent, Momentum, RMSProp e Adam
* Use minilotes aleatórios para acelerar a convergência e melhorar a otimização

A descida do gradiente "desce" em uma função de custo $J$. Pense nisso como tentar fazer isso:
<img src="images/cost.jpg" style="width:650px;height:300px;">
<caption><center> <u> <b>Figura 1</b> </u>: <b>Minimizar o custo é como encontrar o ponto mais baixo em uma paisagem montanhosa</b><br> Em cada etapa de o treinamento, você atualiza seus parâmetros seguindo uma determinada direção para tentar chegar ao ponto mais baixo possível. </center></caption>

**Notações**: Como de costume, $\frac{\partial J}{\partial a } = $ `da` para qualquer variável `a`.

Vamos começar!

## Important Note on Submission to the AutoGrader

Before submitting your assignment to the AutoGrader, please make sure you are not doing the following:

1. You have not added any _extra_ `print` statement(s) in the assignment.
2. You have not added any _extra_ code cell(s) in the assignment.
3. You have not changed any of the function parameters.
4. You are not using any global variables inside your graded exercises. Unless specifically instructed to do so, please refrain from it and use the local variables instead.
5. You are not changing the assignment code where it is not required, like creating _extra_ variables.

If you do any of the following, you will get something like, `Grader not found` (or similarly unexpected) error upon submitting your assignment. Before asking for help/debugging the errors in your assignment, check for these first. If this is the case, and you don't remember the changes you have made, you can get a fresh copy of the assignment by following these [instructions](https://www.coursera.org/learn/deep-neural-network/supplement/QWEnZ/h-ow-to-refresh-your-workspace).

## 1- Packages

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.io
import math
import sklearn
import sklearn.datasets

from opt_utils_v1a import load_params_and_grads, initialize_parameters, forward_propagation, backward_propagation
from opt_utils_v1a import compute_cost, predict, predict_dec, plot_decision_boundary, load_dataset
from copy import deepcopy
from testCases import *
from public_tests import *

%matplotlib inline
plt.rcParams['figure.figsize'] = (7.0, 4.0) # set default size of plots
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

## 2 - Gradient Descent

A simple optimization method in machine learning is gradient descent (GD). When you take gradient steps with respect to all $m$ examples on each step, it is also called Batch Gradient Descent. 

### Exercise 1 - update_parameters_with_gd

Implement the gradient descent update rule. The  gradient descent rule is, for $l = 1, ..., L$: 
$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{1}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{2}$$

where L is the number of layers and $\alpha$ is the learning rate. All parameters should be stored in the `parameters` dictionary. Note that the iterator `l` starts at 1 in the `for` loop as the first parameters are $W^{[1]}$ and $b^{[1]}$. 

## 2 - Descida Gradiente

Um método de otimização simples em aprendizado de máquina é o gradiente descendente (GD). Quando você executa etapas de gradiente em relação a todos os exemplos de $m$ em cada etapa, isso também é chamado de descida de gradiente em lote.

<a name='ex-1'></a>
### Exercício 1 - update_parameters_with_gd

Implemente a regra de atualização de gradiente descendente. A regra do gradiente descendente é, para $l = 1, ..., L$:
$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{1}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{2}$$

onde L é o número de camadas e $\alpha$ é a taxa de aprendizado. Todos os parâmetros devem ser armazenados no dicionário `parameters`. Observe que o iterador `l` começa em 1 no loop `for`, pois os primeiros parâmetros são $W^{[1]}$ e $b^{[1]}$.

In [2]:
# GRADED FUNCTION: update_parameters_with_gd

def update_parameters_with_gd(parameters, grads, learning_rate):
    """
    Update parameters using one step of gradient descent
    
    Arguments:
    parameters -- python dictionary containing your parameters to be updated:
                    parameters['W' + str(l)] = Wl
                    parameters['b' + str(l)] = bl
    grads -- python dictionary containing your gradients to update each parameters:
                    grads['dW' + str(l)] = dWl
                    grads['db' + str(l)] = dbl
    learning_rate -- the learning rate, scalar.
    
    Returns:
    parameters -- python dictionary containing your updated parameters 
    """
    L = len(parameters) // 2 # number of layers in the neural networks

    # Update rule for each parameter
    for l in range(1, L + 1):
        # (approx. 2 lines)
        # parameters["W" + str(l)] =  
        # parameters["b" + str(l)] = 
        # YOUR CODE STARTS HERE
        parameters["W" + str(l)] = parameters["W" + str(l)] - learning_rate*grads["dW" + str(l)]  
        parameters["b" + str(l)] = parameters["b" + str(l)] - learning_rate*grads["db" + str(l)]
        
        # YOUR CODE ENDS HERE
    return parameters

In [3]:
parameters, grads, learning_rate = update_parameters_with_gd_test_case()
learning_rate = 0.01
parameters = update_parameters_with_gd(parameters, grads, learning_rate)

print("W1 =\n" + str(parameters["W1"]))
print("b1 =\n" + str(parameters["b1"]))
print("W2 =\n" + str(parameters["W2"]))
print("b2 =\n" + str(parameters["b2"]))

update_parameters_with_gd_test(update_parameters_with_gd)

W1 =
[[ 1.63535156 -0.62320365 -0.53718766]
 [-1.07799357  0.85639907 -2.29470142]]
b1 =
[[ 1.74604067]
 [-0.75184921]]
W2 =
[[ 0.32171798 -0.25467393  1.46902454]
 [-2.05617317 -0.31554548 -0.3756023 ]
 [ 1.1404819  -1.09976462 -0.1612551 ]]
b2 =
[[-0.88020257]
 [ 0.02561572]
 [ 0.57539477]]
[92mAll test passed


A variant of this is Stochastic Gradient Descent (SGD), which is equivalent to mini-batch gradient descent, where each mini-batch has just 1 example. The update rule that you have just implemented does not change. What changes is that you would be computing gradients on just one training example at a time, rather than on the whole training set. The code examples below illustrate the difference between stochastic gradient descent and (batch) gradient descent. 

- **(Batch) Gradient Descent**:

``` python
X = data_input
Y = labels
m = X.shape[1]  # Number of training examples
parameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations):
    # Forward propagation
    a, caches = forward_propagation(X, parameters)
    # Compute cost
    cost_total = compute_cost(a, Y)  # Cost for m training examples
    # Backward propagation
    grads = backward_propagation(a, caches, parameters)
    # Update parameters
    parameters = update_parameters(parameters, grads)
    # Compute average cost
    cost_avg = cost_total / m
        
```

- **Stochastic Gradient Descent**:

```python
X = data_input
Y = labels
m = X.shape[1]  # Number of training examples
parameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations):
    cost_total = 0
    for j in range(0, m):
        # Forward propagation
        a, caches = forward_propagation(X[:,j], parameters)
        # Compute cost
        cost_total += compute_cost(a, Y[:,j])  # Cost for one training example
        # Backward propagation
        grads = backward_propagation(a, caches, parameters)
        # Update parameters
        parameters = update_parameters(parameters, grads)
    # Compute average cost
    cost_avg = cost_total / m
```


Uma variante disso é a Descida de Gradiente Estocástico (SGD), que é equivalente à descida de gradiente de minilote, onde cada minilote tem apenas 1 exemplo. A regra de atualização que você acabou de implementar não muda. O que muda é que você estaria computando gradientes em apenas um exemplo de treinamento por vez, em vez de em todo o conjunto de treinamento. Os exemplos de código abaixo ilustram a diferença entre a descida de gradiente estocástica e a descida de gradiente (lote).

- **(Lote) Descida Gradiente**:

``` python
X = data_input
Y = rótulos
m = X.shape[1] # Número de exemplos de treinamento
parâmetros = initialize_parameters(layers_dims)
para i no intervalo (0, num_iterations):
     # Propagação para frente
     a, caches = forward_propagation(X, parâmetros)
     # Custo de cálculo
     cost_total = compute_cost(a, Y) # Custo para m exemplos de treinamento
     # Propagação para trás
     grads = reverse_propagation(a, caches, parâmetros)
     # Atualizar parâmetros
     parâmetros = update_parameters(parâmetros, graduados)
     # Calcule o custo médio
     custo_médio = custo_total / m
        
```

- **Descida do Gradiente Estocástico**:

```python
X = data_input
Y = rótulos
m = X.shape[1] # Número de exemplos de treinamento
parâmetros = initialize_parameters(layers_dims)
para i no intervalo (0, num_iterations):
     custo_total = 0
     para j no intervalo(0, m):
         # Propagação para frente
         a, caches = forward_propagation(X[:,j], parâmetros)
         # Custo de cálculo
         cost_total += compute_cost(a, Y[:,j]) # Custo para um exemplo de treinamento
         # Propagação para trás
         grads = reverse_propagation(a, caches, parâmetros)
         # Atualizar parâmetros
         parâmetros = update_parameters(parâmetros, graduados)
     # Calcule o custo médio
     custo_médio = custo_total / m
```

In Stochastic Gradient Descent, you use only 1 training example before updating the gradients. When the training set is large, SGD can be faster. But the parameters will "oscillate" toward the minimum rather than converge smoothly. Here's what that looks like: 

<img src="images/kiank_sgd.png" style="width:750px;height:250px;">
<caption><center> <u> <font color='purple'> <b>Figure 1</b> </u><font color='purple'>  : <b>SGD vs GD</b><br> "+" denotes a minimum of the cost. SGD leads to many oscillations to reach convergence, but each step is a lot faster to compute for SGD than it is for GD, as it uses only one training example (vs. the whole batch for GD). </center></caption>

**Note** also that implementing SGD requires 3 for-loops in total:
1. Over the number of iterations
2. Over the $m$ training examples
3. Over the layers (to update all parameters, from $(W^{[1]},b^{[1]})$ to $(W^{[L]},b^{[L]})$)

In practice, you'll often get faster results if you don't use the entire training set, or just one training example, to perform each update. Mini-batch gradient descent uses an intermediate number of examples for each step. With mini-batch gradient descent, you loop over the mini-batches instead of looping over individual training examples.

<img src="images/kiank_minibatch.png" style="width:750px;height:250px;">
<caption><center> <u> <font color='purple'> <b>Figure 2</b> </u>: <font color='purple'>  <b>SGD vs Mini-Batch GD</b><br> "+" denotes a minimum of the cost. Using mini-batches in your optimization algorithm often leads to faster optimization. </center></caption>

Em Stochastic Gradient Descent, você usa apenas 1 exemplo de treinamento antes de atualizar os gradientes. Quando o conjunto de treinamento é grande, o SGD pode ser mais rápido. Mas os parâmetros irão "oscilar" em direção ao mínimo em vez de convergir suavemente. Aqui está o que parece:

<img src="images/kiank_sgd.png" style="width:750px;height:250px;">
<caption><center> <u> <font color='purple'> <b>Figura 1</b> </u><font color='purple'> : <b>SGD vs GD</b><br> "+" denota um custo mínimo. O SGD leva a muitas oscilações para alcançar a convergência, mas cada etapa é muito mais rápida de calcular para SGD do que para GD, pois usa apenas um exemplo de treinamento (vs. todo o lote para GD). </center></caption>

**Observe** também que a implementação do SGD requer 3 for-loops no total:
1. Sobre o número de iterações
2. Sobre os $m$ exemplos de treinamento
3. Sobre as camadas (para atualizar todos os parâmetros, de $(W^{[1]},b^{[1]})$ a $(W^{[L]},b^{[L]}) $)

Na prática, você geralmente obterá resultados mais rápidos se não usar todo o conjunto de treinamento ou apenas um exemplo de treinamento para realizar cada atualização. A descida de gradiente em minilote usa um número intermediário de exemplos para cada etapa. Com a descida de gradiente de minilote, você percorre os minilotes em vez de percorrer exemplos de treinamento individuais.

<img src="images/kiank_minibatch.png" style="width:750px;height:250px;">
<caption><center> <u> <font color='purple'> <b>Figura 2</b> </u>: <font color='purple'> <b>SGD vs Mini-Batch GD</b><br> "+" denota um custo mínimo. O uso de mini-lotes em seu algoritmo de otimização geralmente leva a uma otimização mais rápida. </center></caption>

## 3 - Mini-Batch Gradient Descent

Now you'll build some mini-batches from the training set (X, Y).

There are two steps:
- **Shuffle**: Create a shuffled version of the training set (X, Y) as shown below. Each column of X and Y represents a training example. Note that the random shuffling is done synchronously between X and Y. Such that after the shuffling the $i^{th}$ column of X is the example corresponding to the $i^{th}$ label in Y. The shuffling step ensures that examples will be split randomly into different mini-batches. 

<img src="images/kiank_shuffle.png" style="width:550px;height:300px;">

- **Partition**: Partition the shuffled (X, Y) into mini-batches of size `mini_batch_size` (here 64). Note that the number of training examples is not always divisible by `mini_batch_size`. The last mini batch might be smaller, but you don't need to worry about this. When the final mini-batch is smaller than the full `mini_batch_size`, it will look like this: 

<img src="images/kiank_partition.png" style="width:550px;height:300px;">

### Exercise 2 - random_mini_batches

Implement `random_mini_batches`. The shuffling part has already been coded for you! To help with the partitioning step, you've been provided the following code that selects the indexes for the $1^{st}$ and $2^{nd}$ mini-batches:
```python
first_mini_batch_X = shuffled_X[:, 0 : mini_batch_size]
second_mini_batch_X = shuffled_X[:, mini_batch_size : 2 * mini_batch_size]
...
```

Note that the last mini-batch might end up smaller than `mini_batch_size=64`. Let $\lfloor s \rfloor$ represents $s$ rounded down to the nearest integer (this is `math.floor(s)` in Python). If the total number of examples is not a multiple of `mini_batch_size=64` then there will be $\left\lfloor \frac{m}{mini\_batch\_size}\right\rfloor$ mini-batches with a full 64 examples, and the number of examples in the final mini-batch will be $\left(m-mini_\_batch_\_size \times \left\lfloor \frac{m}{mini\_batch\_size}\right\rfloor\right)$. 

**Hint:**

$$mini\_batch\_X = shuffled\_X[:, i : j]$$ 

Think of a way in which you can use the for loop variable `k` help you increment `i` and `j` in multiples of mini_batch_size.

As an example, if you want to increment in multiples of 3, you could the following:

```python
n = 3
for k in (0 , 5):
    print(k * n)
```

## 3 - Descida de gradiente de mini-lote

Agora você construirá alguns mini-lotes a partir do conjunto de treinamento (X, Y).

Existem duas etapas:
- **Shuffle**: Crie uma versão embaralhada do conjunto de treinamento (X, Y) conforme mostrado abaixo. Cada coluna de X e Y representa um exemplo de treinamento. Observe que o embaralhamento aleatório é feito de forma síncrona entre X e Y. De modo que, após o embaralhamento, a coluna $i^{th}$ de X é o exemplo correspondente ao rótulo $i^{th}$ em Y. A etapa de embaralhamento garante que os exemplos serão divididos aleatoriamente em diferentes mini-lotes.

<img src="images/kiank_shuffle.png" style="width:550px;height:300px;">

- **Partição**: Particiona o embaralhado (X, Y) em mini-lotes de tamanho `mini_batch_size` (aqui 64). Observe que o número de exemplos de treinamento nem sempre é divisível por `mini_batch_size`. O último mini lote pode ser menor, mas você não precisa se preocupar com isso. Quando o mini-lote final for menor que o `mini_batch_size` completo, ele ficará assim:

<img src="images/kiank_partition.png" style="width:550px;height:300px;">

### Exercício 2 - random_mini_batches

Implemente `random_mini_batches`. A parte de embaralhamento já foi codificada para você! Para ajudar na etapa de particionamento, você recebeu o seguinte código que seleciona os índices para os mini-lotes $1^{st}$ e $2^{nd}$:
```python
first_mini_batch_X = shuffled_X[:, 0: mini_batch_size]
second_mini_batch_X = shuffled_X[:, mini_batch_size: 2 * mini_batch_size]
...
```

Observe que o último mini-lote pode acabar menor que `mini_batch_size=64`. Seja $\lfloor s \rfloor$ representa $s$ arredondado para o inteiro mais próximo (isto é `math.floor(s)` em Python). Se o número total de exemplos não for múltiplo de `mini_batch_size=64`, então haverá $\left\lfloor \frac{m}{mini\_batch\_size}\right\rfloor$ mini-lotes com 64 exemplos completos , e o número de exemplos no minilote final será $\left(m-mini_\_batch_\_size \times \left\lfloor \frac{m}{mini\_batch\_size}\right\rfloor\right) $.

**Dica:**

$$mini\_lote\_X = embaralhado\_X[:, i : j]$$

Pense em uma maneira de usar a variável de loop for `k` para ajudá-lo a incrementar `i` e `j` em múltiplos de mini_batch_size.

Por exemplo, se você deseja incrementar em múltiplos de 3, pode fazer o seguinte:

```python
n = 3
para k em (0 , 5):
     imprimir(k * n)
```

In [8]:
# GRADED FUNCTION: random_mini_batches

def random_mini_batches(X, Y, mini_batch_size = 64, seed = 0):
    """
    Creates a list of random minibatches from (X, Y)
    
    Arguments:
    X -- input data, of shape (input size, number of examples)
    Y -- true "label" vector (1 for blue dot / 0 for red dot), of shape (1, number of examples)
    mini_batch_size -- size of the mini-batches, integer
    
    Returns:
    mini_batches -- list of synchronous (mini_batch_X, mini_batch_Y)
    """
    
    np.random.seed(seed)            # To make your "random" minibatches the same as ours
    m = X.shape[1]                  # number of training examples
    mini_batches = []
        
    # Step 1: Shuffle (X, Y)
    permutation = list(np.random.permutation(m))
    shuffled_X = X[:, permutation]
    shuffled_Y = Y[:, permutation].reshape((1, m))
    
    inc = mini_batch_size

    # Step 2 - Partition (shuffled_X, shuffled_Y).
    # Cases with a complete mini batch size only i.e each of 64 examples.
    num_complete_minibatches = math.floor(m / mini_batch_size) # number of mini batches of size mini_batch_size in your partitionning
    for k in range(0, num_complete_minibatches):
        # (approx. 2 lines)
        # mini_batch_X =  
        # mini_batch_Y =
        # YOUR CODE STARTS HERE
        mini_batch_X = shuffled_X[:, k*mini_batch_size:(k+1)*mini_batch_size]
        mini_batch_Y = shuffled_Y[:, k*mini_batch_size:(k+1)*mini_batch_size]
        
        # YOUR CODE ENDS HERE
        mini_batch = (mini_batch_X, mini_batch_Y)
        mini_batches.append(mini_batch)
    
    # For handling the end case (last mini-batch < mini_batch_size i.e less than 64)
    if m % mini_batch_size != 0:
        #(approx. 2 lines)
        # mini_batch_X =
        # mini_batch_Y =
        # YOUR CODE STARTS HERE
        mini_batch_X = shuffled_X[:, num_complete_minibatches*mini_batch_size :]
        mini_batch_Y = shuffled_Y[:, num_complete_minibatches*mini_batch_size :]
        
        # YOUR CODE ENDS HERE
        mini_batch = (mini_batch_X, mini_batch_Y)
        mini_batches.append(mini_batch)
    
    return mini_batches

In [9]:
np.random.seed(1)
mini_batch_size = 64
nx = 12288
m = 148
X = np.array([x for x in range(nx * m)]).reshape((m, nx)).T
Y = np.random.randn(1, m) < 0.5

mini_batches = random_mini_batches(X, Y, mini_batch_size)
n_batches = len(mini_batches)

assert n_batches == math.ceil(m / mini_batch_size), f"Wrong number of mini batches. {n_batches} != {math.ceil(m / mini_batch_size)}"
for k in range(n_batches - 1):
    assert mini_batches[k][0].shape == (nx, mini_batch_size), f"Wrong shape in {k} mini batch for X"
    assert mini_batches[k][1].shape == (1, mini_batch_size), f"Wrong shape in {k} mini batch for Y"
    assert np.sum(np.sum(mini_batches[k][0] - mini_batches[k][0][0], axis=0)) == ((nx * (nx - 1) / 2 ) * mini_batch_size), "Wrong values. It happens if the order of X rows(features) changes"
if ( m % mini_batch_size > 0):
    assert mini_batches[n_batches - 1][0].shape == (nx, m % mini_batch_size), f"Wrong shape in the last minibatch. {mini_batches[n_batches - 1][0].shape} != {(nx, m % mini_batch_size)}"

assert np.allclose(mini_batches[0][0][0][0:3], [294912,  86016, 454656]), "Wrong values. Check the indexes used to form the mini batches"
assert np.allclose(mini_batches[-1][0][-1][0:3], [1425407, 1769471, 897023]), "Wrong values. Check the indexes used to form the mini batches"

print("\033[92mAll test passed!")

AssertionError: Wrong values. It happens if the order of X rows(features) changes

In [6]:
t_X, t_Y, mini_batch_size = random_mini_batches_test_case()
mini_batches = random_mini_batches(t_X, t_Y, mini_batch_size)

print ("shape of the 1st mini_batch_X: " + str(mini_batches[0][0].shape))
print ("shape of the 2nd mini_batch_X: " + str(mini_batches[1][0].shape))
print ("shape of the 3rd mini_batch_X: " + str(mini_batches[2][0].shape))
print ("shape of the 1st mini_batch_Y: " + str(mini_batches[0][1].shape))
print ("shape of the 2nd mini_batch_Y: " + str(mini_batches[1][1].shape)) 
print ("shape of the 3rd mini_batch_Y: " + str(mini_batches[2][1].shape))
print ("mini batch sanity check: " + str(mini_batches[0][0][0][0:3]))

random_mini_batches_test(random_mini_batches)

shape of the 1st mini_batch_X: (12288, 64)
shape of the 2nd mini_batch_X: (12288, 64)
shape of the 3rd mini_batch_X: (12288, 20)
shape of the 1st mini_batch_Y: (1, 64)
shape of the 2nd mini_batch_Y: (1, 64)
shape of the 3rd mini_batch_Y: (1, 20)
mini batch sanity check: [ 0.90085595 -0.7612069   0.2344157 ]
[92m All tests passed.


<font color='blue'>
    
**What you should remember**:
- Shuffling and Partitioning are the two steps required to build mini-batches
- Powers of two are often chosen to be the mini-batch size, e.g., 16, 32, 64, 128.

## 4 - Momentum

Because mini-batch gradient descent makes a parameter update after seeing just a subset of examples, the direction of the update has some variance, and so the path taken by mini-batch gradient descent will "oscillate" toward convergence. Using momentum can reduce these oscillations. 

Momentum takes into account the past gradients to smooth out the update. The 'direction' of the previous gradients is stored in the variable $v$. Formally, this will be the exponentially weighted average of the gradient on previous steps. You can also think of $v$ as the "velocity" of a ball rolling downhill, building up speed (and momentum) according to the direction of the gradient/slope of the hill. 

<img src="images/opt_momentum.png" style="width:400px;height:250px;">
<caption><center> <u><font color='purple'><b>Figure 3</b> </u><font color='purple'>: The red arrows show the direction taken by one step of mini-batch gradient descent with momentum. The blue points show the direction of the gradient (with respect to the current mini-batch) on each step. Rather than just following the gradient, the gradient is allowed to influence $v$ and then take a step in the direction of $v$.<br> <font color='black'> </center>

## 4 - Momento

Como a descida de gradiente de minilote faz uma atualização de parâmetro depois de ver apenas um subconjunto de exemplos, a direção da atualização tem alguma variação e, portanto, o caminho percorrido pela descida de gradiente de minilote "oscilará" em direção à convergência. O uso do momento pode reduzir essas oscilações.

Momentum leva em consideração os gradientes anteriores para suavizar a atualização. A 'direção' dos gradientes anteriores é armazenada na variável $v$. Formalmente, esta será a média ponderada exponencialmente do gradiente nas etapas anteriores. Você também pode pensar em $v$ como a "velocidade" de uma bola rolando ladeira abaixo, ganhando velocidade (e momento) de acordo com a direção do gradiente/inclinação da ladeira.

<img src="images/opt_momentum.png" style="width:400px;height:250px;">
<caption><center> <u><font color='purple'><b>Figura 3</b> </u><font color='purple'>: As setas vermelhas mostram a direção tomada por um passo de descida de gradiente de mini-lote com impulso. Os pontos azuis mostram a direção do gradiente (em relação ao mini-lote atual) em cada etapa. Ao invés de apenas seguir o gradiente, o gradiente pode influenciar $v$ e então dar um passo na direção de $v$.<br> <font color='black'> </center>