# PyTorch básico 1: primeiras noções

Nesse notebook vamos usar uma biblioteca para deep learning

<table>
<tr>
<td>
<img align="middle"  width='400' heith='100'  src='images/pytorch-logo-dark.png'>
</td>
</tr>
</table>


Você deve ir no [site oficial](https://pytorch.org/) para instalar essa bibloteca no seu computador. 


Vamos usar essa biblioteca pois

- Com ela podemos fazer uso de GPU (importante quando treinamos grandes datasets).

- Ela possui uma série de facilidades para se montar modelos de deep learning (como diferenciação automática e certas funções já pré definidas).



In [None]:
# notebook feito para a versão 0.4.0 
import numpy as np
import torch
print("PyTorch version = {} ".format(torch.__version__))

## Hello, PyTorch

### [Tensor](https://pytorch.org/docs/master/tensors.html)

O objeto central com que vamos trabalhar é um **Tensor**. 

Um tensor nada mais é do que uma matriz multidimensional (como o ndarray do NumPy) com elementos de um único tipo. Tensores podem ser usados em GPU para acelerar o processo de computação. Para os curiosos, nesse [blog post](http://blog.christianperone.com/2018/03/pytorch-internal-architecture-tour/) há uma descrição sobre o funcionamento interno dos tensores do PyTorch implementados em C/C++.

Em diferentes aplicações temos que ter bem claro o tipo dos tensores que estamos usando, por exemplo em imagens usamos um torch.ByteTensor para economizar memória. O tipo padrão é torch.FloatTensor. Vale a pena saber quais tipos estão disponíveis nessa biblioteca.

<table border="1" class="docutils">
<colgroup>
<col width="19%">
<col width="34%">
<col width="21%">
<col width="25%">
</colgroup>
<thead valign="bottom">
<tr class="row-odd"><th class="head">Data type</th>
<th class="head">dtype</th>
<th class="head">CPU tensor</th>
<th class="head">GPU tensor</th>
</tr>
</thead>
<tbody valign="top">
<tr class="row-even"><td>32-bit floating point</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.float32</span></code> or <code class="docutils literal notranslate"><span class="pre">torch.float</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.FloatTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.FloatTensor</span></code></td>
</tr>
<tr class="row-odd"><td>64-bit floating point</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.float64</span></code> or <code class="docutils literal notranslate"><span class="pre">torch.double</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.DoubleTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.DoubleTensor</span></code></td>
</tr>
<tr class="row-even"><td>16-bit floating point</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.float16</span></code> or <code class="docutils literal notranslate"><span class="pre">torch.half</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.HalfTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.HalfTensor</span></code></td>
</tr>
<tr class="row-odd"><td>8-bit integer (unsigned)</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.uint8</span></code></td>
<td><a class="reference internal" href="#torch.ByteTensor" title="torch.ByteTensor"><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.ByteTensor</span></code></a></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.ByteTensor</span></code></td>
</tr>
<tr class="row-even"><td>8-bit integer (signed)</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.int8</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.CharTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.CharTensor</span></code></td>
</tr>
<tr class="row-odd"><td>16-bit integer (signed)</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.int16</span></code> or <code class="docutils literal notranslate"><span class="pre">torch.short</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.ShortTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.ShortTensor</span></code></td>
</tr>
<tr class="row-even"><td>32-bit integer (signed)</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.int32</span></code> or <code class="docutils literal notranslate"><span class="pre">torch.int</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.IntTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.IntTensor</span></code></td>
</tr>
<tr class="row-odd"><td>64-bit integer (signed)</td>
<td><code class="docutils literal notranslate"><span class="pre">torch.int64</span></code> or <code class="docutils literal notranslate"><span class="pre">torch.long</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.LongTensor</span></code></td>
<td><code class="xref py py-class docutils literal notranslate"><span class="pre">torch.cuda.LongTensor</span></code></td>
</tr>
</tbody>
</table>



In [None]:
print("tensor A\n")
A = torch.Tensor([[1., 1.], [1., 2.]])
print("type = ", A.type())
print("shape = ", A.shape)
print(A)

In [None]:
print("\ntensor B\n")
B = torch.Tensor([[2., 2.], [3., 4.]])
print("type = ", B.type())
print("shape = ", B.shape)
print(B)

In [None]:
print("\ntensor C\n")
C = torch.ones((4,2,2))
print("type = ", C.type())
print("shape = ", C.shape)
print(C)

In [None]:
print("\ntensor D\n")
D = torch.rand((3,3))
print("type = ", D.type())
print("shape = ", D.shape)
print(D)

### Como em NumPy, podemos alterar os tensores.

Fazemos o uso de certos métodos para isso:

- Usamos`.view()` para alterar a **forma** do tensor.

- Usamos `.type()` para alterar o **tipo** do tensor.


In [None]:
A_flat = A.view((4,1))
A_flat = A_flat.type(torch.ShortTensor)
print("tensor A_flat\n")
print("type = ", A_flat.type())
print("shape = ", A_flat.shape)
print(A_flat)

In [None]:
B_flat = B.view((4,1))
B_flat = B_flat.type(torch.ByteTensor)
print("\ntensor B_flat\n")
print("type = ", B_flat.type())
print("shape = ", B_flat.shape)
print(B_flat)

### Fazemos o slicing de modo usual

In [None]:
print("A[0][0] = ",A[0][0])
print("A[0:1,:] = ",A[0:1,:])
print("A[1,:] = ",A[1,:])
print("B_flat[-1] = ",B_flat[-1])

### Operações
Além de criar tensores podemos aplicar uma série de operações sobre eles.

In [None]:
print("A = ",A)
print()
print("B = ",B)

In [None]:
print("- (soma)\n A + B = \n", A + B)

In [None]:
print("- (multiplicação por escalar)\n A * 9.2 = \n", A * 9.2) 

In [None]:
print("- (hadammar product -- multiplicação elemento a elemento)\n A * B = \n", A * B)

In [None]:
print("- (multiplicação de matrix)\n torch.matmul(A, B) = \n",torch.matmul(A, B)) 

In [None]:
print("- (redução por soma)\n torch.sum(A) = \n", torch.sum(A))

In [None]:
print("- (redução por média)\n torch.mean(B) = \n", torch.mean(B))

In [None]:
def sigmoid(x):
    return 1/(1 + np.exp(-x))

print("- (aplicando uma função escalar num tensor)\n sigmoid(A) = \n", sigmoid(A))

### Conversão para Numpy

Ainda vamos trabalhar com os ndarrays do NumPy.
Fazer a transição entre NumPy e PyTorch é bem simples. Podemos inicializar um tensor passando um array, ou podemos usar a função `torch.from_numpy()`.

Note que quando inicializamos um tensor com `torch.Tensor()` estamos inicializando um tensor de tipo `torch.FloatTensor`. Assim, para evitar mudanção de tipo é preferível usar `torch.from_numpy()`.

In [None]:
my_array = np.array([[2.3, 4.5, 2.3], [1.3, 2.5, 5.3]])
print("my_array = \n{}".format(my_array))
print("\nmy_array.dtype =", my_array.dtype)
print("\nmy_array.shape =", my_array.shape)

In [None]:
print("\n(NumPy array -> Pytorch tensor) usando torch.Tensor()\n")
my_tensor = torch.Tensor(my_array)
print("my_tensor = \n{}".format(my_tensor))
print("\nmy_tensor.type =", my_tensor.type())
print("\nmy_tensor.shape =", my_tensor.shape)

In [None]:
print("\n(NumPy array -> Pytorch tensor) usando torch.from_numpy()\n")
my_other_tensor = torch.from_numpy(my_array)
print("my_other_tensor = \n{}".format(my_other_tensor))
print("\nmy_other_tensor.type =", my_other_tensor.type())
print("\nmy_other_tensor.shape =", my_other_tensor.shape)

In [None]:
print("\n(Pytorch tensor -> NumPy array) usando .numpy()\n")
my_other_array = my_other_tensor.numpy()
print("my_other_array = \n{}".format(my_other_array))
print("\nmy_other_array.type =", my_other_array.dtype)
print("\nmy_other_array.shape =", my_other_array.shape)

### Grafo de computação

Como outras bibliotecas de deep learning, PyTorch faz uso da idéia de **grafo de computação** para implementar o algoritmo de back propagation.
Diferentemente de bibliotecas como [TensorFlow](https://www.tensorflow.org/), PyTorch trabalha com **grafos dinâmicos** (em contrapartida, TensorFlow trabalha com **grafos estáticos**). Em implementações que fazem uso de grafos estáticos precisamos definir primeiro o grafo de computação e depois vamos injetando os dados no grafo. Uma vez feito isso, podemos sempre acessar cada nó no grafo e o gradiente da folha com respeito aos parâmetros. Num grafo dinâmico, por sua vez, depois de fazermos o *forward* e o *backward pass* o grafo é apagado para liberar memória.

Se você não está familiarizado com essas noções, volte nos slides do curso:

- [grafo de computação (caso escalar)](https://github.com/MLIME/MAC0460/blob/master/slides/backprop1/pdf/BackpropLecture1.pdf)
- [cálculo vetorial](https://github.com/MLIME/MAC0460/blob/master/slides/backprop2/pdf/BackpropLecture2.pdf)   

#### Exemplo

<table>
<tr>
<td>
<img align="middle"  width='300' heith='100'   src='images/simple_example.png'>
</td>
</tr>
</table>

Esse exemplo simples de grafo de computaçao tem também uma implementação simples:

In [None]:
A = torch.Tensor([[1., 1.], [1., 2.]])
B = torch.Tensor([[2., 2.], [3., 4.]])
C = A * B
u = torch.sum(C)

print("A = ",A)
print()
print("B = ",B)
print()
print("C = ",C)
print()
print("u = ",u)


### Diferenciação automática

- Usamos o atributo `requires_grad` (`False` por padrão) para indicar quais tensores são treináveis. No grafo de computação se `z` é uma tensor com `requires_grad=True` e `z` é pai de `b`, então `b` é uma tensor com `requires_grad=True`.

In [None]:
x = torch.randn(5, 5)
y = torch.randn(5, 5)
z = torch.randn((5, 5), requires_grad=True)
a = x + y
b = a + z
print("a.requires_grad =", a.requires_grad)
print("b.requires_grad =", b.requires_grad)

- Dado uma variável folha `u`, usamos o método `u.backward()` para performar o back propagation e assim obter os gradientes de u com respeito às variáveis de interesse. Esse método vai funcionar apenas quando `u` for um tensor escalar.

In [None]:
try:
    b.backward()
    print(z.grad)    
except RuntimeError as e:
    print(e)

u = torch.sum(b)
u.backward()
print("\nz.grad =\n",z.grad)

- Podemos alterar o atributo `requires_grad` depois de inicializar o tensor.

In [None]:
A = torch.Tensor([[1., 1.], [1., 2.]])
B = torch.Tensor([[2., 2.], [3., 4.]])
A.requires_grad = True
C = A * B
d = torch.sum(C)
d.backward()
print("A.grad =\n", A.grad)

- Por ser um grafo dinâmico, temos que o grafo é liberado apos uma execução. Se tentarmos calcular o grandiente mais de uma vez vamos encontrar um erro.

In [None]:
try:
    A = torch.Tensor([[1., 1.], [1., 2.]])
    B = torch.Tensor([[2., 2.], [3., 4.]])
    A.requires_grad = True
    C = A * B
    d = torch.sum(C)
    for i in range(5):
        print("i={}".format(i))
        d.backward()
        print(A.grad)
        print()
except RuntimeError as e:
    print(e)

- Para manter o grafo é preciso definir o parâmetro `retain_graph=True`. Note que os gradientes são somados a cada iteração.

In [None]:
A = torch.Tensor([[1., 1.], [1., 2.]])
B = torch.Tensor([[2., 2.], [3., 4.]])
A.requires_grad = True
C = A * B
d = torch.sum(C)
for i in range(5):
    print("i={}".format(i))
    d.backward(retain_graph=True)
    print(A.grad)

- Podemos zerar o gradiente a cada iteração para que o resultado não seja acumulado

In [None]:
A = torch.Tensor([[1., 1.], [1., 2.]])
B = torch.Tensor([[2., 2.], [3., 4.]])
A.requires_grad = True
C = A * B
d = torch.sum(C)
for i in range(5):
    print("i={}".format(i))
    d.backward(retain_graph=True)
    print(A.grad)
    A.grad.zero_()

## Exercícios

Diferenciação automática é muito útil, mas existe um perigo: pode parecer que todo o trabalho feito por bibliotecas de *deep learning* (como PyTorch e TensorFlow) se assemelhe a mágica. Isso não apresenta um problema a curto prazo, mas a longo prazo [na hora de criar e testar novos modelos isso se torna um problema](https://medium.com/@karpathy/yes-you-should-understand-backprop-e2f06eab496b). 

Por isso, nesse notebook vamos trabalhar com alguns exercícios que obrigam a lembrar de como o algoritmo de backpropagation funciona.

###  **Exercício 1)**

Considere o grafo cujas raizes são escalares:


<table>
<tr>
<td>
<img align="middle" width='400' heith='100' src='images/multchain.png'>
</td>
</tr>
</table>

Complete a função `graph1`.

Essa função deve montar o grafo acima e devolver a saída da variável $f$ junto com duas versões da derivada parcial $\frac{\partial f}{\partial a}$: uma calculada automaticamente pelo PyTorch e outra calculada por você usando o NumPy.

In [None]:
def graph1(a_np, b_np, c_np):
    """
    Computes the graph
        - x = a * c
        - y = a + b
        - f = x / y

    Computes also df/da using
        - Pytorchs's automatic differentiation (auto_grad)
        - user's implementation of the gradient (user_grad)

    :param a_np: input variable a
    :type a_np: np.ndarray(shape=(1,), dtype=float64)
    :param b_np: input variable b
    :type b_np: np.ndarray(shape=(1,), dtype=float64)
    :param c_np: input variable c
    :type c_np: np.ndarray(shape=(1,), dtype=float64)
    :return: f, auto_grad, user_grad
    :rtype: torch.DoubleTensor(shape=[1]),
            torch.DoubleTensor(shape=[1]),
            numpy.float64
    """
    # YOUR CODE HERE:
    raise NotImplementedError("falta completar a função graph1")
    # END YOUR CODE
    return f, auto_grad, user_grad

### Testes do exercío 1

In [None]:
for _ in range(1000):
    a_np = np.random.rand(1)
    b_np = np.random.rand(1)
    c_np = np.random.rand(1)
    f, auto_grad, user_grad = graph1(a_np, b_np, c_np)
    manual_f = (a_np * c_np) / (a_np + b_np)
    assert np.isclose(f.data.numpy()[0], manual_f, atol=1e-4), "Valor do f com problemas"
    assert np.isclose(auto_grad.numpy()[0], user_grad), "Derivada parcial com problemas"

###  **Exercício 2)**

Considere o grafo:



<table>
<tr>
<td>
<img align="middle"  width='300' heith='100' src='images/vector_graph.png'>
</td>
</tr>
</table>



Complete a função `graph2`.

Essa função deve montar o grafo acima e devolver a saída da variável $f$ junto com duas versões do gradiente $\frac{\partial f}{\partial W}$: uma calculada automaticamente pelo PyTorch e outra calculada por você usando o NumPy.


In [None]:
import torch.nn.functional as F

def graph2(W_np, x_np, b_np):
    """
    Computes the graph
        - u = Wx + b
        - g = sigmoid(u)
        - f = sum(g)

    Computes also df/dW using
        - pytorchs's automatic differentiation (auto_grad)
        - user's own manual differentiation (user_grad)
        
    F.sigmoid may be useful here

    :param W_np: input variable W
    :type W_np: np.ndarray(shape=(d,d), dtype=float64)
    :param x_np: input variable x
    :type x_np: np.ndarray(shape=(d,1), dtype=float64)
    :param b_np: input variable b
    :type b_np: np.ndarray(shape=(d,1), dtype=float64)
    :return: f, auto_grad, user_grad
    :rtype: torch.DoubleTensor(shape=[1]),
            torch.DoubleTensor(shape=[d, d]),
            np.ndarray(shape=(d,d), dtype=float64)
    """
    # YOUR CODE HERE:
    raise NotImplementedError("falta completar a função graph2")
    # END YOUR CODE
    return f, auto_grad, user_grad

### Testes do exercío 2

In [None]:
iterations = 1000
sizes = np.random.randint(2,10, size=(iterations))
for i in range(iterations):
    size = sizes[i]
    W_np = np.random.rand(size, size)
    x_np = np.random.rand(size, 1)
    b_np = np.random.rand(size, 1)
    f, auto_grad, user_grad = graph2(W_np, x_np, b_np)
    manual_f = np.sum(sigmoid(np.matmul(W_np, x_np) + b_np))
    assert np.isclose(f.data.numpy(), manual_f, atol=1e-4), "Valor do f com problemas"
    assert np.allclose(auto_grad.numpy(), user_grad), "Gradiente com problemas"

### Aplicando uma variação do algoritimo SGD no exemplo de regressao logistica


[Momentum](https://distill.pub/2017/momentum/) é um método que ajuda a acelerar o algoritmo SGD. Ele funciona ao se adicionar um vetor de atualização $\mathbf{z}$:


**Stochastic gradient descent with momentum**

- $\mathbf{w}(0) = \mathbf{w}$
- $\mathbf{z}(0) = \mathbf{0}$
- for $t = 0, 1, 2, \dots$ do
    * Sample a minibatch of $m$ examples from the training data.
    * Compute the gradient estimate $\hat{\nabla_{\mathbf{w}(t)}J(\mathbf{w}(t))}$
    * Calculate update vector: $\mathbf{z}(t+1) = \gamma \mathbf{z}(t) + \hat{\nabla_{\mathbf{w}(t)}J(\mathbf{w}(t))}$
    * Apply update : $\mathbf{w}(t+1) = \mathbf{w}(t) - \eta \mathbf{z}(t+1)$


O parâmetro $\gamma \in \mathbb{R}_{\geq}$ é chamado de **momentum**.




Agora vamos implementar esse algoritmo usando PyTorch no dataset sintético que estavamos usando nos notebooks passados.

In [None]:
from util import r_squared, randomize_in_place, get_housing_prices_data, add_feature_ones
from plots import simple_step_plot, plot_points_regression

%matplotlib inline

def standardize(X):
    """
    Returns standardized version of the ndarray 'X'.

    :param X: input array
    :type X: np.ndarray(shape=(N, d))
    :return: standardized array
    :rtype: np.ndarray(shape=(N, d))
    """

    X_T = X.T
    all_mean = []
    all_std = []
    for i in range(X_T.shape[0]):
        all_mean.append(np.mean(X_T[i]))
        all_std.append(np.std(X_T[i]))

    X_out = (X - all_mean) / all_std

    return X_out


X, y = get_housing_prices_data(N=350, verbose=False)
randomize_in_place(X, y)
train_X = X[0:250]
train_y = y[0:250]
valid_X = X[250:300]
valid_y = y[250:300]
test_X = X[300:]
test_y = y[300:]
train_X_norm = standardize(train_X)
train_y_norm = standardize(train_y)
train_y_norm = train_y_norm.astype("float64") 
train_X_1 = add_feature_ones(train_X_norm)
test_X_norm = standardize(test_X)
test_y_norm = standardize(test_y)
test_X_1 = add_feature_ones(test_X_norm)

### **Exercício 3)** 

Implemente o algoritmo *stochastic gradient descent with momentum* em PyTorch. A função abaixo deve retornar três coisas: o vetor de pesos $\mathbf{w}$, uma lista com cada peso obtido ao longo do treinamento, e uma lista com o custo de cada peso.

In [None]:
def SGD_with_momentum(X, y, inital_w, iterations, batch_size, learning_rate, momentum):
    """
    Performs batch gradient descent optimization using momentum.

    :param X: design matrix
    :type X: np.ndarray(shape=(N, d))
    :param y: regression targets
    :type y: np.ndarray(shape=(N, 1))
    :param inital_w: initial weights
    :type inital_w: np.array(shape=(d, 1))
    :param iterations: number of iterations
    :type iterations: int
    :param batch_size: size of the minibatch
    :type batch_size: int
    :param learning_rate: learning rate
    :type learning_rate: float
    :param momentum: accelerate parameter
    :type momentum: float
    :return: weights, weights history, cost history
    :rtype: np.array(shape=(d, 1)), list, list
    """
    # YOUR CODE HERE:
    raise NotImplementedError("falta completar a função SGD_with_momentum")
    # END YOUR CODE    

    return w_np, weights_history, cost_history


### Testes para o exercício 3

In [None]:
import time
init = time.time()
w, weights_history, cost_history = SGD_with_momentum(X=train_X_1,
                                                     y=train_y_norm,
                                                     inital_w=np.array([[9.2], [-30.3]]),
                                                     iterations=1000,
                                                     batch_size=32,
                                                     learning_rate=0.01,
                                                     momentum=0.01)
assert cost_history[-1] < cost_history[0]
assert type(w) == np.ndarray
assert len(weights_history) == len(cost_history)
init = time.time() - init
print("Tempo de treinamento = {:.8f}(s)".format(init))
print("Tem que ser em menos de 1.2 segundos")


#### Podemos ver como o parâmetro momentum interfere na otimização

In [None]:
hyper_params = [(300, 0.01, 0.01),
                (300, 0.01, 0.1),
                (300, 0.01, 0.3),
                (300, 0.01, 0.5),
                (300, 0.01, 0.8)]
               

for params in hyper_params:
    iterations = params[0]
    learning_rate = params[1]
    momentum = params[2] 
    best_w, weights_history, cost_history = SGD_with_momentum(X=train_X_1,
                                                y=train_y_norm,
                                                inital_w=np.array([[9.2], [-30.3]]),
                                                iterations=iterations,
                                                batch_size=1,
                                                learning_rate=learning_rate,
                                                momentum=momentum)
    simple_step_plot([cost_history],
                     "loss",
                     'Training loss\nlearning rate = {} | iterations = {} | momentum = {}'.format(learning_rate,
                                                                              iterations, momentum),
                     figsize=(8, 8))

prediction = test_X_1.dot(best_w)
prediction = (prediction * np.std(train_y)) + np.mean(train_y)
r_2 = r_squared(test_y, prediction)

plot_points_regression(test_X,
                       test_y,
                       title='Prediction on test data',
                       xlabel="m\u00b2",
                       ylabel='$',
                       prediction=prediction,
                       r_squared=r_2,
                       legend=True)