# Créditos

PyTorch Tutorial for Beginners | Basics & Gradient Descent | Tensors, Autograd & Linear Regression

https://youtu.be/m_tkL7DufPk

# PyTorch

Em essência, uma rede neural artificial é uma coleção de funções aninhadas que são executadas em alguns dados de entrada. Essas funções são definidas por parâmetros (os pesos e vieses), que no PyTorch são armazenados em **tensores**.

O PyTorch é uma biblioteca que nos permite manipular tensores. Tensor é um nome genérico usado para denotar vários objetos matemáticos: um único número, um vetor, uma matrix, etc. Em geral, vamos chamar de tensor qualquer array $n$-dimensional de números ($n \geq 0$). 

Uma propriedade importante de tensores é que todos os seus números componentes pertencem ao mesmo tipo de dados.

In [53]:
import torch

No exemplo abaixo, definimos nosso primeiro tensor. A expressão "42." é uma abreviatura para 42.0. É usada para indicar ao Python (e ao PyTorch) que você deseja criar um número de ponto flutuante.

In [54]:
um_tensor = torch.tensor(42.)
um_tensor

tensor(42.)

Podemos verificar isso consultando a propriedade dtype de nosso tensor.

In [55]:
print(um_tensor.dtype)

torch.float32


Vamos ver outros exemplos de criação de tensores com PyTorch.

In [56]:
import numpy as np

np.array([[1,2], 
          [3,4], 
          [5, 6]])

array([[1, 2],
       [3, 4],
       [5, 6]])

In [57]:
t = torch.tensor([[1., 2], 
                  [3, 4], 
                  [5, 6]])

In [58]:
t[-1]

tensor([5., 6.])

In [59]:
t[0, 0]

tensor(1.)

O próximo exemplo cria um tensor tri-dimensional.

In [60]:
y = torch.tensor([
     [
       [1, 2, 3],
       [4, 5, 6]
     ],
     [
       [1, 2, 3],
       [4, 5, 6]
     ],
     [
       [1, 2, 3],
       [4, 5, 6]
     ]
   ])

y

tensor([[[1, 2, 3],
         [4, 5, 6]],

        [[1, 2, 3],
         [4, 5, 6]],

        [[1, 2, 3],
         [4, 5, 6]]])

Uma boa analogia para entender intuitivamente um tensor tri-dimensional é pensar em um ficheiro (veja a figura a seguir).

<img src="https://cf.shopee.com.br/file/c71de8869cdb5f0938c4a14e32ca4f23" alt="Drawing" width="200"/>


Tensores podem apresentar um número arbitrário de dimensões. Além disso, as dimensões não precisam ter o mesmo tamanho. 

O tamanho de cada dimensão em um tensor pode ser consultado por meio da propriedade `shape`.

In [61]:
y.shape

torch.Size([3, 2, 3])

Repare que, dentro de cada dimensão de um tensor, deve haver consistência entre os elementos componentes. Como exemplo, a execução da célula de código a seguir deve causar um erro.

In [62]:
# torch.tensor([[0, 1, 2], 
#               [3, 4], 
#               [5, 6]])

## Operações sobre tensores

Essa seção apresenta algumas formas de transformar tensores usando operações fornecidas pelo PyTorch. A documentação completa dessa funções pode ser encontrada aqui: https://pytorch.org/docs/stable/torch.html

Podemos combinar tensores com as operações aritméticas usuais. Vejamos um exemplo:

In [63]:
import torch 

w = torch.tensor(.3)
x = torch.tensor(1.)
b = torch.tensor(.5)

Multiplicação:

In [64]:
y = w * x 
y

tensor(0.3000)

Multiplicação e adição:

In [65]:
y = w * x + b
y

tensor(0.8000)

Outra operação importante é a multiplicação de tensores. Veja o exemplo a seguir.

In [66]:
import torch

A = torch.tensor([[0, 1, 2], 
                  [3, 4, 5], 
                  [6, 7, 8], 
                  [9, 7, 8], 
                  [7, 6, 5]])

B = torch.tensor([[0, 1, 2, 3], 
                  [3, 4, 5, 6], 
                  [7, 8, 9, 10]])

C = A @ B

print(C)

tensor([[ 17,  20,  23,  26],
        [ 47,  59,  71,  83],
        [ 77,  98, 119, 140],
        [ 77, 101, 125, 149],
        [ 53,  71,  89, 107]])


Uma operação que nos será útil é a de transpor um tensor que representa uma matriz (i.e., um tensor 2D). Veja o exemplo a seguir.

In [67]:
M = torch.tensor([[0, 1, 2, 3], 
                  [3, 4, 5, 6], 
                  [7, 8, 9, 10]])
M.t()

tensor([[ 0,  3,  7],
        [ 1,  4,  8],
        [ 2,  5,  9],
        [ 3,  6, 10]])

A seguir outro exemplo de multiplicação de tensores:

In [68]:
A = torch.tensor([[7, 6, 5]])

B = torch.tensor([[0, 1, 2, 3], 
                  [3, 4, 5, 6], 
                  [7, 8, 9, 10]])

C = A @ B

print(C)

tensor([[ 53,  71,  89, 107]])


Repare que os operadores '\*' e '@' são diferentes. 

- '@': matrix multiplication
- '*': element wise multiplication

In [69]:
B * B # Produto de Hadamard

tensor([[  0,   1,   4,   9],
        [  9,  16,  25,  36],
        [ 49,  64,  81, 100]])

## Funções aplicáveis a tensores

### torch.empty

A função torch.empty do PyTorch é usada para criar um tensor não inicializado com o formato especificado. Isso significa que o tensor criado conterá valores não definidos, que normalmente serão lixo de memória. Esta função é útil quando você deseja alocar memória para um tensor rapidamente e não precisa que os valores sejam inicializados.

In [70]:
import torch

# Criar um tensor 2x3 não inicializado
tensor1 = torch.empty(2, 3)
print(tensor1)

# Criar um tensor 2x3x4 não inicializado com tipo de dados float64
tensor2 = torch.empty(2, 3, 4, dtype=torch.float64)
print(tensor2)

# Criar um tensor 2x3 não inicializado no dispositivo CUDA
tensor3 = torch.empty(2, 3, device=torch.device('cuda'))
print(tensor3)

# Criar um tensor 2x3 com requires_grad=True
tensor4 = torch.empty(2, 3, requires_grad=True)
print(tensor4)

tensor([[3.0856e+02, 3.0917e-41, 2.6103e+02],
        [3.0917e-41, 2.6894e-04, 3.0917e-41]])
tensor([[[6.9436e-310, 4.6818e-310, 6.9435e-310,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00]],

        [[ 0.0000e+00,  0.0000e+00,  0.0000e+00, 3.2379e-319],
         [ 0.0000e+00,  0.0000e+00,  0.0000e+00,  0.0000e+00],
         [ 0.0000e+00, 4.6818e-310,  0.0000e+00, 5.3050e-315]]],
       dtype=torch.float64)
tensor([[-0.1719, -0.8181, -0.0381],
        [-0.2751,  0.0818, -0.3142]], device='cuda:0')
tensor([[-3.6776e+15,  4.5852e-41, -3.6776e+15],
        [ 4.5852e-41,  4.4842e-44,  0.0000e+00]], requires_grad=True)


### torch.full

A função torch.full no PyTorch é usada para criar um tensor de um determinado tamanho e preencher todas as suas entradas com um valor específico. Isso pode ser útil quando você precisa inicializar um tensor com valores constantes.

In [71]:
import torch

# Criar um tensor 3x3 preenchido com o valor 7
tensor = torch.full((3, 3), 7)

print(tensor)

tensor([[7, 7, 7],
        [7, 7, 7],
        [7, 7, 7]])


### torch.cat

A função torch.cat no PyTorch é usada para concatenar (ou seja, juntar) dois ou mais tensores ao longo de uma dimensão especificada. Isso é útil quando você deseja combinar tensores em uma única matriz ao longo de um eixo específico.

In [72]:
import torch

tensor1 = torch.tensor([[1, 2], [3, 4]])
tensor2 = torch.tensor([[5, 6], [7, 8]])

result = torch.cat((tensor1, tensor2), dim=0)
print(result)

tensor([[1, 2],
        [3, 4],
        [5, 6],
        [7, 8]])


In [73]:
import torch

tensor1 = torch.tensor([[1, 2], [3, 4]])
tensor2 = torch.tensor([[5, 6], [7, 8]])

result = torch.cat((tensor1, tensor2), dim=1)
print(result)

tensor([[1, 2, 5, 6],
        [3, 4, 7, 8]])


In [74]:
import torch

tensor1 = torch.tensor([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
tensor2 = torch.tensor([[[9, 10], [11, 12]], [[13, 14], [15, 16]]])

result = torch.cat((tensor1, tensor2), dim=0)
print(result)


tensor([[[ 1,  2],
         [ 3,  4]],

        [[ 5,  6],
         [ 7,  8]],

        [[ 9, 10],
         [11, 12]],

        [[13, 14],
         [15, 16]]])


### torch.reshape

A função torch.reshape em PyTorch é usada para alterar a forma (ou dimensão) de um tensor sem alterar os seus dados subjacentes. Essa função é muito útil quando você precisa modificar a estrutura de um tensor para atender aos requisitos de uma operação específica ou para se ajustar à arquitetura de um modelo.

In [75]:
# Exemplo 1: Remodelar um tensor 1D em um tensor 2D

import torch

# Tensor 1D
tensor_1d = torch.tensor([1, 2, 3, 4, 5, 6])
print("Original tensor:", tensor_1d)

# Remodelar para 2D
tensor_2d = torch.reshape(tensor_1d, (2, 3))
print("Remodelado para 2D:", tensor_2d)


Original tensor: tensor([1, 2, 3, 4, 5, 6])
Remodelado para 2D: tensor([[1, 2, 3],
        [4, 5, 6]])


In [76]:
# Exemplo 2: Remodelar um tensor 2D em um tensor 3D usando -1 para inferir a dimensão

import torch

# Tensor 2D
tensor_2d = torch.tensor([[1, 2, 3, 4], [5, 6, 7, 8]])
print("Original tensor:", tensor_2d)

# Remodelar para 3D
tensor_3d = torch.reshape(tensor_2d, (2, 2, -1))
print("Remodelado para 3D:", tensor_3d)


Original tensor: tensor([[1, 2, 3, 4],
        [5, 6, 7, 8]])
Remodelado para 3D: tensor([[[1, 2],
         [3, 4]],

        [[5, 6],
         [7, 8]]])


In [77]:
# Exemplo 3: Remodelar um tensor com mais dimensões
 
import torch

# Tensor 3D
tensor_3d = torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print("Original tensor:", tensor_3d)

# Remodelar para 2D
tensor_2d = torch.reshape(tensor_3d, (3, 4))
print("Remodelado para 2D:", tensor_2d)


Original tensor: tensor([[[ 1,  2,  3],
         [ 4,  5,  6]],

        [[ 7,  8,  9],
         [10, 11, 12]]])
Remodelado para 2D: tensor([[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]])


A função rand permite gerar números aleatórios (de acordo com a distribuição de probabilidade uniforme) para iniciar os elementos de um tensor.

In [78]:
torch.rand(3,4)

tensor([[0.5044, 0.7591, 0.8718, 0.9143],
        [0.5700, 0.7843, 0.0571, 0.0237],
        [0.3765, 0.9093, 0.8831, 0.9804]])

### torch.randn

A função torch.randn é usada para gerar um tensor com elementos amostrados a partir de uma distribuição normal padrão (com média 0 e desvio padrão 1). Ela é útil em várias situações, como na inicialização de pesos de uma rede neural, onde é comum inicializar os pesos com valores aleatórios para quebrar a simetria e permitir que o modelo aprenda de forma mais eficaz.

In [79]:
import torch

# Criar um tensor 3x3 com valores amostrados de uma distribuição normal padrão
tensor = torch.randn(3, 3)
print(tensor)

# Criar um tensor 2x4x5 com valores amostrados de uma distribuição normal padrão, especificando o dispositivo como GPU
tensor_gpu = torch.randn(2, 4, 5, device='cuda')
print(tensor_gpu)

tensor([[-1.0726,  0.3105, -0.7667],
        [-1.3986, -1.0347,  1.7970],
        [-1.9107,  0.1017,  1.7894]])
tensor([[[-1.6057, -0.5709, -1.1811, -0.7497, -1.3950],
         [ 0.9167, -1.0647, -2.4007, -1.0825, -0.6275],
         [ 1.7942, -0.1708, -0.6681,  0.3113, -0.0434],
         [ 1.1934, -0.3928, -0.0858, -0.4163, -1.4569]],

        [[-0.9410,  0.1219,  0.5904, -0.8442, -0.9686],
         [ 0.6783, -2.6086, -0.6354, -1.1113,  2.0794],
         [-0.2808,  0.9356,  1.5310, -0.1668,  1.2169],
         [ 2.0992, -1.8699,  1.5240, -1.2232,  0.5155]]], device='cuda:0')


### torch.sum

A função torch.sum do PyTorch é usada para calcular a soma dos elementos de um tensor ao longo de determinadas dimensões.

In [80]:
# Exemplo: Soma de todos os elementos de um tensor

import torch

# Tensor de exemplo
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# Soma de todos os elementos
total_sum = torch.sum(x)
print(total_sum)  # Saída: tensor(21)


tensor(21)


In [81]:
# Exemplo: Soma ao longo de uma dimensão específica

import torch

# Tensor de exemplo
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# Soma ao longo da dimensão 0 (soma das colunas)
sum_dim0 = torch.sum(x, dim=0)
print(sum_dim0)

# Soma ao longo da dimensão 1 (soma das linhas)
sum_dim1 = torch.sum(x, dim=1)
print(sum_dim1)


tensor([5, 7, 9])
tensor([ 6, 15])


In [82]:
# Exemplo: Mantendo a dimensão reduzida

import torch

# Tensor de exemplo
x = torch.tensor([[1, 2, 3], [4, 5, 6]])

# Soma ao longo da dimensão 0 (soma das colunas) com keepdim=True
sum_dim0_keepdim = torch.sum(x, dim=0, keepdim=True)
print(sum_dim0_keepdim)  # Saída: tensor([[5, 7, 9]])

# Soma ao longo da dimensão 1 (soma das linhas) com keepdim=True
sum_dim1_keepdim = torch.sum(x, dim=1, keepdim=True)
print(sum_dim1_keepdim)  # Saída: tensor([[ 6], [15]])


tensor([[5, 7, 9]])
tensor([[ 6],
        [15]])


A função sum pode ser aplicada a tensores de maiores dimensões. Veja os exemplos a seguir para um tensor 3D. Veja também essas [animações](https://towardsdatascience.com/understanding-dimensions-in-pytorch-6edf9972d3be) para ter um entendimento intuitivo sobre essas somas.

In [83]:
y = torch.tensor([
     [
       [1, 2, 3],
       [4, 5, 6]
     ],
     [
       [1, 2, 3],
       [4, 5, 6]
     ],
     [
       [1, 2, 3],
       [4, 5, 6]
     ]
   ])

In [84]:
y.shape

torch.Size([3, 2, 3])

In [85]:
torch.sum(y, dim=0)

tensor([[ 3,  6,  9],
        [12, 15, 18]])

In [86]:
torch.sum(y, dim=1)

tensor([[5, 7, 9],
        [5, 7, 9],
        [5, 7, 9]])

In [87]:
torch.sum(y, dim=2)

tensor([[ 6, 15],
        [ 6, 15],
        [ 6, 15]])

Por vezes, vamos precisar simplesmente "zerar" os elementos em uma matriz. Veja o exemplo abaixo.

In [88]:
B

tensor([[ 0,  1,  2,  3],
        [ 3,  4,  5,  6],
        [ 7,  8,  9, 10]])

In [89]:
B.zero_()

tensor([[0, 0, 0, 0],
        [0, 0, 0, 0],
        [0, 0, 0, 0]])

### torch.from_numpy

A função torch.from_numpy em PyTorch é usada para converter um array NumPy em um tensor PyTorch. Esta função cria um tensor PyTorch que compartilha os mesmos dados subjacentes que o array NumPy. Portanto, qualquer alteração feita no tensor será refletida no array original e vice-versa, desde que o array NumPy original não seja desalocado.

In [90]:
import numpy as np
import torch

# Criar um array NumPy
np_array = np.array([1, 2, 3, 4, 5])

# Converter o array NumPy em um tensor PyTorch
tensor = torch.from_numpy(np_array)

# Exibir o array e o tensor
print("Array NumPy:", np_array)
print("Tensor PyTorch:", tensor)

# Modificar o tensor PyTorch
tensor[0] = 10

# Exibir novamente para ver as mudanças
print("Array NumPy após a modificação do tensor:", np_array)
print("Tensor PyTorch após modificação:", tensor)


Array NumPy: [1 2 3 4 5]
Tensor PyTorch: tensor([1, 2, 3, 4, 5])
Array NumPy após a modificação do tensor: [10  2  3  4  5]
Tensor PyTorch após modificação: tensor([10,  2,  3,  4,  5])


### `torch.backward`

A função torch.backward() no PyTorch é uma parte essencial do processo de treinamento de redes neurais. Ela é usada para calcular os gradientes dos parâmetros do modelo em relação à função de perda. Esses gradientes são então usados para atualizar os pesos do modelo.

O que torch.backward() faz:
- Cálculo dos Gradientes: Quando você chama loss.backward(), PyTorch realiza a retropropagação através do grafo computacional que foi construído durante a computação da perda. Ele calcula os gradientes da função de perda em relação a todos os parâmetros do modelo que possuem requires_grad=True.

- Armazenamento dos Gradientes: Os gradientes calculados são armazenados nos atributos .grad dos tensores que têm requires_grad=True. Esses gradientes são usados pelo otimizador para ajustar os pesos do modelo durante o treinamento.

In [91]:
x = torch.tensor(.3, )
w = torch.tensor(.4, requires_grad = True)
b = torch.tensor(.5, requires_grad = True)

y = w * x + b
y

tensor(0.6200, grad_fn=<AddBackward0>)

In [92]:
y.backward()

In [93]:
print('dy/dw = ', w.grad)
print('dy/dx = ', x.grad)
print('dy/db = ', b.grad)

dy/dw =  tensor(0.3000)
dy/dx =  None
dy/db =  tensor(1.)


Como esperado, dy/dw tem o mesmo valor de x, e dy/db tem o valor 1. Observe que x.grad é None porque x não tem require_grad definido como True.

O "grad" em w.grad é a abreviação de gradiente, que é outro termo para derivada. O termo gradiente é usado principalmente ao lidar com vetores e matrizes.

O resulta acima podem ser entendidos se você considerar que $y$ é uma função de três outras variáveis, $w$, $x$ e $b$.

$$
y = f(w, x, b) = w \times x + b
$$

Se calcularmos as derivadas parciais de $y$ com relação a $w$, $x$ e $b$, vamos encontrar o seguinte:

\begin{align}
dy/dw &= w \\ 
dy/dx &= x \\ 
dy/db &= 1
\end{align}


# Regressão Linear com PyTorch

Nesta seção, discutimos um dos algoritmos básicos do aprendizado de máquina: a regressão linear. Criaremos um modelo capaz de prever o perfil fisiológico de um indivíduo (variáveis alvo, variáveis dependentes), uma vez que se conhece o perfil de realização de exercícios (variáveis ​​de entrada, variáveis independentes, características). 

Vamos usar um conjunto de dados (*dataset*) bem simples denominado Linnerud. Esse conjunto de dados tem apenas 20 exemplos, 3 variáveis ​​independentes e 3 alvos. A descrição do conjunto de dados Linnerud é a seguinte: 

> “O conjunto de dados Linnerud é um conjunto de dados de regressão de múltiplas saídas. É composto por três variáveis sobre exercícios (matrix de dados, $X$) e três variáveis que medem característics ​​fisiológicas (matriz alvo, $y$) coletados de vinte homens de meia-idade em um clube de fitness:

- variáveis relacionadas ao perfil de atividade física do indivíduo ($X$)- :  "puxar ferro" (Chins), abdominais (Situps) e saltos (Jumps).

- variáveis relacionadas ao perfil fisiológico do indivíduo ($y$) - Peso (Weight), Cintura (Weist) e Pulso (Pulse).

Mais informações sobre esse conjunto de dados podem ser encontradas nos links abaixo:

- https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_linnerud.html

- https://scikit-learn.org/stable/datasets/toy_dataset.html#linnerrud-dataset

- https://ai.plainenglish.io/an-exploration-into-sklearns-linnerrud-multioutput-dataset-4e0ad110c728

In [94]:
from sklearn.datasets import load_linnerud
X_, y_ = load_linnerud(return_X_y = True)
print(X_)
print()
print(y_)

import torch
X = torch.from_numpy(X_)
print(X)
y = torch.from_numpy(y_)
print(y)

[[  5. 162.  60.]
 [  2. 110.  60.]
 [ 12. 101. 101.]
 [ 12. 105.  37.]
 [ 13. 155.  58.]
 [  4. 101.  42.]
 [  8. 101.  38.]
 [  6. 125.  40.]
 [ 15. 200.  40.]
 [ 17. 251. 250.]
 [ 17. 120.  38.]
 [ 13. 210. 115.]
 [ 14. 215. 105.]
 [  1.  50.  50.]
 [  6.  70.  31.]
 [ 12. 210. 120.]
 [  4.  60.  25.]
 [ 11. 230.  80.]
 [ 15. 225.  73.]
 [  2. 110.  43.]]

[[191.  36.  50.]
 [189.  37.  52.]
 [193.  38.  58.]
 [162.  35.  62.]
 [189.  35.  46.]
 [182.  36.  56.]
 [211.  38.  56.]
 [167.  34.  60.]
 [176.  31.  74.]
 [154.  33.  56.]
 [169.  34.  50.]
 [166.  33.  52.]
 [154.  34.  64.]
 [247.  46.  50.]
 [193.  36.  46.]
 [202.  37.  62.]
 [176.  37.  54.]
 [157.  32.  52.]
 [156.  33.  54.]
 [138.  33.  68.]]
tensor([[  5., 162.,  60.],
        [  2., 110.,  60.],
        [ 12., 101., 101.],
        [ 12., 105.,  37.],
        [ 13., 155.,  58.],
        [  4., 101.,  42.],
        [  8., 101.,  38.],
        [  6., 125.,  40.],
        [ 15., 200.,  40.],
        [ 17., 251., 250.

No aprendizado de máquina, o termo viés indutivo (*inductive bias*) se refere a um conjunto de suposições feitas por um algoritmo de aprendizagem a fim de realizar a indução, isto é, generalizar um conjunto finito de observação (dados de treinamento) em um modelo. Sem um viés desse tipo, a indução não seria possível, uma vez que as observações podem normalmente ser generalizadas de várias maneiras. Se o algoritmo tratasse todas essas possibilidades igualmente, ou seja, sem qualquer tendência no sentido de uma preferência por tipos específicos de generalização (refletindo o conhecimento prévio sobre a função alvo a ser aprendida), as previsões para novas situações não poderiam ser feitas.

Em um modelo de regressão linear, a presuposição (ou o viés indutivo) é que cada variável alvo pode ser estimada como uma **soma ponderada** das variáveis ​​de entrada com a adição de alguma constante, conhecida como viés (bias). Para o conjunto de dados Linnerun, temos o seguinte:

\begin{align}
 \text{Weight} &= w_{11} \times \text{Chins} + w_{12} \times \text{Situps} + w_{13} \times \text{Jumps} + b_{1} \\
\text{Weist} &= w_{21} \times \text{Chins} + w_{22} \times \text{Situps} + w_{23} \times \text{Jumps} + b_2 \\
\text{Pulse} &= w_{31} \times \text{Chins} + w_{32} \times \text{Situps} + w_{33} \times \text{Jumps} + b_3
\end{align}

As expressões acima podem ser representadas de forma matricial. Para entender isso, primeiro considere que podemos criar uma matriz para organizar em suas entradas todos os pesos, conforme ilustrado a seguir.

$$
W = 
\begin{bmatrix}
w_{11} & w_{12} & w_{13}\\
w_{21} & w_{22} & w_{23}\\
w_{31} & w_{32} & w_{33}
\end{bmatrix}
$$

Podemos também organizar os valores de viés em um vetor: 
$$
b = \begin{bmatrix}
b_{1}\\
b_{2}\\
b_{3}
\end{bmatrix}
$$

Da mesma forma, cada exemplo $x$ do conjunto de dados, formado por valores das variáveis independentes $\text{Chins}$, $\text{Situps}$ e $\text{Jumps}$, pode também ser modelado como um vetor no $\Re^3$:

$$
x = \begin{bmatrix}
\text{Chins}\\
\text{Situps}\\
\text{Jumps}
\end{bmatrix}
$$

O mesmo vale para as variáveis alvo:

$$
y = \begin{bmatrix}
\text{Weight}\\
\text{Weist}\\
\text{Pulse}
\end{bmatrix}
$$

Agora, deve ficar claro que a seguinte expressão é uma identidade:

$$
y = W \times x + b 
$$

Na expressão matricial acima, a $i$-ésima linha de $W$ e o $i$-ésimo elemento de $b$ são usados ​​para prever a $i$-ésima variável alvo ($1 \leq i \leq 3$).

A parte de aprendizagem da regressão linear é descobrir um conjunto de parâmetros $w_{11}, w_{12}, \ldots w_{23}, \ldots, w_{33}, b_1, b_2, b_3$ usando os dados de treinamento, para fazer previsões precisas para novos dados. Os parâmetros aprendidos serão usados ​​para prever as características fisiológicas de novos indivíduos, um vez que se saiba seu perfil de realização de exercícios físicos.

Vamos treinar nosso modelo ajustando ligeiramente os parâmetros várias vezes para fazer melhores previsões, usando uma técnica de otimização chamada **gradiente descendente**. Vamos começar importando o Numpy e o PyTorch.

In [95]:
import numpy as np
import torch

In [96]:
X.dtype

torch.float64

In [97]:
# X -> data matrix; 
# y -> target vector, response vector.
X, y = X.float(), y.float()

In [98]:
X.dtype

torch.float32

Os pesos e vieses, armazenados nas matrizes $W$ e $b$,  são inicializados como valores aleatórios. 

In [99]:
W = torch.randn(3, 3, requires_grad=True)
b = torch.randn(3, requires_grad=True)
print(W)
print(b)

tensor([[ 0.4456,  0.7488, -0.5368],
        [-0.9469,  0.5889,  0.2730],
        [ 0.4631, -0.9616,  0.8510]], requires_grad=True)
tensor([1.4344, 0.5229, 1.2220], requires_grad=True)


In [100]:
W.dtype

torch.float32

Nosso modelo é simplesmente uma função que realiza uma multiplicação da matriz de dados $X$ e dos pesos $W$ (transpostos) e adiciona o vetor $b$ (replicado para cada observação).

In [101]:
# implementação que usa vetorização (vectorization)
def model(x):
    return x @ W.t() + b

A matriz obtida ao passar os dados de entrada para o modelo é um conjunto de previsões para as variáveis alvo.

In [102]:
X[0]

tensor([  5., 162.,  60.])

In [103]:
X.shape

torch.Size([20, 3])

In [104]:
# Gera predições
y_pred = model(X[0])

In [105]:
y_pred.shape

torch.Size([3])

In [106]:
print(y_pred)

tensor([  92.7520,  107.5660, -101.1813], grad_fn=<AddBackward0>)


Compare a matriz de predições `y_pred` acima com os valores corretos reproduzidos abaixo.

In [107]:
y

tensor([[191.,  36.,  50.],
        [189.,  37.,  52.],
        [193.,  38.,  58.],
        [162.,  35.,  62.],
        [189.,  35.,  46.],
        [182.,  36.,  56.],
        [211.,  38.,  56.],
        [167.,  34.,  60.],
        [176.,  31.,  74.],
        [154.,  33.,  56.],
        [169.,  34.,  50.],
        [166.,  33.,  52.],
        [154.,  34.,  64.],
        [247.,  46.,  50.],
        [193.,  36.,  46.],
        [202.,  37.,  62.],
        [176.,  37.,  54.],
        [157.,  32.,  52.],
        [156.,  33.,  54.],
        [138.,  33.,  68.]])

Você pode ver uma grande diferença entre as previsões do modelo e os valores verdadeiros porque inicializamos nosso modelo com pesos e vieses aleatórios. Obviamente, não podemos esperar que um modelo inicializado aleatoriamente funcione.

## Função de custo (*Loss function*)

Para que possamos melhorar nosso modelo, precisamos de uma forma objetiva de avaliar o desempenho preditivo dele. Podemos comparar as previsões do modelo com os alvos reais usando o seguinte método:

- Calcular a diferença entre as duas matrizes (`y_pred` e `y`).
- Elevar ao quadrado cada elemento da matriz de diferença para remover valores negativos.
- Calcular a média dos elementos na matriz resultante.

O resultado é um único número, conhecido como erro quadrático médio (MSE, *mean squared error*). Matematicamente, os passos acima se traduzem nas seguintes expressões, onde $n$ é a quantidade de variáveis alvo:

\begin{align}
D &= (y - y_{\text{pred}}) \\
S &= D \odot D \\
\operatorname{MSE} &= \frac{1}{n} \sum_{1 \leq i,j \leq n} S_{ij} 
\end{align}


In [108]:
# Definição da função de custo MSE
def mse(t1, t2):
    diff = t1 - t2
    return torch.sum(diff * diff) / diff.numel()

Usando a função acima, vamos calcular o MSE para a versão atual de nosso modelo:

In [109]:
# Computa a função de custo
loss = mse(y_pred, y)
print(loss)

tensor(12651.1582, grad_fn=<DivBackward0>)


In [110]:
import math
math.sqrt(loss)

112.47736751509167

Podemos interpretar o valor produzido acima da seguinte forma: 

> Em média, cada elemento na previsão difere do alvo (valor verdadeiro) pela raiz quadrada do valor da função de custo. 

Objetivamente, esse resultado é muito ruim, considerando que os números que estamos tentando prever estão na faixa de 30-250. O resultado é chamado de perda porque indica o quão ruim o modelo é em prever as variáveis alvo. Representa a perda de informações no modelo: quanto menor a perda, melhor é o modelo.

## Cálculo dos gradientes

Com PyTorch, podemos calcular automaticamente o gradiente ou derivada da função de custo com relação aos pesos e vieses. Isso porque eles foram definidos com `requires_grad` igual a `True`.

In [111]:
# Computa os gradientes (diferenciação automática; autograd)
loss.backward()

Os gradientes são armazenados na propriedade `.grad` dos respectivos tensores. Observe que as derivadas parciais da função de custo com relação a cada elemento da matriz de pesos $W$ podem ser organizados em outra matriz com as mesmas dimensões. Se denotarmos por $J$ a função de custo e por $dW$ essa outra matriz, temos:

$$
dW = 
\begin{bmatrix}
\frac{\partial J}{\partial w_{11}} & \frac{\partial J}{\partial w_{12}} & \frac{\partial J}{\partial w_{13}}\\
\frac{\partial J}{\partial w_{21}} & \frac{\partial J}{\partial w_{22}} & \frac{\partial J}{\partial w_{23}}\\
\frac{\partial J}{\partial w_{31}} & \frac{\partial J}{\partial w_{32}} & \frac{\partial J}{\partial w_{33}}
\end{bmatrix}
$$

$$
db = 
\begin{bmatrix}
\frac{\partial J}{\partial b_{1}} \\
\frac{\partial J}{\partial b_{2}} \\
\frac{\partial J}{\partial b_{3}}
\end{bmatrix}
$$

Os matemáticos chamam essa matriz de [Jacobiana](https://en.wikipedia.org/wiki/Jacobian_matrix_and_determinant).

A função de custo MSE é uma função quadrática dos pesos e vieses, e nosso objetivo é encontrar o conjunto de parâmetros onde a função de custo é mínima. Se traçarmos um gráfico da função de custo com qualquer parâmetro individual (peso ou viés), ele se parecerá com a figura mostrada no link a seguir: https://www.geogebra.org/m/j8jqxyrs.

Um informação importante é que cada derivada parcial contida na Jacobiana $dW$ indica a taxa de variação da função de custo em uma direção específica, ou seja, a inclinação dessa função.

Se um elemento de $dW$ for **positivo**, então:
- **aumentar** ligeiramente o valor do parâmetro correspondente **aumenta** o valor da função de custo;
- **diminuir** ligeiramente o valor do peso correspondente  **diminui** o valor da função de custo.

Se um elemento de $dW$ for **negativo**, então:
- **aumentar** ligeiramente o valor do peso correspondente **diminui** o valor da função de custo;
- **diminuir** ligeiramente o valor do peso correspondente **aumenta** o valor da função de custo.

O aumento ou diminuição na função $J$ causado pela mudança no valor um elemento em $W$ é proporcional a esse valor. Essa observação forma a base do algoritmo de otimização de **gradiente descendente** que usaremos para melhorar nosso modelo.

> Podemos subtrair de cada elemento de $W$ uma pequena quantidade proporcional à derivada de $J$ com relação a esse elemento para reduzir ligeiramente o custo.

A mesma explicação dada acima no contexto da matriz de pesos ($W$) pode ser dada no contexto do vetor de viéses ($b$).

In [112]:
print(W)
print(W.grad)
print()
print(b)
print(b.grad)

tensor([[ 0.4456,  0.7488, -0.5368],
        [-0.9469,  0.5889,  0.2730],
        [ 0.4631, -0.9616,  0.8510]], requires_grad=True)
tensor([[  -286.1599,  -9271.5801,  -3433.9185],
        [   240.5535,   7793.9321,   2886.6414],
        [  -524.2710, -16986.3789,  -6291.2515]])

tensor([1.4344, 0.5229, 1.2220], requires_grad=True)
tensor([ -57.2320,   48.1107, -104.8542])


In [113]:
with torch.no_grad():
  W = W - W.grad * 1e-5
  b = b - b.grad * 1e-5

Agora, após a alteração dos parâmetros podemos computar novamente o valor da função de custo e comparar com o obtido anteriormente.

In [114]:
y_pred = model(X)
loss = mse(y_pred, y)
print(loss)

tensor(8749.0146)


Compare o valor acima com o valor inicial da função de custo (i.e., o obtido com a configuração aleatória de valores dos parâmetros). Você deve perceber que de fato houve uma diminuição do valor da função de custo.

In [115]:
W.grad.zero_()
b.grad.zero_()
print(W.grad)
print(b.grad)

AttributeError: 'NoneType' object has no attribute 'zero_'

In [None]:
# Computa a função de custo
y_pred = model(X)
loss = mse(y_pred, y)
print(loss)

tensor(29789.7773, grad_fn=<DivBackward0>)


## Treinamento do modelo

Para reduzir ainda mais o valor da função de custo ainda mais, podemos repetir o processo de ajuste dos parâmetros. Cada iteração é chamada de **época**. 

Vamos treinar o modelo por 100 épocas.

In [None]:
# Treina por 100 épocas
for i in range(100):
    y_pred = model(X)
    loss = mse(y_pred, y)
    loss.backward()
    with torch.no_grad():
        W -= W.grad * 1e-5
        b -= b.grad * 1e-5
        W.grad.zero_()
        b.grad.zero_()

In [None]:
# Computa a função de custo
y_pred = model(X)
loss = mse(y_pred, y)
print(loss)

tensor(3011.2688, grad_fn=<DivBackward0>)


In [None]:
y_pred

tensor([[189.1153,  23.9412,  42.6099],
        [114.3893,  15.7218,  40.8417],
        [ 56.0246,  31.3812,  58.4735],
        [112.4112,  29.1037,  20.1438],
        [170.1029,  35.0854,  35.7328],
        [112.4612,  17.2725,  28.0467],
        [110.5977,  22.9810,  23.0477],
        [147.7527,  21.8887,  27.2583],
        [249.6771,  40.6005,  26.7878],
        [158.9375,  55.7159, 155.8361],
        [128.0012,  37.5816,  18.5846],
        [208.2721,  41.4132,  74.0454],
        [222.4332,  42.8458,  67.7219],
        [ 32.9508,   9.4478,  31.1767],
        [ 71.8214,  17.4893,  17.9068],
        [205.5911,  40.1467,  77.7086],
        [ 63.9538,  13.5795,  14.8665],
        [268.4982,  38.5408,  55.6467],
        [261.4483,  43.7617,  48.4810],
        [127.7633,  15.0388,  30.5846]], grad_fn=<AddBackward0>)

In [None]:
y

tensor([[191.,  36.,  50.],
        [189.,  37.,  52.],
        [193.,  38.,  58.],
        [162.,  35.,  62.],
        [189.,  35.,  46.],
        [182.,  36.,  56.],
        [211.,  38.,  56.],
        [167.,  34.,  60.],
        [176.,  31.,  74.],
        [154.,  33.,  56.],
        [169.,  34.,  50.],
        [166.,  33.,  52.],
        [154.,  34.,  64.],
        [247.,  46.,  50.],
        [193.,  36.,  46.],
        [202.,  37.,  62.],
        [176.,  37.,  54.],
        [157.,  32.,  52.],
        [156.,  33.,  54.],
        [138.,  33.,  68.]])