## 1 - Tensores
Tudo no Pytorch é baseado em operações com Tensores. Um Tensor é uma matriz multidimensional contendo elementos de um único tipo de dados.

In [None]:
# importando biblioteca
import torch

In [None]:
# inicializando tensores

# tensores com valores vazios: .empty()
empty_1 = torch.empty(1) # adiciona 1 valor em 1 linha (escalar)
empty_2 = torch.empty(5) # adiciona 5 valores em 1 linha (vetor)
empty_3 = torch.empty(3, 5) # adiciona 3 valores em 5 linhas (matriz bidimensional)
empty_4 = torch.empty(2, 3, 2) # adiciona 2 valores em 3 linhas, com profundidade 2 (tensor, 3 dimensões)

print(f"{empty_1}\n\n{empty_2}\n\n{empty_3}\n\n{empty_4}")

tensor([8.2728e-10])

tensor([1.6403e-38, 0.0000e+00, 1.6402e-38, 0.0000e+00, 1.6402e-38])

tensor([[1.1221e-16, 4.5377e-41, 1.1221e-16, 4.5377e-41, 2.0108e-19],
        [1.7841e+25, 1.9093e-19, 7.2719e+31, 8.1586e-33, 7.6194e+31],
        [1.5193e-19, 7.5553e+28, 5.2839e-11, 7.6194e+31, 2.5460e-12]])

tensor([[[0.0000e+00, 0.0000e+00],
         [1.4153e-43, 0.0000e+00],
         [9.8091e-45, 9.8091e-45]],

        [[1.4013e-44, 2.1019e-44],
         [0.0000e+00, 0.0000e+00],
         [0.0000e+00, 0.0000e+00]]])


In [None]:
# tensores com valores 1 ou 0: .zeros() e .ones()
x_1 = torch.zeros(5) # adiciona 5 zeros em 1 linha
x_2 = torch.ones(5, 1) # adiciona 5 uns em 1 coluna
x_3 = torch.zeros(3, 5) # matriz bidimensional com zeros
x_4 = torch.ones(2, 3, 2) # tensor de 3 dimensões com uns

print(f"{x_1}\n\n{x_2}\n\n{x_3}\n\n{x_4}")

tensor([0., 0., 0., 0., 0.])

tensor([[1.],
        [1.],
        [1.],
        [1.],
        [1.]])

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

tensor([[[1., 1.],
         [1., 1.],
         [1., 1.]],

        [[1., 1.],
         [1., 1.],
         [1., 1.]]])


In [None]:
# verificando tamanho de um tensor: .size() ou .shape
print(f"Tamanho de x_4 -> {x_4.size()}")
print(f"Tamanho de x_4 -> {x_4.shape}")

# para tamanho de uma dimensão específica: .size() ou .shape
print(f"\nTamanho de x_4 -> {x_4.size(0)}")
print(f"Tamanho de x_4 -> {x_4.shape[0]}")

Tamanho de x_4 -> torch.Size([2, 3, 2])
Tamanho de x_4 -> torch.Size([2, 3, 2])

Tamanho de x_4 -> 2
Tamanho de x_4 -> 2


In [None]:
# verificando o tipo dos dados
print(f"Tipo de x_4 -> {x_4.dtype}")

# criando um tensor com tipo de dados específico
x_5 = torch.zeros(3, 5, dtype=torch.float16)

print(f"\nTipo de x_5 -> {x_5.dtype}")

Tipo de x_4 -> torch.float32

Tipo de x_5 -> torch.float16


In [None]:
# criando tensor através de outro elemento (listas ou arrays numpy)
lista_exemplo = [3.3, 5]
x_6 = torch.tensor(lista_exemplo)

print(f"{x_6}, tipo -> {x_6.dtype}")

tensor([3.3000, 5.0000]), tipo -> torch.float32


In [None]:
# argumento de cálculo de gradientes: requires_grad
# só é necessário caso seja preciso otimizar
x_7 = torch.tensor([3.3, 5], requires_grad=True)

print(x_7)

tensor([3.3000, 5.0000], requires_grad=True)


In [None]:
# operações com tensores

x1 = torch.rand(2, 2)
x2 = torch.rand(2, 2)
x3 = torch.rand(2, 2)
x4 = torch.rand(2, 2)
x5 = torch.ones(2, 2)
x6 = torch.ones(2, 2)
x7 = torch.rand(2, 2)
x8 = torch.ones(2, 2)

# adição
x = x1 + x2 # ou x = torch.add(x1, x2)

# subtração
y = x3 - x4 # ou y = torch.sub(x3, x4)

# multiplicação
z = x5 * x6 # ou z = torch.mul(x5, x6)

# divisão
w = x7 / x8 # w = torch.div(x7, x8)

print(f"{x}\n\n{y}\n\n{z}\n\n{w}")

tensor([[1.2749, 0.4349],
        [1.1356, 1.4461]])

tensor([[-0.7903,  0.2725],
        [-0.3056, -0.5766]])

tensor([[1., 1.],
        [1., 1.]])

tensor([[0.0086, 0.4947],
        [0.7949, 0.9462]])


In [None]:
# recorte de tensores funciona como uma lista python
print(x_5[1,:])

# acessando elemento específico: .item()
print(x_5[1, 3].item())

tensor([0., 0., 0., 0., 0.], dtype=torch.float16)
0.0


In [None]:
# mudando a forma de um tensor: .view()
x_8 = torch.ones(32) # criando um vetor de uns com 32 elementos
print(f"formato: {x_8.shape}\n{x_8}")

# transformando em uma matriz 8x4
x_9 = x_8.view(8, 4)
print(f"\nformato: {x_9.shape}\n{x_9}")

# -1 pode ser usado como parâmetro para ajustar automaticamente a outra dimensão
# transformando em uma matriz 16x2
x_10 = x_8.view(16, -1) # -1 nesse caso ajustará a quantidade de colunas automaticamente para 2
print(f"\nformato: {x_10.shape}\n{x_10}")

formato: torch.Size([32])
tensor([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
        1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

formato: torch.Size([8, 4])
tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

formato: torch.Size([16, 2])
tensor([[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]])


In [None]:
# convertendo tensor <-> array numpy

# importação do numpy: .numpy()
import numpy as np

# tensor -> array numpy
a = torch.ones(3)
b = a.numpy()

print(f"{type(a)}\n{type(b)}")

'''
  OBS: se o tensor "a" estiverer na CPU, eles compartilharão o mesmo endereço de memória,
  ou seja, qualquer modificação mudará ambos os elementos.
'''

# array numpy -> tensor: .from_numpy e .tensor()
c = np.ones(3)
d = torch.from_numpy(c) # "d" e "c" compartilharão o mesmo endereço de memória
e = torch.tensor(c) # "e" será apenas uma cópia de "c" em formato de tensor

print(f"\n{type(c)}\n{type(d)}\n{type(e)}")

<class 'torch.Tensor'>
<class 'numpy.ndarray'>

<class 'numpy.ndarray'>
<class 'torch.Tensor'>
<class 'torch.Tensor'>


In [None]:
# suporte para GPUs
'''
  Por padrão todos os tensores são criados na CPU, mas é possível não só movê-los
  para a GPU, como também criá-los diretamente na GPU.
'''

# acessando um dispositivo (CPU ou GPU) e dando apelidos
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

# movendo um tensor para a GPU
t1 = torch.rand(2, 2).to(device)

# criando um tensor diretamente na GPU
t2 = torch.rand(2, 2, device=device)

print(f"{t1}\n\n{t2}")

tensor([[0.5799, 0.3675],
        [0.1491, 0.8261]], device='cuda:0')

tensor([[0.1489, 0.9888],
        [0.0519, 0.4717]], device='cuda:0')


## 2 - Autograd (diferenciação automática)
Esse mecanismo acompanha todas as operações feitas em tensores que tem ```requires_grad=True``` e calcula as derivadas (gradientes) automáticamente. Em treinamentos de redes neurais o gradiente descendente é necessário para o ajuste dos pesos.

In [None]:
# criando um tensor com requires_grad=True
ts1 = torch.randn(3, requires_grad=True)

# realizando operações
ts2 = ts1 + 5
ts3 = ts2 * 2
ts4 = ts3.mean()

print(f"Tensores:\n\n{ts1}\n\n{ts2}\n\n{ts3}\n\n{ts4.grad_fn}\n\n")

# calculando o gradiente de ts1
print(f"Antes do cálculo -> {ts1.grad}\n")
ts4.backward()
print(f"Depois de cálculo -> {ts1.grad}") # d(ts4)/d(ts1)


# OBS: backward() acumula o gradiente para esse tensor, então é necessário usar
# optimizer.zero_grad() durante a etapa de otimização.


Tensores:

tensor([ 1.8725,  0.6819, -0.7610], requires_grad=True)

tensor([6.8725, 5.6819, 4.2390], grad_fn=<AddBackward0>)

tensor([13.7450, 11.3637,  8.4780], grad_fn=<MulBackward0>)

<MeanBackward0 object at 0x7e7e0249baf0>


Antes do cálculo -> None

Depois de cálculo -> tensor([0.6667, 0.6667, 0.6667])


In [None]:
# ignorando o calculo do gradiente
# útil em algumas situações, como durante o treinamento, ou durante a validação

# primeiro método: requires_grad_()
print("Primeiro método")
a = torch.randn(2, 2, requires_grad=True) # tensor que acompanha o gradiente
print(f"Antes da conversão -> {a.requires_grad}")
a.requires_grad_(False)
print(f"Depois da conversão -> {a.requires_grad}\n")

# segundo método: with torch.no_grad()
print("Segundo método")
b = torch.randn(2, 2, requires_grad=True)
print(f"Fora do escopo -> {b.requires_grad}")
with torch.no_grad():
  c = b + a
  print(f"Dentro do escopo -> {c.requires_grad}")

Primeiro método
Antes da conversão -> True
Depois da conversão -> False

Segundo método
Fora do escopo -> True
Dentro do escopo -> False


## 3 - Pipeline PyTorch - Model, Loss e Optimizer
1. Criação do modelo (input, output, forward pass com camadas diferentes)
2. Contrução Loss e Optimizer
3. Loop de treinamento:
    - Forward: calcula a previsão e a perda(loss)
    - Backward: calcula os gradientes
    - Atualiza os pesos

In [None]:
import torch
import torch.nn as nn # nn significa "neural network"

# regressão linear utilizando a pipeline clássica do pytorch
# f = w * x
# aqui teremos f = 2 * x

# criação de amostras de treinamento: elas precisam estar em um formato específico [[x]]
X = torch.tensor([[1], [2], [3], [4], [5], [6], [7], [8]], dtype=torch.float32)
Y = torch.tensor([[2], [4], [6], [8], [10], [12], [14], [16]], dtype=torch.float32)

n_samples, n_features = X.shape
print(f"Quantidade de amostras -> {n_samples}\nQuantidade de características -> {n_features}")
print(f"Ou seja, é um tensor {n_samples}x{n_features}")

# criação de amostra de teste
X_test = torch.tensor([5], dtype=torch.float32)

Quantidade de amostras -> 8
Quantidade de características -> 1
Ou seja, é um tensor 8x1


In [None]:
# 1. Criação do modelo utilizando um já implementado no PyTorch
# model = nn.Linear(input_size, output_size)

class LinearRegression(nn.Module):
  def __init__(self, input_dim, output_dim):
    super(LinearRegression, self).__init__()

    # IMPORTANTE: aqui se define as diferentes camadas da rede neural
    # só usaremos 1 camada para ese exemplo
    self.lin = nn.Linear(input_dim, output_dim)

  # função para o forward pass
  def forward(self, x):
    return self.lin(x)

input_size, output_size = n_features, n_features

model = LinearRegression(input_size, output_size)

print(f"previsão antes do treinamento: f({X_test.item()}) = {model(X_test).item():.3f}")


previsão antes do treinamento: f(5.0) = -2.893


In [None]:
# 2. definição da perda e do otimizador
learning_rate = 0.01 # pode ser modificado dependendo da arquitetura da rede, quantidade de amostras, etc
n_epochs = 100 # quantidade de épocas de treinamento, também pode ser modificado de acordo com o texto acima

loss = nn.MSELoss() # diretamente do pytorch

# há outros otimizadores, mas aqui utilizaremos o SGD (Stochastic Gradient Descent)
optimizer = torch.optim.SGD(model.parameters(), lr=learning_rate)

# 3. Loop de treinamento
for epoch in range(n_epochs):

  # execução do forward pass do nosso modelo
  y_predicted = model(X)

  # cálculo da perda
  l = loss(Y, y_predicted)

  # calcula os gradientes: backward pass
  l.backward()

  # atualização dos pesos pelo otimizador
  optimizer.step()

  # zerando os gradientes depois da atualização dos pesos
  optimizer.zero_grad()

  # exibindo os parâmetros
  if (epoch+1) % 10 == 0:
    w, b = model.parameters() # extração
    print(f"Época {epoch+1}: w = {w[0][0].item()} perda(loss) = {l.item()}")

print(f"\nprevisão depois do treinamento: f({X_test.item()}) = {model(X_test).item():.3f}")

Época 10: w = 1.8947877883911133 perda(loss) = 0.07092033326625824
Época 20: w = 1.9002894163131714 perda(loss) = 0.06523827463388443
Época 30: w = 1.9042001962661743 perda(loss) = 0.060222137719392776
Época 40: w = 1.907956838607788 perda(loss) = 0.05559170991182327
Época 50: w = 1.9115662574768066 perda(loss) = 0.05131729692220688
Época 60: w = 1.9150340557098389 perda(loss) = 0.04737149924039841
Época 70: w = 1.9183658361434937 perda(loss) = 0.04372917488217354
Época 80: w = 1.9215670824050903 perda(loss) = 0.04036681354045868
Época 90: w = 1.9246426820755005 perda(loss) = 0.03726299852132797
Época 100: w = 1.9275976419448853 perda(loss) = 0.03439785912632942

previsão depois do treinamento: f(5.0) = 10.045
