## 00. PyTorch Fundamentals

Resource notebook: ...



O Google colab já vem com o pytorch

In [None]:
import torch
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

print(torch.__version__)

1.13.0+cu116


Podemos alterar o ambiente para usar um GPU nas opções.

## Introdução a Tensors

## Criando Tensors

In [None]:
# scalar. Existem diferentes tipos de tensores no pytorch. Esse é um escalar
# https://pytorch.org/docs/stable/tensors.html
scalar = torch.tensor(7)
scalar

tensor(7)

In [None]:
scalar.ndim

0

In [None]:
# Conseguir tensor como int Python
scalar.item()

7

In [None]:
# Vetor
vector = torch.tensor([7, 7])
vector

tensor([7, 7])

In [None]:
vector.ndim

1

In [None]:
vector.shape

torch.Size([2])

In [None]:
# Matriz
MATRIX = torch.tensor([[7, 8],
                       [9, 10]])
MATRIX

tensor([[ 7,  8],
        [ 9, 10]])

In [None]:
MATRIX.ndim

2

In [None]:
MATRIX[0]

tensor([7, 8])

In [None]:
MATRIX.shape

torch.Size([2, 2])

In [None]:
# TENSOR
TENSOR = torch.tensor([[[1, 2, 3],
                        [3, 6, 9],
                        [2, 4, 5]]])
TENSOR

tensor([[[1, 2, 3],
         [3, 6, 9],
         [2, 4, 5]]])

In [None]:
TENSOR.ndim

3

In [None]:
TENSOR.shape

torch.Size([1, 3, 3])

In [None]:
TENSOR[0]

tensor([[1, 2, 3],
        [3, 6, 9],
        [2, 4, 5]])

Por padrão, vemos Matrizes e Tensores definidos com variáveis com nomes maiúsculos.

### Tensores aleatórios

Tensores aleatórios são importantes pois a maneira na qual muitas redes neurais aprendem é começar com tensores cheios de números aleatórios e, então, ajustam esses números para melhor representar os dados.

`Comece com número aleatórios -> ver os dados -> atualiza números aleatórios -> vê os dados -> atualiza`

In [None]:
# Criando um tensor aleatório
random_tensor = torch.rand(3, 4)
random_tensor

tensor([[0.4057, 0.5268, 0.5982, 0.1945],
        [0.2368, 0.5580, 0.6825, 0.8785],
        [0.4019, 0.2152, 0.7050, 0.0045]])

In [None]:
random_tensor.ndim

2

In [None]:
# Criar um tensor aleatório com um shape similar a um tensor de imagem

random_image_size_tensor = torch.rand(size=(224, 224, 3))
random_image_size_tensor.shape, random_image_size_tensor.ndim

(torch.Size([224, 224, 3]), 3)

### Zeros and ones

In [None]:
# Criar um tensor só de zeros
zeros = torch.zeros(size=(3, 4))
zeros

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [None]:
zeros*random_tensor

tensor([[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]])

In [None]:
# Criar um tensor só de uns
ones = torch.ones(size=(3, 4))
ones

tensor([[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]])

In [None]:
ones.dtype

torch.float32

## Criando um range de tensores e tensors-like

In [None]:
# torch.range é deprecado, use arange
one_to_ten = torch.arange(start=1, end=11, step=2)
one_to_ten

tensor([1, 3, 5, 7, 9])

In [None]:
# Criando tensors-like
ten_zeros = torch.zeros_like(input=one_to_ten)
ten_zeros

tensor([0, 0, 0, 0, 0])

## Tensor datatypes

**Nota**: Datatypes de Tensors é um dos 3 grandes erros mais comuns no PyTorch e deep learning
1. Tensor não é do datatype certo
2. Tensor não é do shape certo
3. Tensor não está no device certo

In [None]:
# float 32
float_32_tensor = torch.tensor([3.0, 6.0, 9.0],
                               dtype=None, # qual datatype é o tensor
                               device='cpu', # qual device o tensor está
                               requires_grad=False # Se eu quero traquear os gradientes
                               )
float_32_tensor

tensor([3., 6., 9.])

In [None]:
float_32_tensor.dtype

torch.float32

In [None]:
float_16_tensor = float_32_tensor.type(torch.float16) # ou torch.half

In [None]:
float_16_tensor.dtype

torch.float16

In [None]:
float_16_tensor * float_32_tensor

tensor([ 9., 36., 81.])

In [None]:
int_32_tensor = torch.tensor([3, 6, 9], dtype=torch.int32)
int_32_tensor

tensor([3, 6, 9], dtype=torch.int32)

In [None]:
float_32_tensor * int_32_tensor

tensor([ 9., 36., 81.])

In [None]:
int_32_tensor[0] = 2.2

In [None]:
int_32_tensor.dtype

torch.int32

In [None]:
int_32_tensor

tensor([2, 6, 9], dtype=torch.int32)

In [None]:
# Conseguindo informação dos tensors

print(int_32_tensor.dtype)
print(int_32_tensor.shape)
print(int_32_tensor.device)

torch.int32
torch.Size([3])
cpu


### Manipulando Tensors (Operações com tensors)

Operações com Tensores incluem:

* Adição
* Subtração
* Multiplicação (element-wise)
* Divisão
* Multiplicação de matriz

In [None]:
# Criando um tensor
tensor = torch.tensor([1, 2, 3])
tensor + 10

tensor([11, 12, 13])

In [None]:
# Multiplicando tensor por 10
tensor * 10

tensor([10, 20, 30])

In [None]:
# Subtraindo 10
tensor - 10

tensor([-9, -8, -7])

In [None]:

# Usando funções built-in do PyTorch
torch.mul(tensor, 10)

tensor([10, 20, 30])

In [None]:
torch.add(tensor, 10)

tensor([11, 12, 13])


### Multiplicação de matrizes

Duas maneiras de multiplicar em redes neurais e deep learning:

1. Multiplicação elemento a elemento
2. Multiplicação de matrizes (dot product)

Duas regras:
1. As **dimensões internas** devem casar
* (3, 2) @ (3, 2) não funciona
* (2, 3) @ (3, 2) funciona
* (3, 2) @ (2, 3) funciona
2. A matriz resultante tem o shape das **dimensões externas**
* `(2, 3) @ (3, 2) -> (2, 2)`
* `(3, 2) @ (2, 3) -> (3, 3)`

In [None]:
torch.matmul(torch.rand(3, 2), torch.rand(3, 2))

RuntimeError: ignored

In [None]:
torch.matmul(torch.rand(3, 2), torch.rand(2, 3))

tensor([[0.0837, 0.0859, 0.0421],
        [0.1785, 0.4226, 0.3573],
        [0.3816, 1.1075, 0.9918]])

In [None]:
print(tensor, "*", tensor)
print(tensor * tensor)

tensor([1, 2, 3]) * tensor([1, 2, 3])
tensor([1, 4, 9])


In [None]:
torch.matmul(tensor, tensor)

tensor(14)

In [None]:
%%time
value = 0
for i in range(len(tensor)):
  value += tensor[i] * tensor[i]
value

CPU times: user 341 µs, sys: 56 µs, total: 397 µs
Wall time: 594 µs


tensor(14)

In [None]:
%%time
torch.matmul(tensor, tensor)

CPU times: user 70 µs, sys: 12 µs, total: 82 µs
Wall time: 84.6 µs


tensor(14)

### Um dos erros mais comuns está relacionado com o shape de matrizes

In [None]:
# Shapes para multiplicação de matrizes
tensor_A = torch.tensor([[1, 2],
                         [3, 4],
                         [5, 6]])
tensor_B = torch.tensor([[7, 10],
                         [8, 11],
                         [9, 12]])
torch.mm(tensor_A, tensor_B) # o mesmo que torch.matmul


RuntimeError: ignored

In [None]:
tensor_A.shape, tensor_B.shape

(torch.Size([3, 2]), torch.Size([3, 2]))

Para consertar o problema dos shapes, podemos manipular o shape de um dos tensores usando a **transposição**. Ela troca os eixos das dimensões do tensor.

In [None]:
tensor_B.T, tensor_B.T.shape

(tensor([[ 7,  8,  9],
         [10, 11, 12]]), torch.Size([2, 3]))

In [None]:
tensor_B, tensor_B.shape

(tensor([[ 7, 10],
         [ 8, 11],
         [ 9, 12]]), torch.Size([3, 2]))

In [None]:
# A multiplicação de matrizes funciona quando o tensor_B é transposto

print(f"Original shapes: tensor_A = {tensor_A.shape}, tensor_B = {tensor_B.shape}")
print(f"Novos shapes: tensor_A = {tensor_A.shape}, tensor_B.T = {tensor_B.T.shape}")
output = torch.mm(tensor_A, tensor_B.T)
print(f"Multiplicando:\n{output}")
print(f"Shape: {output.shape}")

Original shapes: tensor_A = torch.Size([3, 2]), tensor_B = torch.Size([3, 2])
Novos shapes: tensor_A = torch.Size([3, 2]), tensor_B.T = torch.Size([2, 3])
Multiplicando:
tensor([[ 27,  30,  33],
        [ 61,  68,  75],
        [ 95, 106, 117]])
Shape: torch.Size([3, 3])


### Encontrando o min, max, mean, sum etc (agregação de tensores)

In [None]:
# Criando um tensor
x = torch.arange(0, 100, 10)
x, x.dtype

(tensor([ 0, 10, 20, 30, 40, 50, 60, 70, 80, 90]), torch.int64)

In [None]:
# Achando o min
torch.min(x)

tensor(0)

In [None]:
x.min()

tensor(0)

In [None]:
# Achando o max
torch.max(x), x.max()

(tensor(90), tensor(90))

In [None]:
torch.mean(x)

RuntimeError: ignored

In [None]:
torch.mean(x.type(torch.float32)), x.type(torch.float32).mean()

(tensor(45.), tensor(45.))

In [None]:
# Achar a soma
torch.sum(x), x.sum()

(tensor(450), tensor(450))

### Achando as posições do min e do max

In [None]:
x.argmin(), torch.argmin(x)

(tensor(0), tensor(0))

In [None]:
x.argmax(), torch.argmax(x)

(tensor(9), tensor(9))

### Reshaping, stacking, squeezing and unsqueezing tensors

* Reshaping - reshapes um tensor de entrada para um shape desejado
* View - Retorna um view de um tensor de certo shape mas mantém a mesma memória do tensor original
* Stacking - combina múltiplos tensores um sobre o outro (vstack) ou na horizontal (hstack)
* Squeeze - remove todas as `1` dimensões de um tensor
* Unsqueeze - adiciona uma ´'` dimensão ao tensor
* Permuta - Retorna uma vier do input com dimensões permutadas em alguma forma

In [None]:
import torch
x = torch.arange(1, 10)
x, x.shape

(tensor([1, 2, 3, 4, 5, 6, 7, 8, 9]), torch.Size([9]))

In [None]:
# Adiciona uma dimensão
x_reshaped = x.reshape(1, 9)
x_reshaped, x_reshaped.shape

(tensor([[1, 2, 3, 4, 5, 6, 7, 8, 9]]), torch.Size([1, 9]))

In [None]:
# Mudar o View
z = x.view(1, 9)
z, z.shape

(tensor([[1, 2, 3, 4, 5, 6, 7, 8, 9]]), torch.Size([1, 9]))

In [None]:
# Mudar z muda x, pois uma view compartilha a memória com o original
z[:, 0] = 5
z, x

(tensor([[5, 2, 3, 4, 5, 6, 7, 8, 9]]), tensor([5, 2, 3, 4, 5, 6, 7, 8, 9]))

In [None]:
# Stack tensors em cima dos outros
x_stacked = torch.stack([x, x, x, x], dim=0)
x_stacked

tensor([[5, 2, 3, 4, 5, 6, 7, 8, 9],
        [5, 2, 3, 4, 5, 6, 7, 8, 9],
        [5, 2, 3, 4, 5, 6, 7, 8, 9],
        [5, 2, 3, 4, 5, 6, 7, 8, 9]])

In [None]:
torch.vstack([x, x, x, x])

tensor([[5, 2, 3, 4, 5, 6, 7, 8, 9],
        [5, 2, 3, 4, 5, 6, 7, 8, 9],
        [5, 2, 3, 4, 5, 6, 7, 8, 9],
        [5, 2, 3, 4, 5, 6, 7, 8, 9]])

In [None]:
torch.hstack([x, x, x, x])

tensor([5, 2, 3, 4, 5, 6, 7, 8, 9, 5, 2, 3, 4, 5, 6, 7, 8, 9, 5, 2, 3, 4, 5, 6,
        7, 8, 9, 5, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
# torch.squeeze() - remove todas as dimensões simples
print(f"Tensor original: {x_reshaped}")
print(f"Shape original: {x_reshaped.shape}")

# Removendo dimensões extras
x_squeezed = x_reshaped.squeeze()
print(f"\nNovo tensor: {x_squeezed}")
print(f"Nova shape: {x_squeezed.shape}")

Tensor original: tensor([[5, 2, 3, 4, 5, 6, 7, 8, 9]])
Shape original: torch.Size([1, 9])

Novo tensor: tensor([5, 2, 3, 4, 5, 6, 7, 8, 9])
Nova shape: torch.Size([9])


In [None]:
# torch.unsqueeze() - Adicina uma dimensão em uma dimensão específica
# Ele adiciona uma dimensão em cada elemento de uma dimensão específica
print(f"Tensor original: {x_squeezed}")
print(f"Shape original: {x_squeezed.shape}")

# Adicionando dimensão extra
x_unsqueezed = x_squeezed.unsqueeze(dim=1)
print(f"\nNovo tensor: {x_unsqueezed}")
print(f"Nova shape: {x_unsqueezed.shape}")

Tensor original: tensor([5, 2, 3, 4, 5, 6, 7, 8, 9])
Shape original: torch.Size([9])

Novo tensor: tensor([[5],
        [2],
        [3],
        [4],
        [5],
        [6],
        [7],
        [8],
        [9]])
Nova shape: torch.Size([9, 1])


In [None]:
# torch.permute - Reorganiza o tensor de forma a embaralhar as suas dimensões
# Comum quando se trata de imagens
x_original = torch.rand(size=(4, 4, 2))

# Permuta o tensor original
x_permuted = x_original.permute(2, 0, 1) # coloca as dimensões na ordem indicada

print(f"Shape original: {x_original.shape}")
print(f"Novo shape: {x_permuted.shape}")

Shape original: torch.Size([4, 4, 2])
Novo shape: torch.Size([2, 4, 4])


In [None]:
x_original[0, 0, 0] = 15000
x_permuted[0, 0, 0]

tensor(15000.)

A função permute retorna uma view do tensor original

### Indexing

Indexação no PyTorch é similar a indexação com NumPy

In [None]:
import torch
x = torch.arange(1, 10).reshape(1, 3, 3)
x, x.shape

(tensor([[[1, 2, 3],
          [4, 5, 6],
          [7, 8, 9]]]), torch.Size([1, 3, 3]))

In [None]:
x[0]

tensor([[1, 2, 3],
        [4, 5, 6],
        [7, 8, 9]])

In [None]:
x[0][0]

tensor([1, 2, 3])

In [None]:
x[0][0][0]

tensor(1)

## PyTorch tensors & NumPy

* Podemos começar com dados em NumPy mas queremos usá-los como um tensor PyTorch -> `torch.from_numpy(ndarray)`
* PyTorch tensor para NumPy -> `torch.Tensor.numpy()`

In [None]:
# Array NumPy para tensor
import torch
import numpy as np
array = np.arange(1.0, 8.0)
tensor = torch.from_numpy(array)
array, tensor, array.dtype, tensor.dtype

(array([1., 2., 3., 4., 5., 6., 7.]),
 tensor([1., 2., 3., 4., 5., 6., 7.], dtype=torch.float64),
 dtype('float64'),
 torch.float64)

In [None]:
# Alterando o valor do array, o que acontece com o tensor?

array = array + 1
array, tensor

#Se fizermos array += 1, então ambos são alterados

(array([2., 3., 4., 5., 6., 7., 8.]),
 tensor([1., 2., 3., 4., 5., 6., 7.], dtype=torch.float64))

In [None]:
# Tensor para NumPy array
tensor = torch.ones(7)
numpy_tensor = tensor.numpy()
tensor, tensor.dtype, numpy_tensor, numpy_tensor.dtype 

(tensor([1., 1., 1., 1., 1., 1., 1.]),
 torch.float32,
 array([1., 1., 1., 1., 1., 1., 1.], dtype=float32),
 dtype('float32'))

In [None]:
# Altera o tensor, o que acontece com o array numpy?
tensor = tensor + 1
tensor, numpy_tensor

#Se fizermos tensor += 1, ambos serão alterados

(tensor([2., 2., 2., 2., 2., 2., 2.]),
 array([1., 1., 1., 1., 1., 1., 1.], dtype=float32))

## Reprodutibilidade

Lembrando como uma rede neural funciona:

`começe com números aleatórios -> operações de tensores -> atualiza números aleatórios com base nos dados -> de novo -> de novo -> de novo`

Para reduzir a aleatoriedade, entra o conceito de *random seed*. Essencialmente, ela "fixa" a aleatoriedade.

In [None]:
import torch

random_tensor_A = torch.rand(3, 4)
random_tensor_B = torch.rand(3, 4)
print(random_tensor_A)
print(random_tensor_B)
print(random_tensor_A == random_tensor_B)

tensor([[0.1394, 0.1523, 0.7740, 0.7349],
        [0.2242, 0.7736, 0.3345, 0.0482],
        [0.0295, 0.1498, 0.1645, 0.1244]])
tensor([[0.1222, 0.4905, 0.5866, 0.3054],
        [0.3164, 0.7615, 0.3984, 0.2412],
        [0.0679, 0.4017, 0.9280, 0.0243]])
tensor([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]])


In [None]:
# vamos fazer os tensores reproduzíveis
import torch
RANDOM_SEED = 42
torch.manual_seed(RANDOM_SEED)
random_tensor_C = torch.rand(3, 4)

torch.manual_seed(RANDOM_SEED)
random_tensor_D = torch.rand(3, 4)

print(random_tensor_C)
print(random_tensor_D)
print(random_tensor_D == random_tensor_C)


tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])
tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])


## Rodando tensores e objetos PyTorch em GPUs

GPUs = computação mais rápida em números, graças a CUDA + NVIDIA hardware + PyTorch trabalhando por trás

### 1. Conseguindo uma GPU

1. Mais Fácil = Usando uma GPU do plano Free do colab
2. Usando sua própria GPU - tem que comprar uma GPU (https://timdettmers.com/2020/09/07/which-gpu-for-deep-learning/)
3. Use cloud computing = GCP, AWS, Azure


In [None]:
!nvidia-smi

Mon Jan  9 20:35:41 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   51C    P0    28W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

### 2. Checando acesso a GPU com PyTorch

In [None]:
import torch
torch.cuda.is_available()

True

In [None]:
# Setup código agnóstico a device
# https://pytorch.org/docs/stable/notes/cuda.html#best-practices
device = 'cuda' if torch.cuda.is_available() else "cpu"
device

'cuda'

In [None]:
# Contar a quantidade de GPUs
torch.cuda.device_count()

1

É melhor seguir as best practices indicadas já que o PyTorch pode rodar tanto em GPU quanto em CPU

## 3. Colocando tensores e modelos em GPU

A razão pela qual queremos tensores/modelos na GPU é por quê ao usá-la temos computações mais rápidas

In [None]:
tensor = torch.tensor([1, 2, 3])

# tensor na cpu
print(tensor, tensor.device)


tensor([1, 2, 3]) cpu


In [None]:
# Movendo tensor para GPU se disponível
tensor_on_gpu = tensor.to(device)
tensor_on_gpu

tensor([1, 2, 3], device='cuda:0')

O cuda:0 indica que estamos usando a primeira gpu, ou seja, no index 0.

### 4. Movendo tensores de volta para a CPU

In [None]:
# Se o tensor está na GPU, não é possível transformá-lo para NumPy
tensor_on_gpu.numpy()

TypeError: ignored

In [None]:
# Para consertar o problema, podemos definí-lo para a cpu
tensor_back_on_cpu = tensor_on_gpu.cpu().numpy()
tensor_back_on_cpu

array([1, 2, 3])

In [None]:
tensor_on_gpu

tensor([1, 2, 3], device='cuda:0')