In [2]:
# Importando PyTorch
import torch

# Introdução ao PyTorch

## O que é PyTorch?
PyTorch é uma biblioteca de aprendizado profundo de código aberto desenvolvida pelo Facebook's AI Research lab (FAIR). Ela é amplamente utilizada para tarefas de visão computacional e processamento de linguagem natural.

### História e contexto
PyTorch foi lançado em janeiro de 2017. Ele é baseado na biblioteca Torch, que é uma estrutura de aprendizado de máquina em Lua. PyTorch é conhecido por sua facilidade de uso e integração com Python, o que o torna popular entre pesquisadores e engenheiros.

### Comparação com outras bibliotecas
- **TensorFlow**: Desenvolvido pelo Google, TensorFlow é uma das bibliotecas de aprendizado profundo mais populares. Enquanto TensorFlow é conhecido por sua escalabilidade e produção, PyTorch é elogiado por sua facilidade de uso e flexibilidade.
- **NumPy**: NumPy é uma biblioteca fundamental para computação científica em Python. PyTorch usa tensores, que são similares aos arrays do NumPy, mas com suporte para computação em GPU.

## O que são tensores?
Tensores são a estrutura de dados fundamental em PyTorch. Eles são similares aos arrays do NumPy, mas com suporte para computação em GPU.

Tensores 1D, 2D, 3D, etc.
- 1D: Vetores
- 2D: Matrizes
- 3D: Matrizes tridimensionais (cubos de dados)
- ND: Tensores de N dimensões

In [19]:
# Tensor 1D
tensor_1d = torch.tensor([1, 2, 3, 4])
print(tensor_1d)

tensor([1, 2, 3, 4])


In [20]:
# Tensor 2D
tensor_2d = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(tensor_2d)

tensor([[1, 2, 3],
        [4, 5, 6]])


In [21]:
# Tensor 3D
tensor_3d = torch.tensor([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(tensor_3d)

tensor([[[1, 2],
         [3, 4]],

        [[5, 6],
         [7, 8]]])


### Tipos de dados
Os tensores em PyTorch suportam vários tipos de dados, como inteiros e floats. O tipo de dado pode ser especificado durante a criação do tensor.

In [22]:
# Criação de um tensor de inteiros
tensor_int = torch.tensor([1, 2, 3], dtype=torch.int32)
print(tensor_int)

tensor([1, 2, 3], dtype=torch.int32)


In [23]:
# Criação de um tensor de floats
tensor_float = torch.tensor([1.0, 2.0, 3.0], dtype=torch.float32)
print(tensor_float)

tensor([1., 2., 3.])


## Funções de Criação de Tensores
PyTorch fornece várias funções utilitárias para criar tensores de forma eficiente.

- `torch.zeros`: Cria um tensor preenchido com zeros.
- `torch.zeros_like`: Cria um tensor preenchido com zeros, com as mesmas dimensões de um tensor dado.
- `torch.ones`: Cria um tensor preenchido com uns.
- `torch.ones_like`: Cria um tensor preenchido com uns, com as mesmas dimensões de um tensor dado.
- `torch.linspace`: Cria um tensor com valores linearmente espaçados entre dois pontos.
- `torch.arange`: Cria um tensor com valores em uma faixa específica com um passo definido.

In [None]:
# Criação de tensores de zeros
tensor_zeros = torch.zeros(3, 3, 5)
print(tensor_zeros)

In [None]:
# Criação de tensores de zeros_like
tensor_zeros_like = torch.zeros_like(tensor_2d)
print(tensor_zeros_like)

In [None]:
# Criação de tensores de uns
tensor_ones = torch.ones(2, 2)
print(tensor_ones)

In [None]:
# Criação de tensores de ones_like
tensor_ones_like = torch.ones_like(tensor_2d)
print(tensor_ones_like)

In [None]:
# Linspace
tensor_linspace = torch.linspace(0, 10, steps=5)
print(tensor_linspace)

In [None]:
# Arange
tensor_arange = torch.arange(0, 10, step=2.5)
print(tensor_arange)

## Indexação e Fatiamento
A indexação e o fatiamento em PyTorch são similares ao NumPy, permitindo acessar e modificar partes específicas de um tensor.

In [None]:
# Criando um tensor de exemplo
tensor = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("Tensor original:\n", tensor)

In [None]:
# Indexação por elementos específicos
print("Elemento na posição [1, 2]:", tensor[1, 2])  # Acessa o valor '6'

In [None]:
# Indexação
print("Primeira linha:", tensor[0, :])  # Obtendo a primeira linha
print("Segunda coluna:", tensor[:, 1])  # Obtendo a segunda coluna

In [None]:
# Fatiamento
print("Subtensor a partir da segunda linha e segunda coluna:\n", tensor[1:, 1:])

In [None]:
# Exemplo de fatiamento complexo: pulando elementos
print("Subtensor pulando uma linha e uma coluna:\n", tensor[::2, ::2])  # Pulando linhas e colunas

In [None]:
# Fatiamento com valores negativos
print("Última linha do tensor:", tensor[-1, :])  # Acessando a última linha
print("Última coluna do tensor:", tensor[:, -1])  # Acessando a última coluna

## Operações básicas com tensores
PyTorch suporta várias operações básicas com tensores, como adição, multiplicação, subtração e divisão.

In [None]:
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])

# Adição
print("+", a + b)

# Multiplicação
print("*", a * b)

# Subtração
print("-", a - b)

# Divisão
print("/", a / b)

# Produto escalar
dot_product = torch.dot(a, b)
print("Produto escalar", dot_product)

## Manipulando formato (shape)

In [None]:
tensor = torch.arange(12).reshape(4, 3)
print(tensor)

In [None]:
# View
tensor_reshaped = tensor.view(6, 2)
print(tensor_reshaped)

In [None]:
# Transpose
tensor_transposed = tensor.t()
print(tensor_transposed)

### Flatten
A função flatten retorna um tensor 1D contendo todos os elementos do tensor original

In [None]:
# Flatten
tensor_flattened = tensor.flatten()
print(tensor_flattened)

In [None]:
# Reshape
tensor_reshaped = tensor.reshape(1, 2, 6, 1)
print(tensor_reshaped)
print(tensor_reshaped.shape)

### Squeeze e Unsqueeze
- `squeeze`: Remove dimensões de tamanho 1 de um tensor.
- `unsqueeze`: Adiciona uma dimensão de tamanho 1 em um tensor.

In [None]:
# Squeeze
tensor_squeezed = tensor_reshaped.squeeze()
print(tensor_squeezed)
print(tensor_squeezed.shape)

In [None]:
# Unsqueeze
tensor_unsqueezed = tensor_squeezed.unsqueeze(dim=0)
print(tensor_unsqueezed)
print(tensor_unsqueezed.shape)

## Broadcasting
O broadcasting é uma técnica que permite que tensores de diferentes formas sejam utilizados juntos em operações aritméticas. Em vez de copiar dados, o PyTorch ajusta os tensores de forma automática para que tenham formas compatíveis.

### Adição de um Escalar

Quando adicionamos um escalar a um tensor, o escalar é automaticamente expandido para a forma do tensor:

In [None]:
# Cria um tensor 2x3
tensor = torch.tensor([[1, 2, 3], [4, 5, 6]])

# Adiciona um escalar
scalar = 10

# Broadcasting para adicionar o escalar a cada elemento do tensor
result = tensor + scalar
print(result)

### Adição de Tensores com Diferentes Dimensões

Vamos adicionar um tensor 2x3 com um tensor 1x3. Neste caso, o tensor 1x3 será expandido (broadcasted) para uma forma 2x3:

In [None]:
# Cria um tensor 2x3
tensor_a = torch.tensor([[1, 2, 3], [4, 5, 6]])

# Cria um tensor 1x3
tensor_b = torch.tensor([10, 20, 30])

# Broadcasting para adicionar tensores de diferentes formas
result = tensor_a + tensor_b
print(result)

### Regras de Broadcasting

Para que o broadcasting funcione, os tensores devem seguir algumas regras:

1. **Compatibilidade de Dimensões**: As dimensões dos tensores devem ser compatíveis. Duas dimensões são compatíveis se forem iguais ou se uma delas for 1.
2. **Expansão Automática**: Se uma dimensão de um tensor for 1, ela será expandida para corresponder à dimensão do outro tensor.

No exemplo a seguir, o tensor `tensor_c` de forma 2x1 é expandido para 2x3, e o tensor `tensor_d` de forma 1x3 é expandido para 2x3. O resultado é um tensor 2x3 onde cada elemento é o produto dos elementos correspondentes.

In [None]:
# Cria um tensor 2x1
tensor_c = torch.tensor([[1], [2]])

# Cria um tensor 1x3
tensor_d = torch.tensor([10, 20, 30])

# Broadcasting para multiplicar tensores de diferentes formas
result = tensor_c * tensor_d
print(result)

## Operações de Redução em PyTorch

As operações de redução são usadas para reduzir as dimensões de um tensor, aplicando operações como soma, média, mínimo e máximo. Essas operações são fundamentais em várias aplicações de machine learning e deep learning.

In [None]:
# Cria um tensor 2x3
tensor = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
print("Tensor original:\n", tensor)
print(tensor.shape)

### Soma de Todos os Elementos

A função `torch.sum` calcula a soma de todos os elementos do tensor:

In [None]:
# Soma de todos os elementos do tensor
sum_all = torch.sum(tensor)
print("Soma de todos os elementos:", sum_all.item())

### Soma ao Longo de um Eixo

Podemos calcular a soma ao longo de um eixo específico, usando o parâmetro `dim`:

In [None]:
# Soma ao longo do eixo 0 (linhas)
sum_dim0 = torch.sum(tensor, axis=0)
print("Soma ao longo do eixo 0 (linhas):", sum_dim0)
print(sum_dim0.shape)

In [None]:
# Soma ao longo do eixo 1 (colunas)
sum_dim1 = torch.sum(tensor, dim=1)
print("Soma ao longo do eixo 1 (colunas):", sum_dim1)
print(sum_dim1.shape)

### Média dos Elementos

A função `torch.mean` calcula a média dos elementos do tensor:

In [None]:
# Média de todos os elementos do tensor
mean_all = torch.mean(tensor)
print("Média de todos os elementos:", mean_all.item())

In [None]:
# Média ao longo do eixo 0 (linhas)
mean_dim0 = torch.mean(tensor, dim=0)
print("Média ao longo do eixo 0 (linhas):", mean_dim0)
print(mean_dim0.shape)

In [None]:
# Média ao longo do eixo 1 (colunas)
mean_dim1 = torch.mean(tensor, dim=1)
print("Média ao longo do eixo 1 (colunas):", mean_dim1)
print(mean_dim1.shape)

### Valor Mínimo e Máximo

Podemos encontrar o valor mínimo e máximo de um tensor usando `torch.min` e `torch.max`:

In [None]:
# Valor mínimo de todos os elementos do tensor
min_all = torch.min(tensor)
print("Valor mínimo de todos os elementos:", min_all)
print()

# Valor máximo de todos os elementos do tensor
max_all = torch.max(tensor)
print("Valor máximo de todos os elementos:", max_all)
print()

# Valor mínimo ao longo do eixo 0 (linhas)
min_dim0, min_indices_dim0 = torch.min(tensor, dim=0)
print("Valor mínimo ao longo do eixo 0 (linhas):", min_dim0)
print("Índices dos valores mínimos ao longo do eixo 0 (linhas):", min_indices_dim0)
print()

# Valor máximo ao longo do eixo 1 (colunas)
max_dim1, max_indices_dim1 = torch.max(tensor, dim=1)
print("Valor máximo ao longo do eixo 1 (colunas):", max_dim1)
print("Índices dos valores máximos ao longo do eixo 1 (colunas):", max_indices_dim1)

### Produto dos Elementos

A função `torch.prod` calcula o produto de todos os elementos do tensor:

In [None]:
# Produto de todos os elementos do tensor
prod_all = torch.prod(tensor)
print("Produto de todos os elementos:", prod_all)
print()

# Produto ao longo do eixo 0 (linhas)
prod_dim0 = torch.prod(tensor, dim=0)
print("Produto ao longo do eixo 0 (linhas):", prod_dim0)
print()

# Produto ao longo do eixo 1 (colunas)
prod_dim1 = torch.prod(tensor, dim=1)
print("Produto ao longo do eixo 1 (colunas):", prod_dim1)

## Propriedade requires_grad
A propriedade `requires_grad` em PyTorch é fundamental para a construção e treinamento de redes neurais, pois permite calcular automaticamente os gradientes das operações. Quando `requires_grad` é definido como `True` em um tensor, todas as operações feitas nesse tensor serão rastreadas para a diferenciação automática.

### Autograd e Grafos Computacionais

Autograd é um componente essencial em frameworks de deep learning como PyTorch, que permite a diferenciação automática de tensores. Este mecanismo é fundamental para a otimização dos modelos de aprendizado de máquina, pois permite calcular gradientes de forma eficiente, necessária para o ajuste dos parâmetros do modelo durante o treinamento.

#### Grafos Computacionais

Para entender o funcionamento do autograd, é importante compreender os grafos computacionais. Um grafo computacional é uma representação gráfica de uma sequência de operações matemáticas, onde:

- **Nós (nodes)** representam operações matemáticas ou variáveis.
- **Arestas (edges)** representam os fluxos de dados (tensores) entre as operações.

![alt text](https://miro.medium.com/max/908/1*ahiviCqq6B0R_XWBmgvHkA.png "Grafo Computacional")

Durante a construção de um modelo, as operações realizadas nos tensores criam um grafo computacional dinâmico, também conhecido como *Dynamic Computation Graph*. Esse grafo é dinâmico porque é construído à medida que as operações são executadas, permitindo flexibilidade e facilidade na criação e modificação de modelos.

#### Propagação para Frente (Forward Pass)

Durante a propagação para frente (forward pass), os tensores são passados através das operações definidas no grafo computacional, produzindo uma saída. Este processo é usado para calcular a perda (loss) do modelo.

#### Propagação para Trás (Backward Pass)

A propagação para trás (backward pass) é o processo de calcular os gradientes dos tensores em relação à perda, utilizando a regra da cadeia. O autograd facilita essa tarefa, realizando automaticamente a diferenciação reversa ao longo do grafo computacional. Os passos são:

1. **Calcula a perda**: A partir das saídas do forward pass.
2. **Calcula os gradientes**: Utilizando a diferenciação automática.
3. **Atualiza os parâmetros**: Os gradientes calculados são usados para ajustar os parâmetros do modelo através de otimização, como o gradiente descendente.

### Criando Tensores com `requires_grad`

Vamos criar tensores com a propriedade `requires_grad` definida como `True`:

In [None]:
# Tensor com requires_grad
x = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
print(x)

### Realizando Operações com Tensores que Têm `requires_grad`

Quando realizamos operações com tensores que têm `requires_grad=True`, o PyTorch cria uma tape (fita) para rastrear todas as operações. Vamos ver um exemplo:

In [None]:
# Realiza uma operação com o tensor x
y = x ** 2

# Mais uma operação
z = y.sum()

print(z)

### Calculando Gradientes

Para calcular os gradientes, usamos o método `backward()`. Isso calcula o gradiente da função de perda em relação a todos os tensores que têm `requires_grad=True`.

Os gradientes armazenados em `x.grad` representam a derivada da soma `z` em relação a `x`. Como `z` é a soma dos elementos de `y` e `y = x ** 2`, a derivada de `z` em relação a `x` é `2 * x`.

In [None]:
# Calcula os gradientes
z.backward()

# z = x1² + x2² + x3²
# dz/x1 = 2x1

# Imprime os gradientes armazenados em x.grad
print(x.grad)

### Desativando o Rastreamento de Gradientes

Em algumas situações, não queremos rastrear as operações, como durante a inferência do modelo. Podemos desativar temporariamente o rastreamento de gradientes usando `torch.no_grad()` ou `detach()`. Vamos ver como:

In [None]:
# Desativando o rastreamento de gradientes temporariamente
with torch.no_grad():
    y = x * 2
    print(y.requires_grad)  # False, pois o rastreamento está desativado

# Criando um novo tensor sem rastreamento de gradientes
x_detached = x.detach()
print(x_detached.requires_grad)  # False, pois o tensor foi separado da tape de computação

### Verificando se um Tensor Requer Gradiente

Podemos verificar se um tensor requer gradiente usando a propriedade `requires_grad`:

In [None]:
print(x.requires_grad)  # True, pois x foi criado com requires_grad=True
print(x_detached.requires_grad)  # False, pois x_detached foi separado da tape de computação

## Exercícios - PyTorch Básico

### Exercício 1: Criação de Tensores

1. Crie um tensor 1D com os valores de 1 a 10.
2. Crie um tensor 2D de forma (3, 3) com valores aleatórios.
3. Crie um tensor 3D de forma (2, 3, 4) com todos os valores iguais a 1.
4. Crie um tensor de zeros com as mesmas dimensões do tensor 2D criado no exercício 2.
5. Crie um tensor de uns com as mesmas dimensões do tensor 3D criado no exercício 3.

### Exercício 2: Manipulação de Tensores

1. Dado o tensor `a = torch.tensor([[1, 2], [3, 4], [5, 6]])`, obtenha a primeira coluna.
2. Dado o tensor `b = torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])`, obtenha o subtensor `[[7, 8, 9], [10, 11, 12]]`.
3. Dado o tensor `c = torch.tensor([1, 2, 3, 4, 5, 6])`, mude sua forma para (2, 3).
4. Dado o tensor `d = torch.tensor([1, 2, 3, 4, 5, 6])`, adicione uma dimensão extra para que ele se torne de forma (1, 6).

### Exercício 3: Funções de Criação de Tensores

1. Crie um tensor contendo valores de 0 a 1, espaçados igualmente em 5 passos.
2. Crie um tensor contendo valores de 0 a 10, com um passo de 2.
3. Crie um tensor de forma (3, 3) com valores aleatórios entre 0 e 10.
4. Crie um tensor correspondente a uma imagem em escala de cinza de dimensões 128x128 com valores aleatórios entre 0 e 255.
5. Crie um tensor correspondente a uma imagem em RGB de dimensões 128x128 com valores aleatórios entre 0 e 255.

### Exercício 4: Operações Avançadas com Tensores

1. Dado o tensor `a = torch.tensor([1, 2, 3])` e `b = torch.tensor([[4], [5], [6]])`, calcule a soma de `a` e `b` usando broadcasting.
2. Dado o tensor `a = torch.tensor([1.0, 2.0, 3.0, 4.0])`, calcule a soma de todos os elementos.
3. Dado o tensor `a = torch.tensor([1.0, 2.0, 3.0, 4.0])`, calcule a média de todos os elementos.
4. Dado o tensor `a = torch.tensor([1.0, 2.0, 3.0, 4.0])`, calcule a raiz quadrada de todos os elementos.

### Exercício 5: Autograd e Backpropagation

1. Crie um tensor `x` com os valores `[2.0, 3.0]` e `requires_grad=True`. Calcule `y = x^2` e os gradientes.
2. Crie um tensor `x` com o valor `3.0` e `requires_grad=True`. Calcule `y = 2*x + 1` e o gradiente.
3. Crie um tensor `x` com os valores `[1.0, 2.0, 3.0]` e `requires_grad=True`. Calcule `y = x^3` e os gradientes.

### Exercício 6: Operações de Redução

1. Crie um tensor de forma (4, 5) contendo valores de 1 a 20 usando `torch.arange`. Em seguida, calcule a soma de todos os elementos do tensor.

2. Crie um tensor de forma (3, 4) com valores aleatórios entre 0 e 1 usando `torch.rand`. Calcule a média dos elementos ao longo do eixo 1 (colunas).

3. Crie um tensor de forma (5, 5) contendo valores espaçados igualmente de 0 a 24 usando `torch.linspace`. Encontre o valor mínimo e o máximo de todos os elementos do tensor.

4. Crie um tensor de forma (3, 6) com valores inteiros aleatórios entre 10 e 50 usando `torch.randint`. Calcule o produto dos elementos ao longo do eixo 0 (linhas).

5. Crie um tensor de forma (2, 3, 4) com valores aleatórios entre 0 e 1 usando `torch.rand`. Encontre a soma dos elementos ao longo do eixo 2.