# Tutorial de PyTorch: Conceitos e APIs Principais

Este tutorial oferece uma visão geral concisa mas completa do PyTorch, uma das bibliotecas mais populares para aprendizagem de máquina e redes neurais. Vamos explorar os componentes principais, APIs e exemplos práticos para tarefas comuns.

## Conteúdo
1. [Introdução ao PyTorch](#1-introdução-ao-pytorch)
2. [Tensores: O Bloco Fundamental](#2-tensores-o-bloco-fundamental)
3. [Autograd: Diferenciação Automática](#3-autograd-diferenciação-automática)
4. [Construindo Redes Neurais](#4-construindo-redes-neurais)
5. [Otimizadores e Funções de Perda](#5-otimizadores-e-funções-de-perda)
6. [Carregamento e Processamento de Dados](#6-carregamento-e-processamento-de-dados)
7. [Treinamento e Avaliação de Modelos](#7-treinamento-e-avaliação-de-modelos)
8. [Salvando e Carregando Modelos](#8-salvando-e-carregando-modelos)
9. [Redes Neurais Convolucionais (CNNs)](#9-redes-neurais-convolucionais-cnns)
10. [Redes Neurais Recorrentes (RNNs)](#10-redes-neurais-recorrentes-rnns)
11. [Processamento de Linguagem Natural](#11-processamento-de-linguagem-natural)
12. [Transferência de aprendizagem](#12-transferência-de-aprendizagem)
13. [PyTorch para Produção](#13-pytorch-para-produção)
14. [Recursos Adicionais](#14-recursos-adicionais)

## 1. Introdução ao PyTorch

PyTorch é uma biblioteca de aprendizagem profundo de código aberto desenvolvida pelo Facebook (Meta). Suas principais características incluem:

- **Computação de Tensores**: Similar ao NumPy, mas com suporte a GPUs
- **Grafos Dinâmicos**: Define grafos computacionais em tempo de execução (diferente do TensorFlow estático original)
- **API Pythônica**: Integração natural com o ecossistema Python
- **Ecossistema Rico**: Ferramentas para pesquisa, produção e áreas específicas como visão computacional e NLP

In [None]:
# Instalação do PyTorch (descomente se necessário)
# !pip install torch torchvision torchaudio

# Importações básicas
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

# Verificar versão e disponibilidade de GPU
print(f"PyTorch versão: {torch.__version__}")
print(f"GPU disponível: {torch.cuda.is_available()}")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Dispositivo: {device}")

## 2. Tensores: O Bloco Fundamental

Tensores são estruturas de dados multidimensionais similares aos arrays do NumPy, mas com funcionalidades adicionais para deep learning:

In [None]:
# Criando tensores
# 1. A partir de listas Python
x = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(f"Tensor de lista: \n{x}\n")

# 2. Tensores preenchidos
zeros = torch.zeros(2, 3)  # Tensor 2x3 de zeros
ones = torch.ones(2, 3)    # Tensor 2x3 de uns
rand = torch.rand(2, 3)    # Tensor 2x3 com valores aleatórios entre 0 e 1
print(f"Zeros: \n{zeros}\n")
print(f"Ones: \n{ones}\n")
print(f"Random: \n{rand}\n")

# 3. Tensores com valores específicos
arange = torch.arange(0, 10, 2)  # Valores de 0 a 10 com passo 2
linspace = torch.linspace(0, 10, 5)  # 5 valores igualmente espaçados entre 0 e 10
print(f"Arange: {arange}")
print(f"Linspace: {linspace}\n")

# Propriedades dos tensores
print(f"Forma (shape): {x.shape}")
print(f"Tipo de dados: {x.dtype}")
print(f"Dispositivo: {x.device}\n")

# Operações com tensores
a = torch.tensor([1, 2, 3])
b = torch.tensor([4, 5, 6])

# Operações aritméticas
print(f"a + b: {a + b}")
print(f"a * b: {a * b}")
print(f"Produto escalar: {torch.dot(a, b)}\n")

# Redimensionamento
c = torch.tensor([[1, 2, 3], [4, 5, 6]])
print(f"Original: \n{c}")
print(f"Reshape: \n{c.reshape(3, 2)}")
print(f"View (mesma memória): \n{c.view(3, 2)}\n")

# Movendo tensores para GPU (se disponível)
if torch.cuda.is_available():
    x_gpu = x.to("cuda")
    print(f"Tensor na GPU: {x_gpu.device}")

## 3. Autograd: Diferenciação Automática

O sistema de autograd do PyTorch permite o cálculo automático de gradientes, essencial para o treinamento de redes neurais:

In [None]:
# Criando tensores com gradientes
x = torch.ones(2, 2, requires_grad=True)
print(f"Tensor x: \n{x}\n")

# Realizando operações
y = x + 2
print(f"y = x + 2: \n{y}\n")

# Operação mais complexa
z = y * y * 3
out = z.mean()
print(f"z = 3 * y * y: \n{z}\n")
print(f"out = z.mean(): {out}\n")

# Calculando gradientes
out.backward()  # Equivalente a out.backward(torch.tensor(1.0))

# Verificando gradientes calculados
print(f"Gradiente de x: \n{x.grad}\n")

# Desativando o rastreamento de gradiente temporariamente
with torch.no_grad():
    print(f"Sem rastreamento de gradiente: {x + 2}")

# Ou usando .detach() para criar uma cópia sem gradiente
print(f"Tensor destacado: {x.detach() + 2}")

## 4. Construindo Redes Neurais

O PyTorch oferece o módulo `nn` para construir redes neurais de forma modular:

In [None]:
# Definindo uma rede neural simples usando nn.Module
class SimpleNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleNN, self).__init__()
        # Camadas da rede
        self.fc1 = nn.Linear(input_size, hidden_size)  # Camada totalmente conectada (linear)
        self.relu = nn.ReLU()  # Função de ativação ReLU
        self.fc2 = nn.Linear(hidden_size, output_size)  # Camada de saída
    
    def forward(self, x):
        # Fluxo de dados através da rede
        x = self.fc1(x)  # Primeira camada linear
        x = self.relu(x)  # Aplicação da função de ativação
        x = self.fc2(x)  # Segunda camada linear
        return x

# Criando uma instância do modelo
input_size = 10
hidden_size = 20
output_size = 2
model = SimpleNN(input_size, hidden_size, output_size)
print(model)

# Criando dados de entrada aleatórios
x = torch.randn(5, input_size)  # 5 amostras com 10 características cada

# Passando os dados pela rede
output = model(x)
print(f"\nEntrada: {x.shape}")
print(f"Saída: {output.shape}")

# Usando Sequential para definir redes de forma mais concisa
model_sequential = nn.Sequential(
    nn.Linear(input_size, hidden_size),
    nn.ReLU(),
    nn.Linear(hidden_size, output_size)
)
print(f"\nModelo Sequential:\n{model_sequential}")

## 5. Otimizadores e Funções de Perda

O PyTorch fornece vários otimizadores e funções de perda para treinar redes neurais:

In [None]:
# Funções de perda comuns
# 1. Para classificação
cross_entropy = nn.CrossEntropyLoss()  # Combina LogSoftmax e NLLLoss
bce = nn.BCELoss()  # Binary Cross Entropy para classificação binária
bce_with_logits = nn.BCEWithLogitsLoss()  # BCE com sigmoid integrado

# 2. Para regressão
mse = nn.MSELoss()  # Erro Quadrático Médio
mae = nn.L1Loss()   # Erro Absoluto Médio
smooth_l1 = nn.SmoothL1Loss()  # Huber Loss (menos sensível a outliers)

# Exemplo de cálculo de perda para classificação
outputs = torch.randn(3, 5)  # 3 amostras, 5 classes
targets = torch.tensor([1, 0, 4])  # Classes alvo
loss = cross_entropy(outputs, targets)
print(f"Perda de entropia cruzada: {loss.item()}\n")

# Exemplo de cálculo de perda para regressão
outputs_reg = torch.randn(3, 1)  # 3 amostras, 1 valor previsto
targets_reg = torch.randn(3, 1)  # 3 valores alvo
loss_reg = mse(outputs_reg, targets_reg)
print(f"Perda MSE: {loss_reg.item()}\n")

# Otimizadores
# Criando um modelo simples para demonstração
model = SimpleNN(10, 20, 5)

# 1. SGD (Stochastic Gradient Descent)
sgd = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)

# 2. Adam (Adaptive Moment Estimation)
adam = optim.Adam(model.parameters(), lr=0.001, betas=(0.9, 0.999))

# 3. RMSprop
rmsprop = optim.RMSprop(model.parameters(), lr=0.01, alpha=0.99)

# 4. Adagrad
adagrad = optim.Adagrad(model.parameters(), lr=0.01)

# Exemplo de passo de otimização
optimizer = adam  # Escolhendo Adam como otimizador

# Fluxo típico de otimização
optimizer.zero_grad()  # Zerar gradientes acumulados
outputs = model(torch.randn(5, 10))  # Forward pass
loss = cross_entropy(outputs, torch.tensor([1, 0, 4, 2, 3]))  # Cálculo da perda
loss.backward()  # Backward pass (cálculo de gradientes)
optimizer.step()  # Atualização dos parâmetros

print(f"Otimizador: {type(optimizer).__name__}")
print(f"Taxa de aprendizagem: {optimizer.param_groups[0]['lr']}")

## 6. Carregamento e Processamento de Dados

O PyTorch oferece ferramentas para carregar e processar dados de forma eficiente:

In [None]:
# Criando um conjunto de dados personalizado
class CustomDataset(Dataset):
    def __init__(self, data, targets, transform=None):
        self.data = data
        self.targets = targets
        self.transform = transform
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        x = self.data[idx]
        y = self.targets[idx]
        
        if self.transform:
            x = self.transform(x)
            
        return x, y

# Criando dados sintéticos
data = torch.randn(100, 10)  # 100 amostras com 10 características
targets = torch.randint(0, 5, (100,))  # 100 rótulos entre 0 e 4

# Criando o dataset
dataset = CustomDataset(data, targets)
print(f"Tamanho do dataset: {len(dataset)}")
print(f"Primeiro item: {dataset[0][0].shape}, {dataset[0][1]}\n")

# Criando um DataLoader
batch_size = 16
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
print(f"Número de batches: {len(dataloader)}")

# Iterando sobre o DataLoader
for batch_idx, (data, targets) in enumerate(dataloader):
    print(f"Batch {batch_idx+1}: {data.shape}, {targets.shape}")
    if batch_idx == 2:  # Mostrar apenas os primeiros 3 batches
        break

# Datasets pré-definidos (comentado para não baixar dados)
'''
from torchvision import datasets, transforms

# Transformações para pré-processamento
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

# Carregando o dataset MNIST
mnist_train = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
mnist_test = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

# Criando DataLoaders
train_loader = DataLoader(mnist_train, batch_size=64, shuffle=True)
test_loader = DataLoader(mnist_test, batch_size=64, shuffle=False)
'''

## 7. Treinamento e Avaliação de Modelos

Vamos ver como treinar e avaliar um modelo em PyTorch:

In [None]:
# Definindo um modelo simples para classificação
class ClassificationModel(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(ClassificationModel, self).__init__()
        self.fc1 = nn.Linear(input_size, hidden_size)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        x = self.fc1(x)
        x = self.relu(x)
        x = self.fc2(x)
        return x

# Parâmetros
input_size = 10
hidden_size = 50
num_classes = 5
learning_rate = 0.001
num_epochs = 5
batch_size = 16

# Criando dados sintéticos
X = torch.randn(500, input_size)  # 500 amostras
y = torch.randint(0, num_classes, (500,))  # 500 rótulos

# Dividindo em treino e teste
train_size = int(0.8 * len(X))
X_train, X_test = X[:train_size], X[train_size:]
y_train, y_test = y[:train_size], y[train_size:]

# Criando datasets e dataloaders
train_dataset = CustomDataset(X_train, y_train)
test_dataset = CustomDataset(X_test, y_test)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

# Inicializando o modelo
model = ClassificationModel(input_size, hidden_size, num_classes)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

# Função de treinamento
def train(model, train_loader, criterion, optimizer, device="cpu"):
    model.train()  # Modo de treinamento
    running_loss = 0.0
    correct = 0
    total = 0
    
    for inputs, targets in train_loader:
        inputs, targets = inputs.to(device), targets.to(device)
        
        # Zerar gradientes
        optimizer.zero_grad()
        
        # Forward pass
        outputs = model(inputs)
        loss = criterion(outputs, targets)
        
        # Backward pass e otimização
        loss.backward()
        optimizer.step()
        
        # Estatísticas
        running_loss += loss.item()
        _, predicted = torch.max(outputs.data, 1)
        total += targets.size(0)
        correct += (predicted == targets).sum().item()
    
    epoch_loss = running_loss / len(train_loader)
    epoch_acc = 100.0 * correct / total
    return epoch_loss, epoch_acc

# Função de avaliação
def evaluate(model, test_loader, criterion, device="cpu"):
    model.eval()  # Modo de avaliação
    running_loss = 0.0
    correct = 0
    total = 0
    
    with torch.no_grad():  # Desativar cálculo de gradientes
        for inputs, targets in test_loader:
            inputs, targets = inputs.to(device), targets.to(device)
            
            # Forward pass
            outputs = model(inputs)
            loss = criterion(outputs, targets)
            
            # Estatísticas
            running_loss += loss.item()
            _, predicted = torch.max(outputs.data, 1)
            total += targets.size(0)
            correct += (predicted == targets).sum().item()
    
    epoch_loss = running_loss / len(test_loader)
    epoch_acc = 100.0 * correct / total
    return epoch_loss, epoch_acc

# Loop de treinamento
print("Iniciando treinamento...")
for epoch in range(num_epochs):
    train_loss, train_acc = train(model, train_loader, criterion, optimizer)
    test_loss, test_acc = evaluate(model, test_loader, criterion)
    
    print(f"Época {epoch+1}/{num_epochs}:")
    print(f"  Treino - Perda: {train_loss:.4f}, Acurácia: {train_acc:.2f}%")
    print(f"  Teste  - Perda: {test_loss:.4f}, Acurácia: {test_acc:.2f}%")

print("\nTreinamento concluído!")

## 8. Salvando e Carregando Modelos

O PyTorch oferece diferentes maneiras de salvar e carregar modelos:

In [None]:
# Salvando o modelo completo (arquitetura + parâmetros)
torch.save(model, 'modelo_completo.pth')

# Salvando apenas os parâmetros do modelo (recomendado)
torch.save(model.state_dict(), 'modelo_parametros.pth')

# Salvando checkpoint (para continuar treinamento)
checkpoint = {
    'epoch': num_epochs,
    'model_state_dict': model.state_dict(),
    'optimizer_state_dict': optimizer.state_dict(),
    'loss': test_loss
}
torch.save(checkpoint, 'checkpoint.pth')

# Carregando o modelo completo
loaded_model = torch.load('modelo_completo.pth')
loaded_model.eval()  # Colocar em modo de avaliação

# Carregando apenas os parâmetros (recomendado)
new_model = ClassificationModel(input_size, hidden_size, num_classes)
new_model.load_state_dict(torch.load('modelo_parametros.pth'))
new_model.eval()

# Carregando checkpoint
checkpoint = torch.load('checkpoint.pth')
model_checkpoint = ClassificationModel(input_size, hidden_size, num_classes)
model_checkpoint.load_state_dict(checkpoint['model_state_dict'])
optimizer_checkpoint = optim.Adam(model_checkpoint.parameters(), lr=learning_rate)
optimizer_checkpoint.load_state_dict(checkpoint['optimizer_state_dict'])
epoch = checkpoint['epoch']
loss = checkpoint['loss']

print("Modelos salvos e carregados com sucesso!")

## 9. Redes Neurais Convolucionais (CNNs)

As CNNs são especialmente eficazes para processamento de imagens:

In [None]:
# Definindo uma CNN simples
class SimpleCNN(nn.Module):
    def __init__(self, num_classes=10):
        super(SimpleCNN, self).__init__()
        # Camadas convolucionais
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, stride=1, padding=1)
        self.relu1 = nn.ReLU()
        self.pool1 = nn.MaxPool2d(kernel_size=2)
        
        self.conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1)
        self.relu2 = nn.ReLU()
        self.pool2 = nn.MaxPool2d(kernel_size=2)
        
        # Camadas totalmente conectadas
        self.fc1 = nn.Linear(32 * 7 * 7, 128)  # Para imagens MNIST 28x28
        self.relu3 = nn.ReLU()
        self.dropout = nn.Dropout(0.5)
        self.fc2 = nn.Linear(128, num_classes)
    
    def forward(self, x):
        # Camadas convolucionais
        x = self.conv1(x)
        x = self.relu1(x)
        x = self.pool1(x)
        
        x = self.conv2(x)
        x = self.relu2(x)
        x = self.pool2(x)
        
        # Achatamento para camadas totalmente conectadas
        x = x.view(x.size(0), -1)
        
        # Camadas totalmente conectadas
        x = self.fc1(x)
        x = self.relu3(x)
        x = self.dropout(x)
        x = self.fc2(x)
        
        return x

# Criando uma instância do modelo
cnn_model = SimpleCNN(num_classes=10)
print(cnn_model)

# Testando com uma imagem aleatória
dummy_input = torch.randn(1, 1, 28, 28)  # (batch_size, channels, height, width)
output = cnn_model(dummy_input)
print(f"\nForma da entrada: {dummy_input.shape}")
print(f"Forma da saída: {output.shape}")

# Principais camadas convolucionais em PyTorch
print("\nPrincipais camadas convolucionais:")
print("1. nn.Conv2d - Convolução 2D")
print("2. nn.MaxPool2d - Pooling máximo 2D")
print("3. nn.AvgPool2d - Pooling médio 2D")
print("4. nn.BatchNorm2d - Normalização em lote 2D")
print("5. nn.Conv1d - Convolução 1D (para sequências)")
print("6. nn.Conv3d - Convolução 3D (para dados volumétricos)")

## 10. Redes Neurais Recorrentes (RNNs)

As RNNs são projetadas para processar dados sequenciais:

In [None]:
# Definindo uma RNN simples
class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(SimpleRNN, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        # Camada RNN
        self.rnn = nn.RNN(input_size, hidden_size, num_layers, batch_first=True)
        
        # Camada de saída
        self.fc = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        # Inicialização do estado oculto
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        
        # Forward pass através da RNN
        out, _ = self.rnn(x, h0)  # out: (batch_size, seq_length, hidden_size)
        
        # Decodificando o último estado oculto
        out = self.fc(out[:, -1, :])  # Usando apenas o último passo de tempo
        
        return out

# Definindo uma LSTM
class SimpleLSTM(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(SimpleLSTM, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        # Camada LSTM
        self.lstm = nn.LSTM(input_size, hidden_size, num_layers, batch_first=True)
        
        # Camada de saída
        self.fc = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        # Inicialização do estado oculto e da célula
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        c0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        
        # Forward pass através da LSTM
        out, _ = self.lstm(x, (h0, c0))  # out: (batch_size, seq_length, hidden_size)
        
        # Decodificando o último estado oculto
        out = self.fc(out[:, -1, :])
        
        return out

# Definindo uma GRU
class SimpleGRU(nn.Module):
    def __init__(self, input_size, hidden_size, num_layers, num_classes):
        super(SimpleGRU, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers
        
        # Camada GRU
        self.gru = nn.GRU(input_size, hidden_size, num_layers, batch_first=True)
        
        # Camada de saída
        self.fc = nn.Linear(hidden_size, num_classes)
    
    def forward(self, x):
        # Inicialização do estado oculto
        h0 = torch.zeros(self.num_layers, x.size(0), self.hidden_size).to(x.device)
        
        # Forward pass através da GRU
        out, _ = self.gru(x, h0)
        
        # Decodificando o último estado oculto
        out = self.fc(out[:, -1, :])
        
        return out

# Parâmetros
input_size = 10  # Tamanho de cada elemento da sequência
hidden_size = 20  # Tamanho do estado oculto
num_layers = 2  # Número de camadas empilhadas
num_classes = 5  # Número de classes de saída
seq_length = 15  # Comprimento da sequência

# Criando instâncias dos modelos
rnn_model = SimpleRNN(input_size, hidden_size, num_layers, num_classes)
lstm_model = SimpleLSTM(input_size, hidden_size, num_layers, num_classes)
gru_model = SimpleGRU(input_size, hidden_size, num_layers, num_classes)

# Testando com dados aleatórios
batch_size = 8
x = torch.randn(batch_size, seq_length, input_size)

# Forward pass
rnn_out = rnn_model(x)
lstm_out = lstm_model(x)
gru_out = gru_model(x)

print(f"Forma da entrada: {x.shape}")
print(f"Forma da saída RNN: {rnn_out.shape}")
print(f"Forma da saída LSTM: {lstm_out.shape}")
print(f"Forma da saída GRU: {gru_out.shape}")

print("\nComparação entre RNN, LSTM e GRU:")
print("1. RNN: Simples, mas sofre com o problema de gradientes que desaparecem/explodem")
print("2. LSTM: Resolve o problema dos gradientes com células de memória e gates")
print("3. GRU: Versão simplificada da LSTM, geralmente mais rápida e com desempenho similar")

## 11. Processamento de Linguagem Natural

O PyTorch é amplamente utilizado para tarefas de NLP:

In [None]:
# Exemplo de modelo para classificação de texto
class TextClassifier(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, bidirectional, dropout):
        super(TextClassifier, self).__init__()
        
        # Camada de embedding
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        
        # Camada LSTM
        self.lstm = nn.LSTM(embedding_dim, 
                           hidden_dim, 
                           num_layers=n_layers, 
                           bidirectional=bidirectional, 
                           dropout=dropout,
                           batch_first=True)
        
        # Camada de saída
        self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, output_dim)
        
        # Dropout
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, text):
        # text: [batch size, sent len]
        
        # Aplicando embedding
        embedded = self.embedding(text)  # [batch size, sent len, emb dim]
        
        # Passando pela LSTM
        output, (hidden, cell) = self.lstm(embedded)
        
        # Se bidirecional, concatenar os estados ocultos finais
        if self.lstm.bidirectional:
            hidden = torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1)
        else:
            hidden = hidden[-1,:,:]
            
        # Aplicando dropout
        hidden = self.dropout(hidden)
            
        # Camada de saída
        return self.fc(hidden)

# Parâmetros
vocab_size = 10000  # Tamanho do vocabulário
embedding_dim = 100  # Dimensão do embedding
hidden_dim = 256  # Dimensão do estado oculto
output_dim = 3  # Número de classes
n_layers = 2  # Número de camadas LSTM
bidirectional = True  # LSTM bidirecional
dropout = 0.5  # Taxa de dropout

# Criando o modelo
model = TextClassifier(vocab_size, embedding_dim, hidden_dim, output_dim, n_layers, bidirectional, dropout)
print(model)

# Testando com dados aleatórios
batch_size = 4
seq_length = 20
text = torch.randint(0, vocab_size, (batch_size, seq_length))
output = model(text)

print(f"\nForma da entrada: {text.shape}")
print(f"Forma da saída: {output.shape}")

print("\nComponentes comuns para NLP em PyTorch:")
print("1. nn.Embedding - Camada de embedding para representar palavras")
print("2. nn.LSTM/GRU - Para processar sequências de texto")
print("3. nn.Transformer - Para modelos baseados em atenção")
print("4. Bibliotecas complementares: torchtext, transformers (Hugging Face)")

## 12. Transferência de aprendizagem

O PyTorch facilita o uso de modelos pré-treinados para transferência de aprendizagem:

In [None]:
# Exemplo de transferência de aprendizagem com modelos pré-treinados
'''
import torchvision.models as models

# Carregando um modelo ResNet pré-treinado
resnet = models.resnet18(pretrained=True)

# Congelando os parâmetros do modelo
for param in resnet.parameters():
    param.requires_grad = False
    
# Modificando a camada final para nossa tarefa específica
num_ftrs = resnet.fc.in_features
resnet.fc = nn.Linear(num_ftrs, 10)  # 10 classes para nossa tarefa

# Agora apenas os parâmetros da camada final serão treinados
print("Modelo ResNet modificado para transferência de aprendizagem:")
print(resnet.fc)
'''

print("Modelos pré-treinados disponíveis em torchvision:")
print("1. ResNet (18, 34, 50, 101, 152)")
print("2. VGG (11, 13, 16, 19)")
print("3. DenseNet (121, 169, 201, 161)")
print("4. Inception v3")
print("5. MobileNet v2/v3")
print("6. EfficientNet")

print("\nEtapas comuns para transferência de aprendizagem:")
print("1. Carregar modelo pré-treinado")
print("2. Congelar parâmetros (opcional)")
print("3. Modificar camadas finais para a nova tarefa")
print("4. Treinar o modelo com taxa de aprendizagem reduzida")

## 13. PyTorch para Produção

O PyTorch oferece ferramentas para otimizar e implementar modelos em produção:

In [None]:
# TorchScript para otimização e portabilidade
'''
# Convertendo um modelo para TorchScript via tracing
example_input = torch.rand(1, 10)
traced_model = torch.jit.trace(model, example_input)

# Salvando o modelo otimizado
traced_model.save("traced_model.pt")

# Convertendo um modelo para TorchScript via scripting
scripted_model = torch.jit.script(model)
scripted_model.save("scripted_model.pt")
'''

print("Ferramentas para produção em PyTorch:")
print("1. TorchScript - Otimização e portabilidade")
print("2. ONNX - Interoperabilidade com outros frameworks")
print("3. TorchServe - Servidor de inferência")
print("4. C++ Frontend - Para ambientes sem Python")
print("5. Mobile - PyTorch para dispositivos móveis")
print("6. Quantização - Redução de precisão para eficiência")
print("7. Pruning - Remoção de conexões desnecessárias")

print("\nOtimização de desempenho:")
print("1. Usar DataLoader com num_workers > 0 e pin_memory=True")
print("2. Mover modelos e dados para GPU quando disponível")
print("3. Usar tamanhos de batch adequados")
print("4. Aplicar técnicas de mixed precision quando possível")

## 14. Recursos Adicionais

Para aprofundar seus conhecimentos em PyTorch:

1. **Documentação Oficial**: [pytorch.org/docs](https://pytorch.org/docs/stable/index.html)
2. **Tutoriais Oficiais**: [pytorch.org/tutorials](https://pytorch.org/tutorials/)
3. **Fórum PyTorch**: [discuss.pytorch.org](https://discuss.pytorch.org/)
4. **GitHub**: [github.com/pytorch/pytorch](https://github.com/pytorch/pytorch)
5. **Ecossistema PyTorch**:
   - **torchvision**: Para visão computacional
   - **torchaudio**: Para processamento de áudio
   - **torchtext**: Para processamento de texto
   - **PyTorch Lightning**: Para simplificar o código de treinamento
   - **Hugging Face Transformers**: Para modelos de NLP estado-da-arte
   - **Captum**: Para interpretabilidade de modelos
   - **TorchServe**: Para servir modelos em produção

## Conclusão

Este tutorial cobriu os conceitos e APIs principais do PyTorch, desde os fundamentos até tópicos avançados. O PyTorch é uma biblioteca poderosa e flexível para aprendizagem de máquina, com uma API intuitiva e um ecossistema rico. Com o conhecimento adquirido neste tutorial, você está pronto para explorar mais a fundo e aplicar o PyTorch em seus próprios projetos.