# Paralelismo a Nível de Pipeline (Pipeline Parallelism)

O Pipeline Parallelism é uma técnica que permite treinar modelos de aprendizado profundo em várias GPUs, dividindo o modelo em várias seções (ou estágios) e processando diferentes mini-batches em cada estágio simultaneamente. Cada estágio do modelo é colocado em uma GPU diferente, e os tensores são passados de uma GPU para a próxima à medida que cada estágio é concluído.

Vamos criar um exemplo simples usando o PyTorch para demonstrar o Pipeline Parallelism. Neste exemplo, vamos dividir um modelo de rede neural em dois estágios e executar cada estágio em uma GPU diferente.

### Exemplo: Pipeline Parallelism com PyTorch


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

# Verificar a disponibilidade de GPUs
num_gpus = torch.cuda.device_count()
assert num_gpus >= 2, "Este exemplo requer pelo menos duas GPUs."

# Modelo de rede neural dividido em dois estágios
class SplitModel(nn.Module):
    def __init__(self):
        super(SplitModel, self).__init__()
        self.stage1 = nn.Sequential(
            nn.Linear(10, 50),
            nn.ReLU()
        ).cuda(0)  # Primeiro estágio do modelo na GPU 0
        
        self.stage2 = nn.Sequential(
            nn.Linear(50, 20),
            nn.ReLU(),
            nn.Linear(20, 1)
        ).cuda(1)  # Segundo estágio do modelo na GPU 1

    def forward(self, x):
        # Processar na primeira GPU
        x = self.stage1(x.cuda(0))
        # Transferir para a segunda GPU e continuar o processamento
        return self.stage2(x.cuda(1))

# Criando dados sintéticos
X = torch.rand(100, 10)

# Treinamento com Pipeline Parallelism
model = SplitModel()
criterion = nn.MSELoss().cuda(1)  # Loss na GPU 1
optimizer = optim.SGD(model.parameters(), lr=0.01)

# Simulando um DataLoader
data_loader = [X[i:i+10] for i in range(0, len(X), 10)]

for epoch in range(100):
    for x in data_loader:
        # Forward pass
        outputs = model(x)
        loss = criterion(outputs, torch.ones(len(x), 1).cuda(1))
        
        # Backward pass and optimization
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

    if (epoch+1) % 20 == 0:
        print(f"Epoch [{epoch+1}/100], Loss: {loss.item():.4f}")

print("Training complete!")


Neste exemplo:

1. Criamos um modelo `SplitModel` que é dividido em dois estágios. O primeiro estágio é colocado na GPU 0 e o segundo estágio na GPU 1.
2. Durante a passagem para a frente (`forward`), os dados são processados pelo primeiro estágio na GPU 0, depois são transferidos para a GPU 1 e processados pelo segundo estágio.
3. O treinamento é realizado em mini-batches, simulando um pipeline onde cada estágio do modelo processa uma mini-batch diferente ao mesmo tempo.

Este código assume que você tem pelo menos duas GPUs disponíveis. Se você tiver apenas uma GPU ou estiver executando em uma máquina sem GPUs, precisará ajustar o código de acordo.

O Pipeline Parallelism é uma técnica avançada que pode ser útil ao treinar modelos grandes em grandes conjuntos de dados, especialmente quando combinada com outras técnicas de paralelismo, como paralelismo a nível de dados.