# Paralelismo de GPU

O Paralelismo de GPU refere-se à capacidade de executar operações em paralelo em uma GPU, aproveitando sua arquitetura altamente paralela. No contexto de MLOps e aprendizado profundo, isso geralmente se refere ao treinamento ou inferência de modelos em uma ou mais GPUs.

O PyTorch é uma das bibliotecas mais populares que suporta paralelismo de GPU. Vamos criar um exemplo simples usando o PyTorch para demonstrar o paralelismo de GPU.

### Exemplo: Treinamento de Modelo com Paralelismo de GPU usando PyTorch


In [None]:
import torch
import torch.nn as nn
import torch.optim as optim

# Verificar a disponibilidade de GPU
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# Modelo de rede neural simples
class SimpleNN(nn.Module):
    def __init__(self):
        super(SimpleNN, self).__init__()
        self.layer = nn.Sequential(
            nn.Linear(10, 50),
            nn.ReLU(),
            nn.Linear(50, 1)
        )

    def forward(self, x):
        return self.layer(x)

# Criando dados sintéticos
X = torch.rand(1000, 10).to(device)
y = (X.sum(dim=1) + torch.randn(1000) * 0.1).to(device)  # Alvo é a soma das características mais algum ruído

# Inicializando modelo, critério e otimizador
model = SimpleNN().to(device)
criterion = nn.MSELoss().to(device)
optimizer = optim.Adam(model.parameters(), lr=0.01)

# Treinamento
num_epochs = 100
for epoch in range(num_epochs):
    # Forward pass
    outputs = model(X)
    loss = criterion(outputs.squeeze(), y)
    
    # Backward pass and optimization
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()
    
    if (epoch+1) % 20 == 0:
        print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}")

print("Training complete!")


Neste exemplo:

1. Verificamos a disponibilidade de uma GPU e definimos o dispositivo de computação (`device`) como GPU ou CPU, dependendo da disponibilidade.
2. Criamos um modelo simples de rede neural e movemos o modelo para o dispositivo de computação escolhido usando `.to(device)`.
3. Geramos dados sintéticos e os movemos para o dispositivo de computação.
4. Treinamos o modelo na GPU (ou CPU, se nenhuma GPU estiver disponível).

Ao executar este código em um Jupyter Notebook, o PyTorch irá treinar o modelo na GPU, se disponível, aproveitando o paralelismo de GPU para acelerar o treinamento. Se você tiver várias GPUs e quiser treinar o modelo em todas elas simultaneamente, pode usar técnicas como "Data Parallelism" ou "Model Parallelism" para distribuir o treinamento entre as GPUs.