## 🎓 **Importância da GPU no treinamento de redes neurais**
- 🚀 O uso de uma GPU pode acelerar o treinamento de uma rede neural em até 10 vezes
- 🧠 As redes neurais são compostas de uma rede de neurônios artificiais, cada um dos quais executa uma operação matemática simples. O treinamento de uma rede neural envolve ajustar os pesos desses neurônios para que a rede possa aprender a realizar uma tarefa específica.

## 🛠 **Entendendo as GPU**
- 🎮 Originalmente, as GPUs foram projetadas para acelerar a renderização gráfica em jogos e aplicações visuais.
- 📈 Por volta de 2007/2008, as capacidades das GPUs foram estendidas para computação científica, graças ao CUDA (Compute Unified Device Architecture)
- 📊 As GPUs são usadas junto com uma CPU para agilizar o trabalho de operações numericamente intensivas.

### 🤔 **GPU vs CPU**

#### : 🖥 CPU:
- Execução serial (executa operações uma após a outra)
- CPU carrega valores da memória, realiza um cálculo com base nos valores e armazena o resultado de cada cálculo na memória.
- O acesso à memória é lento em comparação com a velocidade de cálculo e pode limitar a capacidade total das CPUs.
- Possui no máximo dezenas de CORES.

#### 🎮 GPU
- Execução paralela, pode executar milhares de multiplicações e adições simultaneamente
- GPU moderna geralmente milhares de CORES (ALUs - Unidades lógicas aritméticas)

![](https://researchcomputing.princeton.edu/sites/g/files/toruqf311/files/styles/freeform_750w/public/2021-11/gpu_as_accelerator_to_cpu_diagram.png?itok=q0YaEuYH)

A relação entre GPU e CPU:

1. **Transferência de Dados:** O CPU envia dados da memória RAM para a GPU processar.
2. **Instruções:** O CPU dita à GPU como os dados devem ser processados.
3. **Administração de Memória:** A GPU tem sua própria memória (VRAM), mas o CPU coordena o envio de dados para ela.
4. **Coordenação de Recursos:** O CPU organiza os recursos do sistema, garantindo que a GPU opere corretamente juntamente com outros componentes.

### 🔢 **Número de núcleos *GPU vs CPU***
- 🎮 **GPU**: GeForce RTX 4090 (16,384 CUDA cores and 24GB of memory)
- 🖥 **CPU:**: AMD Ryzen Threadripper Pro 5995WX (64 cores)

### 📝 **Consideração importante**

📌 A eficiência de uma GPU é melhor aproveitada quando ela tem um grande volume de dados para processar. Isso ocorre porque uma GPU é projetada para realizar muitas operações simples e paralelas ao mesmo tempo. Se a tarefa é muito pequena ou simples, então a GPU pode não ter oportunidade de usar todos os seus núcleos de forma eficiente.

📌 Além disso, se a quantidade de dados for pequena, o tempo gasto para transferir esses dados da CPU para a GPU e vice-versa pode ser mais significativo em comparação com o tempo realmente gasto no processamento, tornando a operação menos eficiente do que se tivesse sido realizada apenas na CPU.

📌 Portanto, para tarefas com grandes volumes de dados que podem ser processados em paralelo, as GPUs são geralmente muito mais rápidas do que as CPUs. Para tarefas menores e menos paralelizáveis, a CPU pode ser mais eficiente.

### **Exemplo prático**

In [None]:
%pip install torch torchvision torchaudio --quiet

In [9]:
import torch
if torch.backends.mps.is_available():
    mps_device = torch.device("mps")
else:
    raise Exception("GPU not found")

In [10]:
mps_device

device(type='mps')

#### Operação com matrix grandes

In [11]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(7000,3000, device=mps_device)
    y = torch.rand(7000,3000, device=mps_device)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execução: {elapsed_time} segundos")

Tempo de execução: 33.03488802909851 segundos


In [12]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(7000,3000)
    y = torch.rand(7000,3000)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execução: {elapsed_time} segundos")

Tempo de execução: 53.21458578109741 segundos


#### Operação com tensores pequenos

In [13]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(70,30, device=mps_device)
    y = torch.rand(70,30, device=mps_device)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execução: {elapsed_time} segundos")

Tempo de execução: 0.09651398658752441 segundos


In [14]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(70,30)
    y = torch.rand(70,30)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execução: {elapsed_time} segundos")

Tempo de execução: 0.00587916374206543 segundos


### 📚 **Bibliotecas de desenvolvimento para GPU**
- **CUDA** (NVIDEA)
- **Metal** (Apple)
- **ROCm** (AMD)

### **Unidade de processamento de tensores - TPU**
- TPUs como um processador de matriz especializado em cargas de trabalho de redes neurais.
- Em vez de fazer cálculos simples, como somar ou subtrair, ela é projetada para fazer muitas multiplicações de uma vez.
- Elas podem processar operações de matriz maciça, usadas em redes neurais em velocidades rápidas.
- O ecossistema é mais limitado, embora TensorFlow e alguns outros frameworks suportem TPUs.
## **Quando escolher entre CPU, GPU e TPU**

A escolha entre CPU, GPU e TPU para treinar uma rede neural depende de vários fatores, incluindo o tamanho e a complexidade do modelo, a quantidade de dados, o orçamento, o tempo disponível e as especificidades da tarefa. Vamos discutir os cenários em que cada um deles seria apropriado:

- **CPU:** Para modelos pequenos, prototipagem rápida, ou quando você está apenas começando
- **GPU:** Para treinamento de redes neurais de médio a grande porte.
- **TPU:** Para treinamento de redes neurais de grande escala, como modelos de linguagem com bilhões de parâmetros.

## Referências

- https://researchcomputing.princeton.edu/support/knowledge-base/gpu-computing
- https://cloud.google.com/tpu/docs/intro-to-tpu?hl=pt-br