## üéì **Import√¢ncia da GPU no treinamento de redes neurais**
- üöÄ O uso de uma GPU pode acelerar o treinamento de uma rede neural em at√© 10 vezes
- üß† As redes neurais s√£o compostas de uma rede de neur√¥nios artificiais, cada um dos quais executa uma opera√ß√£o matem√°tica simples. O treinamento de uma rede neural envolve ajustar os pesos desses neur√¥nios para que a rede possa aprender a realizar uma tarefa espec√≠fica.

## üõ† **Entendendo as GPU**
- üéÆ Originalmente, as GPUs foram projetadas para acelerar a renderiza√ß√£o gr√°fica em jogos e aplica√ß√µes visuais.
- üìà Por volta de 2007/2008, as capacidades das GPUs foram estendidas para computa√ß√£o cient√≠fica, gra√ßas ao CUDA (Compute Unified Device Architecture)
- üìä As GPUs s√£o usadas junto com uma CPU para agilizar o trabalho de opera√ß√µes numericamente intensivas.

### ü§î **GPU vs CPU**

#### : üñ• CPU:
- Execu√ß√£o serial (executa opera√ß√µes uma ap√≥s a outra)
- CPU carrega valores da mem√≥ria, realiza um c√°lculo com base nos valores e armazena o resultado de cada c√°lculo na mem√≥ria.
- O acesso √† mem√≥ria √© lento em compara√ß√£o com a velocidade de c√°lculo e pode limitar a capacidade total das CPUs.
- Possui no m√°ximo dezenas de CORES.

#### üéÆ GPU
- Execu√ß√£o paralela, pode executar milhares de multiplica√ß√µes e adi√ß√µes simultaneamente
- GPU moderna geralmente milhares de CORES (ALUs - Unidades l√≥gicas aritm√©ticas)

![](https://researchcomputing.princeton.edu/sites/g/files/toruqf311/files/styles/freeform_750w/public/2021-11/gpu_as_accelerator_to_cpu_diagram.png?itok=q0YaEuYH)

A rela√ß√£o entre GPU e CPU:

1. **Transfer√™ncia de Dados:** O CPU envia dados da mem√≥ria RAM para a GPU processar.
2. **Instru√ß√µes:** O CPU dita √† GPU como os dados devem ser processados.
3. **Administra√ß√£o de Mem√≥ria:** A GPU tem sua pr√≥pria mem√≥ria (VRAM), mas o CPU coordena o envio de dados para ela.
4. **Coordena√ß√£o de Recursos:** O CPU organiza os recursos do sistema, garantindo que a GPU opere corretamente juntamente com outros componentes.

### üî¢ **N√∫mero de n√∫cleos *GPU vs CPU***
- üéÆ **GPU**: GeForce RTX 4090 (16,384 CUDA cores and 24GB of memory)
- üñ• **CPU:**: AMD Ryzen Threadripper Pro 5995WX (64 cores)

### üìù **Considera√ß√£o importante**

üìå A efici√™ncia de uma GPU √© melhor aproveitada quando ela tem um grande volume de dados para processar. Isso ocorre porque uma GPU √© projetada para realizar muitas opera√ß√µes simples e paralelas ao mesmo tempo. Se a tarefa √© muito pequena ou simples, ent√£o a GPU pode n√£o ter oportunidade de usar todos os seus n√∫cleos de forma eficiente.

üìå Al√©m disso, se a quantidade de dados for pequena, o tempo gasto para transferir esses dados da CPU para a GPU e vice-versa pode ser mais significativo em compara√ß√£o com o tempo realmente gasto no processamento, tornando a opera√ß√£o menos eficiente do que se tivesse sido realizada apenas na CPU.

üìå Portanto, para tarefas com grandes volumes de dados que podem ser processados em paralelo, as GPUs s√£o geralmente muito mais r√°pidas do que as CPUs. Para tarefas menores e menos paraleliz√°veis, a CPU pode ser mais eficiente.

### **Exemplo pr√°tico**

In [None]:
%pip install torch torchvision torchaudio --quiet

In [9]:
import torch
if torch.backends.mps.is_available():
    mps_device = torch.device("mps")
else:
    raise Exception("GPU not found")

In [10]:
mps_device

device(type='mps')

#### Opera√ß√£o com matrix grandes

In [11]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(7000,3000, device=mps_device)
    y = torch.rand(7000,3000, device=mps_device)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execu√ß√£o: {elapsed_time} segundos")

Tempo de execu√ß√£o: 33.03488802909851 segundos


In [12]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(7000,3000)
    y = torch.rand(7000,3000)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execu√ß√£o: {elapsed_time} segundos")

Tempo de execu√ß√£o: 53.21458578109741 segundos


#### Opera√ß√£o com tensores pequenos

In [13]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(70,30, device=mps_device)
    y = torch.rand(70,30, device=mps_device)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execu√ß√£o: {elapsed_time} segundos")

Tempo de execu√ß√£o: 0.09651398658752441 segundos


In [14]:
import torch
import time

start_time = time.time()

for i in range(100):
    x = torch.rand(70,30)
    y = torch.rand(70,30)

    r = x @ y.T
    r.sum()

end_time = time.time()
elapsed_time = end_time - start_time

print(f"Tempo de execu√ß√£o: {elapsed_time} segundos")

Tempo de execu√ß√£o: 0.00587916374206543 segundos


### üìö **Bibliotecas de desenvolvimento para GPU**
- **CUDA** (NVIDEA)
- **Metal** (Apple)
- **ROCm** (AMD)

### **Unidade de processamento de tensores - TPU**
- TPUs como um processador de matriz especializado em cargas de trabalho de redes neurais.
- Em vez de fazer c√°lculos simples, como somar ou subtrair, ela √© projetada para fazer muitas multiplica√ß√µes de uma vez.
- Elas podem processar opera√ß√µes de matriz maci√ßa, usadas em redes neurais em velocidades r√°pidas.
- O ecossistema √© mais limitado, embora TensorFlow e alguns outros frameworks suportem TPUs.
## **Quando escolher entre CPU, GPU e TPU**

A escolha entre CPU, GPU e TPU para treinar uma rede neural depende de v√°rios fatores, incluindo o tamanho e a complexidade do modelo, a quantidade de dados, o or√ßamento, o tempo dispon√≠vel e as especificidades da tarefa. Vamos discutir os cen√°rios em que cada um deles seria apropriado:

- **CPU:** Para modelos pequenos, prototipagem r√°pida, ou quando voc√™ est√° apenas come√ßando
- **GPU:** Para treinamento de redes neurais de m√©dio a grande porte.
- **TPU:** Para treinamento de redes neurais de grande escala, como modelos de linguagem com bilh√µes de par√¢metros.

## Refer√™ncias

- https://researchcomputing.princeton.edu/support/knowledge-base/gpu-computing
- https://cloud.google.com/tpu/docs/intro-to-tpu?hl=pt-br