Installing (updating) the following libraries for your Sagemaker
instance.

In [None]:
!pip install -U mxnet-cu101==1.7.0


# GPUs
:label:`sec_use_gpu`

Em :numref:`tab_intro_decade`, discutimos o rápido crescimento
de computação nas últimas duas décadas.
Em suma, o desempenho da GPU aumentou
por um fator de 1000 a cada década desde 2000.
Isso oferece ótimas oportunidades, mas também sugere
uma necessidade significativa de fornecer tal desempenho.

Nesta seção, começamos a discutir como aproveitar
este desempenho computacional para sua pesquisa.
Primeiro usando GPUs únicas e, posteriormente,
como usar várias GPUs e vários servidores (com várias GPUs).

Especificamente, discutiremos como
para usar uma única GPU NVIDIA para cálculos.
Primeiro, certifique-se de ter pelo menos uma GPU NVIDIA instalada.
Em seguida, baixe o [NVIDIA driver e CUDA](https://developer.nvidia.com/cuda-downloads).
e siga as instruções para definir o caminho apropriado.
Assim que esses preparativos forem concluídos,
o comando `nvidia-smi` pode ser usado
para ver as informações da placa gráfica.


In [1]:
!nvidia-smi

Sat Dec 11 05:38:38 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 418.67       Driver Version: 418.67       CUDA Version: 10.1     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|   0  Tesla V100-SXM2...  Off  | 00000000:00:1B.0 Off |                    0 |
| N/A   37C    P0    36W / 300W |     11MiB / 16130MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+


|   1  Tesla V100-SXM2...  Off  | 00000000:00:1C.0 Off |                    0 |
| N/A   37C    P0    36W / 300W |     11MiB / 16130MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla V100-SXM2...  Off  | 00000000:00:1D.0 Off |                    0 |
| N/A   40C    P0    54W / 300W |    376MiB / 16130MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla V100-SXM2...  Off  | 00000000:00:1E.0 Off |                    0 |
| N/A   36C    P0    39W / 300W |     11MiB / 16130MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Pr

Você deve ter notado que um tensor MXNet
parece quase idêntico a um NumPy `ndarray`.
Mas existem algumas diferenças cruciais.
Um dos principais recursos que distinguem o MXNet
da NumPy é o seu suporte para diversos dispositivos de hardware.

No MXNet, cada array possui um contexto.
Até agora, por padrão, todas as variáveis
e computação associada
foram atribuídos à CPU.
Normalmente, outros contextos podem ser várias GPUs.
As coisas podem ficar ainda mais complicadas quando
nós implantamos trabalhos em vários servidores.
Ao atribuir matrizes a contextos de forma inteligente,
podemos minimizar o tempo gasto
transferência de dados entre dispositivos.
Por exemplo, ao treinar redes neurais em um servidor com uma GPU,
normalmente preferimos que os parâmetros do modelo residam na GPU.

Em seguida, precisamos confirmar que
a versão GPU do MXNet está instalada.
Se uma versão de CPU do MXNet já estiver instalada,
precisamos desinstalá-lo primeiro.
Por exemplo, use o comando `pip uninstall mxnet`,
em seguida, instale a versão MXNet correspondente
de acordo com sua versão CUDA.
Supondo que você tenha o CUDA 10.0 instalado,
você pode instalar a versão MXNet
que suporta CUDA 10.0 via `pip install mxnet-cu100`.


Para executar os programas desta seção,
você precisa de pelo menos duas GPUs.
Observe que isso pode ser extravagante para a maioria dos computadores desktop
mas está facilmente disponível na nuvem, por exemplo,
usando as instâncias multi-GPU do AWS EC2.
Quase todas as outras seções * não * requerem várias GPUs.
Em vez disso, isso é simplesmente para ilustrar
como os dados fluem entre diferentes dispositivos.

## Dispositivos Computacionais

Podemos especificar dispositivos, como CPUs e GPUs,
para armazenamento e cálculo.
Por padrão, os tensores são criados na memória principal
e, em seguida, use a CPU para calculá-lo.


No MXNet, a CPU e a GPU podem ser indicadas por `cpu ()` e `gpu()`.
Deve-se notar que `cpu()`
(ou qualquer número inteiro entre parênteses)
significa todas as CPUs físicas e memória.
Isso significa que os cálculos do MXNet
tentará usar todos os núcleos da CPU.
No entanto, `gpu()` representa apenas uma carta
e a memória correspondente.
Se houver várias GPUs, usamos `gpu(i)`
para representar a $i^\mathrm{th}$ GPU ($i$ começa em 0).
Além disso, `gpu(0)` e `gpu()` são equivalentes.


In [2]:
from mxnet import np, npx
from mxnet.gluon import nn

npx.set_np()

npx.cpu(), npx.gpu(), npx.gpu(1)

(cpu(0), gpu(0), gpu(1))

Podemos consultar o número de GPUs disponíveis.


In [3]:
npx.num_gpus()

2

Agora definimos duas funções convenientes que nos permitem
para executar o código mesmo que as GPUs solicitadas não existam.


In [4]:
def try_gpu(i=0):  #@save
    """Return gpu(i) if exists, otherwise return cpu()."""
    return npx.gpu(i) if npx.num_gpus() >= i + 1 else npx.cpu()

def try_all_gpus():  #@save
    """Return all available GPUs, or [cpu()] if no GPU exists."""
    devices = [npx.gpu(i) for i in range(npx.num_gpus())]
    return devices if devices else [npx.cpu()]

try_gpu(), try_gpu(10), try_all_gpus()

(gpu(0), cpu(0), [gpu(0), gpu(1)])

## Tensores e GPUs

Por padrão, tensores são criados na CPU.
Podemos consultar o dispositivo onde o tensor está localizado.


In [5]:
x = np.array([1, 2, 3])
x.ctx

cpu(0)

É importante notar que sempre que quisermos
para operar em vários termos,
eles precisam estar no mesmo dispositivo.
Por exemplo, se somarmos dois tensores,
precisamos ter certeza de que ambos os argumentos
estão no mesmo dispositivo --- caso contrário, a estrutura
não saberia onde armazenar o resultado
ou mesmo como decidir onde realizar o cálculo.

### Armazenamento na GPU

Existem várias maneiras de armazenar um tensor na GPU.
Por exemplo, podemos especificar um dispositivo de armazenamento ao criar um tensor.
A seguir, criamos a variável tensorial `X` no primeiro `gpu`.
O tensor criado em uma GPU consome apenas a memória desta GPU.
Podemos usar o comando `nvidia-smi` para ver o uso de memória da GPU.
Em geral, precisamos ter certeza de não criar dados que excedam o limite de memória da GPU.


In [6]:
X = np.ones((2, 3), ctx=try_gpu())
X

array([[1., 1., 1.],
       [1., 1., 1.]], ctx=gpu(0))

Supondo que você tenha pelo menos duas GPUs, o código a seguir criará um tensor aleatório na segunda GPU.


In [7]:
Y = np.random.uniform(size=(2, 3), ctx=try_gpu(1))
Y

array([[0.67478997, 0.07540122, 0.9956977 ],
       [0.09488854, 0.415456  , 0.11231736]], ctx=gpu(1))

### Copiando

Se quisermos calcular `X + Y`,
precisamos decidir onde realizar esta operação.
Por exemplo, como mostrado em :numref:`fig_copyto`,
podemos transferir `X` para a segunda GPU
e realizar a operação lá.
*Não* simplesmente adicione `X` e` Y`,
pois isso resultará em uma exceção.
O mecanismo de tempo de execução não saberia o que fazer:
ele não consegue encontrar dados no mesmo dispositivo e falha.
Já que `Y` vive na segunda GPU,
precisamos mover `X` para lá antes de podermos adicionar os dois.

![Copiar dados para realizar uma operação no mesmo dispositivo.](../img/copyto.svg)
:label:`fig_copyto`


In [8]:
Z = X.copyto(try_gpu(1))
print(X)
print(Z)

[[1. 1. 1.]
 [1. 1. 1.]] @gpu(0)
[[1. 1. 1.]
 [1. 1. 1.]] @gpu(1)


Agora que os dados estão na mesma GPU
(ambos são `Z` e` Y`),
podemos somá-los.


In [9]:
Y + Z

array([[1.6747899, 1.0754012, 1.9956977],
       [1.0948886, 1.415456 , 1.1123173]], ctx=gpu(1))

Imagine que sua variável `Z` já esteja em sua segunda GPU.
O que acontece se ainda chamarmos `Z.copyto(gpu(1))`?
Ele fará uma cópia e alocará nova memória,
mesmo que essa variável já resida no dispositivo desejado.
Há momentos em que, dependendo do ambiente em que nosso código está sendo executado,
duas variáveis podem já estar no mesmo dispositivo.
Então, queremos fazer uma cópia apenas se as variáveis
atualmente vivem em dispositivos diferentes.
Nestes casos, podemos chamar `as_in_ctx`.
Se a variável já estiver viva no dispositivo especificado
então este é um ambiente autônomo.
A menos que você queira especificamente fazer uma cópia,
`as_in_ctx` é o método de escolha.


In [10]:
Z.as_in_ctx(try_gpu(1)) is Z

True

### Informações extra

As pessoas usam GPUs para fazer aprendizado de máquina
porque eles esperam que ela seja rápida.
Mas a transferência de variáveis entre dispositivos é lenta.
Então, queremos que você tenha 100% de certeza
que você deseja fazer algo lento antes de deixá-lo fazer.
Se a estrutura de *Deep Learning* apenas fizesse a cópia automaticamente
sem bater, então você pode não perceber
que você escreveu algum código lento.

Além disso, a transferência de dados entre dispositivos (CPU, GPUs e outras máquinas)
é algo muito mais lento do que a computação.
Também torna a paralelização muito mais difícil,
já que temos que esperar que os dados sejam enviados (ou melhor, para serem recebidos)
antes de prosseguirmos com mais operações.
É por isso que as operações de cópia devem ser realizadas com muito cuidado.
Como regra geral, muitas pequenas operações
são muito piores do que uma grande operação.
Além disso, várias operações ao mesmo tempo
são muito melhores do que muitas operações simples intercaladas no código
a menos que você saiba o que está fazendo.
Este é o caso, uma vez que tais operações podem bloquear se um dispositivo
tem que esperar pelo outro antes de fazer outra coisa.
É um pouco como pedir seu café em uma fila
em vez de pré-encomendá-lo por telefone
e descobrir que ele está pronto quando você estiver.

Por último, quando imprimimos tensores ou convertemos tensores para o formato NumPy,
se os dados não estiverem na memória principal,
o framework irá copiá-lo para a memória principal primeiro,
resultando em sobrecarga de transmissão adicional.
Pior ainda, agora está sujeito ao temido bloqueio de intérprete global
isso faz tudo esperar que o Python seja concluído.


## Redes Neurais e GPUs

Da mesma forma, um modelo de rede neural pode especificar dispositivos.
O código a seguir coloca os parâmetros do modelo na GPU.


In [11]:
net = nn.Sequential()
net.add(nn.Dense(1))
net.initialize(ctx=try_gpu())

Veremos muitos mais exemplos de
como executar modelos em GPUs nos capítulos seguintes,
simplesmente porque eles se tornarão um pouco mais intensivos em termos de computação.

Quando a entrada é um tensor na GPU, o modelo calculará o resultado na mesma GPU.


In [12]:
net(X)

array([[0.04995865],
       [0.04995865]], ctx=gpu(0))

Vamos confirmar se os parâmetros do modelo estão armazenados na mesma GPU.


In [13]:
net[0].weight.data().ctx

gpu(0)

Resumindo, contanto que todos os dados e parâmetros estejam no mesmo dispositivo, podemos aprender modelos com eficiência. Nos próximos capítulos, veremos vários desses exemplos.

## Sumário

* Podemos especificar dispositivos para armazenamento e cálculo, como CPU ou GPU.
   Por padrão, os dados são criados na memória principal
   e então usa-se a CPU para cálculos.
* A estrutura de *Deep Learning* requer todos os dados de entrada para cálculo
   estar no mesmo dispositivo,
   seja CPU ou a mesma GPU.
* Você pode perder um desempenho significativo movendo dados sem cuidado.
   Um erro típico é o seguinte: calcular a perda
   para cada minibatch na GPU e relatando de volta
   para o usuário na linha de comando (ou registrando-o em um NumPy `ndarray`)
   irá disparar um bloqueio global do interpretador que paralisa todas as GPUs.
   É muito melhor alocar memória
   para registrar dentro da GPU e apenas mover registros maiores.

## Exercícios

1. Tente uma tarefa de computação maior, como a multiplicação de grandes matrizes,
    e veja a diferença de velocidade entre a CPU e a GPU.
    Que tal uma tarefa com uma pequena quantidade de cálculos?
1. Como devemos ler e escrever os parâmetros do modelo na GPU?
1. Meça o tempo que leva para calcular 1000
    multiplicações matriz-matriz de $100 \times 100$ matrizes
    e registrar a norma de Frobenius da matriz de saída, um resultado de cada vez
    vs. manter um registro na GPU e transferir apenas o resultado final.
1. Meça quanto tempo leva para realizar duas multiplicações matriz-matriz
    em duas GPUs ao mesmo tempo vs. em sequência
    em uma GPU. Dica: você deve ver uma escala quase linear.


[Discussão](https://discuss.d2l.ai/t/62)


<!--stackedit_data:
eyJoaXN0b3J5IjpbMTM1NzUzMTk4OCwtMTA5NzI3MTAzNiw4MD
c2MDQzNTksLTY3MjIyODU4NF19
-->
