# **Introdução ao CuPy: Continuação**
Esse documento serve como uma continuação à discussão iniciada na [Aula sobre Programação em GPU com CuPy](https://docs.google.com/document/d/19IQpXYaSxXlUSM9tGaO_LjyKNaq3c3bNYxiKSRTaSw0/edit?usp=sharing) (abre em nova guia). Antes de iniciar a apresentação do tema, cabe destacar algumas observações:

- O Colab (versão gratuita) permite a alocação de um único ambiente de execução virtual simultâneo. Cada ambiente pode alocar uma máquina com uma CPU, ou uma GPU;

  **A execução dos exemplos que utilizam o CuPy necessitam da alocação de uma máquina com GPU como acelerador de hardware. Sendo assim, recomenda-se alterar o ambiente de execução, que por padrão usa a CPU como acelerador, para utilizar a GPU.**

  Obs. A configuração necessária pode ser efetuada seguindo os menus "Ambiente de execução" > "Alterar o tipo de ambiente de execução" e marcar a opção de GPU para "Acelerador de hardware".

- O Colab já suporta a biblioteca CuPy, logo, sua instalação não é discutida. Caso seja necessário configurar uma máquina fora da plataforma, recomenda-se a leitura de [18];

- O assunto é discutido na forma de exemplos práticos. Cada um possui trechos de código Python e seus respectivos resultados de execução;

- Para facilitar, cada exemplo é propositalmente encapsulado com todos os comandos necessários para sua execução. Assim, não é preciso sequencialmente executar os trechos de código apresentados;

- Caso os exemplos sejam re-executados, é possível que resultados ligeiramente sejam obtidos; não é possível garantir a alocação de máquinas com o mesmo estado da utilizada para elaboração do material. Além disso, existem os aspectos da latência de rede e a carga das máquinas virtuais em núvem que devem ser observados.


## Exemplo 00: Ambiente de execução

Antes de iniciar a apresentação de exemplos usando CuPy é interessante destacar as configurações do ambiente de execução atual, como Informações de hardware e a versão da linguagem Python (e das bibliotecas utilizadas).

In [None]:
# Exibir a versão do Python
!python --version

Python 3.10.12


In [None]:
# Exibir as versões das bibliotecas NumPy e CuPy
import numpy as np
import cupy as cp

print(f"Versão do NumPy: {np.__version__}")
print(f"Versão do CuPy: {cp.__version__}")

Versão do NumPy: 1.23.5
Versão do CuPy: 11.0.0


Caso o trecho de código anterior apresentar algum erro relacionado ao CuPy, é importante **certificar que a GPU foi devidamente escolhida como acelerador de hardware** (conforme mencionado no texto introdutório).

In [None]:
# Exibir informações sobre a GPU disponível
!nvidia-smi

Thu Nov 23 22:40:41 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   51C    P8     9W /  70W |      0MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

Como resultados da execução anterior são obtidas informações como o modelo da GPU, seus drivers, versão do CUDA e dados sobre possíveis processamentos.

## Exemplo 01: Arrays NumPy e CuPy
Esse exemplo tem como objetivo apresentar a estrutura de dados básica da biblioteca CuPy. Para comparação, a mesma apresentação é feita com a biblioteca NumPy.

In [None]:
# Importando as bibliotecas
import numpy as np
import cupy as cp

# Criando arrays NumPy - processados pela CPU - a partir de uma lista Python
x_cpu = np.array([1, 2, 3, 4, 5])
y_cpu = np.array([1, 2, 3, 4, 5])

# Criando arrays CuPy - Processados pela GPU - a partir de uma lista Python
x_gpu = cp.array([1, 2, 3, 4, 5])
y_gpu = cp.array([1, 2, 3, 4, 5])

Primeiramente, percebe-se que ambos os casos possuem uma definição similar. A diferença está no fato de que ao criar um array em CuPy, os dados são alocados na GPU [19].

O NumPy e o CuPy implementam diversas funcionalidades para operar sobre o objeto array. As implementações em CuPy seguem um subconjunto do API do NumPy, isto é, alguns métodos e funções vistas em NumPy são também observadas em CuPy. A API completa do CuPy está disponível em [20] e os próximos exemplos exploram algumas de suas operações.

Finalizando o exemplo, ao executar o comando para obter informações da GPU novamente, destaca-se o incremento na memória utilizada; explicitando que os arrays CuPy foram transferidos para a placa de vídeo.

In [None]:
!nvidia-smi

Thu Nov 23 22:40:48 2023       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 525.105.17   Driver Version: 525.105.17   CUDA Version: 12.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|   0  Tesla T4            Off  | 00000000:00:04.0 Off |                    0 |
| N/A   51C    P0    26W /  70W |    131MiB / 15360MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Proces

## Exemplo 02: Operações básicas em CuPy
O objetivo desse exemplo é apresentar algumas operações simples que podem ser executadas com a estrutura de dados do CuPy.

In [None]:
import cupy as cp

# Criando arrays para exemplo
x = cp.array([1, 3, 5, 7, 9])
y = cp.array([2, 4, 6, 8, 10])

# Operações aritméticas simples
print(f"x+10: {x+10}")
print(f"10*x: {10*x}")
print(f"x+y: {x+y}")
print(f"x-y: {x-y}")
print(f"x*y: {x*y}")
print(f"x/y: {x/y}")

# Acesso indexado de itens
print(f"Acessando x[1]: {x[1]}")

Operações aritméticas simples
[11 13 15 17 19]
[10 30 50 70 90]
[ 3  7 11 15 19]
[-1 -1 -1 -1 -1]
[ 2 12 30 56 90]
[0.5        0.75       0.83333333 0.875      0.9       ]


Os arrays em CuPy são similares ao NumPy; ambos implementam uma estrurua similar aos vetores da matemática. Além de dados arrays unidimensionais, é possível criar estruturas de dados n-dimensionais.

In [None]:
# Criando arrays multidimensionais
x = cp.array([[0,1,2,3],[3,2,1,0]])
y = cp.array([[0,1,2,3],[3,2,1,0]])

# Exemplo de operação nos dados criados
print("x+y:", x+y, sep="\n")

x+y:
[[0 2 4 6]
 [6 4 2 0]]


## Exemplo 03: Métodos e funções CuPy
Esse exemplo apresenta alguns métodos e funções auxiliares úteis para o desenvolvimento de programas numéricos. Em sequência são destacadas operações para criação de dados.

In [None]:
# Criando array multidimensional preenchido por zeros (dados ponto flutuantes).
# Assinatura do método: cupy.zeros(shape, dtype=<class 'float'>, order='C').
matriz_nula = cp.zeros((3,3))
print("Matriz nula: ", matriz_nula, sep="\n")

# Criando array multidimensional preenchido por uns (dados ponto flutuantes).
# Assinatura do método: cupy.zeros(shape, dtype=<class 'float'>, order='C').
matriz_um = cp.ones((3,3))
print("Matriz de uns: ", matriz_um, sep="\n")

# Criando matriz identidade de ordem n
# Assinatura do método:  cupy.identity(n, dtype=<class 'float'>).
identidade = cp.identity(3)
print("Matriz identidade: ", identidade, sep="\n")

# Criando vetor em intervalo de dados [start,stop]
# Assinatura do método:  cupy.arange(start, stop=None, step=1, dtype=None)
vetor = cp.arange(0,10,dtype=float)
print("Vetor: ", vetor, sep="\n")
print()

# Exemplos de funções matemáticas
print(f"cos(vetor):\n {cp.cos(vetor)}")
print(f"sin(vetor[0]):\n {cp.sin(vetor[0])}")
print(f"sqrt(vetor):\n {cp.sqrt(vetor)}")

Matriz nula: 
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
Matriz de uns: 
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
Matriz identidade: 
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
Vetor: 
[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]

cos(vetor):
 [ 1.          0.54030231 -0.41614684 -0.9899925  -0.65364362  0.28366219
  0.96017029  0.75390225 -0.14550003 -0.91113026]
sin(vetor[0]):
 0.0
sqrt(vetor):
 [0.         1.         1.41421356 1.73205081 2.         2.23606798
 2.44948974 2.64575131 2.82842712 3.        ]


## Exemplo 04: Multiplicação de Matrizes
Como o NumPy é uma biblioteca focada para computação científica e numérica, diversos métodos prontos de operações em matrizes já são nativamente implementados. O CuPy por seguir a API do NumPy traz os mesmos recursos. Em sequência apresenta-se um exemplo de multiplicação entre duas matrizes.

In [None]:
import cupy as cp

# Configurando um gerador de números aleatórios (na verdade, pseudo-aleatórios...)
prng = cp.random.RandomState(1234567890)

# Criando matrizes 3x3 com valores aleatórios (inteiros)
matrizA = prng.randint(0, 10, (3,3))
matrizB = prng.randint(0, 10, (3,3))

print("Matriz A: ", matrizA, sep="\n", end="\n\n")
print("Matriz B: ", matrizB, sep="\n", end="\n\n")
print()

# Criando matrizes 3x3 com valores aleatórios (float de 64 bits)
matrizC = prng.rand(3,3,dtype=cp.float64)
matrizD = prng.rand(3,3,dtype=cp.float64)

print("Matriz C: ", matrizC, sep="\n", end="\n\n")
print("Matriz D: ", matrizD, sep="\n", end="\n\n")
print()

# Criando uma matriz identidade (dados inteiros)
matrizI_int = cp.identity(3, dtype=int)

# Criando uma matriz identidade (dados float de 64 bits)
matrizI_float = cp.identity(3, dtype=cp.float64)

# Realizando a multiplicação de matrizes (função dot())
print("A*I: ", cp.dot(matrizA, matrizI_int), sep="\n", end="\n\n")
print("A*B: ", cp.dot(matrizA, matrizB), sep="\n", end="\n\n")
print()
print("C*I: ", cp.dot(matrizA, matrizI_float), sep="\n", end="\n\n")
print("C*D: ", cp.dot(matrizC, matrizD), sep="\n")

Matriz A: 
[[7 0 9]
 [9 0 9]
 [0 8 5]]

Matriz B: 
[[7 3 5]
 [1 4 4]
 [7 8 1]]


Matriz C: 
[[0.75813701 0.75667375 0.19768611]
 [0.31704807 0.70806868 0.40827932]
 [0.49842092 0.94124336 0.31793853]]

Matriz D: 
[[0.52774489 0.74223001 0.51045686]
 [0.36427102 0.14882728 0.16334185]
 [0.8686915  0.76484707 0.2901141 ]]


A*I: 
[[7 0 9]
 [9 0 9]
 [0 8 5]]

A*B: 
[[112  93  44]
 [126  99  54]
 [ 43  72  37]]


C*I: 
[[7. 0. 9.]
 [9. 0. 9.]
 [0. 8. 5.]]

C*D: 
[[0.84746549 0.82652538 0.56794425]
 [0.77991818 0.65297378 0.3959442 ]
 [0.88209727 0.75320001 0.50040526]]


## Exemplo 05: Transferência/Conversão de dados entre CPU e GPU
Podem existir problemas ou ocasiões em que seja interessante a computação heterogênea; programação em CPU e GPU (ou outras arquiteturas) simultâneamente. Para isso, é necessário ser capaz de transferir e converter os dados entre os dispositivos. No caso do NumPy e do CuPy existem funções prontas para isso.

In [None]:
import numpy as np
import cupy as cp

# Criando array NumPy - Processado pela CPU
x = np.array([1, 2, 3, 4, 5])

# Criando array CuPy - Processado pela GPU
y = cp.array([1, 2, 3, 4, 5])

# Convertendo (implicitamente realizando uma operação de transferência entre os dispositivos) da CPU para GPU
x_gpu = cp.asarray(x)

# A operação contrária não é tão direta. É necessário explicitamente requerer uma cópia do dado na GPU (método get())
y_cpu = np.asarray(y.get())

## Concluindo
Os exemplos apresentados são um breve panorama da biblioteca CuPy. Existem diversos tópicos interessantes (e necessários) para extrair o potêncial de programação da GPU; alguns desses conceitos são:

- *Current Devices:* É possível realizar a programação multi-GPU (várias GPU's) de uma vez. Com CuPy é possível gerenciar e programar os dispositivos para que atuem conjuntamente. Infelizmente, não é possível explorar o tema no Google Colab (gratuito), pois a plataforma oferece uma única GPU para o ambiente de execução;

- *Current Stream:* Relembrando, um gargalo crucial do processamento em GPUs são as operações transferência de dados entre o dispositivo e a memória principal. Para evitar demasiadas operações de transferências e otimizar o uso de GPU's o CuPy oferece funcionalidades para manipulação de *streams* (canais/fluxos) de comunicação;

- *Gerenciamento de Memória:* Além de otimizar o processo de transferência de dados, é importante gerenciar a memória do dispositvo. Para esse propósito são oferecidas funcionalidades de gerenciamento de memória; Limitação de memória, alocação e desalocação de blocos, *Pool* de Memória etc. são conceitos explorados pelo CuPy.

Antecipando o próximo tópico do material principal, os conceitos supramencionados são inicialmente discutidos em [19] e são deixados como sugestões de leituras.

Existem outros temas para exploração, porém eles são mais complexos. O CuPy permite a programação dos *user-defined kernels* para o CUDA; códigos escritos pelo programador na linguagem especifica do CUDA para programação customizada da GPU. A compreensão desse tema necessita o aprofundamento na arquitetura do CUDA e placas de vídeo modernas, algo que não é escopo do material.


## Gabarito Exercício 4.
Em sequência são apresentados os códigos para o exercício 6., especificado no documento principal. É interessante evitar olhar os códigos sem antes realizar a leitura completa do material.

Obs. É possível ocultar as células de código pressionando a seta no canto esquerdo da célula de texto.

Primeiramente, antes do experimento é apresentada a informação que comprova que a biblioteca NumPy disponível foi compilada com BLAS (ou uma especificação similar). Na execução abaixo, percebe-se que foi utilizada uma implementação livre; o OpenBLAS.

In [None]:
import numpy as np
np.__config__.show()

openblas64__info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None), ('BLAS_SYMBOL_SUFFIX', '64_'), ('HAVE_BLAS_ILP64', None)]
    runtime_library_dirs = ['/usr/local/lib']
blas_ilp64_opt_info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None), ('BLAS_SYMBOL_SUFFIX', '64_'), ('HAVE_BLAS_ILP64', None)]
    runtime_library_dirs = ['/usr/local/lib']
openblas64__lapack_info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None), ('BLAS_SYMBOL_SUFFIX', '64_'), ('HAVE_BLAS_ILP64', None), ('HAVE_LAPACKE', None)]
    runtime_library_dirs = ['/usr/local/lib']
lapack_ilp64_opt_info:
    libraries = ['openblas64_', 'openblas64_']
    library_dirs = ['/usr/local/lib']
    language = c
    define_macros = [('HAVE_CBLAS', None

In [None]:
import numpy as np

### Resultados com CPU
# Inicializando um gerenciador de núemros pseudo-aleatórios
prng_cpu = np.random.RandomState(0)

# Criando matrizes de ordem 128 com valores aleatórios
mA = prng_cpu.rand(128,128)
mB = prng_cpu.rand(128,128)

# Criando matrizes de ordem 1024 com valores aleatórios
mC = prng_cpu.rand(1024,1024)
mD = prng_cpu.rand(1024,1024)

# Criando matrizes de ordem 8192 com valores aleatórios
mE = prng_cpu.rand(8192,8192)
mF = prng_cpu.rand(8192,8192)

# Executando as multiplicações e mensurando o tempo de execução
%timeit -n 10 -r 1 resultado_gpu_100 = np.dot(mA,mB)
%timeit -n 10 -r 1 resultado_gpu_100 = np.dot(mC,mD)
%timeit -n 10 -r 1 resultado_gpu_100 = np.dot(mE,mF)

611 µs ± 0 ns per loop (mean ± std. dev. of 1 run, 10 loops each)
66.2 ms ± 0 ns per loop (mean ± std. dev. of 1 run, 10 loops each)
33.9 s ± 0 ns per loop (mean ± std. dev. of 1 run, 10 loops each)


In [None]:
import cupy as cp
### Resultados com GPU

# Copiando matrizes de ordem 100 com valores aleatórios
mAg = cp.asarray(mA)
mBg = cp.asarray(mB)

# Copiando matrizes de ordem 1000 com valores aleatórios
mCg = cp.asarray(mC)
mDg = cp.asarray(mD)

# Copiando matrizes de ordem 10000 com valores aleatórios
mEg = cp.asarray(mE)
mFg = cp.asarray(mF)

# Executando as multiplicações e mensurando o tempo de execução
%timeit -n 10 -r 1 resultado_gpu_100 = np.dot(mAg,mBg)
%timeit -n 10 -r 1 resultado_gpu_100 = np.dot(mCg,mDg)
%timeit -n 10 -r 1 resultado_gpu_100 = np.dot(mEg,mFg)

49.2 µs ± 0 ns per loop (mean ± std. dev. of 1 run, 10 loops each)
103 µs ± 0 ns per loop (mean ± std. dev. of 1 run, 10 loops each)
179 µs ± 0 ns per loop (mean ± std. dev. of 1 run, 10 loops each)


Primeiramente é perceptível que conforme maior a matriz, maior é o tempo de usuário necessário pela operação de multiplicação (em ambos os casos). Todavia, o que surpreende é a diferença de tempo entre CPU e GPU. Em todos os casos a GPU foi mais eficiente.

Outro aspecto notável é a diferença de incremento no tempo entre matrizes de diferentes ordens. A CPU que iníciou com tempo de microsegundos, necessitou de 33 segundos para a matriz de maior ordem. Já a GPU manteve uma ordem de grandeza de microssegundos para todos os casos.

Uma justificativa para essa observação é o foco no paralelismo de dados da GPU em relação ao paralelismo de instrução da CPU. Portanto, o hardware gráfico consegue distribuir com uma maior facilidade o processamento de mesmas instruções (operação de multiplicação) para uma grande quantidade de dados.

Por fim, é importante também notar que os resultados são dependentes das características dos hardwares. Em sequência são apresentadas informações sobre a CPU e a GPU utilizadas. Uma CPU melhor possivelmente resultará em melhores resultados, todavia, ainda assim, a GPU teria uma vantagem, pois o problema de multiplicação de matriz é melhor explorado pela arquitetura desse hardware.



In [None]:
!lscpu

Architecture:            x86_64
  CPU op-mode(s):        32-bit, 64-bit
  Address sizes:         46 bits physical, 48 bits virtual
  Byte Order:            Little Endian
CPU(s):                  2
  On-line CPU(s) list:   0,1
Vendor ID:               GenuineIntel
  Model name:            Intel(R) Xeon(R) CPU @ 2.20GHz
    CPU family:          6
    Model:               79
    Thread(s) per core:  2
    Core(s) per socket:  1
    Socket(s):           1
    Stepping:            0
    BogoMIPS:            4399.99
    Flags:               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clf
                         lush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_
                         good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fm
                         a cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand hyp
                         ervisor lahf_lm abm 3dnowprefetch invpcid_single ssbd i

In [None]:
!nvidia-smi -q



Timestamp                                 : Thu Nov 30 13:21:16 2023
Driver Version                            : 525.105.17
CUDA Version                              : 12.0

Attached GPUs                             : 1
GPU 00000000:00:04.0
    Product Name                          : Tesla T4
    Product Brand                         : NVIDIA
    Product Architecture                  : Turing
    Display Mode                          : Enabled
    Display Active                        : Disabled
    Persistence Mode                      : Disabled
    MIG Mode
        Current                           : N/A
        Pending                           : N/A
    Accounting Mode                       : Disabled
    Accounting Mode Buffer Size           : 4000
    Driver Model
        Current                           : N/A
        Pending                           : N/A
    Serial Number                         : 0324218085922
    GPU UUID                              : GPU-39fd9385-bb47-

## Gabarito Exercício 5.
Código adaptado de [24].

In [None]:
import cupy as cp

# Definição do kernel
custom_kernel = cp.ElementwiseKernel(
   'float32 x, float32 y',
   'float32 z',
   'z = (x*y)*(x*y)*(x*y)',
   'custom_kernel'
)

prng = cp.random.RandomState(1234567890)

v1 = prng.rand(1024,1,dtype=cp.float32)
v2 = prng.rand(1024,1,dtype=cp.float32)

v3 = custom_kernel(v1,v2)

print(v1[:5], v2[:5], v3[:5], sep="\n")



[[0.78493947]
 [0.7804313 ]
 [0.5672438 ]
 [0.55162865]
 [0.8867529 ]]
[[0.15247466]
 [0.34331006]
 [0.05578661]
 [0.48251626]
 [0.5565992 ]]
[[1.71435799e-03]
 [1.92337353e-02]
 [3.16883197e-05]
 [1.88571587e-02]
 [1.20236285e-01]]
