In [37]:
using CUDA, LinearAlgebra, CUDA.CUSPARSE, CUDA.CUBLAS, SparseArrays, BenchmarkTools

In [38]:
function proj_CPU(p₀, u, β)
    return  p₀ .- ((dot(u, p₀)- β)/dot(u, u)).*u
end

proj_CPU (generic function with 1 method)

In [39]:
n = Int32(2^20)
X = CUDA.rand(n)
Y = CUDA.rand(n)
x = Array(X)
y = Array(Y)
β = Float32(1.0)


1.0f0

In [42]:
@benchmark proj_CPU(x, y, β)

BenchmarkTools.Trial: 3014 samples with 1 evaluation.
 Range [90m([39m[36m[1mmin[22m[39m … [35mmax[39m[90m):  [39m[36m[1m1.084 ms[22m[39m … [35m  4.372 ms[39m  [90m┊[39m GC [90m([39mmin … max[90m): [39m 0.00% … 37.48%
 Time  [90m([39m[34m[1mmedian[22m[39m[90m):     [39m[34m[1m1.119 ms               [22m[39m[90m┊[39m GC [90m([39mmedian[90m):    [39m 0.00%
 Time  [90m([39m[32m[1mmean[22m[39m ± [32mσ[39m[90m):   [39m[32m[1m1.643 ms[22m[39m ± [32m798.618 μs[39m  [90m┊[39m GC [90m([39mmean ± σ[90m):  [39m10.84% ± 16.15%

  [39m█[34m▄[39m[39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [32m [39m[39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m▂[39m▅[39m▄[39m▂[39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m▂[39m▃[39m▁[39m [39m 
  [39m█[34m█[39m[39m█[39m▅[39m▅

In [47]:
@benchmark proj_CPU(X,Y, β)

BenchmarkTools.Trial: 10000 samples with 1 evaluation.
 Range [90m([39m[36m[1mmin[22m[39m … [35mmax[39m[90m):  [39m[36m[1m314.234 μs[22m[39m … [35m46.256 ms[39m  [90m┊[39m GC [90m([39mmin … max[90m): [39m0.00% … 0.00%
 Time  [90m([39m[34m[1mmedian[22m[39m[90m):     [39m[34m[1m395.325 μs              [22m[39m[90m┊[39m GC [90m([39mmedian[90m):    [39m0.00%
 Time  [90m([39m[32m[1mmean[22m[39m ± [32mσ[39m[90m):   [39m[32m[1m485.002 μs[22m[39m ± [32m 1.836 ms[39m  [90m┊[39m GC [90m([39mmean ± σ[90m):  [39m0.57% ± 2.23%

  [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m▄[39m▅[39m▇[39m█[34m█[39m[39m▅[39m▁[39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m [39m▂[39m▂[39m▂[39m▁[39m [39m [32m [39m[39m▁[39m▂[39m▃[39m▃[39m▂[39m▁[39m [39m [39m▂
  [39m▃[39m▁[39m▁[39m▁[39m▁

In [19]:
using Cthulhu
@device_code_warntype interactive=true @cuda proj_GPU(X,Y, β, n)

PTX CompilerJob of kernel proj_GPU(CuDeviceVector{Float32, 1}, CuDeviceVector{Float32, 1}, Float32, Int32) for sm_61


│ ─ %-1  = invoke proj_GPU(::CuDeviceVector{Float32, 1},::CuDeviceVector{Float32, 1},::Float32,::Int32)::Union{}
Variables
  #self#[36m::Core.Const(proj_GPU)[39m
  p₀[36m::CuDeviceVector{Float32, 1}[39m
  u[36m::CuDeviceVector{Float32, 1}[39m
  β[36m::Float32[39m
  n[36m::Int32[39m

Body[36m::Union{}[39m
   [33m @ In[4]:2 within `proj_GPU'[39m
[90m1 ─[39m     (CUDA.CUBLAS.dot)(n, u, p₀)
[90m└──[39m     unreachable



In [49]:
CUDA.reclaim() #LIMPA A MEMORIA DA GPU
CUDA.memory_status()  #DIZ A QUANTIDADE DE MEMÓRIA LIVRE NA GPU

Effective GPU memory usage: 17.85% (721.188 MiB/3.945 GiB)
CUDA allocator usage: 78.148 MiB
Memory pool usage: 78.148 MiB (78.148 MiB allocated, 0 bytes cached)


In [34]:
function reflexao(p₀, u, β)
    return  2 .*proj_GPU(p₀, u, β) .- p₀
end

reflexao (generic function with 1 method)

In [None]:
function reflexao_simultanea(xₖ, A, b, n, r)
    rₖ = CUDA.zeros(r)
      for i=1:n
         rₖ .+= reflexao(xₖ, A[i,:], b[i])
    end
    return rₖ./n
end

reflexao_simultanea (generic function with 1 method)

In [None]:
#rₖ = Vector{Float32}(undef, 1_000) #Aloca uma memória para um vetor de tamanho 1_000 na GPU

In [None]:
#CuArray{Int}(undef, 2) - cria um array em pé de 2 entradas

In [None]:
#CuArray{Int}(undef, (1,2))- cria um array deitado de 2 entradas

In [None]:
#fill!(rₖ, 0.) #Atribui a memória alocada um vetor cujas etradas são todas nulas

In [None]:
#@sync - pausa as tarefas da CPU até as tarefas da GPU dentro do Bloco serem concluídas

In [None]:
#@btime nome da função - mede o tempo como benchmarktools

In [None]:
#@cuprintln("thread $index, block $stride") - imprime

In [None]:
#synchronize() - sincroniza a GPU, necessário usar com o @cuprint()

In [None]:
#broadcast - Faz operções com elementos que não possuem a mesma dimensão como somar um vetor 
#nas colunas de uma matriz por exemplo, com strings faz concatenação

In [None]:
#map(f, c) -> coleção -Transformar a colecção c através da aplicação de f a cada elemento. Para múltiplos
#argumentos de recolha, aplicar f elemento a elemento. Ex: aplica uma função nas entradas de um vetor,
#opera com vetores de mesmo tamanho.

In [None]:
#a = reshape(Vector(1:16), (4,4)) # cria o vetor de 1 até 16 depois transforma numa matriz 4x4 por colunas

#reduce(max, a, dims=2) -verifica qual o vetor de maior valores na matriz e devolve somente este vetor 
#em forma de matriz em pé

#reduce(max, a, dims=1)- verifica qual o vetor de maior valores na matriz e devolve somente este vetor 
#em forma de matriz deitada

In [None]:
#reduce(*, [2; 3; 4]) devolve a multiplicação das entradas do vetor considerando o elemento neutro da 
#multiplicação como sendo 1

#reduce(*, [2; 3; 4]; init=-1)devolve a multiplicação das entradas do vetor considerando o elemento neutro da 
#multiplicação como sendo -1

In [None]:
#tamanho = length(a)/1024 - em que 1024 é o numero de threads
#@cuda threads=length(a)/tamanho função(a)  - Faz a divisão para as threads

In [None]:
#a = CuArray([1,2]) - array na GPU
#b = Array(a) - array na CPU
#copyto!(b, a) - aloca b na GPU no lugar de a

In [None]:
#SparseArrays em cuda
A1 = sprand(10,10,0.2) #cria matriz espasa 10x10 com esparcidade 0.8 e distribuição normal

10×10 SparseMatrixCSC{Float64, Int64} with 18 stored entries:
  ⋅          ⋅         ⋅        …   ⋅         ⋅         ⋅         ⋅ 
  ⋅          ⋅         ⋅           0.27646    ⋅         ⋅         ⋅ 
 0.0930857   ⋅         ⋅            ⋅         ⋅         ⋅         ⋅ 
  ⋅          ⋅        0.254801      ⋅        0.878417   ⋅         ⋅ 
  ⋅          ⋅        0.769543      ⋅         ⋅         ⋅         ⋅ 
  ⋅          ⋅        0.567103  …  0.212777   ⋅         ⋅         ⋅ 
  ⋅          ⋅         ⋅           0.614005  0.07659    ⋅         ⋅ 
  ⋅         0.420396   ⋅            ⋅         ⋅         ⋅         ⋅ 
  ⋅          ⋅         ⋅            ⋅         ⋅         ⋅         ⋅ 
  ⋅          ⋅        0.383552      ⋅         ⋅        0.995818   ⋅ 

In [None]:
x1 = sprand(10,0.2) #cria vetor esparço 10x1 com distribuição normal e esparsidade 0.8

10-element SparseVector{Float64, Int64} with 2 stored entries:
  [7 ]  =  0.385573
  [8 ]  =  0.243255

In [None]:
 x(x)