## PARALELISMO E CLUSTER

### TRABALHAR COM CORES
Para adicionar cores utilize:
```julia
addproces(n)
```
Sendo **n** o número de cores que deseja criar as instâncias. Uma boa dica é usar ``addroces()`` dessa forma Julia cria automaticamente o número de cores que melhor se ajusta à máquina.

In [5]:
using Distributed

In [6]:
# visualizar o numero de cores do processador físico
Sys.MACHINE

"x86_64-pc-linux-gnu"

In [7]:
# verificar o número de cores alocados e ID
procs()

1-element Array{Int64,1}:
 1

In [9]:
# adicionar o numero de cores do computador
addprocs()

8-element Array{Int64,1}:
  4
  5
  6
  7
  8
  9
 10
 11

In [10]:
# remover cores rmprocs(ID_CORE)
# para remover mais de um core use rmprocess([vetor_IDCORE])
# Para remover todos os alocados use rmprocs(procs()) 
rmprocs(procs())

└ @ Distributed /buildworker/worker/package_linux64/build/usr/share/julia/stdlib/v1.0/Distributed/src/cluster.jl:932


Task (done) @0x00007f7571068a90

In [11]:
procs()

1-element Array{Int64,1}:
 1

### PARALLEL FOR E  PARALLEL MAP

Um loop for com um grande número de iterações e compreensões de lista, são melhores desempenhados com execução paralela através  da macro `@parallel`. Sintaxe:
```julia
@parallel (operador) for var = range
    instruções
end
```

In [14]:
using BenchmarkTools

ArgumentError: ArgumentError: Package BenchmarkTools not found in current path:
- Run `import Pkg; Pkg.add("BenchmarkTools")` to install the BenchmarkTools package.


**Função Somatório**

In [12]:
# Função Soma sem paralelismo
# Laço for de uma soma de 1 a 1000000000
# de números aleatórios

function serial_add(n::Int64)
    s = 0.0
    for i = 1:n
        s = s + randn()
    end
    return s
end 

serial_add (generic function with 1 method)

In [13]:
# execute mais de uma vez
@benchmark serial_add(1000000000)

LoadError: UndefVarError: @benchmark not defined

In [16]:
@elapsed serial_add(1000000000)

3.829081666

Preparando o paralelismo

In [17]:
# verificar o número de processadores
procs()

1-element Array{Int64,1}:
 1

In [18]:
addprocs()

8-element Array{Int64,1}:
 12
 13
 14
 15
 16
 17
 18
 19

In [22]:
# função paralela

function paralelo_add(n::Int64)
    
  @distributed (+) for i = 1:n
        randn()                  
    end
    
end

paralelo_add (generic function with 1 method)

In [23]:
# execute mais de uma vez
@benchmark paralelo_add(1000000000)

LoadError: UndefVarError: @benchmark not defined

In [26]:
@elapsed paralelo_add(1000000000)

0.940734328

**Função alocação de dados em uma Matriz**

In [27]:
# Função sem paralelismo

function alo_matriz2(n::Int64)
    matriz = zeros(n, n)
    for i = 1:n
        for j = 1:n
            matriz[i, j] = rand()*0.25
        end
    end
    return matriz
end

alo_matriz2 (generic function with 1 method)

In [25]:
@benchmark alo_matriz2(10000)

BenchmarkTools.Trial: 
  memory estimate:  762.94 MiB
  allocs estimate:  2
  --------------
  minimum time:     1.090 s (2.54% GC)
  median time:      1.120 s (4.42% GC)
  mean time:        1.128 s (3.70% GC)
  maximum time:     1.195 s (4.70% GC)
  --------------
  samples:          5
  evals/sample:     1

In [29]:
@elapsed alo_matriz2(10000)

1.163213524

In [30]:
# Função paralela

function alo_matriz1(n::Int64)
    matriz = zeros(n, n)
    @distributed for i = 1:n
                for j = 1:n
                    matriz[i, j] = rand()*0.25
                end
              end
    return matriz
end

alo_matriz1 (generic function with 1 method)

In [30]:
@benchmark alo_matriz1(10000)

BenchmarkTools.Trial: 
  memory estimate:  762.98 MiB
  allocs estimate:  1207
  --------------
  minimum time:     2.779 s (0.25% GC)
  median time:      2.854 s (1.52% GC)
  mean time:        2.854 s (1.52% GC)
  maximum time:     2.929 s (2.73% GC)
  --------------
  samples:          2
  evals/sample:     1

In [40]:
@elapsed alo_matriz1(10000)

0.223852437

In [44]:
# use o garbage collector para remover o lixo da memória
GC.gc()
GC.gc()

### ParallelAccelerator

ParallelAccelerator é um pacote para acelerar programas de Julia voltados principalmente para o cálculo de matrizes e vetores. Através da macro `@acc` **ParallelAccelerator** compila partes do programa e elimina automaticamente funções desnecessárias e também paraleliza e vetoriza muitas operações de dados em paralelo. Além de acelerar o cálculo, `@acc` optimiza o consumo de memória, logo é muito útil para grandes matrizes. 

ParallelAccelerator é parte do projeto de script de alto desempenho (HPS) da Intel Labs. 



In [None]:
Pkg.add("ParallelAccelerator")

In [None]:
using BenchmarkTools

In [23]:
NP(n) = [i^2 + j^3 + i^5 + j^7 + i^9 + j^11 for i = 1:n, j = 1:n];

In [24]:
@benchmark NP(10000)

BenchmarkTools.Trial: 
  samples:          2
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  762.94 mb
  allocs estimate:  3
  minimum time:     3.91 s (0.32% GC)
  median time:      3.93 s (1.31% GC)
  mean time:        3.93 s (1.31% GC)
  maximum time:     3.96 s (2.29% GC)

In [25]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

In [26]:
# verificar os cores alocados. Se houver mais de um até o número de cores físicos OK.
procs()

5-element Array{Int64,1}:
  1
 10
 11
 12
 13

In [14]:
# se houver apenas um cores execute
addprocs()

4-element Array{Int64,1}:
 6
 7
 8
 9

In [104]:
Pkg.add("ParallelAccelerator")

INFO: Nothing to be done
INFO: METADATA is out-of-date — you may not have the latest version of ParallelAccelerator
INFO: Use `Pkg.update()` to get the latest versions of your packages


In [27]:
using ParallelAccelerator

In [28]:
@acc PA(n) = [i.^2 + j.^3 + i.^5 + j.^7 + i.^9 + j^.11 for i = 1:n, j = 1:n];

In [29]:
# execute sempre mais de uma vez para obter o melhor resultado
@timev PA(10000);

 35.374035 seconds (26.60 M allocations: 1.831 GB, 1.86% gc time)
elapsed time (ns): 35374034717
gc time (ns):      656413004
bytes allocated:   1965542385
pool allocs:       26599117
non-pool GC allocs:1370
malloc() calls:    47
GC pauses:         51
full collections:  3


In [30]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

### DistributedArrays

In [1]:
Pkg.add("DistributedArrays")

INFO: Nothing to be done


In [2]:
using BenchmarkTools

In [3]:
function array(n)
    return ([i^2 + j^3 + i^5 + j^7 + i^9 + j^11 for i = 1:n, j = 1:n]);
end

array (generic function with 1 method)

In [4]:
@benchmark array(7000)

BenchmarkTools.Trial: 
  samples:          3
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  373.84 mb
  allocs estimate:  3
  minimum time:     1.80 s (0.67% GC)
  median time:      1.83 s (2.80% GC)
  mean time:        1.83 s (2.28% GC)
  maximum time:     1.87 s (3.32% GC)

In [15]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

![Execução Sem Paralelismo](Figuras/Arrays-sem-paralelismo.png)

Antes de executar o código é necesário verificar se há outros cores disponíveis. Caso exista somente 1, é necessário adicionar novos cores e vincular o `DistributedArrays` ao macro `@everywhere` seguindo a ordem:

    1º adicione os cores addprocs(n*)
    2º use @everywhere using DistributedArrays
    3º execute o código com o macro @Darray 
**n** corresponde ao número de cores. Utilizando `addprocs()`(o mesmo que usar ``addprocs(Sys.CPU_CORES)``) Julia cria automaticamente o número de cores que melhor se ajustam à máquina. Sempre execute uma segunda vez o código, a primeira tem péssimo desempenho.

Caso execute novamente `addprocs(n)` e depois `@Darray`, os cores novos serão eliminados da lista de processos e será utilizado somente os cores vinculados ao macro `@everywhere`. 

In [6]:
# visualizar o numero de cores do processador físico
Sys.CPU_CORES

4

In [13]:
# verificar o número de cores disponíveis e ID
procs()

1-element Array{Int64,1}:
 1

In [19]:
# adiciona automaticanente a melhor quantidade de acordo com a quantidade de cores disponíveisa
addprocs()

4-element Array{Int64,1}:
 10
 11
 12
 13

In [9]:
# vincular aos cores
@everywhere using DistributedArrays



In [10]:
function Darray(n)
    return @DArray ([i^2 + j^3 + i^5 + j^7 + i^9 + j^11 for i = 1:n, j = 1:n]);
end

Darray (generic function with 1 method)

In [21]:
# a primeira execução é ruim. Execute uma segunda vez após gc()
# Aqui o @benchmark não é adequado.
@timev  Darray(7000)

# use o garbage collector para remover o lixo da memória
gc()
gc()

LoadError: LoadError: On worker 10:
UndefVarError: DistributedArrays not defined
 in deserialize at ./serialize.jl:602
 in handle_deserialize at ./serialize.jl:581
 in deserialize at ./serialize.jl:541
 in deserialize_datatype at ./serialize.jl:822
 in handle_deserialize at ./serialize.jl:571
 in deserialize_msg at ./multi.jl:120
 in message_handler_loop at ./multi.jl:1317
 in process_tcp_streams at ./multi.jl:1276
 in #618 at ./event.jl:68
 in #remotecall_fetch#606(::Array{Any,1}, ::Function, ::Function, ::Base.Worker, ::Function, ::Vararg{Any,N}) at ./multi.jl:1070
 in remotecall_fetch(::Function, ::Base.Worker, ::Function, ::Vararg{Any,N}) at ./multi.jl:1062
 in #remotecall_fetch#609(::Array{Any,1}, ::Function, ::Function, ::Int64, ::Function, ::Vararg{Any,N}) at ./multi.jl:1080
 in remotecall_fetch(::Function, ::Int64, ::Function, ::Vararg{Any,N}) at ./multi.jl:1080
 in macro expansion at /home/jmarcellopereira/.julia/v0.5/DistributedArrays/src/core.jl:89 [inlined]
 in (::DistributedArrays.##2#4{Tuple{Int64,Int64},##8#10{Int64},Tuple{Int64,Int64},Array{Int64,2},Array{Tuple{UnitRange{Int64},UnitRange{Int64}},2},Array{Array{Int64,1},1},Channel{Any}})() at ./task.jl:360

...and 3 other exceptions.

while loading In[21], in expression starting on line 207

![](Figuras/Arrays-com-paralelismo.png)

In [14]:
#remover os nucleos alocados 
rmprocs(procs())



:ok

## CLUSTER