## PARALELISMO 

### TRABALHAR COM CORES
Para adicionar cores utilize:
```julia
addproces(n)
```
Sendo **n** o número de cores que deseja criar as instâncias. Uma boa dica é usar ``addroces()`` dessa forma Julia cria automaticamente o número de cores que melhor se ajusta à máquina.

In [39]:
# visualizar o numero de cores do processador físico
Sys.CPU_CORES

4

In [1]:
# verificar o número de cores disponíveis e ID
procs()

1-element Array{Int64,1}:
 1

In [4]:
# adicionar o numero de cores do computador
addprocs()

4-element Array{Int64,1}:
 2
 3
 4
 5

In [2]:
# remover cores rmprocs(ID_CORE)
# para remover mais de um core use rmprocess([vetor_IDCORE])
# Para remover todos os alocados use rmprocs(procs()) 
rmprocs(procs())



:ok

In [3]:
procs()

1-element Array{Int64,1}:
 1

### PARALLEL FOR E  PARALLEL MAP

Um loop for com um grande número de iterações e compreensões de lista, são melhores desempenhados com execução paralela através  da macro `@parallel`. Sintaxe:
```julia
@parallel (operador) for var = range
    instruções
end
```

In [28]:
using BenchmarkTools

**Função Somatório **

In [65]:
# Função Soma.
# Laço for de uma soma de 1 a 1000000000
# de números aleatórios

function serial_add(n)
    s = 0.0
    for i = 1:n
        s = s + randn()
    end
    return s
end 



serial_add (generic function with 1 method)

In [67]:
@benchmark serial_add(1000000000)

BenchmarkTools.Trial: 
  memory estimate:  0.00 bytes
  allocs estimate:  0
  --------------
  minimum time:     6.412 s (0.00% GC)
  median time:      6.412 s (0.00% GC)
  mean time:        6.412 s (0.00% GC)
  maximum time:     6.412 s (0.00% GC)
  --------------
  samples:          1
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%

In [33]:
# verificar o número de processadores
procs()

1-element Array{Int64,1}:
 1

In [34]:
addprocs()

4-element Array{Int64,1}:
 2
 3
 4
 5

In [68]:
# função paralela
function parallel_add(n)
    
  @parallel (+) for i = 1:n
        randn()                  
    end
    
end



parallel_add (generic function with 1 method)

In [70]:
# execute mais de uma vez
@benchmark parallel_add(1000000000)

BenchmarkTools.Trial: 
  memory estimate:  50.44 kb
  allocs estimate:  609
  --------------
  minimum time:     2.623 s (0.00% GC)
  median time:      2.627 s (0.00% GC)
  mean time:        2.627 s (0.00% GC)
  maximum time:     2.631 s (0.00% GC)
  --------------
  samples:          2
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%

**Função alocação de dados em uma Matriz**

In [90]:
# Função paralela

function alo_matriz1(n)
    matriz = zeros(n,n)
    @parallel for i = 1:n
        for j = 1:n
            matriz[i,j] = rand()*0.25
        end
    end
    #return matriz
end

alo_matriz1 (generic function with 1 method)

In [97]:
@benchmark alo_matriz1(10000)

LoadError: LoadError: OutOfMemoryError()
while loading In[97], in expression starting on line 183

In [96]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

In [25]:
# Função normal
function alo_matriz2(n)
    matriz = zeros(n,n)
    for i = 1:n
        for j = 1:n
            matriz[i,j] = rand()*0.25
        end
    end
    return matriz
end

alo_matriz2 (generic function with 1 method)

In [26]:
@benchmark alo_matriz2(10000)

BenchmarkTools.Trial: 
  samples:          3
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  762.94 mb
  allocs estimate:  2
  minimum time:     1.72 s (4.08% GC)
  median time:      1.77 s (3.94% GC)
  mean time:        1.76 s (3.85% GC)
  maximum time:     1.77 s (3.54% GC)

In [31]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

### ParallelAccelerator

ParallelAccelerator é um pacote para acelerar programas de Julia voltados principalmente para o cálculo de matrizes e vetores. Com a macro `@acc` **ParallelAccelerator** compila partes do programa e elimina automaticamente funções desnecessárias e também paraleliza e vetoriza muitas operações de dados em paralelo. Além de acelerar o cálculo, `@acc` optimiza o consumo de memória, logo é muito útil para grandes matrizes. 

ParallelAccelerator é parte do projeto de script de alto desempenho (HPS) da Intel Labs. 



In [1]:
Pkg.add("ParallelAccelerator")

INFO: Nothing to be done


In [24]:
using BenchmarkTools

In [25]:
NP(n) = [i^2 + j^3 + i^5 + j^7 + i^9 + j^11 for i = 1:n, j = 1:n];



In [26]:
@benchmark NP(10000)

BenchmarkTools.Trial: 
  samples:          2
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  762.94 mb
  allocs estimate:  3
  minimum time:     3.48 s (0.46% GC)
  median time:      3.53 s (1.27% GC)
  mean time:        3.53 s (1.27% GC)
  maximum time:     3.58 s (2.06% GC)

In [99]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

In [100]:
# verificar os cores alocados. Se houver mais de um até o número de cores físicos OK.
procs()

5-element Array{Int64,1}:
 1
 2
 3
 4
 5

In [14]:
# se houver apenas um cores execute
addprocs()

4-element Array{Int64,1}:
 6
 7
 8
 9

In [104]:
Pkg.add("ParallelAccelerator")

INFO: Nothing to be done
INFO: METADATA is out-of-date — you may not have the latest version of ParallelAccelerator
INFO: Use `Pkg.update()` to get the latest versions of your packages


In [105]:
using ParallelAccelerator

INFO: Precompiling module DataStructures.


In [108]:
@acc PA(n) = [i.^2 + j.^3 + i.^5 + j.^7 + i.^9 + j^.11 for i = 1:n, j = 1:n];



In [111]:
# execute sempre mais de uma vez para obter o melhor resultado
@timev PA(10000);

  4.515833 seconds (35 allocations: 762.941 MB, 2.22% gc time)
elapsed time (ns): 4515833370
gc time (ns):      100031677
bytes allocated:   800001968
pool allocs:       35
GC pauses:         1


In [114]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

### DistributedArrays

In [None]:
Pkg.add("DistributedArrays")

In [34]:
using BenchmarkTools

In [33]:
function array(n)
    return ([i^2 + j^3 + i^5 + j^7 + i^9 + j^11 for i = 1:n, j = 1:n]);
end

array (generic function with 1 method)

In [40]:
@benchmark array(7000)

BenchmarkTools.Trial: 
  samples:          3
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  373.84 mb
  allocs estimate:  3
  minimum time:     1.70 s (0.67% GC)
  median time:      1.77 s (3.56% GC)
  mean time:        1.76 s (2.62% GC)
  maximum time:     1.82 s (3.52% GC)

In [1]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

![Execução Sem Paralelismo](Figuras/Arrays-sem-paralelismo.png)

Antes de executar o código é necesário verificar se há outros cores disponíveis. Caso exista somente 1, é necessário adicionar novos cores e vincular o `DistributedArrays` ao macro `@everywhere` seguindo a ordem:

    1º adicione os cores addprocs(n*)
    2º use @everywhere using DistributedArrays
    3º execute o código com o macro @Darray 
**n** corresponde ao número de cores. Utilizando `addprocs()`(o mesmo que usar ``addprocs(Sys.CPU_CORES)``) Julia cria automaticamente o número de cores que melhor se ajustam à máquina. Sempre execute uma segunda vez o código, a primeira tem péssimo desempenho.

Caso execute novamente `addprocs(n)` e depois `@Darray`, os cores novos serão eliminados da lista de processos e será utilizado somente os cores vinculados ao macro `@everywhere`. 

In [13]:
# visualizar o numero de cores do processador físico
Sys.CPU_CORES

4

In [2]:
# verificar o número de cores disponíveis e ID
procs()

1-element Array{Int64,1}:
 1

In [3]:
# adiciona automaticanente a melhor quantidade de acordo com a quantidade de cores disponíveisa
addprocs()

4-element Array{Int64,1}:
 2
 3
 4
 5

In [4]:
# vincular aos cores
@everywhere using DistributedArrays



In [5]:
function Darray(n)
    return @DArray ([i^2 + j^3 + i^5 + j^7 + i^9 + j^11 for i = 1:n, j = 1:n]);
end

Darray (generic function with 1 method)

In [8]:
# a primeira execução é ruim. Execute uma segunda vez após gc()
# Aqui o @benchmark não é adequado.
@timev  Darray(7000)

# use o garbage collector para remover o lixo da memória
gc()
gc()

  0.850469 seconds (1.05 k allocations: 74.328 KB)
elapsed time (ns): 850468583
bytes allocated:   76112
pool allocs:       1041
non-pool GC allocs:6


![](Figuras/Arrays-com-paralelismo.png)

In [30]:
#remover os nucleos alocados 
rmprocs(procs())



:ok