# OPTIMIZANDO CODIGOS PARA ALTA PERFORMANCE

O pacote `BenchmarkTools` facilita o acompanhamento de desempenho do código em Julia, fornecendo uma estrutura para escrever e executar grupos de benchmarks, bem como comparar resultados. `BenchmarkTools` foi criado para facilitar as seguintes tarefas:

+ Organizar coleções de benchmarks em conjuntos de benchmarks gerenciáveis
+ Configurar, salvar e recarregar parâmetros de referência para conveniência, precisão e consistência
+ Executar benchmarks de forma a obter previsões de desempenho razoáveis e consistentes
+ Analisar e comparar resultados para determinar se uma alteração de código causou prejuízos ou melhorias

Sintaxe Básica:
```julia
@benchmark comando/função

Out:
  BenchmarkTools.Trial: 
      samples:          1270
      evals/sample:     1
      time tolerance:   5.00%
      memory tolerance: 1.00%
      memory estimate:  7.63 mb
      allocs estimate:  3
      minimum time:     3.03 ms (0.00% GC)
      median time:      3.80 ms (0.00% GC)
      mean time:        3.93 ms (3.97% GC)
      maximum time:     6.94 ms (6.20% GC)
  
```

In [2]:
# Pkg.add("BenchmarkTools") # Instala o Pacote BenchmarkTools

In [5]:
using BenchmarkTools

## TIPOS DEFINIDOS EM FUNÇÕES

Julia é uma linguagem dinamicamente tipada que ao contrário Java ou C, o programador não precisa especificar o tipo fixo de cada variável no código. Porém, os tipos são muito importantes em Julia, de tal forma que o melhor desempenho ocorre quando são utilizadas informações do tipo para todos os dados no código. Um tipo mal definido pode atrasar e muito o desempenho de uma função/codigo. A melhor forma de obter um bom desempenho é casar o tipo do dado a ser trabalhado com o tipo que a função vai calcular.

No exemplo abaixo, temos uma função que soma elementos de um vetor. No primeiro teste a função `soma_vetor1` recebe um vetor de qualquer tipo e trabalha com "soma" do tipo `Float (soma = 0.0)`. No segundo teste a mesma função e vetores, porém a variável soma é do tipo Int (soma = 0).

In [1]:
function soma_vetor1(x)
    soma = 0.0
    for i = x
        soma = soma + i
    end
    return soma
end

soma_vetor1 (generic function with 1 method)

In [2]:
x1 = collect(0:0.0001:5000)    # Array{Float64,1},
x2 = linspace(0,5000,50000001) # LinSpace{Float64}
x3 = 0:0.0001:5000             # FloatRange{Float64}

length(x1) , length(x2) , length(x3)

(50000001,50000001,50000001)

In [3]:
# confirmando o tipo
typeof(x1) , typeof(x2) , typeof(x3)

(Array{Float64,1},LinSpace{Float64},FloatRange{Float64})

In [6]:
@benchmark soma_vetor1(x1)

BenchmarkTools.Trial: 
  samples:          92
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  16.00 bytes
  allocs estimate:  1
  minimum time:     52.39 ms (0.00% GC)
  median time:      54.19 ms (0.00% GC)
  mean time:        54.35 ms (0.00% GC)
  maximum time:     57.21 ms (0.00% GC)

In [7]:
@benchmark soma_vetor1(x2)

BenchmarkTools.Trial: 
  samples:          22
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  16.00 bytes
  allocs estimate:  1
  minimum time:     227.77 ms (0.00% GC)
  median time:      230.65 ms (0.00% GC)
  mean time:        230.90 ms (0.00% GC)
  maximum time:     235.19 ms (0.00% GC)

In [8]:
@benchmark soma_vetor1(x3)

BenchmarkTools.Trial: 
  samples:          22
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  16.00 bytes
  allocs estimate:  1
  minimum time:     227.25 ms (0.00% GC)
  median time:      230.26 ms (0.00% GC)
  mean time:        231.46 ms (0.00% GC)
  maximum time:     239.37 ms (0.00% GC)

O tipo Array{Float64,1} definido pelo ` collect` apresentou melhor desempenho de tempo.

A função agora modificada. Note que "soma" agora é do tipo inteiro, mas está recebendo um vetor do tipo Float

In [9]:
function soma_vetor2(x)
    soma = 0             # só este datalhe ja é suficiente para reduzir o desempenho
    for i in x
        soma = soma + i
    end
    return soma
end

soma_vetor2 (generic function with 1 method)

In [10]:
@benchmark soma_vetor2(x1)

BenchmarkTools.Trial: 
  samples:          5
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  2.24 gb
  allocs estimate:  150000003
  minimum time:     1.07 s (7.82% GC)
  median time:      1.07 s (7.77% GC)
  mean time:        1.11 s (7.67% GC)
  maximum time:     1.25 s (7.50% GC)

In [11]:
@benchmark soma_vetor2(x2)

BenchmarkTools.Trial: 
  samples:          5
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  2.24 gb
  allocs estimate:  150000003
  minimum time:     1.18 s (7.43% GC)
  median time:      1.20 s (7.33% GC)
  mean time:        1.21 s (7.45% GC)
  maximum time:     1.30 s (7.77% GC)

In [12]:
@benchmark soma_vetor2(x3)

BenchmarkTools.Trial: 
  samples:          4
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  2.24 gb
  allocs estimate:  150000003
  minimum time:     1.20 s (8.23% GC)
  median time:      1.28 s (8.33% GC)
  mean time:        1.33 s (9.45% GC)
  maximum time:     1.57 s (12.19% GC)

Veja que todos os testes apresentaram resultados muito ruins em função do tipo de "soma" ser inteiro. O tipo Array{Float64,1} definido pelo collect apresentou melhor desempenho de tempo.

## NÃO USE VARIÁVEIS GLOBAIS EM FUNÇÕES

Variáveis globais são uma tentação na vida de qualquer programador. Porém...

In [6]:
using BenchmarkTools

In [3]:
# função calcula a soma a partir de uma variável global x

function soma_vetor_Global()
    soma = 0.0             # cuidado! soma é tipo float, se não piora mais ainda
    for i in x
        soma = soma +  i
    end
    return soma
end

soma_vetor_Global (generic function with 1 method)

In [4]:
x = collect(0:0.0001:5000);

In [7]:
@benchmark soma_vetor_Global()

BenchmarkTools.Trial: 
  samples:          1
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  3.73 gb
  allocs estimate:  199999494
  minimum time:     7.93 s (4.94% GC)
  median time:      7.93 s (4.94% GC)
  mean time:        7.93 s (4.94% GC)
  maximum time:     7.93 s (4.94% GC)

A mesma função só que usando variável local passada para função

In [8]:
# função calcula a soma a partir de uma variável local X passada como valor

function soma_vetor_Local(x)
    soma = 0.0             # cuidado! soma é tipo float
    for i in x
        soma = soma + i
    end
    return soma
end

soma_vetor_Local (generic function with 1 method)

In [9]:
x = collect(0:0.0001:5000);

In [10]:
@benchmark soma_vetor_Local(x)

BenchmarkTools.Trial: 
  samples:          65
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  16.00 bytes
  allocs estimate:  1
  minimum time:     66.41 ms (0.00% GC)
  median time:      76.50 ms (0.00% GC)
  mean time:        77.36 ms (0.00% GC)
  maximum time:     90.67 ms (0.00% GC)

Diferença absurda de tempo de alocação de memória entre o primeiro caso e segundo caso. 

## UTILIZE FUNÇÕES PARA SUBSTITUIR BLOCOS DE CÓDIGO

In [26]:
using BenchmarkTools

Bloco de código que utiliza variáveis globais para calcular a soma todos os elementos de um vetor

In [19]:
@time begin
x = collect(0:0.0001:5000)

soma = 0.0             # cuidado! soma é tipo float
for i in x1
    soma = soma + i
end

display(soma)
    
end

1.2500000249999998e11

  8.408327 seconds (200.07 M allocations: 4.101 GB, 5.39% gc time)


Função que substitui o procedimento acima e usa variáveis locais

In [20]:
# função calcula a soma a partir de uma variável local X passada como valor

function soma_vetorL(x)
    soma = 0.0             # cuidado! soma é tipo float
    for i in x
        soma = soma + i
    end
    return soma
end



soma_vetorL (generic function with 1 method)

In [21]:
x = collect(0:0.0001:5000);

In [22]:
@benchmark soma_vetorL(x)

BenchmarkTools.Trial: 
  samples:          92
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  16.00 bytes
  allocs estimate:  1
  minimum time:     52.65 ms (0.00% GC)
  median time:      54.73 ms (0.00% GC)
  mean time:        54.82 ms (0.00% GC)
  maximum time:     58.80 ms (0.00% GC)

Veja que a diferença de tempo é absurda!

## CRIAÇÃO DE MATRIZES

Quando for criar uma matriz a partir de uma função, use `List Compreehsion` ao invés de laços `FOR`, além de deixar mais claro o código é bem mais rápido.

In [10]:
using BenchmarkTools

In [9]:
# função for
function matriz_for(n)
    matriz  = ones(n,n)
    for i = 1:n
        for j = 1:n
            matriz[i,j] = 0.5*i^2 + 0.3j^2
        end
    end
    return matriz
end

matriz_for (generic function with 1 method)

In [11]:
@benchmark matriz_for(20000)

BenchmarkTools.Trial: 
  samples:          1
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  2.98 gb
  allocs estimate:  2
  minimum time:     6.77 s (0.18% GC)
  median time:      6.77 s (0.18% GC)
  mean time:        6.77 s (0.18% GC)
  maximum time:     6.77 s (0.18% GC)

In [12]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

In [5]:
# função LC
function matriz_lc(n)
   return [0.5*i^2 + 0.3*j^2 for i = 1:n, j = 1:n]
end

matriz_lc (generic function with 1 method)

In [14]:
@benchmark matriz_lc(20000)

BenchmarkTools.Trial: 
  samples:          3
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  2.98 gb
  allocs estimate:  3
  minimum time:     1.90 s (0.56% GC)
  median time:      1.95 s (2.63% GC)
  mean time:        1.93 s (2.12% GC)
  maximum time:     1.95 s (2.62% GC)

In [11]:
# use o garbage collector para remover o lixo da memória
gc()
gc()

## QUAL A MELHOR: FUNÇÕES GENÉRICAS, FUNÇÕES ANÔNIMAS OU EXPRESÕES SIMBÓLICAS?

Uma dúvida que ocorre devido as possibilidades de escolhas é qual função apresenta melhor desenpenho de cálculo. As funções anônimas foram otimizadas na versão 0.5 e não há necessidade do pacote `FastAnonymous` como era nas versões anteriores.

* **Funções Genéricas**

|Vantagens   |Desvantagens |
|------------|-------------|
|Fáceis de escrever e bem próximas da escrita de uma função da matemática |Só permitem cálculo de funções definidas|
|Rápidas |A redefinição pode ser um problema|

* **Expressões Simbólicas**

|Vantagens   |Desvantagens |
|------------|-------------|
|Permitem o cálculo simbólico entre variáveis|Muito lentas em relação as funções genéricas e anônimas        |
|Podem ser utilizadas em conjunto com funções genéricas e variáveis simbólicas|Não são funções de acordo com a definição de função|

* **Funções Anônimas**

|Vantagens   |Desvantagens |
|------------|-------------|
|Velocidade praticamente iqual às funções genéricas|afdasdfa|
|asdfasdf|afdasdfa|

In [3]:
using BenchmarkTools

In [5]:
# Genérica
f_gen(x , y) = x^2 + y^3 + x^5 + y^7 + x^9 + y^11

f_gen (generic function with 1 method)

In [6]:
using SymPy
@syms x y

(x,y)

In [7]:
# Simbólica
f_simb = x^2 + y^3 + x^5 + y^7 + x^9 + y^11

 9    5    2    11    7    3
x  + x  + x  + y   + y  + y 

In [8]:
x_vetor = rand(100, 100)
y_vetor = rand(100, 100);

In [9]:
# Função Genérica
@benchmark f_gen.(x_vetor,y_vetor)

BenchmarkTools.Trial: 
  samples:          10000
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  79.56 kb
  allocs estimate:  38
  minimum time:     56.82 μs (0.00% GC)
  median time:      57.82 μs (0.00% GC)
  mean time:        63.17 μs (3.45% GC)
  maximum time:     1.40 ms (91.99% GC)

In [10]:
# Função Simbólica
@benchmark f_simb.(x_vetor,y_vetor)

BenchmarkTools.Trial: 
  samples:          1
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  83.70 mb
  allocs estimate:  2430068
  minimum time:     26.44 s (0.10% GC)
  median time:      26.44 s (0.10% GC)
  mean time:        26.44 s (0.10% GC)
  maximum time:     26.44 s (0.10% GC)

In [11]:
# Função Anônima
@benchmark ((x,y) -> x^2 + y^3 + x^5 + y^7 + x^9 + y^11).(x_vetor,y_vetor)

BenchmarkTools.Trial: 
  samples:          10000
  evals/sample:     1
  time tolerance:   5.00%
  memory tolerance: 1.00%
  memory estimate:  79.56 kb
  allocs estimate:  38
  minimum time:     56.21 μs (0.00% GC)
  median time:      57.09 μs (0.00% GC)
  mean time:        75.07 μs (19.15% GC)
  maximum time:     66.49 ms (99.73% GC)

## OTIMIZANDO UBUNTU E DERIVADOS

O Ubuntu e outros sistemas linux, possuem uma configuração de **"Concurrency"** que permite habilitar todos os núcleos, isso faz com que o Boot do seu sistema seja mais rápido que o normal e pode melhorar o desempenho do processamento numérico da Julia. Para habilitar o recurso, digite no shell:

```bash
sudo gedit /etc/init.d/rc
```
Para evitar problemas, salve o arquivo como **rc.back**, caso ocorra algum erro ou instabilidade do sistema. Procure as linhas **CONCURRENCY=makefile** e descomente, e comente a linha **#CONCURRENCY=none**. Veja o código abaixo:

    # Check if we are able to use make like booting.  It require the
    # insserv package to be enabled. Boot concurrency also requires
    # startpar to be installed.
    #
    CONCURRENCY=makefile # descomente a linha
    # disable startpar, incompatible with "task" upstart jobs
    #CONCURRENCY=none   # comente a linha
    
Reinicie e veja a diferença :)