# Chapter 4 **Numerical Computing with Julia**

## Traversing matrices efficiency

In [1]:
using BenchmarkTools;

┌ Info: Precompiling BenchmarkTools [6e4b80f9-dd63-53aa-95a3-0cdb28fa8baf]
└ @ Base loading.jl:1242


In [6]:
# Juliaの中ではcolumn優先でデータを保持するので，行ごとよりも列ごとに演算したほうが高速になる。
function sum_by_col(x)
    s = zero(eltype(x))
    for j in 1:size(x, 2)
        for i in 1:size(x, 1)
            s += x[i, j]
        end
    end
    s
end

function sum_by_row(x)
    s = zero(eltype(x))
    for i in 1:size(x, 1)
        for j in 1:size(x, 2)
            s += x[i, j]
        end
    end
    s
end

# Benchmark
x = rand(10^4, 10^4)
@time sum_by_row(x) ;@time sum_by_col(x) ;@time sum(x) 

  0.721675 seconds (26.21 k allocations: 1.400 MiB)
  0.106646 seconds (26.21 k allocations: 1.400 MiB)
  0.040035 seconds (5 allocations: 176 bytes)


5.00006775138412e7

## Executing loops efficiency with conditional statements

In [None]:
# loopの効率のよい実行方法
x = randn(10^6)

**type1**  
一行で書くことがdきるが，あまりパフォーマンスは良くない。

In [7]:
@time sum(v for v in x if v > 0)

  0.132494 seconds (127.94 k allocations: 6.226 MiB)


5.000067751384889e7

**type2**  
loop + 関数化  
基本的に関数にしたほうが高速になる

In [8]:
function possum1(x)
    s = zero(eltype(x)) # オブジェクトの型を自動的に判別してくれる。
    for v in x
        if(v > 0)
            s += v
        end
    end
    s
end
possum1(x)

5.000067751384889e7

**type3**  
loopの中のif(conditional statement)は効率が悪いので，ifelseで置き換える。`if`の中に入っている計算が軽いものであれば，コンパイル後のbranchingを避けたほうが高速に演算される(?)。

In [10]:
# type 3
function possum2a(x)
    s = zero(eltype(x)) # オブジェクトの型を自動的に判別してくれる。
    for v in x
        s += ifelse(v > 0, v, zero(s))
    end
    s
end
# precompile
possum2a(x);

5.000067751384889e7

**type4**  
`@simd` macroを使うやり方。SIMDプロセッサは特定の条件下でloop処理を高速にしてくれる。ただしSIMDの高速化性能はハードにも依存するようだ。

In [14]:
# type 4
# add @simd macro
function possum2b(x)
    s = zero(eltype(x)) 
    @simd for v in x
        s += ifelse(v > 0, v, zero(s)) 
    end
    s
end

# poor implemention
function possum2c(x)
    s = zero(eltype(x)) 
    @simd for v in x
        s += ifelse(v > 0, v, 0)　# Integerにも typeof(v)にも，どちらにもなりうる
    end
    s　# 最終的に返ってくる`s`の型判定が不安定なので，速度が遅い。
end

function possum2d(x::AbstractArray{T}) where T 
    # `where T` is shorthand for where T<:any. つまり何らかの型を指定するということ。
    # この例では関数に与えたArrayから型を読み取っている。
    s = zero(T) 
    @simd for v in x
        s += ifelse(v > 0, v, zero(T))
    end
    s
end
# precompile
possum2b(x)
possum2c(x)
possum2d(x);

In [15]:
@btime possum2a(x)
@btime possum2b(x)
@btime possum2c(x)
@btime possum2d(x);

  95.068 ms (1 allocation: 16 bytes)
  32.828 ms (1 allocation: 16 bytes)
  96.920 ms (1 allocation: 16 bytes)
  32.539 ms (1 allocation: 16 bytes)


5.000067751384136e7

**type5**  
三項演算子`a ? b : c`を使う場合。

In [20]:
function possum2e(x::AbstractArray{T}) where T 
    # `where T` is shorthand for where T<:any. つまり何らかの型を指定するということ。
    # この例では関数に与えたArrayから型を読み取っている。
    s = zero(T) 
    @simd for v in x
        s += v > 0 ? v : zero(T)
    end
    s
end
possum2e(x);
@btime possum2e(x);

  32.385 ms (1 allocation: 16 bytes)
