# 線形代数の復習

※一部、所属大学における講義資料としての記述を含むので注意

## LinearAlgebra.jl

Juliaには、線形代数のための標準ライブラリとして`LinearAlgebra.jl`がある。  
ここでは、その機能を簡単に紹介するとともに、線形代数の復習をしながらJuliaに慣れていこう。

LinearAlgebra内の関数を使用する際には、以下のようにすればよい。

In [1]:
using LinearAlgebra

## ベクトルの定義

ベクトルとは、スカラー倍と和について閉じた集合である。  
Juliaでは、他の言語と同様に、ベクトルは配列で表現される。  
配列の要素として、整数値(倍精度Int64が標準,Int32,Int16なども使える)や浮動小数点数(倍精度Float64が標準, Float32,Float16なども使える)を用いる。

適当なベクトルを定義して、その型を確認してみよう。

In [2]:
a = [1,2,3]
b = [1.0,2.0,3.0]
c = [1,2.1,3]

# Juliaでは$()で囲むと変数や変数に対する演算の結果をprintlnに埋め込める
println("type a: $(typeof(a)), type b: $(typeof(b)), type c: $(typeof(c))") 

type a: Vector{Int64}, type b: Vector{Float64}, type c: Vector{Float64}


上のように、ベクトルを適当に定義すると、その方法によって、Int64,Float64のような型が自動的に決定される。  
`c`の場合、1,3番目の要素は整数的に指定しているものの、2つめの要素の存在によって、より一般的な型であるFloat64を要素にもつ配列として定義されていることがわかる。

ベクトルの要素の指定は、Pythonと同様にインデックスを指定してやればよいが、1からカウントすることに注意(CやPythonは0からカウント)

In [3]:
println(a[1], " ", a[end])

1 3


ベクトルのスカラー倍は、ブロードキャストを用いて

In [4]:
2 .* a

3-element Vector{Int64}:
 2
 4
 6

などとしてやれば良いし、ベクトル同士の和は単純に

In [5]:
a + b

3-element Vector{Float64}:
 2.0
 4.0
 6.0

とすればよい。(再び、結果のベクトルはFloat64のベクトルになっていることに注意しよう。)



## 行列の定義

ベクトルが定義できたので、行列についても同様に定義しよう。  
カンマなしで要素を並べると、列方向の要素として認識され、セミコロンで行方向の区切りを指定することができる。

In [6]:
A = [1 2 3; 4 5 6]

2×3 Matrix{Int64}:
 1  2  3
 4  5  6

Int64の要素を持つ2×3行列が定義できた。それぞれの要素の取得は、ベクトルと同様にインデックスを指定してやればよい。

In [7]:
A[1,2]

2

Pythonのときは`A[0][1]`といった指定だったが、Juliaでは`A[1,2]`となっていることに注意しよう。  
後者の方がなんとなく、数学的な表記に近い気がする。

また、indexには`begin`や`end`も使用できる。

In [8]:
A[end,2]

5

Juliaではcolumn-major(列方向優先)であることに注意しよう。したがって、"2番目の要素"は、2行目1列目の要素である。

In [9]:
A[2]

4

3番目は...

In [10]:
A[3]

2

となる。

ゼロを値にもつ行列を作りたければ`zeros`を用いれば良い。

In [11]:
A = zeros(Float64,2,3)
B = zeros(Int32,3,4)
println("a $a\nb $b")   

a [1, 2, 3]
b [1.0, 2.0, 3.0]


Juliaでは上三角行列・下三角行列、対角行列など、特別な構造を持つ行列を扱うことも簡単にできるが、ここでは割愛する。

行列$A$の転置はシンプルにシングルクォートを用いるか、`transpose`関数を用いれば良い。

In [12]:
A = randn(Float64,2,3)
B = randn(Float64,3,2)
A'

3×2 adjoint(::Matrix{Float64}) with eltype Float64:
  1.472     0.219172
 -0.074387  0.759722
 -0.457224  1.83168

In [13]:
transpose(A)

3×2 transpose(::Matrix{Float64}) with eltype Float64:
  1.472     0.219172
 -0.074387  0.759722
 -0.457224  1.83168

## 行列・ベクトルの演算

もう少し、行列やベクトルの演算について続けよう。

ベクトル同士の内積(あるいはdot積)は、`LinearAlgebra`にある`dot`関数を用いれば良い。

In [14]:
dot(a,b)

14.0

あるいは、ブロードキャストを用いて要素積を計算して和をとっても良い。

In [15]:
sum(a.*b)

14.0

行列積は物凄くシンプルに積で書くことができて

In [16]:
C = A * B

2×2 Matrix{Float64}:
 -3.79008   0.613576
 -1.51632  -0.843226

もう少し効率の良い(数値計算で主に用いる)方法については、LAPACK/BLASの節で説明する。

:::{margin}
えっと...群の定義は他の授業で出てきたでしょうか？
集合$G$に対する二項演算が定義されていて、その演算に対して(1)結合法則が成り立つ、(2)単位元が存在する、(3)逆元が存在する、という条件を満たすとき、$G$を群と呼ぶ。
$n$次対称群とは、なんのことはない1からnまでの数を並び替える操作の集合である。
この操作は、任意の２つの要素に対する互換(入れ替え)の繰り返しとして表現できる。
:::
行列式は$n\times n$の正方行列に対して、下記で定義される。
```{math}
det(A) \equiv |A| \equiv \sum_{\sigma \in S_n} \mathrm{sgn}(\sigma) \prod_{i=1}^n a_{i,\sigma(i)}
```

ここで、$\sigma$は$n$次対称群$S_n$の要素であり、$\mathrm{sgn}(\sigma)$は置換$\sigma$の符号である。
この符号は、恒等変換を基準(正号)として、そこから幾つの互換(２要素間の入れ替え)が必要かを数え、その回数が偶数なら正号、奇数なら負号となる。

In [17]:
A = randn(Float64,3,3)

3×3 Matrix{Float64}:
 -1.5782    1.27336   0.358729
 -0.064757  2.24053   1.56129
 -2.20286   0.545738  0.658292

に対して定義されて、`det`関数を用いればよくて

In [18]:
det(A)

-3.550324254376849

対角成分の和であるトレース(trace)は`tr`関数を用いれば良い。

In [19]:
tr(A)

1.320622524789642

行列やベクトルに関する操作をしていると、よく2つのベクトル(行列,テンソル)の距離を計算したくなる。  
距離というと、ユークリッド距離が思い浮かぶが、線形代数の世界では、様々な距離を考えることができる。  
こうした距離をノルム(norm)と呼ぶ。代表的なものを３つ紹介しよう。　　
以下では、簡単のためにベクトルを考えるが、行列についても同様に定義できる。

1. L1ノルムは、ベクトルの各要素の絶対値の和で定義され、Lasso回帰や機械学習分野のスパース正則化などに用いられる。
    ```{math}
    \|x\|_1 = \sum_{i=1}^n |x_i|
    ```
    
2. L2ノルムは、ベクトルの各要素の二乗和の平方根で定義される。ユークリッド距離にも対応している。
    ```{math}
    \|x\|_2 = \sqrt{\sum_{i=1}^n x_i^2}
    ```

3. L$\infty$ノルムは、ベクトルの各要素の絶対値の最大値で定義される。
    ```{math}
    \|x\|_\infty = \max_{i=1,\dots,n} |x_i|
    ```

Juliaでは、`norm`関数を用いて、ノルムを計算することができ、下でみるようにL2ノルム(またはフロベニウスノルム)がデフォルトとなっている。

In [20]:
v = [1,2,3]
norm_1 = norm(v,1)
norm_2 = norm(v,2)
norm_default = norm(v)
norm_inf = norm(v,Inf)

println("norm_1: $norm_1, norm_2: $norm_2, norm_default: $norm_default, norm_inf: $norm_inf")

norm_1: 6.0, norm_2: 3.7416573867739413, norm_default: 3.7416573867739413, norm_inf: 3.0


## LAPACK/BLAS: 線形代数演算ライブラリの紹介

Juliaに限らず、線形代数演算のためのライブラリとして最もポピュラーなものに、LAPACKやBLASがある。  
LAPACKは、(元々)Fortranで書かれたライブラリで、線形代数演算のための基本的なサブルーチンを提供している。  
BLASは、LAPACK内で用いられているサブルーチンで、ベクトル・行列の演算を高速に行うためのサブルーチンを提供している。
BLASもFortranで書かれているが、C言語やC++などからも呼び出すことができたり、CPU/GPUなど様々な環境に最適化された実装が存在する。

LAPACK/BLASは、線形代数演算のためのライブラリとして最もポピュラーであるだけでなく、他のライブラリの基礎としても用いられている。
したがって、世界中でテストされていることも手伝って高品質で信頼性が高い。  
数値誤差をなるべく避けるという意味でも、研究で数値解析を行ったり、何かプロダクトを作るときには、LAPACKやBLASを呼び出して使うことが推奨される。  
PythonのNumpyもJuliaのLinearAlgebraもよくよく中を見ていくと、LAPACKやBLASを呼んでいることがわかる。

ただし、数値計算の手法や"間違え方"を正しく知っておくためには、自分でコードを書いてみて失敗する経験も重要なように思う。  
私もコレスキー分解を行う自作コードを書いて初めて、数値誤差に対する自身の理解の浅さに気がついたという経験があります。


JuliaではLAPACK/BLASが用いられていて、特にBLASは標準でOpenBLASが用いられている。
Intel製CPUを搭載したマシンでは、Intel MKLを用いることもできる。

行列行列積を例にとって、LAPACK/BLASを用いた場合と、用いない場合の速度を比較してみよう。
まず、LAPACK/BLASを用いない場合は、ループを用いて愚直に行列積を計算する。

次に、LAPACK/BLASを用いる場合は、`LinearAlgebra`にある`BLAS.gemm!`関数を用いて行列積を計算する。

行列の確保等が計算時間に入らないよう、破壊的な(既にある配列の要素を上書きするような)関数を用いている。
`LinearAlgebra.jl`には、`mul!`という便利な関数があり、`LinearAlgebra.BLAS`系の関数を必要に応じて呼び出すようになっている。

計測には、`BenchmarkTools`を用いよう。`@btime`というマクロを付けるだけで、簡単に計測できる。


In [5]:
using BenchmarkTools
using LinearAlgebra

function matrix_product_own(A,B,C)
    C .= 0.0
    for i in 1:size(A,1)
        for j in 1:size(B,2)
            for k in 1:size(A,2)
                C[i,j] += A[i,k] * B[k,j]
            end
        end
    end
    return nothing
end 

function matrix_product_BLAS(A,B,C)
    BLAS.gemm!('N','N',1.0,A,B,0.0,C)
    return nothing
end

function main()
    A = randn(Float64,1000,1000)
    B = randn(Float64,1000,1000)
    C = zeros(Float64,1000,1000)
    #$はベンチマークのためのおまじない
    println("w/  BLAS")
    @btime matrix_product_BLAS($A,$B,$C)
    println("w/o BLAS")
    @btime matrix_product_own($A,$B,$C)
end

main()

w/  BLAS


  11.642 ms (0 allocations: 0 bytes)
w/o BLAS


  970.996 ms (0 allocations: 0 bytes)


著者の環境(M1 Mac Mini)で、BLASを用いる場合が11 ms, 用いない場合が1 s程度であった。

今の場合、`@btime`の結果(0 allocations: 0 bytes)からも分かるように、配列の確保によって時間がかかっている訳ではなく、
両者とも行列`C`にゼロ詰めして、`A*B`の結果を上書きする、という演算の速度を比較している。
実行時間の差から、BLASを用いる恩恵が目に見えて分かるかと思う。