# 線形代数とディープラーニング

[応用/誤差逆伝播法](https://github.com/umentu/math_notebook_demo/blob/main/%E5%BF%9C%E7%94%A8/%E8%AA%A4%E5%B7%AE%E9%80%86%E4%BC%9D%E6%92%AD%E6%B3%95.ipynb)で既に書いていますが、ディープラーニングではデータがベクトルであり、関数を行列として考えています。それがディープラーニングで線形代数が求められる理由です。

ですが「ディープラーニングの理解をするのに線形代数の知識が必要か」といわれると、疑問に感じています。
確かに線形代数の知識があればディープラーニング、または逸れに含まれる統計学や確率論には十分に理解を促してくれるでしょう。
しかし、線形代数自体は大学の数学科でも1年や2年間かけて習得する分野です。それらを理解、　更に言えば活用すると考えれば非常に時間がかかります。
更にいえば「現状のディープラーニングの仕組みを理解したい」ということが目的であれば、より冗長さが増すように思います。

ただし、「線形代数的な見え方」というものが重要なことも事実です。ベクトルは「行列と計算」で紹介した通り、1行や1列の行列です。数字が並んでいるだけです。
ときにはこのままの方が理解しやすいときもありますが、幾何的に可視化できる（3次元以下）であれば矢印や図形で理解したほうが分かりやすいことが出てくることも確かです。
ですので、ディープラーニングを理解する上で必要と考えられる線形代数の「見方」を、この節では紹介します。

厳密な紹介はのちの節で解説します。


## 基底

**基底**は線形代数、否、数学全般を語る上で非常に重要な概念です。ですが、これまでに既に「基底」と明言していないだけで、基底を既に考えています。

基底は「骨組み」と考えるとわかりやすいです。

<img src="images/03/01.png" style="height: 500px;">

作り方は無視するとして、ビルの骨組みの構造は「幅、奥行き、高さ」でできています。そして骨組みは様々なところで交差しています。

4角のどこでもよいので1つの角のところから、「幅、奥行き、高さ」のそれぞれ一つ移動したときに初めて交差する間の骨組みを「基準」とします。
すると、ビルの交差点のどこでも「幅は幅基準の○個分、奥行きは奥行き基準の△個分、高さは高さ基準の□個分」と表現できます。
要するに座標なのですが、この座標の基準となる組み合わせが「基底」です。微分積分のところで紹介していた$xy$平面の座標を考えられたのも基底があったからです。

基底としてはこれだけなのですが、派生する性質でたくさん重要なものが存在します。

「基底は一つではない」ということです。例えば[弧度法と三角関数]で紹介した「$(x,y)$を$(r, \theta)$」と変換することで三角関数の有効性を紹介しました。
これを「基底の変換」といいますが、基底を変換することで複雑なものがシンプルに見えるように置き換える手法が存在します。

<img src="images/03/02.png" style="width: 500px;">

これはまさに「見方」ですね。見方を変えることでシンプルに考えられるという着想は、どの分野でも通じるものでしょう。

厳密に基底を定義すると**線形独立**や**張る**という考え方が必要となるのですが、現段階では骨組みで十分です。


## 次元

**次元**がディープラーニングでは単語として「次元削減」のような場面で使われます。
次元削減とは計算量が減らすために、元の状態とは極力「データの意味」を変えないようにしてデータ量を削減することです。
代表的な方法としては、「主成分分析」でしょう。主成分分析を解説しようとしたのですが固有値と固有ベクトルがないと
説明できないため、次の節で紹介します（いわゆる特徴量は固有値として現れます）。


次元というのは簡単なようで結構難しい言葉です。イメージするのは3次元であれば我々が認識できる「幅・奥行き・高さ」のようなものです。
二次元であれば$xy$平面のような平面であり、1次元は線です。


しかし、このようにとらえてしまうと4次元以上が言語化できません。「幅・奥行き・高さ」に「時間」を追加したものとしても、我々は時間の経過は観測できても、
時間を目にすることはできません。「時計」は時間の経過を「幅・奥行き・高さ」で捉えられるようにしたもので、「時間」そのものの観測はできません。
この時点で実は数学的な厳密さはないので、ただの私の戯言です。Wikipediaで時間を調べてみたところ、時間を「出来事や変化を認識するための基礎的な概念」
としています。この時点で「時間に対する性質を持って時間を捉えらようとしているだけ」で、時間自体が何かを厳密に言語化できていません。

そう考えると、時計ってすごい発明ですね。


4次元以上を可視化することはできないため4次元以上はただの「数字の並び」として考えるしかなさそうです。
これに慣れるのは結構大変かもしれません。

次元とは「基底の要素の数」と考えること**も**できます（次元の定義の仕方は複数あります。が、どれも同じ「次元」を定義しています）。
3次元の場合は座標を$(x, y, z)$と表現すれば、3次元$[(1, 0, 0),(0, 1, 0),(0, 0, 1)]$は基底の1つです。
例えば$[(2, 0, 0),(0, 3, 0),(0, 0, 5)]$でも$[(-100, 0, 0),(0, 10000, 0),(0, 0, 2)]$でも基底になりますが、
いずれにしても3つの組み合わせです。ですので次元は3つです。始めに3次元といっているのですが。


基底の各要素は実は「ベクトル」として考えられます。「行列の計算」でかけ算をやりましたが、例えば

$
\begin{pmatrix}
a\\
b\\
c\\
\end{pmatrix}
$

は

$
\begin{pmatrix}
1 & 0 & 1\\
0 & 1 & 1\\
\end{pmatrix}
$

を左からかける計算が可能で、

$$
\begin{pmatrix}
1 & 0 & 1\\
0 & 1 & -1\\
\end{pmatrix}
\begin{pmatrix}
1\\
2\\
3
\end{pmatrix}
=
\begin{pmatrix}
a + c\\
b - c\\
\end{pmatrix}
$$

となります。元のベクトル
$
\begin{pmatrix}
a\\
b\\
c\\
\end{pmatrix}
$
が3次元に対して、行列をかける、すなわち線形変換した後は
$
\begin{pmatrix}
a + c\\
b - c\\
\end{pmatrix}
$
と2次元のベクトルになっています。


このように線形変換はベクトルの向きや大きさだけでなく、次元も変換できます。


##　行列式

**行列式** は既に、微分積分のヤコビアンの行列式や[線形代数とは？]で出て来ています。
ディープラーニングで行列式を扱う場面はそれほど多くはないのですが、重要な部分として**逆行列を持つか？**というときに出て来ます。

行列は例えば$2 \times 2$や$3 \times 3$のように行と列が同数のとき、その行列を**正方行列**といいます（正方形の形をしているからですね）。
また、 $2 \times 2$のときは **2次正方行列**といったように、$n$行や$n$列の数をつけた **n次正方行列**という言い方をします。

（正方行列の性質は、この節のあとでご紹介します。）

この正方行列のときに、行列式を考えられます。

行列式は、この正方行列のときに考えられます。本来であれば定義や求め方を紹介するべきなのですが、定義を紹介しても直感的にはわかりづらく、
また求め方を紹介するにしても「余因子展開」　というこれまた少々ややこしいテクニックが必要であるため、プログラマブルに行列式を求められる観点からも
ここでは紹介しません。

ディープラーニングで行列式を使うときというのはかなり限られていて、「**逆行列**が存在するかを確認する」もしくは「**固有値**を求める」ときに使われます。固有値は次で紹介します。
一般的な数で考えると、例えば$5$という数に$\frac{1}{5}$をかけると$1$になります。
一般的な数で考えると、例えば$-10$という数に$-\frac{1}{10}$をかけると、こちらも$1$になります。
このような元の数に対してかけると$1$になるという数のことを**逆数**といいます。
$0$についてはどのような数をかけても1にはならないため、「逆数は存在しません」。


行列にも（後で紹介しますが)数で言うところの「$1$のような行列」があって、また逆数のようにかけると「$1$のような行列」になる行列があります。
この逆数のような行列が逆行列です。

数の場合は$0$のときには逆数が存在しませんでした。行列は少し幅広く逆行列が存在しない条件があります。
その条件として「行列式が$0$ならば逆行列が存在しない」という性質があります。

逆行列を求めたいときに、逆行列が存在するかどうかをチェックするために行列式を活用することが多いです。

## 固有ベクトルと固有値

ディープラーニングをやる上で、いわゆる「特徴量」を抽出することを目的とする場合があります。
この特徴量は**固有値**で表現されます。ので、少々踏み込んで解説します。

線形代数を語る上で最重要といえる概念が **固有ベクトル**　と **固有値** です。
どのくらい重要かというと、固有値を求めるための独立した問題として「固有値問題」が考えられる程度には重要です。

固有ベクトルと固有値は、行列自体の特徴を表現してくれます。
定義を簡単にご紹介し、Juliaと図形で確認して概要を紹介します。

#### 定義: 固有ベクトルと固有値

$n$次正方行列$A$とする。このときあるベクトル$\textbf{x}$とあるスカラー$\lambda$が存在して
$$A \textbf{x} = \lambda \textbf{x}$$
と表現できるとき、$\textbf{x}$を固有ベクトル、$\lambda$を固有値という。

この定義を見てもあまり感想を抱くのは難しいことが想定できますので、Juliaとグラフで見方を変えてみましょう。





In [7]:
# 行列 A

A = [8 1; 4 5]

# 固有ベクトル（本来は計算して見つけます）
x = [1; 1]

# 固有値（本来は計算して見つけます）
λ = 9

# 固有値の定義としては Ax と λx が等しくなります

println("Ax=λx は正しい？: ", A*x == λ*x)



Ax=λx は正しい？: true


どうやら$\begin{pmatrix}8 & 1\\ 4 & 5\\\end{pmatrix}$の固有値は$9$のようです。実はもう一つあるのですが、
それはあとで紹介します。

もう一度、定義の式を見てみましょう。

$$A \textbf{x} = \lambda \textbf{x}$$

左辺は「行列とベクトル」のかけ算、右は「ベクトルをスカラー倍、つまり数値とベクトルのかけ算」です。
いままでの紹介では、ベクトルに行列をかけることは「線形変換」と考え、ベクトルの方向や大きさ、または次元を変換するものでした。
しかし今回の場合は「ベクトルをスカラー倍」ということは、単に「ベクトルの大きさを変えただけ」の変換となっています。

これをグラフでみてみましょう。

In [9]:

#Genieをインストール
using Pkg
Pkg.add("Genie")
using Genie; up;
HTML("""
<iframe src="https://www.geogebra.org/calculator/chmaaszf" width="1000" height="800" allowfullscreen style="border: 1px solid #e4e4e4;border-radius: 4px;" frameborder="0"></iframe>    
""")

[32m[1m   Resolving[22m[39m package versions...
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.7/Project.toml`
[32m[1m  No Changes[22m[39m to `~/.julia/environments/v1.7/Manifest.toml`


一般的なベクトル$\textbf{u}$は線形変換すると$\textbf{Au}$のように角度も大きさも変わります。一方で固有ベクトル$v$は線形変換しても$Av$のように長さだけが変化しています。
このように、固有ベクトルというのは元の行列に対して特別なベクトルのようです。そして、元の行列と固有ベクトルをかけたときに「固有ベクトルの何倍」、すなわちスカラー倍の値が固有値です。

2次正方行列の場合、固有値は2つ存在します。一般にn次正方行列の場合はn個の固有値を持ちます。ただし同じ値の固有値を複数を持つ場合もあります。同じ固有値を複数持つことを**重複度込み**と表現することもあります。

求め方を「雑に」紹介しておきます。

計算は先に固有値を求めます。固有値と固有ベクトルの定義の方程式

$$A \textbf{x} = \alpha \textbf{x}$$

を左辺にまとめると、
$$(A　- \lambda )\textbf{x} = 0$$

とできます。$A　- \lambda$が行列と数値を引き算していて奇妙に思われるかもしれませんが、$\lambda$には数字で言うところの$1$に該当する行列である$I$がかけられていると見なして

$$(A　- \lambda I)\textbf{x} = 0$$

とします。このときの$A　- \lambda I$の行列式


$$\det{(A　- \lambda I)} = 0$$

を解くことで、すべての固有値が求められます。上の方程式のことを **固有方程式**といいます。

固有方程式を解いた結果の各固有値を$\lambda$として

$$(A　- \lambda I)\textbf{x} = 0$$

を満たすような$\textbf{x}$を求めると、各固有値に対する固有ベクトルが求められます。


ここで行列式が出て来たことで、行列式の重要性も認識していただけたかと思います。

ここまで読んでシンプルと思っていただけるかはわからないですが、私としては定義としてはとてもシンプルな印象を持っています。
しかし、この固有値の諸性質の応用は多岐にわたります。特に現代では、量子力学においても重要な概念です。
他分野を知る際にも、有益な情報となることは必至です。


## 単位行列

これまでのところどころで「数で言うところの1のような行列」という言葉が出て来ました。それが単位行列です。

数のかけ算を考えます。どのような数でも$1$をかけても値は変わりません。正方行列の場合には$1$のような行列があります。
その行列を**単位行列**といい、$I$や$E$として表現されます。単位行列の形は決まっていて、$n$次正方行列の単位行列は

$$
I
= 
\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1\\
\end{pmatrix}
$$

のように**対角成分**と呼ばれている$(1,1)$成分から対角線上に$1$が並び、それ以外の成分は$0$の形をしています。単位行列は、
同じ次数の正方行列を右からかけても左からかけても、元の行列に変化を与えません。つまり、任意の$n$次正方行列$A$に対して、$n$次単位行列$I$は

$$IA = AI = A$$

を満たします。次に紹介する逆行列と組み合わせて紹介することが、単位行列の重要性を理解していただけると思うので、ここでは少しだけ雑談をします。


まずは。
$$
\begin{pmatrix}
1 & 0 & 0\\
0 & 1 & 0\\
0 & 0 & 1\\
\end{pmatrix}
$$

のように、対角成分以外の要素が$0$の行列を「対角行列」といいます。対角行列のうち、対角成分がすべて$1$の場合が単位行列というわけです。

また、これまでにあまり言及してきませんでしたが、

$$IA = AI = A$$

$$IA = AI$$

のように、行列の左右を入れ替えてかけ算しても結果が変わらない性質を **可換性**といいます。行列のかけ算の復習をすると、
2つの行列のかけ算が可能な条件として「左の行列の列数と右の行列の行数が等しい」というものがありました。つまり、
$l \times m$ と $m \times n$の順番の行列のような場合だと計算可能ですが、これを逆にした$m \times n$と$l \times m$は「かけ算ができません」。
また、例えば $l \times m$と$m \times l$の2つの行列の場合には逆にしても $l \times m$　と$m \times l$のためにかけ算はできます。
しかし、それぞれのかけ算の結果が一致するとは限りません。

このように、一般的に行列のかけ算は可換でない、すなわち **非可換性**を持っています。
ですので、単位行列のように可換性を持っていることは実は例外なのです。
この可換性について言及した数学者に**アーベル**がいます。可換性に纏る話には凡そ「アーベル」という名前がついています。

次に紹介する逆行列でも、同様のことが言えます。




# 逆行列

逆行列も行列式のときにでてきました。「行列式が0でなければ逆行列が存在する」というものでした。

逆行列は、数で言うところの逆数に対応する行列です。逆数はかけると1になる数でしたが、逆行列は「かけたら単位行列になる行列」です。

逆行列自体が重要なのですが、どういう場面で使われがちというと「方程式を考えるとき」でしょう。

例えば、以下は1次方程式です。

$$ay = x$$

これを$y=$の形で表したいときに、当たり前に

$$y = \frac{1}{a} x$$

としていますが、これは「両辺に$a$を割っている」操作をしています。ですが、$a=0$だった場合には **0で割ることは禁則事項のため**　できません。
きちんと$a\neq0$であることを確認してから操作する必要があります。

これは行列にもいえて、例えば$W$をパラメータが入っている行列、$\textbf{x}$を入力データ、$\textbf{y}$を予測データとすると


$$W \textbf{x} = \textbf{y}$$

のような関係性で表せます。これを$\textbf{x}=$のような形にしたいときに、$W$の逆行列である$W^{-1}$を両辺の左からかけることで

$$
\begin{aligned}
W^{-1} W \textbf{x} &= W^{-1} \textbf{y}\\
(W^{-1} W) \textbf{x} &= W^{-1} \textbf{y}\\
(I) \textbf{x} &= W^{-1} \textbf{y}\\
\textbf{x} &= W^{-1} \textbf{y}\\
\end{aligned}
$$

のように変形できます。しかし先ほどの **禁則事項**のように$W$の「逆行列が存在する」ことを確認しないとこの操作はできません。

実際には逆行列の存在はいくつかの確認方法がありますが、ここでも行列式を確認することの重要性がでてくるわけです。

逆行列の定義を明確にします。

#### 定義: 逆行列

n次正方行列 $A$に対して、

$$AP = PA = I$$

を満たすn次正方行列$P$をAの**逆行列**という。


上の定義から、逆行列には可換性を持つことが前提となっています。


-----
#### コラム: 代数学、非可換性について

少し難しい話をします。

現代の代数学の礎であるガロア理論では、いままでのご紹介した可換性・非可換性や「逆」というような考え方について言及しています。
ガロア理論のスタートである「群論」では、「左からかける」や「右からかける」ということについてがより厳密に議論されています。
具体的には、ある集合の要素を「元」と呼びます。ある現に対する「逆」の要素を「逆元」と呼ぶのですが、

左からかけた場合に「逆」の性質を持つものを「左逆元」
右からかけた場合に「逆」の性質を持つものを「右逆元」

というように、一般的には非可換であることが前提です。

通常の数を見慣れている我々には想像するのは非常に難しい世界ですが、実はかなり身近にも非可換性は存在しています。

「行列は写像の一つ」という話をしました。ディープラーニングでも行列を関数、もしくは関数を行列として見なす場面があります。
線形代数の先の一つに**関数解析**という分野がありますが、関数解析では行列を**作用素**として扱います。

作用素というのは別に難しいことではなく、線形変換も作用素としての一つの見方です。
ベクトルに行列をかけると「作用」してベクトルは線形変換されます。
この「作用」する要素として行列があるので、作用素という考え方です。

関数解析は作用素を研究する分野ですが、ここにも可換性の重要性を表す非常にわかりやすい例があります。

$\textbf{x}$を「素足の状態」を表すとしましょう。そして$A$は「靴下を履く」という作用素、$B$を「靴を履く」という作用素とします。

すると、$A\textbf{x}$は「靴下を履いた素足の状態」、$B\textbf{x}$は「靴を履いた素足の状態」ですね（つまり石田純一さんですね）。

これらのそれぞれに、もう一方の作用素をかけてみましょう。

$BA\textbf{x}$は「靴下を履いたあとに靴を履いた素足の状態」、$AB\textbf{x}$は「靴を履いたあとに靴下を履いた素足の状態」となります。
前者は普通ですが、後者は明らかに奇妙な話です。

これが現実的な非可換性です。多少なりとも身近に感じてもらえたのではないでしょうか。

------

## 転置

**転置**はわかりやすいといえばわかりやすい操作です。行列の行と列を入れ替える操作で、次のようになります。

$$
\begin{aligned}
A
&=
\begin{pmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}\\
        \end{pmatrix}\\
A^T
&=
\begin{pmatrix}
a_{11} & a_{21} & a_{31}\\
a_{12} & a_{22} & a_{32}\\
a_{13} & a_{23} & a_{333}\\
        \end{pmatrix}\\
\end{aligned}
$$

操作としてはこれだけなのですが、数式の表現をするときにはかなり多用します。

例えば、

$$
\begin{aligned}
f(x) &= \sum_{i=0}^{n} a_i x^i\\
     &= a_0x_0 + a_1x_1 x + a_2x_2 + \dots + a_n x_n
\end{aligned}
$$

という数式があったとします。これを2つのベクトル
$\textbf{a} = \begin{pmatrix}a_0\\a_1\\a_2\\ \vdots\\a_n \end{pmatrix}$, $\textbf{x} = \begin{pmatrix}x_0\\x_1\\x_2\\ \vdots\\x_n \end{pmatrix}$
を用意すると、$\textbf{a}^T = \begin{pmatrix}a_0 & a_1 & a_2 & \dots & a_n \end{pmatrix}$ですので

$$
\begin{aligned}
f(x)  &= a_0x_0 + a_1x_1 x + a_2x_2 + \dots + a_n x_n\\
      &= \begin{pmatrix}a_0 & a_1 & a_2 & \dots & a_n \end{pmatrix} \begin{pmatrix}x_0\\x_1\\x_2\\ \vdots\\x_n \end{pmatrix}\\
      &= \textbf{a}^T \textbf{x}
\end{aligned}
$$

と表現できます。最初から$\textbf{a} = \begin{pmatrix}a_0 & a_1 & a_2 & \dots & a_n \end{pmatrix}$とすれば転置する必要がないのですが、このようにしてしまうと
ベクトルによって行ベクトルなのか列ベクトルなのかがわからなくなってしまい、非常にめんどうなことになります。ですので、多くの場合では列ベクトルで定義して、必要に応じて転置することが多いです。
（分野や専門書によっては行ベクトルで考える場合もあります。）


##　続く？

思いつく限りのディープラーニング周りで使うテクニックを紹介しましてみました。

追加事項があればこの節に追記するか、同様の節を設けて紹介します。