# 最低限必要な数学的知識

以下は極めて基本的な内容であり、既に知っていることとは思うが、Markdownフォーマットでの記述方法も含めて、ここでまとめておく

既学習済であるため、厳密な定義などは述べない

## 線形代数
線形代数は、複数の変数間の関係をシンプルに記述できるため、機械学習において頻出する

### スカラー，ベクトル，行列，テンソル

#### スカラー

スカラーは，1つの値もしくは変数のことで、例えば
$$
x, y, M, N
$$

と表す

#### ベクトル

ベクトルは、複数のスカラーを縦もしくは横方向に集めて並べたもので、

$$
\boldsymbol{x}=\begin{bmatrix}
x_{1} \\
x_{2} \\
x_{3}
\end{bmatrix}, \
\boldsymbol{y}=\begin{bmatrix}
y_{1} \\
y_{2} \\
\vdots \\
y_{N}\end{bmatrix}
$$

と表す

ベクトルの表記は太文字とすることでスカラーかベクトルかを区別し、縦方向に並べたものを列ベクトル、横方向に並べたものを行ベクトルと呼ぶ

一般に、単にベクトルと表現した場合には列ベクトルを指すことが多い

#### 行列

行列は複数の同じサイズのベクトルを並べたもので、

$$
\boldsymbol{X}=\begin{bmatrix}
x_{11} & x_{12} \\
x_{21} & x_{22} \\
x_{31} & x_{32}
\end{bmatrix}
$$

のように表す

多くの場合行列は大文字または大文字の太文字で表記する



#### テンソル

テンソルはベクトルや行列を一般化した概念で、ベクトルは1階のテンソル、行列は2階のテンソルと表現できる

図のように行列を奥行き方向にさらに並べた場合3階のテンソルと呼ぶ

- 例えば、カラー画像をデジタル表現する場合、画像を構成する各ピクセルはRGBの色空間を用いるのが一般的で、(行番号・列番号・色)の3軸で1つの値(この場合はピクセル)を指定する

単にテンソルと表現されている場合は、3階以上のテンソルを指すことが多い

<img src="http://class.west.sd.keio.ac.jp/dataai/text/1-07.png">

次のような形で表記されることが多いが、決まったルールはない

||小文字|大文字|
|-|-|-|
|細文字|スカラーの変数|スカラーの定数|
|太文字|ベクトル|行列 or テンソル |

#### 転置

縦向きのベクトルを横向きのベクトル、横向きのベクトルを縦向きのベクトルに入れ替える演算を**転置 (Transpose）** とよび，$T$で表記する

$$
\begin{aligned}\boldsymbol{x}&=\begin{bmatrix}
1 \\
2 \\
3
\end{bmatrix}, \
\boldsymbol{x}^{T}=\begin{bmatrix} 1 & 2 & 3 \end{bmatrix} \\
\boldsymbol{X}&=\begin{bmatrix}
1 & 4 \\
2 & 5 \\
3 & 6
\end{bmatrix}, \
\boldsymbol{X}^{T}=\begin{bmatrix}
1 & 2 & 3 \\
4 & 5 & 6
\end{bmatrix}\end{aligned}
$$

のようになる

行列に対する転置では、サイズが$(N, M)$から$(M, N)$となり、$i$行$j$列目の値が$j$行$i$列目の値になる

転置に関して次の公式がある

$$
\begin{aligned}
&(1) \ \left( \boldsymbol{A}^{T}\right)^{T}=\boldsymbol{A}\\
&(2) \ \left( \boldsymbol{A}\boldsymbol{B}\right) ^{T}=\boldsymbol{B}^{T}\boldsymbol{A}^{T}\\
&(3) \ \left( \boldsymbol{A}\boldsymbol{B}\boldsymbol{C}\right) ^{T}=\boldsymbol{C}^{T}\boldsymbol{B}^{T}\boldsymbol{A}^{T}
\end{aligned}
$$


### 線形結合と二次形式

単位行列と逆行列については省略する

なお、逆行列について機械学習では巨大な行列の逆行列を求める場合があるが、これらをプログラムすることはなく、基本的にはライブラリで計算する

そもそも、ライブラリを用いることで計算速度を数十倍高めることができるためライブラリの利用が推奨される

機械学習では、$\boldsymbol{b}^{T}\boldsymbol{x}$ と $\boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x}$ の2つの形式が頻出する

- 前者は**線形結合**もしくは**一次結合**、後者は**二次形式**とよぶ

スカラーの場合、一次式（$ax+b$）や二次式（$ax^2+bx+c$）があるが、これらをベクトルに拡張した形と理解することができる

線形結合の計算の中身を見ると、
$$
\begin{aligned}
\boldsymbol{b}&=\begin{bmatrix}
1 \\
2\end{bmatrix},\
\boldsymbol{x}=\begin{bmatrix}
x_{1} \\
x_{2}
\end{bmatrix}\\
\boldsymbol{b}^{T}\boldsymbol{x}&=\begin{bmatrix}
1 & 2
\end{bmatrix}\begin{bmatrix}
x_{1} \\
x_{2}\end{bmatrix}=x_{1}+2x_{2}\end{aligned}
$$

のように $\boldsymbol{x}$ の要素である $x_{1}$ もしくは $x_{2}$ に関して，一次式となっている

二次形式も同様に計算の中身を確認すると、

$$
\begin{aligned}
\boldsymbol{A}&=
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix},\  
\boldsymbol{x}=
\begin{bmatrix}
x_{1} \\
x_{2}
\end{bmatrix}\\
\boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x}&=
\begin{bmatrix}
x_{1} & x_{2}
\end{bmatrix}
\begin{bmatrix}
1 & 2 \\
3 & 4
\end{bmatrix}
\begin{bmatrix}
x_{1} \\
x_{2}
\end{bmatrix}\\
&=x^{2}_{1}+5x_{1}x_{2}+4x_{2}^{2}
\end{aligned}
$$

となり，各要素において二次式となっている

従って，任意の二次関数を、$c$ をスカラーの定数項とすると、
$$
\boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x} + \boldsymbol{b}^{T}\boldsymbol{x} + c
$$

の形で表現できる

### ベクトルによる微分と勾配

ここで、ベクトルによる微分を考える

関数のそれぞれのベクトルの成分毎に偏微分を計算し、それらを並べてベクトルにしたものを**勾配**と呼ぶ

例えば、

$$
\begin{aligned}
\boldsymbol{b}&=\begin{bmatrix}
3 \\
4
\end{bmatrix}, \
\boldsymbol{x}=\begin{bmatrix}
x_{1} \\
x_{2}
\end{bmatrix}\\
\boldsymbol{b}^{T}\boldsymbol{x}&=\begin{bmatrix}
3 & 4
\end{bmatrix}\begin{bmatrix}
x_{1} \\
x_{2}
\end{bmatrix}
=3x_{1}+4x_{2}\end{aligned}
$$

この$\boldsymbol{b}^{T}\boldsymbol{x}$をベクトル$\boldsymbol{x}$ で微分したものを、

$$
\dfrac {\partial }{\partial \boldsymbol{x}}( \boldsymbol{b}^{T}\boldsymbol{x})
$$

と表し、これを**ベクトルで微分する**と言う

この例では、

$$
\begin{aligned}
\dfrac {\partial }{\partial \boldsymbol{x}}( \boldsymbol{b}^{T}\boldsymbol{x}) &=\dfrac {\partial }{\partial \boldsymbol{x}}( 3x_{1}+4x_{2}) \\
&=\begin{bmatrix}
\dfrac {\partial }{\partial x_{1}} ( 3x_{1}+4x_{2})  \\
\dfrac {\partial }{\partial x_{2}} ( 3x_{1}+4x_{2})
\end{bmatrix}
\end{aligned}
$$

のようになり，計算を進めると

$$
\begin{aligned}\dfrac {\partial }{\partial x_{1}}( 3x_{1}+4x_{2}) &=\dfrac {\partial }{\partial x_{1}}( 3x_{1}) +\dfrac {\partial }{\partial x_{1}}( 4x_{2}) \\
&=3\end{aligned}
$$

$$
\begin{aligned}\dfrac {\partial }{\partial x_{2}}( 3x_{1}+4x_{2})&=\dfrac {\partial }{\partial x_{2}}( 3x_{1}) +\dfrac {\partial }{\partial x_{2}}( 4x_{2}) \\
&= 4
\end{aligned}
$$

となり、結局

$$
\begin{aligned}
\dfrac {\partial }{\partial \boldsymbol{x}}( \boldsymbol{b}^{T}\boldsymbol{x})
=
\begin{bmatrix}
3  \\
4
\end{bmatrix}
= \boldsymbol{b}
\end{aligned}
$$
となる

通常の微分同様に$\boldsymbol{x}$の係数として見える$\boldsymbol{b}^{T}$が転置されて得られる

以下、まとめると次のようになる。$(3)$は導出していないが、各自で確認のこと。

$$
\begin{aligned}
( 1) &\ \dfrac {\partial}{\partial \boldsymbol{x}}( \boldsymbol{c} ) = \boldsymbol{0}\\
( 2) &\ \dfrac {\partial }{\partial \boldsymbol{x}}( \boldsymbol{b}^{T}\boldsymbol{x}) = \boldsymbol{b}\\
( 3) &\ \dfrac {\partial }{\partial \boldsymbol{x}}( \boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x}) =( \boldsymbol{A}+\boldsymbol{A}^{T}) \boldsymbol{x}\end{aligned}
$$

その他、複雑なものも含めて、
[MatrixCookBook(リンク)](http://class.west.sd.keio.ac.jp/dataai/text/matrixcookbook.pdf)
を参考にするとよい



## ラグランジュの未定乗数法
$g(x,y)=0$の条件下で$f(x,y)$を最大化・最小化したいといった等式制約付き最大最小問題について、

$$L(\boldsymbol{x},\lambda)=f(\boldsymbol{x})-\lambda g(\boldsymbol{x})$$とすると、
$\boldsymbol{x}=\boldsymbol{\alpha}$が極致を与える、つまり、
$\boldsymbol{\alpha}$が$\dfrac{\partial L}{\partial x_1}=\dfrac{\partial L}{\partial x_2}=\cdots=\dfrac{\partial L}{\partial x_n}=\dfrac{\partial L}{\partial\lambda}=0$の解、\
もしくは、
$\dfrac{\partial g}{\partial x_1}=\dfrac{\partial g}{\partial x_2}=\cdots=\dfrac{\partial g}{\partial x_n}=0$の解となる

この方法により変数が1つ増えるが、式も1つ増え、$n$変数$n$連立方程式となり解くことができる
- 証明は他の授業で扱っているため、ここでは省略するが、上記の勾配を利用する

簡単な例題を示す

**例題**

$x^2+y^2=1$のもとで$f(x,y)=2x+3y$を最大化せよ

**解**

$$L(x,y,\lambda)=2x+3y-\lambda(x^2+y^2-1)$$
$$\tfrac{\partial L}{\partial x}=2-2x\lambda=0$$
$$\tfrac{\partial L}{\partial y}=3-2y\lambda=0$$
$$\tfrac{\partial L}{\partial \lambda}=-x^2-y^2+1=0$$

$$\therefore (x,y)=\left( \pm\dfrac{2}{\sqrt{13}},\pm\dfrac{3}{\sqrt{13}} \right) (複合同順)$$が解の候補である

$2x+3y$に代入して、$+$側が最大値$\sqrt 13$を与え、$-$側が最小値$-\sqrt 13$を与える



## ヤコビアン



多入力多出力関数の微分であるヤコビ行列（ヤコビアン）もニューラルネットワークの誤差逆伝播法を理解する際に必要となる
- 殆どの場合、行列を掛けた場合のヤコビアンは、その転置行列であると考えれば十分である場合が多い

### 状況設定

$\boldsymbol{x} = (x_1, x_2, \cdots , x_n)^T$を決めると
$\boldsymbol{y} = (y_1, y_2, \cdots , y_m)^T$が定まる

また、$n$変数の$m$次元ベクトル値関数があり、関数が連続であれば、各$y_i$は$x_j$で偏微分可能である

なお、機械学習において連続でない関数を扱うことはない
- 実際には**一部で微分不可能であっても実用上問題がない**

### 定義

#### ヤコビ行列の定義

$$
\frac{\partial y_1}{\partial x_1}
$$
をij成分とする$m\times n$ 行列$\mathbf{J}$ をヤコビ行列という。

例：$i=j=2$のヤコビ行列

$$
J_{i=m=2, j=n=2} = \begin{pmatrix}\frac{\partial y_1}{\partial x_1} & \frac{\partial y_1}{\partial x_2} \\
\frac{\partial y_2}{\partial x_1} & \frac{\partial y_2}{\partial x_2}
\end{pmatrix}
$$

#### ヤコビアンの定義

ヤコビ行列$J$の行列式$|J|$のことを「ヤコビ行列式」と呼ぶ
- ヤコビアンとは「ヤコビの」という意味であり、ヤコビ行列のことも、ヤコビ行列式のこともヤコビアンと呼ぶことがあるが、一般的にはヤコビ行列式を指す

ヤコビアンを$|J|$と書く代わりに次のように表記することもある

$$
|J| ≡ \left|\frac{\partial (x,y,z)}{\partial (r,\theta,\phi)}\right|
$$

これはヤコビアンが偏微分の拡張だというイメージを強調するような記法である

ヤコビアンは変換の「拡大率」を表すといえ、重積分での変数変換でも使用する

$$
\iint_D f(x, y) dxdy
= \iint_D f(\varphi_1(u, v), \varphi_2(u, v))\left|\frac{(\partial \varphi_1(u, v), \varphi_2(u, v))}{(\partial u, \partial v)}\right|du dv
$$

### ヤコビ行列の意味

- 1変数の場合：微分係数は接線の傾きで関数の1次近似を表せる

$x_0$周りでの1次近似$$
y(x) \simeq y(x_0) + y'(x_0)(x-x_0)\\
$$

- 多変数の場合：ヤコビ行列は接線の傾きに相当するため、同様に次のように表せる

$$y'(x_0) \to \mathbf{J}(\boldsymbol{x_0})$$

$$
\boldsymbol{y}(\boldsymbol{x}) \simeq \boldsymbol{y}(\boldsymbol{x_0})
+ \mathbf{J}(\boldsymbol{x_0})(\boldsymbol{x}-\boldsymbol{x_0})\\
$$

## 確率

機械学習において、パラメータ推定では確率が利用される

$x$を**確率変数(stochastic variable / random variable)**としたときの確率$p(x)$について、確率変数$x$が値$u$のときの確率を$p(x=u)$もしくは$p(u)$と表し、次の関係が成り立つ

$$
\begin{align}
\sum_{x } p(x) &= 1 \\
p(x) & \geq  0
\end{align}
$$

2つの事象が同時に起きる確率を**同時確率(joint propability)**とよび$p(x, y)$と表す
- なお、独立事象であればよい
- 例えば、サイコロを2回振り，1回目の目が$1$，2回目の目が$5$となる確率は同時確率となり$p(1,5)$と表現される

同時確率のうち、ある確率変数のみに注目し、それ以外の確率変数について和を取って消去する操作を**周辺化(marginalization)**とよぶ

周辺化の結果は、注目した確率変数の確率に一致する

$$
p(x) = \sum_y p(x, y) \\
p(y) = \sum_x p(x, y)
$$

片方の確率変数を固定した場合の確率分布を**条件付き確率(conditional probability)**とよび$p(y|x)$と表す
- 条件付き確率は、同時確率を条件の確率で割った値と一致する

$$
p(y|x) = \frac{p(x, y)}{p(x)}
$$

ここで$p(y|x)p(x) = p(x, y)$に注意すると

$$
p(x|y) = \frac{p(x, y)}{p(y)} = \frac{p(y | x)p(x)}{p(y)}
$$

が得られ、これを**ベイズの定理**と呼ぶ。
- さらに$p(x)$を**事前確率**、$p(x|y)$が**事後確率**と呼ぶ

$p(y)$は事象が発生する平均的確率を意味し、$p(y|x)$ある状況でそのデータが得られる確率を意味する
- よって、事前確率は「その状況が正しい確率」であり、事後確率は「データが手に入った後に、その状況が正しいといえる確率」を意味する
- さらに、式としては、事前確率を含む結果の確率である$p(x), p(y|x), p(y)$がわかれば、その結果となった原因の確率である事後確率$p(x|y)$がわかる

より平易に例を挙げて説明する

- ある街で、火事が起こる確率を$P(Fire)=0.01$、煙が上がっているのを見る確率を$P(Smoke)=0.1$とする
- 火事の90%で煙が上る、つまり$P(Smoke|Fire)=0.9$とする
- 煙が見えたときにそれが火事である事後確率は、ベイズの定理より
$P(Fire|Smoke)=\frac{P(Fire)P(Smoke|Fire)}{P(Smoke)}$として求まり、$\frac{0.01\times 0.9}{0.1}=0.09$ となる

ベイズ理論は初期のスパム判定においてよく利用された

メールが単語$i$を含むか否かを表す確率変数を $x_{i}$、
メールがスパムであるか否かを表す確率変数を $y$ とおくと， $p(x_{i})$
は「メールが単語$i$を含む確率」、$p(y)$
は「メールがスパムである確率」、$p(x_{i}|y)$
は「メールがスパムであった場合に，その中に単語$i$が含まれる確率」となる

受信済みの大量のメールからそれぞれの割合を集計して求め、ベイズの定理を適用することで、 $p(y|x_{i})$ として，「メールに単語$i$が出現した場合に，そのメールがスパムである確率」を求めることができる

## 尤度と最尤推定

パラメータ$\theta$で特徴付けられたパラメトリックな確率モデル$p(x; \theta)$について、事象$u$が観測される確率$p(x=u; \theta)$を事象$u$の **尤度** と呼ぶ
- 尤度（ゆうど）の尤は「尤（もっと）もらしい」という意味であり、その事象の起きやすさを表す

ここで，$N$個のデータについて$X = ( x^{(1)}, x^{(2)}, \ldots, x^{(N)})$が与えられ、そのデータ$X$を生成するような確率分布を推定する問題を考える

この場合、**最尤（さいゆう）推定**とよばれる手法がよく利用される
- 最尤推定は観測データ$X$を最も生成しそうなパラメータ$\theta$を推定する手法のこと

観測するデータがそれぞれ独立に生成されている場合、その尤度は

$$
L(\theta) = p(X; \theta) = \prod_{i=1}^N p(x^{(i)}; \theta)
$$

複数データに対する尤度は、$1$より小さな値の積となるため非常に小さな数になりコンピュータ上で扱うことが困難となる

また尤度を最大化したい場合、積の形の式の最大化は比較的困難なため、尤度の代わりにその対数をとった対数尤度とし、和の形式として扱う

$$
\log L(\theta) = \log p(X; \theta) = \sum_{i=1}^N \log p(x^{(i)}; \theta)
$$

この対数尤度を最大化するパラメータ$\theta$を求めることができれば，その値がデータ$X$を最も生成しそうな確率モデルのパラメータとなる

簡単な例としてコインの表・裏が出る確率を推定する問題を考える

- コインの表・裏を表す確率変数を$x$とおき、$x = 1$であれば表、$x = 0$であれば裏とする

- また、表($x = 1$)となる確率を表すパラメータを$\theta$とおく。コインを$10$回投げた結果、以下の観測結果$X$が得られたとする。

$$
X = (1, 0, 1, 1, 1, 0, 0, 1, 0, 0)
$$

この場合の尤度は，

$$
\begin{aligned}
L(\theta) &= \theta \cdot (1 - \theta) \cdot  \ldots  \cdot (1 - \theta) \cdot (1 - \theta) \\
&= \theta^{5} \cdot (1 - \theta)^{5}
\end{aligned}
$$

となり、対数尤度は、

$$
\log L(\theta) = 5 \log \theta + 5 \log \left( 1 - \theta \right)
$$

となる

これを$\theta$で微分して$0$になる条件を求めると

$$
\frac{5}{\theta} - \frac{5}{\left( 1 - \theta \right)} = 0
$$

ともとまる

従って、$\theta = 0.5$が最尤推定により得られるが、これは当然であり、表裏それぞれ50\%正確に出現する場合、Xの出現を最大化できることを意味する

回帰モデルの目的関数として真値と予測値の二乗誤差の和を使う場合を特に**最小二乗法(Least-squares method)**と呼ぶ\
この場合、モデルの出力値に正規分布の誤差を仮定した最尤推定を行っているのと等価であることが知られている

### 事後確率最大化推定(MAP推定)

最尤推定は多くの場合有効だが、求めるパラメータに何らかの事前情報がある場合、その事前情報を扱うことができないため、試行回数が少ない中でパラメータを推定しようとすると、最尤推定ではうまくいかない場合がある

- 例えば、コインの表・裏が出る確率を推定する例においても、コインを$5$回投げ、たまたま$5$回とも表($x = 1$)が出たとすると、最尤推定では、表が出る確率が$100$%（裏が出る確率が$0$%）であると推定する。しかしながら、裏が出る確率は$0$よりも大きいという事前情報があれば、異なる推定ができるであろう。

このように、事前情報も考慮しつつ観測データに基づいてパラメータを推定する方法として **事後確率最大化(Maximum A Posteriori, MAP)推定**が知られている

MAP推定では、パラメータ$\theta$も確率変数であり、**事前確率**である$\theta$の分布$p\left( \theta \right)$を考慮に入れて、観測データ$X$が与えられた条件での**事後確率**であるパラメータ$\theta$の条件付き確率$p\left( \theta|X\right)$ を最大化する$\theta$を求める

ベイズの定理により事後確率は、

$$
p(\theta|X) = \frac{p(X|\theta)p(\theta)}{p(X)}
$$

である。これをパラメータについて最大化すると、$P(X)$はパラメータとは無関係のため、

$$
p(X|\theta) p(\theta)
$$

を最大化するパラメータを求めればよい

$p(X|\theta)$は最尤推定と同じであるが、MAP推定ではさらにパラメータの事前確率$p(\theta)$を掛けた確率を最大化する

機械学習においてパラメータを最適化する際、パラメータの値が大きい場合にペナルティを与える正則化を採用することがあるが、これはパラメータの事前確率とみなすことができ、パラメータをMAP推定していると解釈できる

但し、$p(\theta)$を正しく得ることは難しく、あくまでも「人間が与えるこうであろう・こうであってほしい」という値を与えることとなる

ここで、具体的な例を使いながら理解を深める

- 例えば、勝負に10回挑んで、8回勝ったとすると、勝率8割という形で強さを表現できるが、確率的な話であるとすると実際と得られた勝率との乖離が気になることがある
  - 本当の実力は勝率1割であるが、たまたま10戦中8勝した
  - 本当の実力は勝率9割であるが、たまたま10戦中8勝しかできなかった

- さて、何が正しいのか？そもそも、こういうことは気にしないという言い方もあるが、例えば、藤井聡太二冠はデビュー以来29連勝を達成したが、同様に考えると、

  - 29連勝する確率は藤井聡太二冠の本来の勝率を0.95としても、22.6%程度の確率
  - 将棋対局の仕組みを考えず、単純にデータだけを見るとデビューの2016年と翌年2017年の合計では、55勝10敗と勝率は84.6%程度である

- このように、実力もずば抜けていたことは事実であるが、相当な運もあったことが伺える

さて、最尤推定を考えると、

$$
L(\theta) = p(X; \theta) = \prod_{i=1}^N p(x^{(i)}; \theta)
$$

であるが、$\theta$を本来の実力としての勝率とするならば、29連勝は、$p(29連勝; \theta)$となり、この確率は
$\theta^{29}$
となる\
この$p$を最大化する$\theta$は
$1$
となり、あり得ない値になっていることがわかる

さて、$n$回戦って$v$回勝利するとすると、
$$p(v|n, \theta)={}_n\mathrm{C}_v\theta^v(1-\theta)^{n-v}$$
となる

これを最大化する$\theta$を求めるため微分すると、

$$\frac{dp}{d\theta}={}_n\mathrm{C}_v(v\theta^{n-1}(1-\theta)^{n-v}-(n-v)\theta^v(1-\theta)^{n-v-1})={}_n\mathrm{C}_vv\theta^{n-1}(1-\theta)^{n-v-1}(v(1-\theta)-(n-v)\theta)$$

となるが、これを$0$にするには、結局$\theta=\frac{v}{n}$となり、勝率を求めることに他ならない

データ数が多ければ、当然の結果といえるが、データの数が少ないとき、例えば4戦だけして4勝した場合、たまたまである可能性も高く、だからといって勝率$1$とは言いにくいであろう

ここで、MAP推定を用いる

次の試合結果をDとすると、ベイズの定理により、

$$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}$$

と表現できる

$p(\theta)$は次の試合結果がわかる前の確率分布であり事前分布、$p(\theta|D)$は次の試合結果が分かった後の確率分布で事後分布である
- この事後分布が最大になる$\theta$を選ぶのが**MAP推定**である

このMAP推定を数式で表現すると、
$$\mathrm{argmax}_\theta p(\theta|D) = \mathrm{argmax}_\theta \frac{p(D|\theta)p(\theta)}{p(D)}$$
となり、$\mathrm{argmax} f(x)$は$f(x)$を最大にする$x$の集合を意味する

分母の$p(D)$は$\theta$に無関係であるため、結局MAP推定は、
$$\mathrm{argmax}_\theta p(\theta|D) = \mathrm{argmax}_\theta p(D|\theta)p(\theta)$$
となる

事前分布$p(\theta)$は繰り返しになるが、人間が最初に設定する必要がある
- しかしながら、なるべく計算を楽にするために、事前分布と事後分布が同じ形になるように設定するのが望ましく、そのように定めた事前分布を**共役事前分布**と呼ぶ

勝敗を議論する場合には、β分布が用いられる
- β分布は$\beta$をハイパーパラメータとして、
$$
p(\theta) = \mathrm{Beta}(\theta|\beta)=\frac{\Gamma(2\beta)}{\Gamma(\beta)^2}\theta^{\beta-1}(1-\theta)^{\beta-1}
$$
 となる

なお、積分値を1にするため、作為的に$\frac{\Gamma(2\beta)}{\Gamma(\beta)^2}$を掛けている

実際にMAP推定を求めると、

$$\mathrm{argmax}_\theta p(\theta|D)=\mathrm{argmax}_\theta {}_n\mathrm{C}_v\theta^v(1-\theta)^{n-v}\cdot \frac{\Gamma(2\beta)}{\Gamma(\beta)^2}\theta^{\beta-1}(1-\theta)^{\beta-1} $$

$\theta$に関係するところのみ抽出すると、

$$\mathrm{argmax}_\theta p(\theta|D)=\mathrm{argmax}_\theta \theta^{n+\beta-1}(1-\theta)^{n-v+\beta-1}$$

となる

微分し極を求めると、

$$\theta=\frac{v+\beta-1}{n+2(\beta-1)}$$

となる

これで、偶然性も考慮して、本来の勝率を推定する

例えば、$\beta = 2$とした場合はラプラススムージングと呼ばれ、29連勝は、
$$\frac{29+2-1}{29+2(2-1)}=0.9677$$となる

$\beta = 10$とした場合は同様に$0.8088$となり、勝率推定の値が小さくなる



### ベイズ推定
このMAP推定には、当然ながら不満も出てくる

298戦199勝であっても、4戦3勝であっても、
$$\theta=2/3$$と計算できるが、298戦199勝の方が、確度が高くより評価されるべきと考えるであろう

まさにその通りであり、これを考慮したのがベイズ推定といえる

$\mathrm{argmax}$を求めず、$p(\theta|D)$をそのまま利用する

ベイズの定理から、

$$p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}$$

であるが、$p(D)$を無視せずに求めると、

$$
\begin{aligned}
p(D)&=\int^1_0p(D,\theta)d\theta\\
&=\int^1_0p(D|\theta)p(\theta)d\theta\\
&=\int^1_0{}_n\mathrm{C}_v\theta^v(1-\theta)^{n-v} \frac{\Gamma(2\beta)}{\Gamma(\beta)^2}\theta^{\beta-1}(1-\theta)^{\beta-1}d\theta\\
&={}_n\mathrm{C}_v\theta^v(1-\theta)^{n-v} \frac{\Gamma(2\beta)}{\Gamma(\beta)^2}\int^1_0\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}d\theta
\end{aligned}$$

となる

改めて、$p(\theta|D)$を求めると、

$$
\begin{align*}
P(\theta\ |\ D) &= \frac{P(D\ |\ \theta)P(\theta)}{P(D)}\\
&= \frac{{}_n\mathrm{C}_v\frac{\Gamma(2\beta)}{\Gamma(\beta)^2}\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}}{{}_n\mathrm{C}_v\frac{\Gamma(2\beta)}{\Gamma(\beta)^2}\int^1_0\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}d\theta}\\
&= \frac{\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}}{\int^1_0\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}d\theta}
\end{align*}
$$

となり、

$$
\int_0^1\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}d\theta
= \frac{\Gamma(v+\beta)\Gamma(n-v+\beta)}{\Gamma(n+2\beta)}
$$

であることから、

$$
P(\theta\ |\ D) = \frac{\Gamma(n+2\beta)}{\Gamma(v+\beta)\Gamma(n-v+\beta)}\theta^{v+\beta-1}(1-\theta)^{n-v+\beta-1}
$$

となる

ここで、$v$連勝した場合を順に求めると次のグラフのようになり、連勝を重ねるほど、$\theta$の確率分布が右に移動することが見て取れる

![](http://class.west.sd.keio.ac.jp/dataai/text/bayes.gif)


### 統計量

**分散**について、標本分散と不偏分散について述べる。分散は、

$$
\begin{aligned}\sigma ^{2}=\dfrac {1}{N}\sum ^{N}_{n=1}\left( x_{n}-\overline {x}\right) ^{2}\end{aligned}
$$

と与えられ、各サンプルの平均 $\bar{x}$ からの差分 $x- \bar{x}$ を計算し、それらの二乗誤差の平均の値を計算すればよい
- これを**標本分散**と呼ぶ

分散にはもう一つ定義があり、

$$
\begin{aligned}
\sigma ^{2}=\dfrac {1}{N-1}\sum ^{N}_{n=1}\left( x_{n}-\overline {x}\right) ^{2}
\end{aligned}
$$
- これを**不偏分散**と呼ぶ

データ解析において、用いる全データ、つまり**母集団**に対する解析を行うのか、その一部の標本データ、つまり**標本集団**に対する解析を行うのかを意識する必要がある
- 母集団は、解析対象の想定範囲におけるすべてのデータが揃っている場合に用い、標本集団はそのうちの一部を抽出する場合に用いる

一般に、母集団のデータを集めるのが大変である場合は、標本集団から母集団の分布を推定するため、標本集団で利用する不偏分散を利用する
- サンプル数$N$が多い場合には母分散と不偏分散の差が小さく問題とならないが、サンプル数が小さい場合は差が顕著となるため注意が必要である
- 分散によりデータのばらつきを定量的に評価でき、データのばらつき具合にもよるが、スケールの違いも評価できる

**標準偏差**もしばしば利用される

基本的であるが、$X=(-2, -1, 0, 1, 2)$についての、平均、分散、標準偏差は、
$$
\begin{aligned}
\bar{x}&=\dfrac {1}{5}\left( -2-1+0+1+2\right) =0\\
\sigma ^{2}&=\dfrac {1}{5}\left\{ \left( -2-0\right) ^{2}+\left( -1-0\right) ^{2}+(0-0)^{2}+(1-0)^{2}+(2-0)^{2}\right\} \\
&=\dfrac {1}{5}\times 10=2\\
\sigma &=\sqrt {2}
\end{aligned}
$$

となる

### 正規分布と正規化

**正規分布**は**ガウス分布**ともよばれ、機械学習ではしばしば用いられる

平均$\mu$、標準偏差$\sigma$を持つ正規分布は以下のような形状をしている

![](http://class.west.sd.keio.ac.jp/dataai/text/1-14.png)

正規分布は、

- 独立で多数の因子の和で表される確率変数は正規分布に近似的に従うことが知られている
- 多くの統計的データが正規分布に従う
- 数式が比較的扱いやすい

一方で、必ずしもデータが正規分布に従うとは限らない

必ずデータの分布を図示化し、正規分布として扱ってよいか常に考えることが必要である

正規分布では平均 $\mu$ と標準偏差 $\sigma$ に対して、何%がその分布に入るかという議論が行われる

例えば、$\mu \pm 3\sigma$ の範囲内にデータの全体の99.7%が入るため、この $\mu \pm 3 \sigma$ に入らない領域を外れ値（他の値から大きく外れた値）として定義することが多い

なお、正規分布には加法性があり、平均$\mu$、分散$\sigma^2$の正規分布を$N(\mu, \sigma^2)$と表現すると、$N(\mu_1, \sigma_1^2)$と$N(\mu_2, \sigma_2^2)$の2つの正規分布について、それぞれの母集団からランダムに要素を取り出してその和を求めた時の分布は、やはり正規分布になる
- このようにして新たに作った正規分布は、$N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$となる


### 標準偏差を利用したスケーリング

機械学習アルゴリズムにおける前処理として頻繁にスケーリングが行われる。例えば、スケールが異なる変数 $x_{1}, x_{2}$、$x_1=(100,0.1), x_2=(1000,1)$とする
- ここで、縦軸と横軸のスケールが大きく異なっていることに注意する

この２点間の距離 $d$ は、

$$
\begin{aligned}
d&=\sqrt {\left( 100-1000\right) ^{2}+\left( 0.1-1\right) ^{2}}\\
&= \sqrt {810000.81}
\end{aligned}
$$

距離$d$において$x_{1}$の影響量が大きく$x_{2}$ は殆ど影響を与えていない

すると、$x_{2}$ のデータとしての意味が薄れ、考慮することが困難となる\
そこで、**スケーリング**を行う

- **最小値0**，**最大値1**にスケーリング

 最小値 $x_{\min}$ と最大値 $x_{\max}$ を求め、全データについて、
$$
\widetilde{x} = \dfrac{x - x_{\min}}{x_{\max} - x_{\min}}
$$
を求めればスケーリングが行われる
  - 計算が単純であるが、外れ値の影響が大きくなる

- **平均0**，**標準偏差1** にスケーリング

 この方法は、**標準化（正規化）** とよばれ、全てのデータから平均を引くと平均$0$になり，標準偏差で割ると標準偏差は$1$となる
$$
\widetilde{x}  = \dfrac{x - \bar{x}}{\sigma}
$$
としてデータが変換される
  - 外れ値に強いスケーリングが行われる