# 『言語処理のための機械学習入門』
>自然言語処理シリーズ １  
著：高村大也、監修：奥村学  
出版：コロナ社  
発行年月日：2010/08/05  
ISBN：978-4-339-02751-8  

 - [コロナ社公式ページ](http://www.coronasha.co.jp/np/isbn/9784339027518/)
 - [この書籍に関する著者のページ](http://www.lr.pi.titech.ac.jp/~takamura/ml4nl.html)

初版第10刷を使用して学習していきます。

---
## 第１章　必要な数学的知識

### 1.1　準備と本書における約束事
確率変数は $X$ など大文字で表し、その値は $x$ など小文字で表す。  
データとして与えられた事例は $x^{(1)}, x^{(2)}, \ldots $ のように上付の添字とともに表す。

文書 $d$ における単語 $w$ の出現回数を $n(w,d)$ または $n_{w,d}$ と書き、  
クラス $c$ に属する文書群における単語 $w$ の出現回数を $n(w,c)$ または $n_{w,c}$ と表す。  

また、クラス $c$ に属する文書のうち $w$ が出現するような文書の数を $N(w,c)$ または $N_{w,c}$ と記し、  
クラス $c$ に属する文書数を $N(c)$ または $N_{c}$ と書く。

$\delta(w,d)$ や $\delta_{w,d}$ は、文書 $d$ において単語 $w$ が出現したとき１，そうでないとき０と約束する。  
$\delta(w,s)$ や $\delta_{w,s}$ なども同様である。

文脈から明らかである場合は適宜省略される。

---
### 1.2　最適化問題
最適化問題の単純な例を一つ挙げる。

【例題 1.1】　次の最大化問題を解け。ただし $a$ は定数である。

\begin{align*}
&\text{max.} \hspace{5pt} -x_{1}x_{2} \\
&\text{s.t.} \hspace{5pt} x_{1} - x_{2} -a = 0
\end{align*}

【解答】

　制約から $x_{2}=x_{1}-a$ とすると $-x_{1}x_{2}=-x_{1}^{2} + ax_{1}$ である。  
　これを偏微分して０とおくと

\begin{align*}
\frac{\partial (-x_{1}^{2} + ax_{1})}{\partial x_{1}} = -2x_{1} + a = 0 \\
\therefore x_{1}=\frac{a}{2} ,\hspace{5pt} x_{2} = -\frac{a}{2}
\end{align*}

最適化したい関数をこの最適化問題の目的関数（objective function）、  
最適値を与える変数値を最適解（optimal solution）という。

一般に、最適化問題は次のように書かれる。

\begin{align*}
\hline
&\text{max.} \hspace{5pt} &f(x) \\
&\text{s.t.} & g(x) \leq 0 \\
& & h(x) = 0. \\
\hline
\end{align*}

ここで $f(x)$ が目的関数、$g(x) \leq 0, h(x)=0$ が制約である。  
特に $g(x)\leq0$ を不等式制約（inequality constraint）、$h(x)=0$ を等式制約（equality constraint）と呼ぶ。

また、制約を満たす解のことを実行可能解（feasible solution）、  
実行可能解の集合を実行可能領域（feasible region）という。

加減乗除や初等関数の合成関数による解の表し方を閉形式（closed-form）といい、  
閉形式の解が得られる問題を解析的に解ける（analytically solvable）問題という。

==

本節では以降、凸計画問題（convex programming problem）と呼ばれる問題を取り扱う。  
凸計画問題の解法の基本は、目的関数の値が改善する方向に進んでいくというものである。

---
#### 1.2.1　凸集合と凸関数
集合 $A \subseteq R^{d}$ が凸集合（convex set）であるとは、任意の $x^{(1)} \in A$ と $x^{(2)} \in A$ があったとき、  
任意の $t \in [0,1]$ に対して $tx^{(1)} + (1-t)x^{(2)} \in A$ が成り立つことである。  
これは、集合のないの任意の点を結ぶ線分が集合 $A$ からはみ出ないと理解できる。



---
#### 【例題 1.2】  
ある与えられた平面上にあるという制約を満たすベクトルの集合  
$A=\{\mathbf{x} | \mathbf{m} \cdot \mathbf{x} + b = 0, \mathbf{x} \in R^{b}\}$ は凸集合であることを示せ。

【解答】  
$\mathbf{x}^{(1)}, \mathbf{x}^{(2)} \in A$ とする。このとき $\mathbf{m}\cdot\mathbf{x}^{(1)}+b=\mathbf{m}\cdot\mathbf{x}^{(2)}+b=0$ である。  
任意の実数 $t \in [0,1]$ に対して $t\mathbf{x}^{(1)} + (1-t)\mathbf{x}^{(2)}$ がその平面上にあることを示せばよいので、  
平面の方程式に代入して

\begin{align*}
\mathbf{m} \cdot (t\mathbf{x}^{(1)} + (1-t)\mathbf{x}^{(2)}) + b &= t \mathbf{m} \cdot \mathbf{x}^{(1)} + (1-t) \mathbf{m} \cdot \mathbf{x}^{(2)} + b \\
&= t(-b) + (1-t)(-b) + b \\
&= 0
\end{align*}

より題意は示された。

---
半空間 $\{ \mathbf{x} | \mathbf{m} \cdot \mathbf{x} + b \geq 0, \mathbf{x} \in R^{d}\}$ も凸集合である。  
また、２つの凸集合 $A,B$ があるときは$ A \cap B$ も凸集合であるが、$A \cup B$ は凸集合になるとは限らない。

$f(x)=-x^{2}$ のように上に凸な関数を凹関数（concave function）、  
$f(x)=x^{2}$ のように下に凸な関数を凸関数（convex function）と呼ぶ。  
凸関数と凹関数は上下が逆であることを除いて性質が共通するので、両者を合わせて凸関数と表現することもある。  

==

関数 $f(\mathbf{x})$ が上に凸であるとは、任意の $\mathbf{x}^{(1)}, \mathbf{x}^{(2)} \in R^{d}$、任意の $t \in [0,1]$ に対し  
$f(t\mathbf{x}^{(1)} + (1-t)\mathbf{x}^{(2)} \geq tf(\mathbf{x}^{(1)}) + (1-t)f(\mathbf{x}^{(2)})$ が成立することである。  
下に凸であることは上式の不等号を逆にすればよい。

これらはスカラー値関数についてのみ定義される。

---
#### 例題 1.3  
　$f(x)=-x^{2}$ が上に凸であることを示せ。

解答  
　任意の $x^{(1)}, x^{(2)} (\in R)$ に対し不等式が成り立てば良い。$0 \leq t \leq 1$ とすると  
　（代入するだけなので以下省略）

---
#### 例題 1.4  
　(i)　上に凸な２つの関数の和は上に凸な関数であることを示せ。  
　(ii) $f(x)$ が上に凸な関数ならば、$a$ が非負の定数のとき、$af(x)$ も上に凸な関数であることを示せ。

解答  
(i) f(x)およびg(x)が上に凸な関数であるとき、その和 h(x)=f(x)+g(x)について

\begin{align*}
h(tx^{(1)}+(1-t)x^{(2)}) &= f(tx^{(1)}+(1-t)x^{(2)}) + g(tx^{(1)}+(1-t)x^{(2)}) \\
& \geq tf(x^{(1)}) + (1-t)f(x^{(2)}) + tg(x^{(1)}) + (1-t)g(x^{(2)}) \\
&= th(x^{(1)}) + (1-t)h(x^{(2)})
\end{align*}

より示された。

(ii) f(x)が上に凸な関数であるとき、h(x) = af(x) とすると

\begin{align*}
h(tx^{(1)}+(1-t)x^{(2)}) &= af(tx^{(1)}+(1-t)x^{(2)}) \\
&\geq atf(x^{(1)}) + a(1-t)f(x^{(2)}) \\
&= th(x^{(1)}) + (1-t)fh(x^{(2)})
\end{align*}

より示された。

---
#### 例題 1.5
関数 f は上に凸であるとする。このとき、任意の $x^{(1)} \in R$ と $x^{(2)} \in R$ について  
$f(x^{(2)} - f(x^{(1)}) \leq \frac{\partial f(x^{(1)})}{\partial x}(x^{(2)}-x^{(1)})$ が成り立つことを示せ。

解答  
関数 f は上に凸であるから、任意の $x^{(1)}, x^{(2)}, t\in[0,1]$ に対して $x^{(1)}<x^{(2)}$ として一般性を失わず、

\begin{align*}
f(tx^{(1)}+(1-t)x^{(2)}) \geq tf(x^{(1)}) + (1-t)f(x^{(2)})
\end{align*}

が成り立つ。よって $h=1-t$ と置き直すと

\begin{align*}
f(x^{(2)}) &\leq f(x^{(1)}) + \frac{f(x^{(1)} + t(x^{(2)} - x^{(1)})) - f(x^{(1)})}{h} \\
&= f(x^{(1)}) + \frac{f(x^{(1)} + t(x^{(2)} - x^{(1)})) - f(x^{(1)})}{h(x^{(2)}-x^{(1)})}(x^{(2)}-x^{(1)})
\end{align*}

となるので、$h\rightarrow0$ とすることで題意が示される。


---
上記は逆も成り立ち、多変数関数についても成り立つ。  
この条件は凸関数であるための１次の条件（first-order convexity condition）と呼ばれる。

次に、凸関数であるための２次の条件（second-order convexity condition）について考える。  
１変数のときは次の通り。

---
#### 例題 1.6
１変数関数 $f(x)$ が上に凸であるとき、２階微分 $f''(x)$ は常に負または０であることを示せ。

解答  
例題 1.5 より、$\delta x$ を $x$ の微小変化量として $f(x+\delta x) - f(x) \leq f'(x)\delta x$ が成り立つ。  
テイラー展開により

\begin{align*}
f(x+\delta x) - f(x) = f'(x)\delta x + \frac{f''(x)}{2}\delta x^{2} + O(\delta x^{3})
\end{align*}

と表せる。この２式より

\begin{align*}
\frac{f''(x)}{2}\delta x^{2} + O(\delta x^{3}) \leq 0
\end{align*}

である。これが成り立つためには $f''(x)\leq0$ が必要である。

---
２次の条件も逆が成り立つ。  
ここで、多変数関数の場合での凸関数であるための２次の条件を考える。  

いろいろな変数の組についての微分はヘッセ行列（Hessian matrix）$\mathbf{H}_{\mathbf{x}}$ で表すことができる。  
ヘッセ行列の (i,j) 成分は

\begin{align*}
\frac{\partial^{2} f(\mathbf{x})}{\partial x_{i} \partial x_{j}}
\end{align*}

である。

任意の $n$ 次元ベクトル $\mathbf{x}$ について $\mathbf{x}^{\mathrm{T}}M\mathbf{x} \geq 0$ が成り立つとき、$M$ は半正定値であるという。  
同様に、$\mathbf{x}^{\mathrm{T}}M\mathbf{x} \leq 0$ が成り立つとき $M$ は半負定値であるという。

一般に、関数が下に凸であるための必要十分条件はヘッセ行列が半正定値であることであり、  
関数が上に凸であるための必要十分条件はヘッセ行列が半負定値であることである。

---
#### 補項：行列の正定値／負定値
　参考：[多変数関数の極値判定とヘッセ行列](https://mathtrain.jp/hessian)

$f$ が $C^{2}$ 級（二回連続微分可能）のとき、偏微分の順序は交換できるためヘッセ行列は対称行列となる。

$n \times n$ 実対称行列 $H$ に対して以下の条件は全て同値であり、いずれかを満たす行列を正定値行列という。
 - 0ベクトルではない全ての $n$ 次元列ベクトル $\mathbf{x}$ に対して $\mathbf{x}^{\mathrm{T}} H \mathbf{x}$ が正
 - $H$ の固有値が全て正
 - 首座小行列の行列式が全て正

また、$-H$ が正定値のとき $H$ を負定値という。

１変数関数における極値判定の手法は、多変数関数においてもヘッセ行列を用いることで適用可能で、
 - 極値 -> ある点で偏導関数の値が全て0
 - ある点で偏導関数の値が全て0かつヘッセ行列が正定値 -> 極小値
 - ある点で偏導関数の値が全て0かつヘッセ行列が負定値 -> 極大値

が成り立つ。

例：  
　$f(x,y)=x^{3}+2xy+y^{2}-x$ の極値を求めよ。  

解答：  
　$f_x = 3x^2 + 2y - 1, f_y=2x + 2y$ であるから  
　$f_xx=6x, f_xy = f_yx = 2, f_yy=2$  
　よってヘッセ行列は  
 
\begin{align*}
\left( \begin{array}\, 6x & 2 \\ 2 & 2 \end{array} \right)
\end{align*}

　$f_x=0, f_y=0$ より $(x,y) = (1,-1), (-\frac{1}{3}, \frac{1}{3})$
 
　$(x,y)=(1,-1)$ のときヘッセ行列 $ \left( \begin{array}\, 6 & 2 \\ 2 & 2 \end{array} \right)$ の首座小行列の行列式は全て正であるから正定値であることがわかり、  
　$(1,-1)$ で $f(x,y)$ は極小値 $f(1,-1)=-1$ をとる。
 
　$(x,y)=(-\frac{1}{3},\frac{1}{3})$ のときヘッセ行列 $ \left( \begin{array}\, -2 & 2 \\ 2 & 2 \end{array} \right)$ は正定値でも負定値でもなく、極値かどうかは不明。  
　（実際には鞍点である）

---
### 1.2.2　凸計画問題
ある最適化問題が凸計画問題であるとは、その目的関数が凸関数であって、  
かつ実行可能領域が凸集合であることを言う。

変数の取りうる範囲に制約がない場合を考える。  
$A$ と $B$ が凸集合でも $A \cup B$ は凸集合とは限らないが、  
$A$ での最適解と $B$ の最適解の良いほうを選べば $A \cup B$ での最適解が求められる。

目的関数が凸であり特に制約もなければ微分して０になる点を求めれば良いが、  
実際のところ閉形式で解が求まらないような難しい問題はしばしば見られる。  
この場合には何らかの解を初期値として与えて少しずつ良い解へと更新する解法が用いられ、  
このような解法を数値解法（numerical method）という。

---
数値解法の２つの基本的な解法のひとつは**最急勾配法**（gradient method）である。  
目的関数の傾きが最も急な方向に変数の値を変化させる方法で  
目的が最大化なら最急上昇法（gradient ascent method）、  
最小化ならば最急降下法（gradient descent method）と呼ばれる。

最急勾配法の更新式は、$\eta$ を学習率として一般に次のように書かれる。

\begin{align*}
\mathbf{x}^{(i+1)} = \mathbf{x}^{(i)} + \eta \nabla_{v}f(\mathbf{x}^{(i)})
\end{align*}



---
数値解法のもう一つは**ニュートン法**（Newton's method）である。  
ヘッセ行列を $H_{\mathbf{x}}$ とすると、更新式は次の通り。

\begin{align*}
\mathbf{x}^{(i+1)} = \mathbf{x}^{(i)} -  H_{\mathbf{x}^{(i)}}^{-1} \nabla_{\mathbf{x}} f(\mathbf{x}^{(i)})
\end{align*}

ニュートン法では２階微分まで考慮しているため勾配法より効率的だが  
実用上は逆行列の計算が必要で計算コストが高いため、何らかの近似が行われることが多い。  
　->　準ニュートン法（DFP法、BFGS法など）

さて、ニュートン法はもともと方程式 $h(\mathbf{x})=0$ を解く方法である。  
$h(x)=0$ が一次元の方程式であるとき、更新式は

\begin{align*}
x^{i+1} = x^{i} - \left( \frac{\partial h(x^{i})}{\partial x} \right)^{-1} h(x^{i})
\end{align*}

となる。  

制約なし凸計画問題においては $\nabla_{\mathbf{x}} f(\mathbf{x})=0$ を解くことで最適解を求められるので、  
ニュートン法を最適化問題に用いることができる。

---
#### 補題：ニュートン法追記  
　参考：  
　　[最急降下法とニュートン法を用いた最適化](https://qiita.com/ruka38/items/bd212cb1741d35d8dde3)  
　　[ニュートン法とは何か？？ニュートン法で解く方程式の近似解](https://qiita.com/PlanetMeron/items/09d7eb204868e1a49f49)  
　　[最適化超入門](https://www.slideshare.net/tkm2261/ss-42149384)  

ニュートン法は、$f(x)=0$ を満たす $x$  を探す際に、  
ある値 $x_{i}$ における接線の切片 $x_{i+1} = x_{i} - \frac{f(x_i)}{f'(x_i)}$ は元の値よりも真の値 $x$ に近づく  
という考え方が基本となっている。  
　（関数を反復点で二次近似し、その最小点に移動している）

$f(x)=0$ となる $x \in \mathbb{R}$ を求める。  
点 $x=x_0$ のまわりで２次のテーラー展開をすると

\begin{align*}
f(x) = f(x_0) + f'(x_0)(x-x_0) + O((x-x_0)^2)
\end{align*}

右辺より $f(x)=0$ の解は

\begin{align*}
x = x_0 - \frac{f(x_0)}{f'(x_0)}
\end{align*}

これをiteration回数について一般化すると、更新式は次のようになる。

\begin{align*}
x_{i+1} = x_{i} - \frac{f(x_i)}{f'(x_i)}
\end{align*}

$f(x)=0$ ではなく $min(g(x))$ を求めるものとすると、$f(x) = g'(x)$ と置き換えればよいので

\begin{align*}
x_{i+1} = x_{i} - \frac{g'(x_i)}{g''(x_i)}
\end{align*}

という表記になる。

---
#### 1.2.3　等式制約付き凸計画問題
次の問題を考える。

\begin{align*}
&\text{max.} \, f(\mathbf{x}) \\
&\text{s.t.} \, g(\mathbf{x})=0
\end{align*}

