# 最適化アルゴリズム (1)
ここでは，非線形最適化問題を解く代表的なアルゴリズムである最急降下法とニュートン法についてまとめる．[1]を参考にした．

[1]: 茨木, [最適化の数学](https://www.kyoritsu-pub.co.jp/kenpon/bookDetail/9784320015654), 共立出版,2011.

## 考える問題
機械学習では，しばしば以下のような制約なしの最適化問題を解く．

$$ \underset{\boldsymbol{x}}{\text{minimize}} \ \ f(\boldsymbol{x}) \ \ \text{subject to} \ \ \boldsymbol{x} \in S \subset \mathbb{R}^N.  \tag{1}$$

ここで，$f: \mathbb{R^N} \to \mathbb{R}$ とし，適当な微分可能性を仮定する．例えば，損失を最小にする重みの学習などがこのような問題で表される．

## 解法
点 $\boldsymbol{x}^{*}$ の1次の最適性必要条件は停留点であること，つまり，

$$ \nabla f(\boldsymbol{x}^{*}) = 0 \tag{2}$$

である．非線形関数 $f$ に対して， (2) を直接解くのは一般に困難である．

$\rightsquigarrow$ 計算を繰り返すことで $\boldsymbol{x}^{*}$ に収束する点列 $\{ \boldsymbol{x}^k \}$ を生成し， $\boldsymbol{x}^{*}$ に十分近くなったと判断されたところで計算を終え，その時点の $\boldsymbol{x}^k$ を $\boldsymbol{x}^{*}$ の近似解として出力するのが普通．

現在の点 $\boldsymbol{x}^k$ において，ベクトル $d(\boldsymbol{x}^k) \in \mathbb{R}^N$ が

$$ \nabla f(\boldsymbol{x}^k)^{\mathrm{T}} d(\boldsymbol{x}^k) < 0 \tag{3}$$

を満たすならば， $\nabla f(\boldsymbol{x}^k)$ ($f(\boldsymbol{x}^k)$ からの最急増加方向) と $d(\boldsymbol{x}^k)$ は鈍角をなす．

$\rightsquigarrow$ $d(\boldsymbol{x}^k)$ は $f$ の降下方向を示す．

よって，降下方向ベクトル $d(\boldsymbol{x}^k)$ を見つけ，

$$ \boldsymbol{x}^{k + 1} = \boldsymbol{x}^k + \alpha_k d(\boldsymbol{x}^k) \tag{4}$$

という修正を行うという方針をとる．$\alpha_k$ はステップ幅または**学習率**と呼ばれる実数である．

$d(\boldsymbol{x}^k)$ や $\alpha_k$ をどのように見つけるかによってアルゴリズムが決まる．

## 最急降下法 (Steepest descent / Gradient descent)
$d(\boldsymbol{x}^k)$ として，勾配ベクトル $\nabla f(\boldsymbol{x}^k)$ の反対方向

$$ d(\boldsymbol{x}^k) = - \nabla f(\boldsymbol{x}^k) \tag{5}$$

を用いるアルゴリズム．1次の方法である．

- $d(\boldsymbol{x}^k)$ は $\boldsymbol{x}^k$ から見ると最急降下方向．

$f(\boldsymbol{x})$ の関数形によっては更新則 (5) の方向に進んでも関数値が増加することもある．

$\rightsquigarrow$ 学習率 $\alpha_k$ を

$$ \min \{f(\boldsymbol{x}^k + \alpha d(\boldsymbol{x}^k)) \, | \, \alpha > 0\} \tag{6}$$

を実現する $\alpha$ が存在すればその値に設定する (直線探索)．

最急降下法のアルゴリズムを以下に示す．

### Algorithm (Steepest)
#### Input
- $f$: 目的関数
- $\varepsilon$: 閾値
#### Output
- $\boldsymbol{x}^{*}$ の近似解 $\boldsymbol{x}^k$

#### 動作
1. (初期化) 初期値 $\boldsymbol{x}^0$ を定める．$k \leftarrow 0$.
1. (終了判定) $\|\boldsymbol{x}^{k + 1} - \boldsymbol{x}^k  \| < \varepsilon$ であれば，$\boldsymbol{x}^k$ を出力して終了．
1. (反復) $d(\boldsymbol{x}^k) \leftarrow - \nabla f(\boldsymbol{x}^k)$. $\alpha_k \leftarrow$ 直線探索の近似解とし，(4) で $\boldsymbol{x}^{k + 1}$ を求める．$k \leftarrow k + 1$ として 2. へ戻る．

### Remark
- $\nabla f$ を解析的に求めるのが困難な場合には自動微分等を用いる．
- 最急降下法は，1次近似で最良の方向へ進む．
- $\alpha_k$ が十分に小さいとき，以下の ODE で表される (修正方程式)．
    $$ \dot{\boldsymbol{x}} = -\nabla f(\boldsymbol{x}) $$