# 総称としての勾配降下法

訓練データと予測値のコスト関数を微分し、勾配(gradient)を利用することによって、訓練データと予測値の誤差を小さくしていく方法。

### ・(バッチ)勾配降下法

全ての訓練データと予測値の誤差の和をとり、勾配を使ってその和が最小となるようなパラメータを求める方法。

ここでは、平均二乗誤差$ MSE $の最小化を目指すとする。$MSE$を、

$$
    MSE(\theta) = \frac{1}{m}\sum_{i=1}^{m}({\theta}^T \cdot x^{(i)} - y^{(i)})^2
$$

とすれば、パラメータ$\theta_i$についてのコスト関数$MSE$の偏微分は、

$$
    \frac{\partial}{\partial \theta_j} MSE(\theta) = \frac{2}{m}\sum_{i=1}^{m}({\theta}^T \cdot x^{(i)} - y^{(i)}){x_j}^{(i)}
$$

となるから、このコスト関数の勾配ベクトルは、

$$
  \nabla_{\theta}MSE(\theta) = \left(
    \begin{array}{cccc}
      \frac{\partial}{\partial \theta_0} MSE(\theta)  \\
      \frac{\partial}{\partial \theta_1} MSE(\theta)  \\
      \vdots   \\
      \frac{\partial}{\partial \theta_n} MSE(\theta) 
    \end{array}
  \right) = \frac{2}{m}X^T \cdot (X \cdot \theta - y)
$$

となる。

この勾配ベクトルに、学習率$\eta$(ステップサイズ)をかけたものをパラメータ$\theta$から引くことによって$\theta$を更新していく。

$$
    \theta_{n+1}= \theta_n - \eta \nabla_{\theta}MSE(\theta)
$$

### ・確率的勾配降下法

バッチ勾配降下法では各ステップですべての訓練データと予測値の誤差を計算していたが、

この方法だと訓練データが多くなればなるほど計算コストが大きくなってしまう。

確率的勾配降下法は、各ステップで訓練データからランダムな1つのデータのみを選び、そのコスト関数Cから勾配を計算していく。

$$
    C(\theta) = ({\theta}^T \cdot x^{(i)} - y^{(i)})^2
$$

$$
    \vdots
$$

計算に使う訓練データの数が変わるだけで他は同じ。

ランダムにとってきたデータを使うので、バッチ勾配降下法に比べて局所解に陥る可能性が低い。

### ・ミニバッチ勾配降下法

バッチ勾配降下法と確率的勾配降下法を合わせたような手法で、

ハイパーパラメータとしてバッチサイズを決め、訓練データからバッチサイズ分だけデータをとってきて勾配を計算していく。

### ・まとめ

- バッチ勾配降下法を基に確率的勾配降下法やミニバッチ勾配降下法が考えられた
- ミニバッチ勾配降下法が最も収束が早くなる場合が多いらしい
- パラメータの更新方法が上記以外にも様々あるようなので、どの最適化が収束が早いかもそれによっても変わる？
- (パラメータの更新方法によって？)学習率をハイパーパラメータにするかどうか変わるようなので追加で調査する