In [None]:
# ライブラリのインポート
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

先程は$f(x_1,x_2)=x_1^2 + x_2^2$の最小化を行いましたが、以下の関数(Rosenbrock function)を最小化してみましょう。
$$
f(x_1,x_2)=(1-x_1)^2 + 100(x_2-x_1^2)^2
$$
この関数は$(x_1,x_2)=(1, 1)$で最小値を取ります。
微分は
$$
\begin{align*}
\frac{\partial f}{\partial x_1} &= -2(1-x_1) - 400(x_2-x_1^2)x_1 \\
\frac{\partial f}{\partial x_2} &= 200(x_2-x_1^2) \\
\end{align*}
$$
となります。これを最急降下法(GD)で最小化すると、

In [None]:
# 目的関数の等高線プロット
x1, x2 = np.mgrid[-0.8:1.2:100j, -0.1:1.1:100j]  # x1 = (-5, 5), x2 = (-5, 5) の範囲で100点x100点のメッシュを作成\
y = (1 - x1) ** 2 + 100 * (x2 - x1 ** 2) ** 2  # Rosenbrock関数
plt.contour(x1, x2, np.log(y), linestyles='dashed', levels=10)  # 見やすさのため、z軸をlog-scaleにしています

x1History = []
x2History = []

x1 = -0.5  # 初期値
x2 = 0.5  # 初期値
x1History.append(x1)
x2History.append(x2)

# 最適化
learning_rate = 0.005  # ステップ幅
num_steps = 100  # 繰り返し回数
for i in range(num_steps):
    # 一次微分
    grad_x1 = -2 * (1 - x1) - 400 * (x2 - x1 * x1) * x1
    grad_x2 = 200 * (x2 - x1 * x1)

    # Gradient  descent
    x1 = x1 - learning_rate * grad_x1
    x2 = x2 - learning_rate * grad_x2

    x1History.append(x1)
    x2History.append(x2)

# 更新値履歴のプロット
plt.plot(x1History, x2History,
         color='black',
         marker='o', markersize=5, markerfacecolor='None', markeredgecolor='black')  # プロット
plt.xlabel('x1')
plt.ylabel('x2')
plt.xlim([-0.8, 1.2])
plt.ylim([-0.1, 1.1])
plt.show()


学習率やステップ回数を変化させてどのように学習が変わるかを見てみてください。最小値までたどり着くためにはどの程度のステップ数が必要でしょうか？

最急降下法は

$$
\mathbf{x}^{(k+1)} = \mathbf{x}^{(k)} - \epsilon \cdot \left. \frac{\partial f}{\partial \mathbf{x}} \right|_{\mathbf{x}=\mathbf{x}^{(k)}}
$$
のように値を更新するアルゴリズムでした。このアルゴリズムでは、その場その場の傾きに従って降下を行うため、ジグザクのパターンで無駄な動きをすることがあります。また、変数ごとに微分の大きさが大きく異なる時、うまく最適化ができません。

この問題を解決するためにさまざまな最適化手法が提案されています。最適化手法について調べて、実装し、上の関数(Rosenbrock function)を最適化してください。
また、実際の深層学習モデルに適応したときは、どのような性能の違いが見られるでしょうか？

[Kerasに実装されている最適化手法のドキュメント](https://keras.io/ja/optimizers/)に有名な最適化手法のリストと参考文献があります。

他の最適化手法の一例としては
- Momentum
- AdaGrad
- RMSprop
- Adam

等があります。この内特にAdamが深層学習でよく使われています。