In [None]:
# ライブラリのインポート
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

先程は$f(x_1,x_2)=x_1^2 + x_2^2$の最小化を行いましたが、以下の関数(Rosenbrock function)を最小化してみましょう。
$$
f(x_1,x_2)=(1-x_1)^2 + 100(x_2-x_1^2)^2
$$
この関数は$(x_1,x_2)=(1, 1)$で最小値を取ります。
微分は
$$
\begin{align*}
\frac{\partial f}{\partial x_1} &= -2(1-x_1) - 400(x_2-x_1^2)x_1 \\
\frac{\partial f}{\partial x_2} &= 200(x_2-x_1^2) \\
\end{align*}
$$
となります。これを最急降下法(GD)で最小化すると、

In [None]:
# 目的関数の等高線プロット
x1, x2 = np.mgrid[-0.8:1.2:100j, -0.1:1.1:100j]  # x1 = (-5, 5), x2 = (-5, 5) の範囲で100点x100点のメッシュを作成\
y = (1 - x1) ** 2 + 100 * (x2 - x1 ** 2) ** 2  # Rosenbrock関数
plt.contour(x1, x2, np.log(y), linestyles='dashed', levels=10)  # 見やすさのため、z軸をlog-scaleにしています

x1_history = []
x2_history = []

x1 = -0.5  # 初期値
x2 = 0.5  # 初期値
x1_history.append(x1)
x2_history.append(x2)

# 最適化
learning_rate = 0.005  # ステップ幅
num_steps = 100  # 繰り返し回数
for _ in range(num_steps):
    # 勾配を手計算で求める
    grad_x1 = -2 * (1 - x1) - 400 * (x2 - x1 * x1) * x1
    grad_x2 = 200 * (x2 - x1 * x1)

    # 最急降下法で値を更新
    x1 = x1 - learning_rate * grad_x1
    x2 = x2 - learning_rate * grad_x2

    x1_history.append(x1)
    x2_history.append(x2)

# 更新値履歴のプロット
plt.plot(x1_history, x2_history,
         color='black',
         marker='o', markersize=5, markerfacecolor='None', markeredgecolor='black')  # プロット
plt.xlabel('x1')
plt.ylabel('x2')
plt.xlim([-0.8, 1.2])
plt.ylim([-0.1, 1.1])
plt.show()


学習率やステップ回数を変化させてどのように学習が変わるかを見てみてください。最小値までたどり着くためにはどの程度のステップ数が必要でしょうか？

最急降下法は

$$
\mathbf{x}^{(k+1)} = \mathbf{x}^{(k)} - \epsilon \cdot \left. \frac{\partial f}{\partial \mathbf{x}} \right|_{\mathbf{x}=\mathbf{x}^{(k)}}
$$
のように値を更新するアルゴリズムでした。このアルゴリズムでは、その場その場の傾きに従って降下を行うため、ジグザクのパターンで無駄な動きをすることがあります。また、変数ごとに微分の大きさが大きく異なる時、うまく最適化ができません。

この問題を解決するためにさまざまな最適化手法が提案されています。最適化手法について調べて、実装し、上の関数(Rosenbrock function)を最適化してください。
また、実際の深層学習モデルに適応したときは、どのような性能の違いが見られるでしょうか？

[Kerasに実装されている最適化手法のドキュメント](https://keras.io/ja/optimizers/)に有名な最適化手法のリストと参考文献があります。

他の最適化手法の一例としては
- Momentum
- AdaGrad
- RMSprop
- Adam

等があります。この内、特にAdamが深層学習でよく使われています。

いくつかの最適化アルゴリズムの実装ができたら、他の関数系でも同様の振る舞いをするのか、それともそうではないのか検証してください。
関数の例は例えば[Wikipediaの例](https://en.wikipedia.org/wiki/Test_functions_for_optimization)にあります。他にも実際のニューラルネットワークの学習ではどのような振る舞いとなるでしょうか。

## Tips
以下のセルは実習をするにあたって参考になるかもしれないTipsです。

## JAX
発展的な内容ですが、JAXを使うと微分計算が自動で行えるので便利です。

In [None]:
import jax
import jax.numpy as jnp

# Rosenbrock関数
def func(x):
    return (1 - x[0]) ** 2 + 100 * (x[1] - x[0] ** 2) ** 2

# 目的関数の等高線プロット
x1, x2 = np.mgrid[-0.8:1.2:100j, -0.1:1.1:100j]  # x1 = (-5, 5), x2 = (-5, 5) の範囲で100点x100点のメッシュを作成\
plt.contour(x1, x2, np.log(func([x1, x2])), linestyles='dashed', levels=10)  # 見やすさのため、z軸をlog-scaleにしています

x1_history = []
x2_history = []

x1 = -0.5  # 初期値
x2 = 0.5  # 初期値
x1_history.append(x1)
x2_history.append(x2)

# 最適化
learning_rate = 0.005  # ステップ幅
num_steps = 100  # 繰り返し回数
for _ in range(num_steps):
    # JAXを使うと微分が簡単に計算できます。
    grad_x1, grad_x2 = jax.grad(func)([x1, x2])

    # 最急降下法で値を更新
    x1 = x1 - learning_rate * float(grad_x1)
    x2 = x2 - learning_rate * float(grad_x2)

    x1_history.append(x1)
    x2_history.append(x2)

# 更新値履歴のプロット
plt.plot(x1_history, x2_history,
         color='black',
         marker='o', markersize=5, markerfacecolor='None', markeredgecolor='black')  # プロット
plt.xlabel('x1')
plt.ylabel('x2')
plt.xlim([-0.8, 1.2])
plt.ylim([-0.1, 1.1])
plt.show()



## Keras での実装例
ニューラルネットワークを対象に最適化手法の検証を行う場合はnumpyだけではなく、Keras/TensorflowやPyTrochなどのライブラリを使用するのが良いです。以下はKerasを使った実装例です。

In [None]:
# Tensorflowが使うCPUの数を制限します。(VMを使う場合)
%env OMP_NUM_THREADS=1
%env TF_NUM_INTEROP_THREADS=1
%env TF_NUM_INTRAOP_THREADS=1

from tensorflow.config import threading
num_threads = 1
threading.set_inter_op_parallelism_threads(num_threads)
threading.set_intra_op_parallelism_threads(num_threads)

# Tensorflowのインポート
import tensorflow as tf

In [None]:
# Rosenbrock関数
def func(x):
    return (1 - x[0]) ** 2 + 100 * (x[1] - x[0] ** 2) ** 2

# 目的関数の等高線プロット
x1, x2 = np.mgrid[-0.8:1.2:100j, -0.1:1.1:100j]  # x1 = (-5, 5), x2 = (-5, 5) の範囲で100点x100点のメッシュを作成\
plt.contour(x1, x2, np.log(func([x1, x2])), linestyles='dashed', levels=10)  # 見やすさのため、z軸をlog-scaleにしています

x1_history = []
x2_history = []

x1 = tf.Variable(-0.5)  # 初期値
x2 = tf.Variable(0.5)  # 初期値
x1_history.append(x1.numpy())
x2_history.append(x2.numpy())

# 最適化
learning_rate = 0.005  # ステップ幅
num_steps = 100  # 繰り返し回数
for _ in range(num_steps):

    # Tensorflowでも微分が簡単に計算できます。
    with tf.GradientTape() as tape:
        y = func([x1, x2])  # 順伝搬
    grad_dx1, grad_dx2 = tape.gradient(y, [x1, x2])  # 逆伝搬

    # 最急降下法で値を更新
    x1.assign(x1 - learning_rate * grad_dx1)
    x2.assign(x2 - learning_rate * grad_dx2)

    x1_history.append(x1.numpy())
    x2_history.append(x2.numpy())

# 更新値履歴のプロット
plt.plot(x1_history, x2_history,
         color='black',
         marker='o', markersize=5, markerfacecolor='None', markeredgecolor='black')  # プロット
plt.xlabel('x1')
plt.ylabel('x2')
plt.xlim([-0.8, 1.2])
plt.ylim([-0.1, 1.1])
plt.show()


### KerasでのMLPの最適化 (Higgs Challenge datasetでの実装例)

#### Datasetの読み込み

In [None]:
# csvファイルの読み込み
import pandas as pd
df = pd.read_csv("/data/staff/deeplearning/atlas-higgs-challenge-2014-v2.csv")

# 全ての変数を入力に使います
X = df[[
    'DER_mass_MMC',
    'DER_mass_transverse_met_lep',
    'DER_mass_vis',
    'DER_pt_h',
    'DER_deltaeta_jet_jet',
    'DER_mass_jet_jet',
    'DER_prodeta_jet_jet',
    'DER_deltar_tau_lep',
    'DER_pt_tot',
    'DER_sum_pt',
    'DER_pt_ratio_lep_tau',
    'DER_met_phi_centrality',
    'DER_lep_eta_centrality',
    'PRI_tau_pt',
    'PRI_tau_eta',
    'PRI_tau_phi',
    'PRI_lep_pt',
    'PRI_lep_eta',
    'PRI_lep_phi',
    'PRI_met',
    'PRI_met_phi',
    'PRI_met_sumet',
    'PRI_jet_num',
    'PRI_jet_leading_pt',
    'PRI_jet_leading_eta',
    'PRI_jet_leading_phi',
    'PRI_jet_subleading_pt',
    'PRI_jet_subleading_eta',
    'PRI_jet_subleading_phi',
    'PRI_jet_all_pt'
]]

# 目標変数とweightの指定
Y = df['Label']
W = df['KaggleWeight']

# X を numpy.array 形式に変換します。
X = X.values

# Y を s/b から 1/0に変換します。
from sklearn.preprocessing import LabelEncoder
Y = LabelEncoder().fit_transform(Y)
Y = Y[:, np.newaxis]

# W を numpy.array 形式に変換します。
W = W.values
W = W[:, np.newaxis]


In [None]:
# 全データを使うと時間がかかるので、1000イベントだけを使用
X = X[:1000]
Y = Y[:1000]
W = W[:1000]

### モデルの定義と学習

In [None]:
# モデルの定義
model = tf.keras.models.Sequential([
    tf.keras.layers.Dense(64, activation='relu', input_shape=X.shape[1:]),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(64, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

# ロス関数は交差エントロピーを使用
bce_loss = tf.keras.losses.BinaryCrossentropy()

loss_history = []

learning_rate = 0.001  # ステップ幅
num_epochs = 100  # 繰り返し回数
for ie in range(num_epochs):
    with tf.GradientTape() as tape:
        # 順伝搬
        Y_pred = model(X, training=True)  # モデルの出力を得る
        loss = bce_loss(Y, Y_pred, W)  # モデル出力を使ってロスの計算
    gradients = tape.gradient(loss, model.trainable_weights)  # ロスの値に対する勾配を計算

    for var, grad in zip(model.trainable_weights, gradients):
        var.assign(var - learning_rate * grad)  # 最急降下法でパラメータを更新
    
    # ロスの値を出力・記録
    print(f'epoch = {ie}, loss = {loss}')
    loss_history += [loss]

plt.plot(loss_history)
# plt.yscale('log')
