<a href="https://colab.research.google.com/github/takatakamanbou/ML/blob/2024/ML2024_ex04notebookC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ML ex04notebookC

<img width=72 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/ML/ML-logo.png"> [この授業のウェブページ](https://www-tlab.math.ryukoku.ac.jp/wiki/?ML/2024)


----
## 演習: 勾配法によるパラメータの最適化
----




----
### 準備


以下，コードセルを上から順に実行してながら読んでいってね．

In [None]:
# 準備あれこれ
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import animation, rc  # アニメーションのため
import pandas as pd
import seaborn
seaborn.set()

----
### 問題1

関数 $E(w_1, w_2)$ を
$$
\begin{aligned}
E(w_1, w_2) &= \frac{(2w_2-w_1^2)^2}{4} + \frac{(1-w_1)^2}{8}
\end{aligned}
$$
と定める．このとき，次のものを手計算で求めなさい．

1. $\frac{\partial E}{\partial w_1}, \frac{\partial E}{\partial w_2}$
1. $\frac{\partial E}{\partial w_1} = \frac{\partial E}{\partial w_2} = 0$ を満たす $(w_1, w_2)$

---

次の2つのセルを実行すると，$E(w_1, w_2)$ の概形を描かせることができます．

In [1]:
# E(w1, w2)
def E(w):
    return (2*w[1] - w[0]*w[0])**2/4 + (1 - w[0])**2/8

# E(w1, w2) の w1, w2 に関する偏微係数
def dEdw(w):
    return np.array([0, 0]) ### 問題2で要修正

In [None]:
# 2変数の具体例のグラフ
fig = plt.figure(facecolor='white', figsize=(12, 6))

xmin, xmax = -1, 2
ymin, ymax = -1, 2

# (w1, w2) に対する E(w1, w2) の計算
w1, w2 = np.meshgrid(np.linspace(xmin, xmax, num=100), np.linspace(ymin, ymax, num=100))
w1w2 = np.vstack((w1.ravel(), w2.ravel())).T
Ew1w2 = np.array([E(w) for w in w1w2])
EE = Ew1w2.reshape((w1.shape[0], w2.shape[1]))

# 三次元プロット
elevation = 20
azimuth = -70
ax0 = fig.add_subplot(121, projection='3d')
ax0.plot_wireframe(w1, w2, EE)
ax0.set_xlim(xmin, xmax)
ax0.set_ylim(ymin, ymax)
ax0.set_zlim(-1, 5)
ax0.set_xlabel('$w_1$')
ax0.set_ylabel('$w_2$')
ax0.set_zlabel('$E(w_1, w_2)$')
ax0.view_init(elevation, azimuth)

# 二次元等高線プロット
ax1 = fig.add_subplot(122)
cval = [0, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 1, 2, 3, 4, 5]
contour = ax1.contour(w1, w2, EE, cval)
ax1.clabel(contour, fontsize=10)
ax1.set_aspect('equal')
ax1.set_xlabel('$w_1$')
ax1.set_ylabel('$w_2$')
ax1.set_xlim(xmin, xmax)
ax1.set_ylim(xmin, xmax)

plt.tight_layout()
plt.show()

----
### 問題2

関数 $E(w_1, w_2)$ の最小値を最急降下法で求めてみよう．関数 `dEdw` を定義しているセルの `### 問題2で要修正` と書かれた行を修正してから次のセルを実行すると，$(w_1, w_2) = (0, 1)$ を初期値として $E(w_1, w_2)$ が最小になる $(w_1, w_2)$ を探すことができます．正しく動作することを確認しましょう．

ヒント: `np.array([0, 0]) ` の2箇所の `0` のうち，一つ目のところに $\frac{\partial E}{\partial w_1}$ を表す式を， 二つ目のところに $\frac{\partial E}{\partial w_2}$ を表す式を書きます．ただし，$w_1, w_2$ はそれぞれ `w[0], w[1]` です．



In [None]:
w = np.array([0.0, 1.0]) # w_1, w_2 の初期値
eta = 0.3                # 学習係数

# 最急降下法の繰り返し
for i in range(100):
    print(f'step{i}: w = {w}, E(w) = {E(w):.4f}')
    dw = dEdw(w)  # 勾配の値の計算
    w -= eta*dw  # パラメータの更新
print(f'step{i}: w = {w}, E(w) = {E(w):.4f}')

次のセルたちを実行すると，最急降下法で $(w_1, w_2)$ の値が更新されていく様子をアニメーションで見ることができます．やってみよう．

動作確認できたら，初期値や学習係数の値をいろいろ変えて実験してみよう．

In [None]:
def genAnim2D(f, dfdx, x0, eta):

    fig, ax = plt.subplots(facecolor="white", figsize=(6, 6))

    # f(x1, x2) の等高線を描く
    xx, yy = np.meshgrid(np.linspace(xmin, xmax, num=100), np.linspace(ymin, ymax, num=100))
    XX = np.vstack((xx.ravel(), yy.ravel())).T
    ZZ = np.array([f(x) for x in XX])
    zz = ZZ.reshape((xx.shape[0], xx.shape[1]))
    cval = [0, 0.05, 0.1, 0.2, 0.3, 0.4, 0.5, 1, 2, 3, 4, 5]
    contour = ax.contour(xx, yy, zz, cval)
    ax.clabel(contour, fontsize=10)
    ax.set_aspect('equal')
    ax.set_xlim(xmin, xmax)
    ax.set_ylim(ymin, ymax)

    # アニメーションの各コマを生成
    aList = []
    x = x0
    for i in range(50):
        a1 = ax.plot(x[0], x[1], marker='o', markersize=12, color='red')
        s = f'step{i}: $E = {f(x):.3f}$'
        a2 = ax.text(-0.9, 1.5, s, size=20)
        a1.append(a2)
        aList.append(a1)
        # 最急降下法
        dx = dfdx(x)
        x -= eta*dx

    anim = animation.ArtistAnimation(fig, aList, interval=300)
    rc('animation', html='jshtml')
    plt.close()

    return anim

In [None]:
w = np.array([0.0, 1.0]) # w_1, w_2 の初期値
eta = 0.3                # 学習係数
anim = genAnim2D(E, dEdw, w, eta)
anim

### ゴリゴリ君の問題を勾配法で解いてみる

ゴリゴリ君のデータに直線を当てはめる線形回帰の問題の場合，連立方程式（正規方程式）を解けば最適なパラメータを一撃で求めることができます．しかし，ここではあえて勾配法を使ってみましょう．実用的な意味はなく，勾配法を理解するための実験です．

この問題では，$x$ と $y$ の値のペアが $(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)$ と $N$ 個与えられたときに，

$$ E(a, b) = \frac{1}{2}\sum_{n=1}^N (y_n - (ax_n+b))^2 $$

の値を最小にする $(a, b)$ を求めたいのでした．第1回に導出したように，$E(a, b)$ のパラメータ $a, b$ に関する勾配は次式の通りです．

$$
\begin{aligned}
\frac{\partial E(a,b)}{\partial a} &= \sum_{n=1}^{N}(y_n-(ax_n+b))(-x_n) \\
\frac{\partial E(a,b)}{\partial b} &= \sum_{n=1}^{N}(y_n-(ax_n+b))(-1) \\
\end{aligned}
$$

したがって，$(a, b)$ を適当な値で初期化して，適当な学習係数 $\eta (>0)$ のもとで

$$
\begin{aligned}
a^\textrm{new} &= a - \eta \frac{\partial E(a,b)}{\partial a} \\
b^\textrm{new} &= b - \eta \frac{\partial E(a,b)}{\partial a} \\
\end{aligned}
$$

のように $(a, b)$ の値を更新する計算を繰り返せば，$(a, b)$ は徐々に $E(a, b)$ を最小にする解へ近づいてゆくはずです．

やってみましょう．


In [None]:
# データを読み込む
dfGori = pd.read_csv('https://www-tlab.math.ryukoku.ac.jp/~takataka/course/ML/gorigori.csv', header=0)
xmin, xmax = -5, 40
ymin, ymax = 0, 130

# データを用意
X = dfGori['気温'].to_numpy()
XX = np.vstack([X, np.ones_like(X)]).T
Y = dfGori['アイス売上数'].to_numpy()

次のセルを実行すると，上で説明した計算の過程の一例を見ることができます．

In [None]:
a, b = 1.0, 1.0  # パラメータの初期値
nitr = 20001     # 勾配法の繰返し回数
eta = 0.001/len(X)  # 学習係数

for i in range(nitr):
    # 現在の (a, b) で予測値とその誤差を求める
    e = Y - (a*X + b)
    # 途中経過を表示
    if (i < 1000 and i % 100 == 0) or (i % 1000 == 0):
        print(f'iteration {i:>6}  a = {a:.4f}  b = {b:.4f}  E(a, b) = {e@e/2:.3f}')
    # 勾配の計算
    dEda = -e @ X
    dEdb = -np.sum(e)
    # パラメータの修正
    a -= eta * dEda
    b -= eta * dEdb


勾配法によってパラメータが最適な解へ近づいていく様子が見えるでしょうか？
ちなみに，最小二乗解は $(a, b) = (2.922, 2.337)$ （小数第3位まで表示）です．