<a href="https://colab.research.google.com/github/takatakamanbou/Vision/blob/main/Vision2023_report01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Vision2023-report01

課題の期限や提出の方法などについては，別途お知らせしています

## 準備

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn
seaborn.set()

In [None]:
### データを生成する関数
#
def generateData(N, true_data=False, seed=None, sigma=0.0):

    if true_data:
        x = np.linspace(-0.1, 1.1, num=N)
        y = np.sin(2*np.pi*x) + 1
    else:
        # 乱数生成器
        rng = np.random.default_rng(seed)
        x = rng.uniform(0.0, 1.0, N)
        #x = np.linspace(0.0, 1.0, num=N)
        y = np.sin(2*np.pi*x) + 1 + sigma*rng.standard_normal(N)

    return x, y

上のセルを実行すると，
$$
y_n = \sin(2\pi x_n) + 1 + \varepsilon_n
$$
という式にもとづいてデータ $(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)$ が生成されます．$\varepsilon_n$ は，平均 $0$ 標準偏差 `sigma` の正規乱数です．

次のセルを実行するとデータをグラフに描きます．実行するたびに乱数の値が変わりますので，何度か実行してみましょう．

In [None]:
x_true, y_true  = generateData(1000, true_data=True)
x_noisy, y_noisy = generateData(30, sigma=0.1)
fig, ax = plt.subplots()
ax.set_xlim(-0.1, 1.1)
ax.set_ylim(-0.2, 2.2)
ax.plot(x_true, y_true, color='blue', label='true function')
ax.scatter(x_noisy, y_noisy, color='red', label='noisy data')
ax.legend()
plt.show()

In [None]:
##### 1, x, x^2, x^3, ..., x^D をならべたデータ行列（N x (D+1)）をつくる
#
def makeDataMatrix(x, D):

    N = x.shape[0]
    X = np.zeros((N, D+1))
    X[:, 0] = 1
    for d in range(1, D+1):
        X[:, d] = x**d

    return X

In [None]:
### 線形回帰
#
def LinearRegression(X, y):
    # 正規方程式の左辺の行列を A とする
    A = 0
    # 正規方程式の右辺のベクトルを b とする
    b = 0
    # np.linalg.solve を使って正規方程式を解き，解を w とする
    w = 0
    return w

In [None]:
### リッジ回帰
#
def RidgeRegression(X, y, lam):
    # 正規方程式の左辺の行列を A とする
    eyet = np.ones(X.shape[1])
    eyet[0] = 0.0
    A = lam * np.diag(eyet)
    # 正規方程式の右辺のベクトルを XTY とする
    b = 0
    # np.linalg.solve を使って正規方程式を解き，解を w とする
    w = 0
    return w

## 問題1

(1) 関数 `LinearRegression` の中身を，コメントに従って正しく動作するように修正しなさい．

(2) 次のセルを実行すると，最小二乗法を用いて学習データに `D` 次多項式を当てはめ，学習データとテストデータに対する予測誤差の値を出力するように修正しなさい．

(3) 次の次のセルを実行すると，多項式当てはめの結果をグラフに描画します．`D` の値をいろいろ変えて何度も実行して結果を観察し，考察を述べなさい（考察は，グラフの下のセルに書くこと）．

In [None]:
# 実験条件
NL, NT = 30, 1000 # 学習データ数，テストデータ数
sig = 0.1 # ノイズの標準偏差
D = 3 # 多項式次数

# 学習データの生成
xL, yL = generateData(NL, sigma=sig)
XL = makeDataMatrix(xL, D)

# 線形回帰
w = LinearRegression(XL, yL)

# 予測値とその平均二乗誤差の計算 (L)
yL_est = XL @ w
msqeL = 0 # ここを修正

# テストデータの生成
xT, yT = generateData(NT, sigma=sig)
XT = makeDataMatrix(xT, D)

# 予測値とその平均二乗誤差の計算 (T)
#  ここを修正
#  ここを修正

print(f'D = {D}, msqeL = {msqeL:.5f}, msqeT = {msqeT:.5f}')

In [None]:
# 真の曲線を描くためのデータ
x_true, y_true = generateData(1000, true_data=True)
X_true = makeDataMatrix(x_true, D)
y_est = X_true @ w

# グラフを描く
fig, ax = plt.subplots()
ax.set_xlim(-0.1, 1.1)
ax.set_ylim(-0.2, 2.2)
ax.plot(x_true, y_true, color='blue', label='true function')
ax.scatter(xL, yL, color='red', label='training data')
ax.plot(x_true, y_est, color='green', label='fitted curve')
ax.legend()
plt.show()

【このセルを修正して考察を書いてね】

ほげほげ

## 問題2

(1) 次のセルを実行すると，次のことを行います．

1. 様々な `D` の値に対して，`Ntrial` 通りのデータを生成してそれぞれに `D` 次多項式を当てはめる．
1. それらの学習データとテストデータの予測値の平均二乗誤差を算出する．
1. 各 `D` について得られた `Ntrial` 通りの平均二乗誤差の平均を算出し，出力する
1. 各 `D` について得られた `Ntrial` 通りの平均二乗誤差の箱ひげ図を描く．

コード中のコメントにしたがって，正しく動作するように修正しなさい．

(2) 実行結果を観察し，考察を述べなさい（考察は，グラフの下のセルに書くこと）．なお，このコードでは，データに含まれるノイズを生成するために使われる乱数の種を指定しているので，何度実行しても同じ結果が得られます．

In [None]:
# 実験条件
Dlist = [2, 3, 4, 5, 6, 7, 8, 9, 10] # 多項式次数
Ntrial = 100 # 試行回数
NL, NT = 30, 1000 # 学習データ数，テストデータ数

msqeL = np.zeros((len(Dlist), Ntrial))
msqeT = np.zeros((len(Dlist), Ntrial))

for i, D in enumerate(Dlist):

    for n in range(Ntrial):

        # 学習データの生成
        #   同じデータに対して条件を変えながら実験を繰り返すために乱数の種を指定している
        xL, yL = generateData(NL, sigma=0.1, seed=2*n)
        XL = makeDataMatrix(xL, D)

        # 線形回帰
        w = LinearRegression(XL, yL)

        # 予測値とその平均二乗誤差の計算 (L)
        yL_est = XL @ w
        msqeL[i, n] = 0 # ここを修正

        # テストデータの生成
        xT, yT = generateData(NT, sigma=0.1, seed=2*n+1)
        XT = makeDataMatrix(xT, D)

        # 予測値とその平均二乗誤差の計算 (T)
        #  ここを修正
        #  ここを修正

    eL, eT = np.mean(msqeL[i, :]), np.mean(msqeT[i, :])
    print(f'# D = {D}, msqeL = {eL:.4g}, msqeT = {eT:.4g}')

# グラフを描く
fig, ax = plt.subplots(1, 2, figsize=(8, 4))
ax[0].boxplot(msqeL.T)
ax[0].set_xticklabels(Dlist)
ax[0].set_ylim(0, 0.1)
ax[0].set_xlabel('D')
ax[0].set_title('msqeL')
ax[1].boxplot(msqeT.T)
ax[1].set_xticklabels(Dlist)
ax[1].set_ylim(0, 0.1)
ax[1].set_xlabel('D')
ax[1].set_title('msqeT')
plt.show()

【このセルを修正して考察を書いてね】

ほげほげ

## 問題3

(1) 関数 `RidgeRegression` の中身を，コメントに従って正しく動作するように修正しなさい．

(2) 問題1の２つのコードセルを以下にコピー＆ペーストし， リッジ回帰の実験が行えるように修正しなさい．

(3) `D = 10` として `lam` を `0.0, 0.001, 0.1` の三通りで変えながら何度か実行して結果を観察しなさい．考察を述べなさい（考察は，グラフの下のセルに書くこと）

【このセルを修正して考察を書いてね】

ほげほげ

## 問題4

(1) 次のセルを実行すると，問題2と同様の実験を，

- 線形回帰の代わりにリッジ回帰で
- 多項式次数 `D` を変える代わりに正則化パラメータ `lam` を変えて

行えるようにしたい．次のセルの中身を書き足しなさい．

(2) 実行結果を観察し，考察を述べなさい（考察は，グラフの下のセルに書くこと）．

In [None]:
# 実験条件
lamlist = [0.0, 0.0001, 0.001, 0.01, 0.1] # 正則化パラメータ
Ntrial = 100 # 試行回数
NL, NT = 30, 1000 # 学習データ数，テストデータ数
D = 10

msqeL = np.zeros((len(lamlist), Ntrial))
msqeT = np.zeros((len(lamlist), Ntrial))

# つづきを書く


In [None]:
fig, ax = plt.subplots(1, 2, figsize=(8, 4))
ax[0].boxplot(msqeL.T)
ax[0].set_xticklabels(lamlist)
ax[0].set_ylim(0, 0.1)
ax[0].set_xlabel('lam')
ax[0].set_title('msqeL')
ax[1].boxplot(msqeT.T)
ax[1].set_xticklabels(lamlist)
ax[1].set_ylim(0, 0.1)
ax[1].set_xlabel('lam')
ax[1].set_title('msqeT')
plt.show()

【このセルを修正して考察を書いてね】

ほげほげ