<a href="https://colab.research.google.com/github/ai161/hello-world/blob/main/regression_exercise.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 確認問題

## 1. 単回帰

以下のデータ$\mathcal{D}_s$に対して単回帰分析を行うプログラムを実装せよ．

In [None]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
X = D[:,0]
Y = D[:,1]

なお，NumPy, SciPy, scikit-learnには回帰分析を行う便利な関数として以下のようなものがあるが，ここでは使わずに講義中で説明した式をプログラムとして表現すること．

+ [np.polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html), [np.polynomial.polynomial.Polynomial.fit](https://numpy.org/doc/stable/reference/generated/numpy.polynomial.polynomial.Polynomial.fit.html#numpy.polynomial.polynomial.Polynomial.fit)
+ [scipy.linalg.lstsq](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lstsq.html), [scipy.optimize.curve_fit](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html), [scipy.stats.linregress](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.linregress.html)
+ [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

### 1. (1) 単回帰の実装

$\mathcal{D}_s$に対して単回帰を行い，回帰直線の係数$a$と$b$の値を求めよ

In [None]:
import numpy as np


### 1. (2) 回帰直線の描画

単回帰で求めた回帰直線をデータ点とともにグラフに描け

### 1. (3) 残差の計算

各事例$(x_i, y_i)$に対して残差$\hat{\epsilon}_i$を求めよ

In [None]:
import matplotlib.pyplot as plt
import numpy as np


### 1. (4) 説明変数と残差の共分散

説明変数と残差の共分散を求めよ

### 1. (5) 目的変数の推定値と残差の共分散

目的変数の推定値と残差の共分散を求めよ

### 1. (6) 決定係数

決定係数（$R^2$）を求めよ

## 2. 重回帰

データ$\mathcal{D}_s$に対して多項式のフィッティングを行いたい．以下の処理を行うプログラムを作成せよ．

In [None]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])

なお，NumPy, SciPy, scikit-learnには回帰分析を行う便利な関数として以下のようなものがあるが，ここでは使わずに講義中で説明した式をプログラムとして表現すること．

+ [np.polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html), [np.polynomial.polynomial.Polynomial.fit](https://numpy.org/doc/stable/reference/generated/numpy.polynomial.polynomial.Polynomial.fit.html#numpy.polynomial.polynomial.Polynomial.fit)
+ [scipy.linalg.lstsq](https://docs.scipy.org/doc/scipy/reference/generated/scipy.linalg.lstsq.html), [scipy.optimize.curve_fit](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html), [scipy.stats.linregress](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.linregress.html)
+ [sklearn.linear_model.LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

### 2. (1) ２次関数による重回帰

$y = w_0 + w_1 x + w_2 x^2$とおき，重回帰により平均二乗残差を最小にする$\pmb{w} = \begin{pmatrix}
w_0 \\
w_1 \\
w_2
\end{pmatrix}$を求めよ．

### 2. (2) 回帰曲線の描画

回帰で求めた2次関数をデータ点とともにグラフに描け．

### 2. (3) 決定係数

回帰で得られた2次関数の決定係数（$R^2$）を求めよ．

### 2. (4) 3次関数による重回帰

$y = w_0 + w_1 x + w_2 x^2 + w_3 x^3$とおき，重回帰により平均二乗残差を最小にする$\pmb{w} = \begin{pmatrix}
w_0 \\
w_1 \\
w_2 \\
w_3
\end{pmatrix}$を求めよ．

### 2. (5) 回帰曲線の描画

回帰で求めた3次関数をデータ点とともにグラフに描け

### 2. (6) 決定係数

回帰で求めた3次関数の決定係数（$R^2$）を求めよ

## 3. モデル選択と正則化

### 3. (1) 9次関数によるリッジ回帰

例として用いてきた以下の学習データ`X`, `Y`に対してリッジ回帰を行い，回帰曲線をプロットせよ．
ただし，正則化のハイパーパラメータは$\alpha = 10^{-9}, 10^{-6}, 10^{-3}, 1$の4通りを試し，すべての回帰曲線と学習データの各点を一つのグラフ上にプロットせよ．

In [None]:
X = np.array([ 0.  ,  0.11,  0.25,  0.29,  0.41,  0.42,  0.43,  0.8 ,  0.81, 1.  ])
Y = np.array([ 0.04,  0.75,  1.  ,  0.99,  0.31,  0.52,  0.38, -0.99, -1.05, 0.  ])

なお，scikit-learnにはリッジ回帰を行う便利なクラス[sklearn.linear_model.Ridge](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html)があるが，ここでは使わずに講義中で説明した式をプログラムとして表現すること．

### 3. (2) パラメータの$L_2$ノルム

学習した4つのモデルのパラメータの$L_2$ノルムを計算し，表示せよ．

### 3. (3) 検証データに基づく$\alpha$の選択

例として用いてきた以下の検証データ`X_valid`, `Y_valid`に対して，これまでに学習した4つのモデルの平均二乗残差（MSR）を計算し，正則化のハイパーパラメータとして最も汎化性能が高いと考えられるものがどれか，報告せよ．計算結果を示した上で「○○なので$\alpha = \dots$のモデルがよい」と回答すれば十分である．

In [None]:
X_valid = np.array([ 0.05,  0.08,  0.12,  0.16,  0.28,  0.44,  0.47,  0.55,  0.63,  0.99])
Y_valid = np.array([ 0.35,  0.58,  0.68,  0.87,  0.83,  0.45,  0.01, -0.36, -0.83, -0.06])

## 4. 勾配法

以下のデータ$\mathcal{D}_s$について，確率的勾配降下法で単回帰を行い，パラメータを推定せよ．ここでも、便利なモジュール等は使わずに、講義中で説明した式・アルゴリズムをプログラムとして表現すること．

In [None]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])