# 線形回帰とは

## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】問題１を解くうえで必要な知識や技術について理解する**

## このヒント集について
### Sprintの目的
- 線形回帰の意味を理解する
- 線形回帰をスクラッチ開発するのに必要な概念を理解する

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の目次と照らし合わせながら、進めていきましょう。

### 線形回帰とは
**線形回帰**とは、目的変数(y)と説明変数(x)を$y=ax+b$という関係式で近似的に当てはめることです。

$y=ax+b$と書ける式はxy座標で直線を描きます。以下画像のようなイメージです。

<a href="https://diveintocode.gyazo.com/f07c4804230471314cc50ba61b0dd627"><img src="https://t.gyazo.com/teams/diveintocode/f07c4804230471314cc50ba61b0dd627.png" alt="Image from Gyazo" width="800"/></a>


### スクラッチコードの完成形
線形回帰のクラスをスクラッチで作成していきますが、最終的なコードはどのようになっているのでしょうか。

下記は、最終的なコードの概観になります。

```python
class ScratchLinearRegression():
    def __init__(self,・・・):
      """
      インスタンス変数初期化
      """
      ・・・

    # 問題6（学習と推定）
    def fit(self,・・・):
        """
        線形回帰の学習
        """
        # メイン処理
        for i in range(学習回数):
            # 問題1（過程関数の計算）
            self._linear_hypothesis(・・・)
            
            # 問題2（最急降下法によるパラメータの更新値計算）
            self._gradient_descent(・・・)

            # 問題7（学習曲線のプロット）のグラフ描画時（問題5（損失関数）で作成した関数を使用）
            self._loss_func(・・・)


    # 問題1
    def _linear_hypothesis(self,・・・):
        """
        仮定関数の計算
        """

    # 問題2
    def _gradient_descent(self,・・・):
        """
        最急降下法によるパラメータの更新値計算
        """

    # 問題3
    def predict(self,・・・):
        """
        線形回帰での推定
        """

    # 問題4
    def _mse(self,・・・):
        """
        平均二乗誤差の計算
        """

    # 問題5
    def _loss_func(self,・・・):
        """
        損失関数
        """
        # 問題4
        self._mse(・・・)
        

```

### 線形回帰のイメージ

HousePriceデータセットで考えてみます。

目的変数`y(HousePrice)`に対し、ひとつ説明変数`x1(GrLivArea)`を選び、2変数間の関係をプロットしてみると下記のようなグラフになります。

<a href="https://diveintocode.gyazo.com/b3e0593438c1986b900f7da3bc02a7e0"><img src="https://t.gyazo.com/teams/diveintocode/b3e0593438c1986b900f7da3bc02a7e0.png" alt="Image from Gyazo" width="800"/></a>


プロットされたデータの傾向をみると、「なにやら直線が引けそう」ということがわかるかと思います。これを**線形関係にある**と言い、下記のような直線を引くことが出来ます。

<a href="https://diveintocode.gyazo.com/dee97b529a9956d82d375c10f88056a8"><img src="https://t.gyazo.com/teams/diveintocode/dee97b529a9956d82d375c10f88056a8.png" alt="Image from Gyazo" width="800"/></a>


上記のグラフの直線を一般化して数式に直すと、次のようになります。

$$
y = a x_1 + b
$$

データに対して、最も当てはまりの良い`a`と`b`を求めることを、**回帰式を解く**と言います。そして、この式は、説明変数の数が1つの場合の式なので、**線形単回帰**になります。

## まとめ
- 線形回帰とは目的変数(y)が説明変数(x)にどれほど依存しているかあらわすモデルです
- 説明変数が1つのものを線形単回帰モデルと呼び、2つ以上あるものを線形重回帰モデルと呼びます
- 線形単回帰モデルは一般に$y = a x_1 + b$と記述できます

# 仮定関数とは

## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】の【問題１】を解くうえで必要な知識や技術について理解する**

### Sprintの目的
- 仮定関数の意味を理解する
- 線形回帰をスクラッチ開発するのに必要な転置行列や行列積について理解する
- 線形回帰をスクラッチ実装する際のより踏み込んだヒントを掲載しているので、それを基に、仮定関数をスクラッチ実装できるようになる。

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の【問題１】と照らし合わせながら、進めていきましょう。

## 仮定関数とは

これまで学んできた`y = ax1 + b`を`仮定関数`と呼びます。

上記の例では、変数が1つだけでしたが、複数の変数がある**線形重回帰**の場合、下記のような式になります。

$$
h_\theta(x) =  \theta_0 x_0 + \theta_1 x_1 + ... + \theta_j x_j + ... +\theta_n x_n.   (x_0 = 1)\\
$$å

これを変形すると下記のようになります。

$$
h_\theta(x) = \theta^T \cdot x.
$$

この数式は、どのように導出されたのでしょうか。

### 転置行列積

転置行列積が`y = ax1 + b`の計算結果と一致することを確認してみましょう。
```python
import numpy as np

#y=ax1+b
a = 1
b = 2
x1 = 3
y = a*x1 + b
print(y)

#転置行列積
theta = np.array([[2],[1]])
X = np.array([[1,3]])
y = theta.T @ X
print(y)
```
bにあたる部分をthetaの第1成分とし,入力Xの第1成分を1とすることで等価な処理を行えます。
行列計算に置き換えることで、計算時間が短縮されるので、行列計算に落とし込める場合はできるだけ、行列計算に落とし込みましょう。

また、機械学習では2つのデータだけでなく複数のデータを一挙に取り扱う事が多いです。そういった場合にはXは2次元配列になります。
以下のコードで実験してみましょう。

```python
X = np.array([[1,1],
              [1,2],
              [1,3]])
y = theta.T @ X.T
```


つまり、
$$
h_\theta(x) =  \theta_0 x_0 + \theta_1 x_1 + ... + \theta_j x_j + ... +\theta_n x_n.   (x_0 = 1)\\
$$
は
$$
h_\theta(x) = \theta^T \cdot x.
$$
と記述できます（記述方法に関しては、数学の世界で決まっていることなので、転置行列積はこのように表記すると覚えてください）

### トイデータ

作成した関数に、下記の変数を引数として与えてみましょう。（係数は a=2,b=3とします）

```python
X = np.arange(10)
```

戻り値として、下記の出力があれば、正常に作成できています。

```python
y = [3,5,7,9,11,13,15,17,19,21]
```

## まとめ
- 仮定関数はこちら側が仮定するモデル(近似関数)になります
- ここでは近似関数は`y = ax1 + b`と書けるものでした
- 近似関数は転置行列を用いて計算できます

# 最急降下法とは

## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】の【問題2】を解くうえで必要な知識や技術について理解する**

### Sprintの目的
- 線形回帰の意味を理解する
- 線形回帰をスクラッチ開発するのに必要な概念を理解する

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の目次と照らし合わせながら、進めていきましょう。

## 【問題2】最急降下法
**回帰式を解く**とは、データにもっとも当てはまりの良い、Θi(i=複数変数ある際の変数の番号)の値を求めることだと紹介しましたが、どのように、このΘを求めればいいのでしょうか。

### 誤差

**データにもっとも当てはまりが良い**とは、下記の図で言う`error`の値が、最も小さくなる時のことを言います。

<a href="https://diveintocode.gyazo.com/dc4108d0eea9b579cb67ebbd8a5a7d92"><img src="https://t.gyazo.com/teams/diveintocode/dc4108d0eea9b579cb67ebbd8a5a7d92.png" alt="Image from Gyazo" width="800"/></a>

### 平均2乗誤差

引く直線によっては、`error`の値が±両方出てきますので、単純なerrorの合計値だけで、**データにもっとも当てはまりが良い**状態を判断することが出来ません。

そこで、使用されるのが、平均2乗誤差と呼ばれるもので、下記の式で表されます。

$$
L(\theta)=  \frac{1 }{ m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

この数式の値が最小になるようなΘを求めることが、回帰式の**ゴール**となります。

### 最急降下法（Θの求め方）

例えば、平均2乗誤差の数式をグラフにプロットした場合、下記のようになったとします。

<a href="https://diveintocode.gyazo.com/607d80ca9eebee99b564c1e47c946896"><img src="https://t.gyazo.com/teams/diveintocode/607d80ca9eebee99b564c1e47c946896.png" alt="Image from Gyazo" width="800"/></a>

平均2乗誤差の値が最小になる地点は、次の位置であるとわかるかと思います。

<a href="https://diveintocode.gyazo.com/704481108d13936ee159071457fd114c"><img src="https://t.gyazo.com/teams/diveintocode/704481108d13936ee159071457fd114c.png" alt="Image from Gyazo" width="800"/></a>

このΘの個所をどのように特定すればいいのでしょうか。下記の手順になります。

①まずは、ランダムにΘをプロットします。

<a href="https://diveintocode.gyazo.com/2dcbcbe726bcb342cc003fccbfebf8a3"><img src="https://t.gyazo.com/teams/diveintocode/2dcbcbe726bcb342cc003fccbfebf8a3.png" alt="Image from Gyazo" width="800"/></a>

②ランダムにプロットされたシータの位置の傾きを求める

<a href="https://diveintocode.gyazo.com/b691334882a9eb7de2ea145e62a8e28d"><img src="https://t.gyazo.com/teams/diveintocode/6b691334882a9eb7de2ea145e62a8e28d.png" alt="Image from Gyazo" width="800"/></a>

③傾きと学習率により、Θを更新

<a href="https://diveintocode.gyazo.com/60b2742d1713b8c3fef99b38ec62443b"><img src="https://t.gyazo.com/teams/diveintocode/60b2742d1713b8c3fef99b38ec62443b.png" alt="Image from Gyazo" width="800"/></a>

④①～③を繰り返す

<a href="https://diveintocode.gyazo.com/328d2159009b54896252805af22e0f84"><img src="https://t.gyazo.com/teams/diveintocode/328d2159009b54896252805af22e0f84.png" alt="Image from Gyazo" width="800"/></a>

**これを数式で表すと下記のようになります。**

$$
J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

$$
\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m}[(h_\theta(x^{(i)}) - y^{(i)} )x_{j}^{(i)}]
$$


- ヒント：パラメータ導出のイメージ（https://diver.diveintocode.jp/questions/8028）
- ヒント：なぜ降下法を使うのか（https://diver.diveintocode.jp/questions/8029）


### 損失関数（目的関数）

平均2乗誤差を最小にするΘを求めてきましたが、この対象となる誤差関数のことを、**損失関数（目的関数）**といいます。

Θの更新の際に、平均2乗誤差を使用していると紹介しましたが、厳密には、展開後の式を分かりやすくするため、下記の数式を利用しています。

$$
L(\theta)=  \frac{1 }{ m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

↓

$$
J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$

どちらもΘについて微分し、係数を学習率に飲み込ませることで等価な式となります。

### トイデータ

作成した関数に、下記の変数を引数として与えてみましょう。

まずは誤差の含まないモデルで実験してみましょう。
例えば適当に以下のデータを利用します。
```python
x = np.linspace(1,6,5)
X = np.c_[np.ones(5),x]#入力データX

y = 2*x + 1#適当な真のモデル

theta = [0,0]#仮定関数の係数の初期値
y_pred = X @ theta

error = y_pred - y#入力データerror
```

更新式を実装し、学習率alpha=0.05の時、更新された後のthetaが以下の様になっていれば成功です。

```
theta:[0.8, 3.1450000000000005]
```
以下の更新式を、行列計算で書いた場合は
$$
\theta_j := \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m}[(h_\theta(x^{(i)}) - y^{(i)} )x_{j}^{(i)}]
$$

```
theta:[0.8, 3.425]
```
となります。

この違いはパラメータ更新を同時に行うか、1つずつ行うかという違いになります。

## まとめ
- 最急降下法とは`y = ax1 + b`における`a`と`b`を最適な値にする手法です
- 平均2乗誤差(損失関数)を微分することで更新式が導出されることを学びました
- 更新過程のイメージは平均2乗誤差の山を降っていく様なイメージです

# 推定とは
## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】を解くうえで必要な知識や技術について理解する**

## このヒント集について
### Sprintの目的
- 線形回帰における推定の概念を理解する

### どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の目次と照らし合わせながら、進めていきましょう。

## 推定
### 推定とは
パラメータを決定した後、そのパラメータを用いて、予測結果を出力しなければなりません。これを推定と言います。

## 【問題3】推定

【問題1】で既に、仮定関数の出力は実装しているかと思いますが、【問題1】で作成した関数は、クラスの外から呼び出せない仕様になっています。
```predict```メソッドを作成して、予測値を出力できる様にしましょう。```predict```メソッドで更新されたパラメータを使うためには```self```を利用しましょう。

## まとめ
- 推定とは更新されたパラメータを利用して予測値を出力することです

# 平均二乗誤差　スクラッチ
## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】の【問題４】を解くうえで必要な知識や技術について理解する**

### Sprintの目的
- 平均二乗誤差について理解する
- 平均二乗誤差の実装方法について理解する

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の【問題４】と照らし合わせながら、進めていきましょう。

## 【問題4】平均二乗誤差

### 平均二乗誤差とは
平均二乗誤差とは教師データと予測値の残差を二乗し、訓練データ全ての点に対して足して平均を取ったものです。


式を分解して考えてみると、計算の順番は下記になるかと思います。

1. 推定結果を計算

$$
h_\theta(x_i) = \theta^T \cdot x_i
$$

2. 実測値との差を計算【対応する数式の個所を書いてください】

$$
error_i = h_\theta(x_i) - y_i
$$

3. 1,2の2乗を計算

$$
squared error_i = error_i^2
$$

4. 3の合計値を計算【対応する数式の個所を書いてください】

$$
sum squared error = \sum_{i=1}^{m} squared error_i
$$

5. データの長さで割って4の平均値を計算

$$
mean squared error = \sum_{i=1}^{m} squared error_i
$$

ひな形では、推定結果と教師データが既に与えられるようにしています。

ヒント：numpyの各種関数を利用してみましょう。

### トイデータ

作成した関数に、下記の変数を引数として与えてみましょう。

```python
import numpy as np
y_pred = np.array([0,1,2,3,4,5])
y = np.array([1,3,5,7,9,11])
```

戻り値として、下記の出力があれば、正常に作成できています。

```python
11.0
```

## まとめ
- 平均二乗誤差は教師データと予測結果の残差を二乗し、訓練データ全てについって計算したものです
-　numpyを使うことで簡単に計算することができます。

# 目的関数　スクラッチ
## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】の【問題5】を解くうえで必要な知識や技術について理解する**

### Sprintの目的
- 目的関数について理解する
- 目的関数の実装方法について理解する

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の【問題5】と照らし合わせながら、進めていきましょう。


## 【問題5】目的関数

目的関数は以下の式で表せます。
$$
J(\theta)=  \frac{1 }{ 2m}  \sum_{i=1}^{m} (h_\theta(x^{(i)})-y^{(i)})^2.
$$
平均二乗誤差をさらに2で割った式になります。最小化させるべき目的の関数という意味で目的関数と呼ばれます。

### トイデータ

作成した関数に、下記の変数を引数として与えてみましょう。

```python
import numpy as np
y_pred = np.array([0,1,2,3,4,5])
y = np.array([1,3,5,7,9,11])
```

戻り値として、下記の出力があれば、正常に作成できています。

```python
5.5
```

## まとめ
- 目的関数は教師データと平均二乗誤差を2で割ったものと等価になります
- numpyを使うことで簡単に計算することができます

# 線形回帰の学習と推定

## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】の【問題６】を解くうえで必要な知識や技術について理解する**

### Sprintの目的
- 線形回帰の学習法について理解する
- 学習法の実装法ついて理解する

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の【問題6】と照らし合わせながら、進めていきましょう。

## 学習と推定

ここまでの問題では、下記の関数を作成してきました。

`_linear_hypothesis`：仮定関数の出力計算

`_gradient_descent`：$\theta$の更新

この問題では、この2つの関数を利用し(変更可)、冒頭で示した`ScratchLinearRegression`を実装していくことを目的としています。ですので、まだ実装を行っていない`__init__()`と`fit()`を実装してみましょう。

最急降下法の流れに則ると、下記の流れで実装していくとよいでしょう。
1. 学習率や学習回数の初期化＆$\theta$の初期化を`__init__()`で行う（`no_bias`や`verbose`については、アドバンス課題のため考慮しなくても問題ないです）
2. 推定値算出を`_linear_hypothesis`で行う
3. `_gradient_descent`で$\theta$を更新する
ここで毎回損失値を保存しておくことで学習曲線を描けるので、忘れず損失値を計算し、リストで保存しておきましょう。
4. 2,3を学習回数分繰り返す



## まとめ
- これまで作成した関数を利用して学習や値の保持を行います
- 1~4を行うことで、最適な$theta$に更新することができます

# 線形回帰の学習曲線のプロット

## ゴール
- **【Sprint 機械学習スクラッチ 線形回帰】の【問題7】を解くうえで必要な知識や技術について理解する**

### Sprintの目的
- 実装が正しいか確認する
- 学習過程の可視化方法を理解する

## どのように学ぶか

【Sprint 機械学習スクラッチ 線形回帰】の【問題7】と照らし合わせながら、進めていきましょう。

## 【問題7】学習曲線のプロット

機械学習においては、学習が順調に進んでいるか確認する必要があります。学習の進捗を確認するためには、損失関数の値を可視化するのが早いです。

【問題6】の過程でインスタンス変数として損失値を保持していると思います。していない場合はするようにしましょう。
これを利用して損失値が減少していることを確認します。

`train`と`test`それぞれのデータで損失値を保持し、同じグラフに出力して比較してみましょう。

ヒント：グラフの描画については、前回までの講座のmatplotlibを参照してください

## まとめ
- 学習がどの様に進んでいるか確認するためにグラフ描画する必要があります
- 実装がうまくいっているか確かめる意味でも可視化は重要になります