<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

# 機械学習 - 線形回帰 -



## 今回の実習内容

1. 機械学習とは？
1. 教師あり学習 Supervised learning
1. 線形回帰 Linear regression（1変数）
1. 線形回帰 Linear regression（2変数以上）

## 1. 機械学習とは？

　**機械学習（Machine Learning）**は、過去のデータから特徴やパターンを発見し、数理モデルを構築することです。その目的は、**新たなデータに対して精確な予測をおこなうこと**にあります。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/machine_learning.png?raw=true" alt="Machine Learning" height="180px">

### 例えば...

#### 分類 Classification 
<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/classification.png?raw=true" alt="classification" height="300px">

#### 回帰 Regression
<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/regression.png?raw=true" alt="regression" height="300px">

### 機械学習とデータマイニング

　機械学習によく似た手法を用いるものとして、**データマイニング**（あるいは、統計モデリング）があります。データマイニングは、機械学習とは異なり、**データから特徴やパターンを発見すること**を目的に、データを解析します。

　解析目的は違っているものの、機械学習とデータマイニングは、同じ手法を使うことが多いです。機械学習の勉強をすれば、データマイニングの勉強にもなります。このテキストでは、機械学習とデータマイニングをあまり区別せずに、「機械学習」として扱っています。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/data_mining.png?raw=true" alt="data mininng" height="300px">

### 機械学習の種類
　大きく分けて3つあります。

- **教師あり学習 Supervised learning**  
ラベル付きのデータを学習して、新しいデータに対する予測モデルを立てる。

- **教師なし学習 Unsupervised learning**  
ラベルのないデータを学習して、クラスタリングや次元削減をおこなう。

- **強化学習 Reinforcement learning**  
試行とその結果のフィードバックを繰り返して、性能を良くしていく。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/machine_learning_types.png?raw=true" alt="Machine Learning 3-Types" height="250px">

　このゲノム情報解析入門では、「教師あり学習」と「教師なし学習」を勉強します。「強化学習」については取り上げません。


## 2. 教師あり学習 Supervised learning
　**ラベル（出力値）**によって、大きく **分類**と**回帰** に分かれます。使われる技法もそれぞれ異なります。

- 分類 Classification  
ラベルが離散値データ（種Aか種Bか、スパムメールかそうでないか、など）の場合の学習。  
  - ロジスティック回帰
  - サポートベクトルマシン
  - 決定木
  - ランダムフォレスト
  - ニューラルネットワーク　など

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/classification2.png?raw=true" alt="classification" height="160px">

- 回帰 Regression  
ラベルが連続値データ（収穫量や草丈など）の場合の学習。
  - 線形回帰
  - サポートベクトル回帰
  - 回帰木
  - ランダムフォレスト回帰
  - ニューラルネットワーク　など

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/regression2.png?raw=true" alt="regression" height="180px">

　ここでは、「回帰」の技法の基礎とそのプログラミングをおこなっていきます。


 

### 「教師あり学習」の手順

1. 前処理: **トレーニングデータ（training data）** と **テストデータ（test data）** を準備する。
2. 選択: 使用するモデルや設定値（**ハイパーパラメータ**）を選択する。
3. 学習: トレーニングデータを使って、モデルを学習させて、予測モデルを構築する。
4. 評価: テストデータを使って、学習済みの予測モデルを評価する。
  - 結果が良くなければ、2へ戻る。
  - 結果が良ければ、5へ進む。
5. 予測・解釈: 予測モデルを新しいデータに適用する。または、予測モデルを解釈する。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/supervised_learning_process.png?raw=true" alt="supervised_learning_process" height="60px">

　今回の実習では、この機械学習の流れを学んでいきます。

### 機械学習ライブラリ scikit-learn




　Pythonには、機械学習のためのライブラリ [**scikit-learn**](https://scikit-learn.org/stable/)（sklearn）があります。このライブラリのおかげで、機械学習内部のアルゴリズムをコーディングせずに、各種の機械学習をおこなえます。後々、次のような3行のコードを頻繁に使うことになります。

```python
from sklearn.機能 import 関数
変数 = 関数（）
変数.fit()
```

### 実習で使用するデータセット

　次のコードセルを実行して、データファイル（[gene_expression.csv](https://github.com/CropEvol/lecture/blob/master/textbook_2019/dataset/gene_expression.csv)）をダウンロードしてください。

ファイルの詳細:
- ファイル名: gene_expression.csv
- カンマ区切りテキストファイル
- 100行（100サンプル） x 51列（表現型値+50個の遺伝子発現量）


In [0]:
### このコードセルは実行のみ ###
# サンプルデータのダウンロード
!wget -q -O gene_expression.csv https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/gene_expression.csv

# pandasで読み込み
import pandas as pd
df = pd.read_csv("gene_expression.csv", sep=",", header=0)
df

## 3. 線形回帰 Linear regression（1変数）

　ここでおこなう解析の目標は次のとおりです。
> 遺伝子発現量から表現型値を予測する線形回帰モデルを作る

　「線形回帰モデル」とは何か？　遺伝子発現量（$x$）と表現型値（$y$）の関係を次の方程式で表したモデルのことです。


用語説明: 
- **目的変数（objective variable）**: 予測される変数$y$（今回の場合、表現型値）。
- **説明変数（explanatory variable）**: 予測に使う変数$x$（各遺伝子発現量）。
- **偏回帰係数（coefficient）**: 各説明変数の重み。目的変数の予測にその変数がどれぐらい影響するかを示す指標。
- **誤差（intercept; 切片）**: 説明変数以外の影響を示す項。


<img src="https://github.com/CropEvol/lecture/blob/2018/textbook_2018/09_statistics/data/regression_base.png?raw=true" alt="regression" height="130px">

　

### 3-1. 前処理

　機械学習で最初におこなうことは、**トレーニングデータ**と**テストデータ**の準備です。データセットを分割して、これらを準備します。

<small>_※ 例では、説明変数「gene_11の遺伝子発現量 `gene_11`」のみを使って、目的変数「表現型値 `phenotype`」を予測する線形回帰モデルを作っていきます。_</small>


In [0]:
import numpy as np

# 使用する変数
x = np.array(df["gene_11"])    # 説明変数（ここでは1つのみ）
y = np.array(df["phenotype"]) # 目的変数

# データ分割: 100サンプルを「トレーニングデータ70%、テストデータ30%」に分ける
# test_sizeで分割比率を制御する。
# random_stateの値を設定すると、分割データの選ばれ方が固定される。
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

# 各データのサイズ
print("training: ", x_train.shape, y_train.shape)
print("test: ", x_test.shape, y_test.shape)

　散布図を書いて、データを眺めてみましょう。

In [0]:
# グラフ
import matplotlib.pyplot as plt
plt.scatter(x_train, y_train, color="blue", label="train") # トレーニングデータ
plt.scatter(x_test, y_test, color="orange", label="test") # テストデータ
plt.xlabel("x")              # x軸ラベル
plt.ylabel("y", rotation=0)  # y軸ラベル
plt.legend()                # 凡例

### データセットの分割の比率

　分割の比率をどのように設定するかについては、厳密に決まっていません。一概には言えませんが、トレーニングデータが多くすれば、より多くの新しいデータに対応できるモデルを構築できるようになります。一方で、予測モデルの評価用のテストデータが少なくなり、評価精度が落ちます。

　サンプル数100~10,000程度のデータセットでは、トレーニングデータ : テストデータを「70% : 30%」や、「75% : 25%」、「80% : 20%」の比率で分割するのが一般的です。サンプル数100,000では「90% : 10%」、1,000,000では「99% : 1%」といった比率が一般的なようです。ただし、説明変数の個数なども考慮する必要があるので注意が必要です。

### 実習1

<small>_※ コード例では説明変数として「gene_11の遺伝子発現量」を使っていますが、実習問題では「gene_29の遺伝子発現量」を使います。同じようなコードを書くため、変数が上書きされないように注意してください。_</small>

　100サンプル分のデータを分割して、トレーニングデータとテストデータを作成してください。分割比率は自由に設定してください。
- 説明変数$x$: gene_29の遺伝子発現量 `gene_29`
- 目的変数$y$: 表現型値 `phenotype`


In [0]:
import numpy as np

# 使用する変数
xx = np.array(df["gene_29"])    # 説明変数（ここでは1つのみ）
yy = np.array(df["phenotype"])   # 目的変数

# ============== 編集エリア(start) =============
# データ分割
from sklearn.model_selection import train_test_split
xx_train, xx_test, yy_train, yy_test = 

# ============== 編集エリア(end) ==============

# 各データのサイズ
print("training: ", xx_train.shape, yy_train.shape)
print("test: ", xx_test.shape, yy_test.shape)

# グラフ
import matplotlib.pyplot as plt
plt.scatter(xx_train, yy_train, color="blue", label="train") # トレーニングデータ
plt.scatter(xx_test, yy_test, color="orange", label="test") # テストデータ
plt.xlabel("x")              # x軸ラベル
plt.ylabel("y", rotation=0)  # y軸ラベル
plt.legend()                # 凡例

#### 解答例

In [0]:
import numpy as np

# 使用する変数
xx = np.array(df["gene_29"])    # 説明変数（ここでは1つのみ）
yy = np.array(df["phenotype"])   # 目的変数

# ============== 編集エリア(start) =============
# データ分割
from sklearn.model_selection import train_test_split
xx_train, xx_test, yy_train, yy_test = train_test_split(xx, yy, test_size=0.2, random_state=0)

# ============== 編集エリア(end) ==============

# 各データのサイズ
print("training: ", xx_train.shape, yy_train.shape)
print("test: ", xx_test.shape, yy_test.shape)

# グラフ
import matplotlib.pyplot as plt
plt.scatter(xx_train, yy_train, color="blue", label="train") # トレーニングデータ
plt.scatter(xx_test, yy_test, color="orange", label="test") # テストデータ
plt.xlabel("x")              # x軸ラベル
plt.ylabel("y", rotation=0)  # y軸ラベル
plt.legend()                # 凡例

### 3-2. モデルの選択

　モデルの選択肢は、「線形回帰」以外にもいくつかあります。ここでは、この節のタイトル通りに「線形回帰」を使いましょう。

　次の「モデルの学習」に進む前に、線形回帰予測モデルの作り方を漠然と理解しておきましょう。予測モデルを作るのに使うのは、トレーニングデータ（散布図の青色の点）のみです。テストデータ（オレンジ色の点）はまだ使いません。

　x-y座標上には、直線を無数に作成できます。これから作る予測モデルは、それら無数の直線のうち、トレーニングデータ（青色の点）の説明変数$x$ と目的変数$y$ の関係をよく表した直線です。次の一次方程式の係数（傾き）$b$ と誤差（切片）$e$ の最適な値を見つけることと同じ意味合いです。

  $$ y = bx + e $$



### 3-3. モデルの学習

　それでは、トレーニングデータを使って学習し、予測モデルを作ってみましょう。ここでおこなう手順は、次のとおりです。

1. 線形回帰モデルを使う場合、scikit-learnの`linear_model.LinearRegression`を呼び出します。下の例では、変数`model`に学習前のモデルを用意しています。その後、`model.やりたいこと` といったコードを書いて、モデルの学習や情報の抽出、予測モデルの評価、新しいデータの予測をおこなっていきます。
```python
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```

2. トレーニングデータを使って学習（モデルのフィッティング）をおこない、 $y = bx + e$ の傾き$b$ と 切片$e$を求めます。
```python
model.fit(x_train, y_train)
```

3. （必要に応じて、）学習の結果、傾き$b$ と 切片$e$を確認します。

In [0]:
# モデルを選択 => 線形モデルを使う
from sklearn.linear_model import LinearRegression
model = LinearRegression()

# モデルを学習 => トレーニングデータを使って、係数と誤差の最適値を見つける
x_train = x_train.reshape(-1, 1)  # 整形（一次元配列の場合に必要）
model.fit(x_train, y_train)

# 傾きb、切片e
b = model.coef_[0]
e = model.intercept_

# 表示
print("Coefficient=", b) # 傾きb
print("Intercept="  , e) # 切片e

　散布図に予測モデルの直線 $y=bx+e$ を追加しましょう。

In [0]:
# トレーニングデータの各xについて、予測値（直線上のyの値）を得る
y_pred = model.predict(x_train)

# 散布図（トレーニングデータのみ）
plt.scatter(x_train, y_train, color="blue", label="train") # トレーニングデータ
plt.xlabel("x")              # x軸ラベル
plt.ylabel("y", rotation=0)  # y軸ラベル

# 予測モデルの直線
plt.plot(x_train, y_pred, color="blue", alpha=0.5, label="model")

plt.legend()                # 凡例

### 線形回帰で得られる直線



　線形回帰をおこなうと、すべての点について、予測値（直線）と実測値（点）のずれ「yの値の差分」を調べて、その差分の二乗の合計値、**残差平方和 residual sum of squares** が最も小さくなる直線が得られます。

$$ 予測モデル: \hat{y}_i = bx_i + e $$

$$ 残差平方和: \frac{1}{2m}\sum_{i=1}^{m} (\hat{y}_{i} - y_{i})^2 = \frac{1}{2m}\sum_{i=1}^{m} (bx_i + e - y_i)^2 $$ 

$$ サンプル: i=1,2,3,...,m $$

この式の $\hat{y}_{i}$ は予測モデル（予測されたyの値）、$x_i$や$y_i$ は実測値です。

　上の式のように、最小化を目指すような関数のことを、**目的関数 objective function** や **コスト関数 cost function** と呼ぶことが多いです。

$$ 目的関数: J(θ) = \frac{1}{2m}\sum_{i=1}^{m} (\hat{y}_{i} - y_{i})^2 = \frac{1}{2m}\sum_{i=1}^{m} (bx_i + e - y_i)^2 $$ 

$$ サンプル: i=1,2,3,...,m $$

　この予測モデルの直線は、同じ母集団から得られた新しいデータに対して、そのxの値からyの値を予測するために使えます。例えば、下の図の予測モデルの場合、新しいデータがx=4であった場合、予測モデルの式に代入して、y=約5.8の予測値を得ることができます。

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/fitting_line.png?raw=true" alt="fitting_line" height="200px">

_新しいデータの予測値を得る実習は、「3-5. 予測」でおこないます。_


### 傾き$a$ と 切片$b$ の値をどうやって求めているか？

　scikit-learnの `LinearRegression()` は、**最小二乗法 least squares method**と呼ばれる方法を使って、残差平方和の最小値（極小値）を調べて、予測モデルの係数$b$ と誤差$e$ を求めています。最小二乗法の概要は次のとおりです。

1. 目的関数を最小化したい。
1. 目的関数の$\sum$の部分を展開すると、
$$ \sum_{i=1}^{m} (bx_i + e - y_i)^2 = b^{2}\sum_{i=1}^{m}{x_{i}^{2}} + me^2 + \sum_{i=1}^{m}{y_{i}^{2}} - 2b\sum_{i=1}^{m}{x_{i}y_{i}} + 2be\sum_{i=1}^{m}{x_{i}} -2e\sum_{i=1}^{m}{y_{i}} $$
1. 上の展開式を$b$の関数としてみると、下に凸な関数であることがわかります。$e$の関数としてみても同様に下に凸な関数で、最小値=極小値となりそうなのがわかります。
1. そこで、$b$や$e$についての偏微分関数が0になる値を調べます。
 $$ (bについて偏微分)=0 $$
 $$ (eについて偏微分)=0 $$
1. 上の2つの方程式を解くと、目的関数が最小値（極小値）となる$b$や$e$の値が求まります


<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/least_squares_method.png?raw=true" alt="least squares method" height="180px">


### scikit-learnでよくおこなう3行


　scikit-learnの基本構文は、この3行です。

```python
from sklearn.機能 import 関数 
モデル変数 = 関数(オプション)
モデル変数.fit(x, y)
```

　上でおこなった「線形回帰」だけでなく、他の技法（「決定木」や「ランダムフォレスト」、「サポートベクトルマシン」を使った回帰、など）も3行でおこなえます。
```python
# 線形回帰
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x, y)

# 決定木を使った回帰（回帰木）
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
model.fit(x, y)

# ランダムフォレストを使った回帰
from sklearn.tree import DecisionTreeRegressor
model = DecisionTreeRegressor()
model.fit(x, y)

# サポートベクトルマシンを使った回帰（サポートベクトル回帰）
from sklearn.svm import SVR
model = SVR()
model.fit(x, y)
```


### 実習2
<small>_※ 実習1の続きです。_</small>

<small>_※ コード例では説明変数として「gene_11の遺伝子発現量」を使っていますが、実習問題では「gene_29の遺伝子発現量」を使います。同じようなコードを書くため、変数が上書きされないように注意してください。_</small>

　実習1で得られたトレーニングデータを使って、説明変数$x$から目的変数$y$を予測する線形回帰モデルを作ってください。
- 説明変数$x$: gene_29の遺伝子発現量 `gene_29`　=> `xx_train`や`xx_test`に代入されています
- 目的変数$y$: 表現型値 `phenotype`　=> `yy_train`や`yy_test`に代入されています

In [0]:
# 整形（一次元配列の場合に必要）
xx_train = xx_train.reshape(-1, 1)

# ============== 編集エリア(start) =============
from sklearn.linear_model import LinearRegression

# 学習前のモデルを準備する
model2 = 

# トレーニングデータでモデルを学習させる（モデルフィッティング）


# ============== 編集エリア(end) ==============

# 傾きbと切片eを表示
print("Coefficient=", model2.coef_[0])   # 傾きb
print("Intercept="  , model2.intercept_) # 切片e

# 散布図（トレーニングデータのみ）
plt.scatter(xx_train, yy_train, color="blue", label="train") # トレーニングデータ
plt.xlabel("x")              # x軸ラベル
plt.ylabel("y", rotation=0)  # y軸ラベル

# 予測モデルの直線
yy_pred = model2.predict(xx_train)  # 直線上のyの値を求める
plt.plot(xx_train, yy_pred, color="blue", alpha=0.5, label="model")

plt.legend()                # 凡例

#### 解答例

In [0]:
# 整形（一次元配列の場合に必要）
xx_train = xx_train.reshape(-1, 1)

# ============== 編集エリア(start) =============
from sklearn.linear_model import LinearRegression

# 学習前のモデルを準備する
model2 = LinearRegression()

# トレーニングデータでモデルを学習させる（モデルフィッティング）
model2.fit(xx_train, yy_train)

# ============== 編集エリア(end) ==============

# 傾きbと切片eを表示
print("Coefficient=", model2.coef_[0])   # 傾きb
print("Intercept="  , model2.intercept_) # 切片e

# 散布図（トレーニングデータのみ）
plt.scatter(xx_train, yy_train, color="blue", label="train") # トレーニングデータ
plt.xlabel("x")              # x軸ラベル
plt.ylabel("y", rotation=0)  # y軸ラベル

# 予測モデルの直線
yy_pred = model2.predict(xx_train)  # 直線上のyの値を求める
plt.plot(xx_train, yy_pred, color="blue", alpha=0.5, label="model")

plt.legend()                # 凡例

### 3-3. モデルの評価

　次に、トレーニングデータの学習で得られたモデルの予測精度を評価する方法についてです。

　回帰モデルの評価はいくつかあります。ここでは、**決定係数 $R^2$ (R-squared, coefficient of determination)** と呼ばれる評価指標を用いて、学習で得られたモデルを評価してみましょう。

$R^{2}$について:
- 予測モデルの当てはまりの良さを示す指標。
- 0に近づくほど当てはまりが悪く、1に近づくほど当てはまりが良い。予測精度があまりに悪いと、マイナスの値をとることもある。
- $R^2$の式は下記のとおり。
  - $y_{i}$: $i$番目のサンプルの実測値
  - $\bar{y}_{i}$: 実測値の平均
  - $\hat{y}_{i}$: $i$番目のサンプルの予測値
  - $m$: サンプル数

  $$ R^{2} = 1 - \frac{\sum_{i=1}^{m}{(\hat{y}_{i} - y_{i})^2}}{\sum_{i=1}^{m}{(\bar{y} - y_{i})^2}} $$

  


　トレーニングデータとテストデータ両方の$R^2$を調べてみましょう。

```python
# トレーニングデータのR2
model.score(x_train, y_train)
# テストデータのR2
model.score(x_test, y_test)
```

In [0]:
# 整形: テストデータのx
x_test = x_test.reshape(-1, 1)

# 決定係数R2
r2_train = model.score(x_train, y_train)
r2_test = model.score(x_test, y_test)
print("training: ", r2_train)
print("test: "    , r2_test)

　トレーニングデータ、テストデータともに決定係数が低く、この予測モデルの当てはまりは悪いことがわかります。

### 決定係数$R^{2}$のもう少し詳しい説明

  $$決定係数 R^{2} = 1 - \frac{\sum_{i=1}^{m}{(\hat{y}_{i} - y_{i})^2}}{\sum_{i=1}^{m}{(\bar{y} - y_{i})^2}} $$

　$R^{2}$の分数の部分の説明です。分母は「サンプルの分散（ばらつき）」を表しています。分子は「残差平方和（実測値と予測値がどれだけ離れているかの指標）」です。

　分数の値が1に近いと（$R^{2}$が0に近いと）、サンプルのばらつきと残差平方和はほぼ同じで、各点は予測モデルから大きく離れていることになります。一方で、分数の値が0に近いと（$R^{2}$が1に近いと）、各点は予測モデルによくフィットしていることになります。

### 決定係数$R^{2}$は高ければ良いのか？

　決定係数$R^{2}$は、データの「当てはまりの良さ」を表す指標です。予測モデル構築の目的が「新しいデータのyの値を予測したい」場合、トレーニングデータとテストデータの両方で決定係数が高いことが重要です。

　例えば、下図のように、シンプルなモデル（赤線）と複雑なモデル（青線）があったとします。複雑なモデルの方は、トレーニングデータに対する決定係数は非常に高いですが、新しいデータに対する決定係数は低く、予測モデルとして役立ちません。こういう状態を **過学習（オーバーフィッティング overfitting）** と呼びます。一方、シンプルなモデルは、トレーニングデータやテストデータに対する決定係数はそこそこですが、複雑なモデルよりは現実的な予測モデルとして使えるでしょう。

<img src="https://github.com/CropEvol/lecture/blob/2018/textbook_2018/10_statistics/data/overfit.png?raw=true" alt="overfit" height="300px">

　また、データマイニング的な目的「yの値に影響を持っている変数xを調べたい」であれば、決定係数といった指標ですべて評価することは必ずしも適切ではありません。




### 実習3

<small>_※ 実習2の続きです。_</small>

<small>_※ コード例では説明変数として「gene_11の遺伝子発現量」を使っていますが、実習問題では「gene_29の遺伝子発現量」を使います。同じようなコードを書くため、変数が上書きされないように注意してください。_</small>

　実習2で得られた予測モデルを決定係数$R^2$で評価してみましょう。トレーニングデータとテストデータの両方の$R^2$を求めてください。
- 予測モデル: `model2`に学習済みのモデルが入っています
- トレーニングデータ: `xx_train`や`yy_train`に代入されています
- テストデータ: `xx_test`や`yy_test`に代入されています

In [0]:
# ============== 編集エリア(start) =============
# 整形: テストデータのx
xx_test = xx_test.reshape(-1, 1)

# 決定係数R2
r2_train = 
r2_test = 
# ============== 編集エリア(end) ==============

print("training: ", r2_train)
print("test: "    , r2_test)

#### 解答例

In [0]:
# ============== 編集エリア(start) =============
# 整形: テストデータのx
xx_test = xx_test.reshape(-1, 1)

# 決定係数R2
r2_train = model2.score(xx_train, yy_train)
r2_test = model2.score(xx_test, yy_test)
# ============== 編集エリア(end) ==============

print("training: ", r2_train)
print("test: "    , r2_test)

### 3-4. 予測

　新しいデータの予測値を調べる前に、説明変数を増やして、モデルを改善させましょう。次の「4. 線形回帰 Linear regression（2変数以上）」に進んでください。

...

## 4. 線形回帰 Linear regression（2変数以上）

　ここまでは、1つの説明変数xから目的変数yを予測する線形回帰モデルを作ってきました。さらに説明変数を増やして、予測モデルを改善してみましょう。ここからは、説明変数が4つの線形回帰をおこないます。

$$ f(x) = w_1x_1 + w_2x_2 + w_3x_3 + b $$

<small>_※ ここで使う変数には、予測モデルが改善するものを選んでます。_</small>

### 4-1. 前処理

　データ分割方法は、説明変数が増えても、同じです。

In [0]:
import numpy as np

# 使用する変数
x = np.array(df.loc[:,["gene_7", "gene_11", "gene_29"]]) # 説明変数3つ
y = np.array(df["phenotype"])                              # 目的変数

# データ分割: 100サンプルを「トレーニングデータ70%、テストデータ30%」に分ける
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)

print("training: ", x_train.shape, y_train.shape)
print("test: ", x_test.shape, y_test.shape)

　様々な説明変数（身長や体重など）をモデルに組み込もうとすると、変数の単位が揃わないことがしばしばあります。そのまま、モデルの学習をおこなうと、学習効率や予測モデルの悪影響を及ぼします。そこで、モデル学習の前に、**スケーリング（scaling）**をおこない、各説明変数の尺度を揃える必要があります。

　スケーリングの際、まず、トレーニングデータでスケーリングをおこないます。次に、同じ基準を使って、テストデータをスケーリングします。

スケーリングの種類: 
- **正規化 normalization**: 各変数の値を0 ~ 1の範囲に変換する  
```python
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()  # 変数名「mms」の部分は任意
x_train_mms = mms.fit_transform(x_train)
x_test_mms = mms.transform(x_test)
```

- **標準化 standardization**: 各変数の値を平均値0、標準偏差1になるように変換する
```python
from sklearn.preprocessing import StandardScaler
ss = StandardScaler() # 変数名「ss」の部分は任意
x_train_ss = ss.fit_transform(x_train)
x_test_ss = ss.transform(x_test)
```

　ここでは、標準化の方のスケーリングをおこなってみましょう。

In [0]:
# 標準化
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
x_train_ss = ss.fit_transform(x_train)
x_test_ss = ss.transform(x_test)

# 確認
#x_train_ss
#x_test_ss

### 実習4

　上の例と同じデータセット（`x_train`、`x_test`）を正規化をしてください。

In [0]:
# ============== 編集エリア(start) =============
# 正規化
from sklearn.preprocessing import MinMaxScaler
mms = 
x_train_mms = 
x_train_mms = 
# ============== 編集エリア(end) ==============

# 確認
x_train_mms
#x_test_mms

#### 解答例

In [0]:
# ============== 編集エリア(start) =============
# 正規化
from sklearn.preprocessing import MinMaxScaler
mms = MinMaxScaler()
x_train_mms = mms.fit_transform(x_train)
x_test_mms = mms.transform(x_test)
# ============== 編集エリア(end) ==============

# 確認
x_train_mms
#x_test_mms

### 4-2 ~ 4-3. モデルの選択・学習

　ここでも「線形回帰」をおこないます。スケーリング後のトレーニングデータを学習に使います。

In [0]:
# scikit-learnの線形モデルを準備
from sklearn.linear_model import LinearRegression
# モデル選択＆学習
model_ss = LinearRegression()
model_ss.fit(x_train_ss, y_train)

# 傾きw、切片b
w = model_ss.coef_
b = model_ss.intercept_
print("Coefficient=", w)
print("Intercept="  , b)

### 各項の係数 Coefficient について

　各項の係数 Coefficient は、それぞれの説明変数$w_1, w_2...w_m$が目的変数$y$にどの程度影響を持っているかを表しています。影響の大きさを知りたいのであれば、係数の絶対値をみます。影響の方向性（プラスかマイナスか）を知りたいのであれば、係数の符号をみます。


　詳細は省きますが、前処理でおこなったスケーリングはこの係数に影響してきます。モデルの各係数の値を調べたい場合（例えば、各遺伝子の発現が表現型値にどの程度関わっているか調べたい場合）、スケーリングをせずに解析すると、誤った結果を得ることになります。

### 4-4. モデルの評価

　決定係数$R^2$を調べると、説明変数が1つの場合よりも$R^2$が高くなることがわかります。


```
# 参考: 説明変数が1つ（gene_11）のみを使った場合のR2
training:  0.28006904968191343
test:  0.3765405659481891
```

In [0]:
# 決定係数R2: 4つの説明変数を使ったとき
r2_train_ss = model_ss.score(x_train_ss, y_train)  # トレーニングデータ
r2_test_ss = model_ss.score(x_test_ss, y_test)    # テストデータ
print("training: ", r2_train_ss)
print("test: "    , r2_test_ss)

### モデル比較

　ここでは、モデル間の比較で重要な考え方を紹介します。

```
精度が高いモデルが良い
複雑なモデルより、単純なモデルが良い
```

　機械学習では、新しいデータに対して上手く予測できるモデル、すなわち「精度が高い」モデルが好まれます（実習で使った決定係数$R^2$はモデルの精度を測る指標です）。また、「単純なモデル」は、理解しやすいので好まれます。

　一般的に、モデルの精度を高くしようとすると、複雑になる傾向にあります。しかし、単純さを優先すると、精度が低いモデルになります。

　精度と単純さのバランスを評価する指標として、次のような指標があります。これらは、モデル間の比較に使われます。詳しく知りたい方は、統計モデリングの本を参照してください。
- AIC(赤池情報量基準): 予測能力が最良のモデルを良いとする指標
- BIC(ベイズ情報量規準): 真のモデルである確率が最も大きいモデルを良いとする指標


「統計モデリング」の勉強におすすめの本: 
- [データ解析のための統計モデリング入門](https://www.iwanami.co.jp/book/b257893.html)
- [Bayesian Analysis with Python](https://www.packtpub.com/big-data-and-business-intelligence/bayesian-analysis-python-second-edition)（原書）/ [Pythonによるベイズ統計モデリング](https://www.kyoritsu-pub.co.jp/bookdetail/9784320113374)（日本語訳）

### 4-5. 予測

　（改善の余地はありますが）そこそこ良いモデルが得られたので、新しい入力データ（$x$の値）をこの予測モデルに入れて、予測値（$y$の値）を得てみましょう。

　ここでは、新しく3サンプルの遺伝子発現データが得られたとして、その表現型値を予測します。

$$
(gene_{7}, gene_{11}, gene_{29}) = (x_1, x_2, x_3) = (10.0, 9.0, 12.0), (8.0, 10.5, 13.0), (9.1, 12.3, 8.9)
$$

予測の手順:  
1. 新しいデータのスケーリングをします。トレーニングデータと同じ基準で、スケーリングする必要があります（テストデータのスケーリングと同じ操作です）。
```python
スケーリング名.transform(新しいデータ)
```

1. `predict`で新しいデータの予測値を得ます。
```python
モデル名.predict(スケーリング後のデータ)
```

In [0]:
# 新しいデータ
new_data = np.array([(10.0, 9.0, 12.0), (8.0, 10.5, 13.0), (9.1, 12.3, 8.9)])

# スケーリング（標準化 standardization）
new_data = ss.transform(new_data)

# 予測
model_ss.predict(new_data)

### 実習4

　次のコードセルの1行目の`new_data`には、5つの新しいデータが入っています。これまでの実習で作ってきたモデル`model_ss`（標準化トレーニングデータで学習した線形回帰モデル）を使って、それらの予測値を得てください。

In [0]:
new_data = np.array([(9.4, 7.4, 10.3), (10.0, 9.5, 10.2),
                     (8.6, 6.8, 9.1), (9.4, 6.4, 13.0), (9.9, 7.7, 10.0)])

# ============== 編集エリア(start) =============
# スケーリング（標準化 standardization）
new_data = ss.

# 予測


# ============== 編集エリア(end) ==============

#### 解答例

In [0]:
new_data = np.array([(9.4, 7.4, 10.3), (10.0, 9.5, 10.2),
                     (8.6, 6.8, 9.1), (8.4, 10.4, 13.0), (7.9, 7.7, 10.0)])

# ============== 編集エリア(start) =============
# スケーリング（標準化 standardization）
new_data = ss.transform(new_data)

# 予測
model_ss.predict(new_data)

# ============== 編集エリア(end) ==============

---

## まとめ

　今回の実習では、機械学習の概要を学びました。また、機械学習手法のひとつである **線形回帰** を通して、機械学習の流れを学びました。

　線形回帰の内部で使われている計算（係数や誤差の最適値を求める計算）を自身でコーディングしようとすると、手間がかかります。**scikit-learn**ライブラリを使うことで、少量のコーディングで線形回帰モデルを構築することが可能です。有名な手法であれば、線形回帰以外の手法も scikit-learn で同じように実装可能です。

　機械学習の流れ（**前処理 → 選択 → 学習 → 評価 → 予測**）は、基本的にどの手法であっても同じです。  
　「前処理」では、**トレーニングデータ**と**テストデータ**の分割や説明変数の**スケーリング**をおこないました。他にも、カテゴリカルデータや欠損値など処理もこの工程でおこないます。  
　「選択」では、使うモデルの選択をおこないました（線形回帰のみでしたが...）。通常、ハイパーパラメータと呼ばれる学習前に設定しなければならないパラメータを決めるのもこの工程でおこないます。  
　「学習」では、トレーニングデータを使ってモデルの学習をおこないました。最適値を得るアルゴリズムや計算方法は、機械学習の手法によって異なっています。  
　「評価」では、今回は**決定係数$R^2$**と呼ばれる評価指標で、モデルの良し悪しをみました。解析目的によって、何を評価指標にするか変わってくるので、実際の解析では重要な工程です。  
　「予測」では、得られた予測モデルに新しいデータを入力して、その予測値を得ました。

　次回は、回帰問題を通して、**目的関数（コスト関数）** の最適値を探すアルゴリズム **勾配法 Gradient method** を学びます。これは、ニューラルネットワーク（Neural network）と呼ばれる高度な機械学習モデルにも使われている手法です。

##### 「機械学習」の勉強におすすめの本
- 理論
  - [The Hundred-Page Machine Learning Book](http://themlbook.com/)
  - [わけがわかる機械学習](https://gihyo.jp/book/2019/978-4-297-10740-6)
- Pythonプログラミング
  - [Python Machine Learning](https://www.packtpub.com/data/python-machine-learning-third-edition)（原書）/ [Python機械学習プログラミング](https://book.impress.co.jp/books/1117101099)（日本語訳）
  - [機械学習のための「前処理」入門](https://www.amazon.co.jp/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E3%80%8C%E5%89%8D%E5%87%A6%E7%90%86%E3%80%8D%E5%85%A5%E9%96%80-%E8%B6%B3%E7%AB%8B-%E6%82%A0/dp/4865941967)
  - [Pythonと実データで遊んで学ぶ データ分析講座](http://www.c-r.com/book/detail/1322)

##### 今回実装した機械学習のプログラム（おもなコードのみ）

In [0]:
# ライブラリ
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression

# サンプルデータの読み込み
!wget -q -O gene_expression.csv https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/gene_expression.csv
df = pd.read_csv("gene_expression.csv", sep=",", header=0)
x = np.array(df.loc[:,["gene_7", "gene_11", "gene_29"]]) # 説明変数3つ
y = np.array(df["phenotype"])                              # 目的変数

# === 前処理 ===
# データ分割
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
# 標準化
ss = StandardScaler()
x_train_ss = ss.fit_transform(x_train)
x_test_ss = ss.transform(x_test)

# === モデル選択＆学習 ===
model_ss = LinearRegression()  # 線形回帰
model_ss.fit(x_train_ss, y_train)    # 学習

# === 評価 ===
r2_train_ss = model_ss.score(x_train_ss, y_train)  # トレーニングデータ
r2_test_ss = model_ss.score(x_test_ss, y_test)    # テストデータ
print("training: ", r2_train_ss)
print("test: "    , r2_test_ss)

# === 予測 ===
# 新しいデータ
new_data = np.array([(10.0, 9.0, 12.0), (8.0, 10.5, 13.0), (9.1, 12.3, 8.9)])
# スケーリング（標準化 standardization）
new_data = ss.transform(new_data)
# 予測値
model_ss.predict(new_data)


training:  0.6316303143591651
test:  0.7031019471801097


array([ 99.99125475, 118.58182973, 105.17854055])