<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

# 機械学習 - 勾配法 - [課題]

実習テキストは [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2019/L09_ML_gradient_method.ipynb)

## 課題で使うサンプルデータ

　第9回の実習で使ったサンプルデータと同じです。

　次のコードセルを実行して、データファイル（[gene_expression.csv](https://github.com/CropEvol/lecture/blob/master/textbook_2019/dataset/gene_expression.csv)）をダウンロードしてください。

ファイルの詳細:
- ファイル名: gene_expression.csv
- カンマ区切りテキストファイル
- 100行（100サンプル） x 51列（表現型値+50個の遺伝子発現量）

　課題では、3個の遺伝子発現量データ`gene_7`と`gene_11`、`gene_29`を「説明変数」として扱い、表現型値（目的変数）を予測する回帰モデルを作成します。


In [0]:
### このコードセルは実行のみ ###
# サンプルデータのダウンロード
!wget -q -O gene_expression.csv https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/gene_expression.csv

# pandasで読み込み
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

# データセットの読み込み
df = pd.read_csv("gene_expression.csv", sep=",", header=0)
# データ抽出（前処理）
x = np.array(df.loc[:,["gene_7", "gene_11", "gene_29"]]) # 説明変数（3個）
y = np.array(df["phenotype"])                             # 目的変数
# データ分割（トレーニングデータ:テストデータ=80:20）
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=1)
# スケーリング（正規化）
mms = MinMaxScaler()
x_train = mms.fit_transform(x_train)  # トレーニングデータの正規化
x_test = mms.transform(x_test)              # テストデータの正規化

　上のコードセルを実行すると、次の4つのデータが得られます。
- `x_train`: トレーニングデータの説明変数（3つの遺伝子発現量）
- `y_train`: トレーニングデータの目的変数（表現型値）
- `x_test`: テストデータの説明変数（3つの遺伝子発現量）
- `y_test`: テストデータの目的変数（表現型値）

## 課題1

　scikit-learnの`linear_model.LinearRegression`を用いて、線形回帰モデルを作成してください。

$$ y = \beta_{gene\_7} x_{gene\_7} + \beta_{gene\_11} x_{gene\_11} + \beta_{gene\_29} x_{gene\_29} + e $$

- ヒント:  
```python
model_lr = LinearRegression()
model_lr.fit(トレーニングデータ)
```

In [0]:
from sklearn.linear_model import LinearRegression

# ============== 編集エリア(start) =============
# モデル選択＆学習
model_lr = 
model_lr

# ============== 編集エリア(end) ==============

# 係数w、誤差b
print("Coefficient=", model_lr.coef_)
print("Intercept="  , model_lr.intercept_)

#### 解答例

In [0]:
from sklearn.linear_model import LinearRegression

# ============== 編集エリア(start) =============
# モデル選択＆学習
model_lr = LinearRegression()
model_lr.fit(x_train, y_train)

# ============== 編集エリア(end) ==============

# 係数w、誤差b
print("Coefficient=", model_lr.coef_)
print("Intercept="  , model_lr.intercept_)

Coefficient= [-15.48553427  11.31600717  17.14520274]
Intercept= 89.19910033888631


## 課題2

　課題1で作成した予測モデルについて、トレーニングデータとテストデータの決定係数$R^2$を求めてください。

- ヒント: 
```python
model_lr.score(トレーニングデータ)
model_lr.score(テストデータ)
```

In [0]:
# ============== 編集エリア(start) =============
# 決定係数R2
r2_train =   # トレーニングデータ
r2_test =   # テストデータ

# ============== 編集エリア(end) ==============

# 表示
print("training: ", r2_train)
print("test: "    , r2_test)

#### 解答例

In [0]:
# ============== 編集エリア(start) =============
# 決定係数R2
r2_train = model_lr.score(x_train, y_train)  # トレーニングデータ
r2_test = model_lr.score(x_test, y_test)    # テストデータ

# ============== 編集エリア(end) ==============

# 表示
print("training: ", r2_train)
print("test: "    , r2_test)

training:  0.6657672735382485
test:  0.5961547119602773


## 課題3
　課題1では、「最小二乗法」による計算で、線形回帰モデルの最適なパラメータを求めました。  
　ここでは、「確率的勾配降下法」を使って、最適なパラメータを探索してください。

- ヒント1:  
```python
model_sgd = SGDRegressor(ハイパーパラメータ)
model_sgd.fit(トレーニングデータ)
```
- ヒント2: 学習率`eta0`を0.01や0.1にする
- ヒント3: トレーニング回数`max_iter`を1000や10000にする

<small>*※1 「最小二乗法」に近い解が得られますが、同じ解になることはほぼありません。*</small>  
<small>*※2 "ConvergenceWarning"といった注意が出力されることがあります。`max_iter`をより高い数値に設定すれば、この注意は表示されなくなります。*</small>



In [0]:
from sklearn.linear_model import SGDRegressor

# ============== 編集エリア(start) =============
# モデル選択＆学習
model_sgd = 
model_sgd

# ============== 編集エリア(end) ==============

# 係数w、誤差b
print("Coefficient=", model_sgd.coef_)
print("Intercept="  , model_sgd.intercept_)

# 決定係数R2
r2_train = model_sgd.score(x_train, y_train)  # トレーニングデータ
r2_test = model_sgd.score(x_test, y_test)    # テストデータ
print("training: ", r2_train)
print("test: "    , r2_test)

#### 解答例

In [0]:
from sklearn.linear_model import SGDRegressor

# ============== 編集エリア(start) =============
# モデル選択＆学習
model_sgd = SGDRegressor(max_iter=10000, eta0=0.01)
model_sgd.fit(x_train, y_train)

# ============== 編集エリア(end) ==============

# 係数w、誤差b
print("Coefficient=", model_sgd.coef_)
print("Intercept="  , model_sgd.intercept_)

# 決定係数R2
r2_train = model_sgd.score(x_train, y_train)  # トレーニングデータ
r2_test = model_sgd.score(x_test, y_test)    # テストデータ
print("training: ", r2_train)
print("test: "    , r2_test)

Coefficient= [-13.66461973  19.49112677  14.47095176]
Intercept= [83.88320902]
training:  0.6405689725707031
test:  0.6888194189920946


## 課題4

　「確率的勾配降下法」のハイパーパラメータのひとつ、学習率`eta0`の適度な値を「グリッドサーチ」により探索してください。

条件 
- トレーニング回数`max_iter`: 10000に設定
- 学習率`eta0`: 探索する値は自由に設定してください
- 評価指標: テストデータの決定係数$R^2$



ヒント: for構文を使う
```python
eta = [学習率のリスト]
for r in eta:
    # 学習
    model_sgd = SGDRegressor(ハイパーパラメータ)
    model_sgd.fit(トレーニングデータ)
    # 評価
    r2 = model_sgd.score(テストデータ)
    print("eta=", r, "　R2=", r2)
```

In [0]:
from sklearn.linear_model import SGDRegressor

# ============== 編集エリア(start) =============







# ============== 編集エリア(end) ==============


#### 解答例

In [0]:
from sklearn.linear_model import SGDRegressor

# ============== 編集エリア(start) =============
eta = [0.0001, 0.001, 0.01, 0.1, 1.0]
for r in eta:
  # 学習
  model_sgd = SGDRegressor(max_iter=10000, eta0=r)
  model_sgd.fit(x_train, y_train)
  # 評価
  r2 = model_sgd.score(x_test, y_test)
  print("eta=", r, "　R2=", r2)

# ============== 編集エリア(end) ==============


eta= 0.0001 　R2= -0.5556671336204266
eta= 0.001 　R2= 0.6539618218852931
eta= 0.01 　R2= 0.6891097488569811
eta= 0.1 　R2= 0.6631772217784214
eta= 1.0 　R2= 0.6531635899650573


## 課題の提出方法
1. 課題を終えたノートブックをダウンロードする
  - ダウンロード方法: 「ファイル」 > 「.ipynb をダウンロード」
1. メールで課題を提出する
  - 提出先メールアドレス: cropevol@gmail.com
  - メール件名: HW[課題番号(2桁)]+SID[学籍番号(4桁-2桁-４桁)]（**すべて半角英数**） にする
    - 課題番号: 09
    - 例: HW09+1234-56-7890
  - メール本文: 未入力でも構いません
  - 添付ファイル: ダウンロードしたノートブックファイル（.ipynb）を添付する
  - 提出締切: 12月16日（月）

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/submit_homework_L09.png?raw=true" alt="課題提出" height="400px" align="middle">