<img src="https://lh3.googleusercontent.com/pw/ACtC-3fFHZrzKpHGWl0vYz7Sr8FX8QqLQ_tc8XHBSwqQnM4hgsIOjtjaOde1M9oHSAfe1Fs2SwVORlapit4-JOz0mjP8Tnz6HetkLZDZb8CifSd0uoSp1Nj3wG_wh1sEQlKXXzvEA9Y9HnQqu2Ecv2igmInb=w1097-h235-no?authuser=0" alt="2020年度ゲノム情報解析入門" height="100px" align="middle">

# 機械学習 - 勾配法 - [課題]

実習テキストは [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2020/L13_ML_gradient_method.ipynb)


### 課題で使用するデータセット

　次のコードセルを実行して、データファイル（[gene_expression.csv](https://github.com/CropEvol/lecture/blob/master/textbook_2019/dataset/gene_expression.csv)）をダウンロードしてください。

ファイルの詳細:
- ファイル名: gene_expression.csv
- カンマ区切りテキストファイル
- 100行（100サンプル） x 51列（表現型値 + 50個の遺伝子発現量）


In [None]:
# データの読み込み
!wget -q -O gene_expression.csv https://raw.githubusercontent.com/CropEvol/lecture/master/data/gene_expression.csv
# 動画再生用モジュール
!wget -q -O gradient_method.py https://raw.githubusercontent.com/CropEvol/lecture/master/modules/gradient_method.py
!apt-get -q install ffmpeg

# pandasで読み込み
import pandas as pd
df = pd.read_csv("gene_expression.csv", sep=",", header=0)
df

### 課題で構築するモデル

> gene_7の遺伝子発現量から表現型値（phenotype）を予測する線形回帰モデルを、**確率的勾配降下法**で作る
  $$ y = \beta_{gene\_7} x_{gene\_7} + e $$

---
## 課題1: 前処理

<small>※ この課題は、下記コードを実行するのみです。</small>

　次のコードセルを実行して、使用する説明変数と目的変数を準備してください。

実行される内容: 
- 説明変数（`gene_7`）、目的変数（`phenotype`）をデータセットから取り出す
- 説明変数の正規化（変数の値を0 ~ 1の範囲に変換する）
- グラフ描画


<small>今回の課題では、モデルの評価をおこないません。そのため、モデル評価用のデータを準備する「データセットの分割」は今回おこないません。実際の機械学習では、「データセットの分割」もおこなうのが一般的です。</small>



In [None]:
# データの準備
import numpy as np
x = np.array(df["gene_7"]).reshape(-1,1) # 説明変数x
y = np.array(df["phenotype"])            # 目的変数y

# 説明変数xの正規化
from sklearn.preprocessing import MinMaxScaler 
mms = MinMaxScaler()
x = mms.fit_transform(x)

# グラフ
import matplotlib.pyplot as plt
plt.scatter(x, y, color="blue", label="training data") # データ
plt.xlabel("gene expression (normalized)")  # x軸ラベル
plt.ylabel("phenotype value")               # y軸ラベル
plt.legend()  # 凡例
plt.show()

## 課題2: モデルの選択＆モデルの学習

　次のコードセルには、最小二乗法（scikit-learnの`LinearRegression`）で線形回帰モデルを構築するコードが書かれています。

　コードセルを編集して、確率的勾配降下法（scikit-learnの`SGDRegressor`）で線形回帰モデルを構築するコードに変えてください。なお、確率的勾配降下法のトレーニング回数や学習率は自由に設定してください。

In [None]:
# ============== 編集エリア(start) =============
# モデルの選択
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

# モデルの学習
lr.fit(x, y)
# ============== 編集エリア(end) ==============

# 学習済み線形回帰モデルの係数と誤差を表示
print("Coefficient=", lr.coef_)   # 係数b （傾き）
print("Intercept="  , lr.intercept_) # 誤差e (切片)
print("R2="  , lr.score(x, y)) # 決定係数R2

# グラフ
import matplotlib.pyplot as plt
plt.scatter(x, y, color="blue", label="data") # データ
plt.plot(x, lr.predict(x), color="blue", alpha=0.5, label="model") # 学習済み線形回帰モデルの直線
plt.xlabel("gene expression (normalized)") # x軸ラベル
plt.ylabel("phenotype value")              # y軸ラベル
plt.legend()                # 凡例
plt.show()

---
## 課題提出について

**提出期限: 1月18日（月）**

　次の手順で、課題を提出してください。

1. 課題取り組み後のノートブックの共有リンクを発行する。  
  共有リンク発行手順:
  1. ノートブックを保存する
    - 「ファイル」 > 「保存」または「ドライブにコピーを保存」
  1. 共有リンクを発行する  
    - 右上の「共有」ボタンをクリックする
    - 「リンクを知っている全員に変更」をクリックする
    - 権限が「閲覧者」になっているか確認する
    - 共有リンクをコピーする
1. [PandAのゲノム情報解析入門ページ](https://panda.ecs.kyoto-u.ac.jp/portal/site/2020-111-5323-000)にアクセスする
1. 今回の課題提出ページに移動する  
  - 「課題」 > 「第13回（1月12日）の課題」
1. 上で発行した共有リンクを提出フォームに貼り付ける
1. 提出する



<img src="https://lh3.googleusercontent.com/pw/ACtC-3fY_OEQDEDFt6jq8EwbeBH0LU2rT6Ik-7tELLlaBPYI8dyOwcQ7PKSMLuaG9YYydjEBJ4ZyG86ScnKpRY6OLc0QZpjxa0sztcZ3xNprpFY92ogPWOjedJ8P72tgi397k4_vbp8Pa9lqTNapwf6RT_M7=w1326-h1094-no?authuser=0" alt="課題提出フォームへの入力例" height="500px" align="middle">