<img src="https://lh3.googleusercontent.com/pw/ACtC-3fFHZrzKpHGWl0vYz7Sr8FX8QqLQ_tc8XHBSwqQnM4hgsIOjtjaOde1M9oHSAfe1Fs2SwVORlapit4-JOz0mjP8Tnz6HetkLZDZb8CifSd0uoSp1Nj3wG_wh1sEQlKXXzvEA9Y9HnQqu2Ecv2igmInb=w1097-h235-no?authuser=0" alt="2020年度ゲノム情報解析入門" height="100px" align="middle">

# 機械学習 - 分類 - [課題]

実習テキストは [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2020/L14_ML_classification.ipynb)


## この課題で使用するデータセット

次のコードセルを実行して、課題1-3のためのデータを準備してください。

※ 実習テキストで使用したデータセットと同じです

　[データセット](https://github.com/CropEvol/lecture/blob/master/textbook_2019/dataset/AB_classification.csv): 
- 説明変数（分類では、**特徴量（Feature）**と呼ぶことが多いです）
  - x1, x2 （2つの遺伝子の発現量）

- 目的変数（分類では、**クラス（Class）**や**ラベル（Label）**と呼ぶことが多いです）
  - class: C, D

- サンプル数（計446サンプル）
  - class C: 300サンプル
  - class D: 146サンプル

<small>※ このデータセットは、UCI Machine Learning Repositorの [gene expression cancer RNA-Seq Data Set](https://archive.ics.uci.edu/ml/datasets/gene+expression+cancer+RNA-Seq)を改変したデータセットです。</small>



In [None]:
# /// 実習前に、このセルを実行してください。 ///
# サンプルデータをダウンロード
!wget -q -O CD_classification.csv https://raw.githubusercontent.com/CropEvol/lecture/master/data/CD_classification.csv
# 「分類」アルゴリズムの描画関数などをダウンロード
!wget -q -O classification.py https://raw.githubusercontent.com/CropEvol/lecture/master/modules/classification.py

# データの読み込み
import pandas as pd
df = pd.read_csv("CD_classification.csv", sep=",", header=0)

### 前処理 ###
# (1) 使用するデータの準備: 説明変数（特徴量）、目的変数（ラベル）
import numpy as np
x = np.array(df.loc[:,["x1","x2"]])
y = np.array(df.loc[:,"class"])  # ラベル

# (2) データの分割
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, stratify=y, random_state=0)

# (3) スケーリング（標準化）
from sklearn.preprocessing import StandardScaler
ss = StandardScaler()
x_train_ss = ss.fit_transform(x_train) # トレーニングデータ
x_test_ss = ss.transform(x_test)     # テストデータ

# (4) ラベルの数値変換
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y_train_le = le.fit_transform(y_train) # トレーニングデータ
y_test_le = le.transform(y_test)     # テストデータ

# 確認
print(y_train)    # 変換前
print(y_train_le) # 変換後

---

## 課題内容

ここでは、「2つの説明変数（x1, x2）からラベル（C, D）を予測する分類モデル」を構築してください。

- 課題1: ロジスティック回帰を使った分類モデル
- 課題2: トレーニングデータとテストデータの正解率が両方とも94%以上の分類モデル
- 課題3: トレーニングデータ正解率100%の分類モデル


## 課題1

　次のコードセルに追記して、「ロジスティック回帰を使った分類モデル」を作成してください。


In [None]:
# 使用するデータ
X_train, Y_train = x_train_ss, y_train_le  # トレーニングデータ
X_test, Y_test  = x_test_ss, y_test_le   # テストデータ

# ============== 編集エリア(start) =============
# モデルの準備
from sklearn.linear_model import LogisticRegression
clf = 

# ============== 編集エリア(end) ==============

# モデルの学習
clf.fit(X_train, Y_train)

# グラフ
from classification import draw_decision_boundary
draw_decision_boundary(x1_train=X_train[:,0], x2_train=X_train[:,1], 
                       x1_test=X_test[:,0], x2_test=X_test[:,1], 
                       y_train=Y_train, y_test=Y_test, 
                       labels=le.inverse_transform(Y_train), 
                       model=clf, xlabel="x1", ylabel="x2")
# 評価（正解率）
print("training data: ", clf.score(X_train, Y_train)) # トレーニングデータ
print("test data: ",    clf.score(X_test, Y_test))  # テストデータ

## 課題2

　次のコードセルに追記して、「トレーニングデータとテストデータの正解率が両方とも94%以上の分類モデル」を作成してください。

　なお、使用する分類アルゴリズムや設定値は自由に決めてください。
- [ロジスティック回帰](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
- [サポートベクトルマシン](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
- [決定木](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)
- [ランダムフォレスト](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
- [ニューラルネットワーク](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)
- その他のアルゴリズム（[ナイーブベイズ](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB)、[k-Nearest Neighbor](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)）でもOK


In [None]:
# 使用するデータ
X_train, Y_train = x_train_ss, y_train_le  # トレーニングデータ
X_test, Y_test  = x_test_ss, y_test_le   # テストデータ

# ============== 編集エリア(start) =============
# モデルの準備
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

clf = 

# ============== 編集エリア(end) ==============

# モデルの学習
clf.fit(X_train, Y_train)

# グラフ
from classification import draw_decision_boundary
draw_decision_boundary(x1_train=X_train[:,0], x2_train=X_train[:,1], 
                       x1_test=X_test[:,0], x2_test=X_test[:,1], 
                       y_train=Y_train, y_test=Y_test, 
                       labels=le.inverse_transform(Y_train), 
                       model=clf, xlabel="x1", ylabel="x2")
# 評価（正解率）
print("training data: ", clf.score(X_train, Y_train)) # トレーニングデータ
print("test data: ",    clf.score(X_test, Y_test))  # テストデータ

## 課題3

　次のコードセルに追記して、「トレーニングデータの正解率が100%になる分類モデル」を作成してください。テストデータの正解率の高低は問いません。


　なお、使用する分類アルゴリズムや設定値は自由に決めてください。
- [ロジスティック回帰](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
- [サポートベクトルマシン](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
- [決定木](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)
- [ランダムフォレスト](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
- [ニューラルネットワーク](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)
- その他のアルゴリズム（[ナイーブベイズ](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB)、[k-Nearest Neighbor](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)）でもOK


In [None]:
# 使用するデータ
X_train, Y_train = x_train_ss, y_train_le  # トレーニングデータ
X_test, Y_test  = x_test_ss, y_test_le   # テストデータ

# ============== 編集エリア(start) =============
# モデルの準備
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

clf = 

# ============== 編集エリア(end) ==============

# モデルの学習
clf.fit(X_train, Y_train)

# グラフ
from classification import draw_decision_boundary
draw_decision_boundary(x1_train=X_train[:,0], x2_train=X_train[:,1], 
                       x1_test=X_test[:,0], x2_test=X_test[:,1], 
                       y_train=Y_train, y_test=Y_test, 
                       labels=le.inverse_transform(Y_train), 
                       model=clf, xlabel="x1", ylabel="x2")
# 評価（正解率）
print("training data: ", clf.score(X_train, Y_train)) # トレーニングデータ
print("test data: ",    clf.score(X_test, Y_test))  # テストデータ

---
## 課題提出について

**提出期限: 1月25日（月）**

　次の手順で、課題を提出してください。

1. 課題取り組み後のノートブックの共有リンクを発行する。  
  共有リンク発行手順:
  1. ノートブックを保存する
    - 「ファイル」 > 「保存」または「ドライブにコピーを保存」
  1. 共有リンクを発行する  
    - 右上の「共有」ボタンをクリックする
    - 「リンクを知っている全員に変更」をクリックする
    - 権限が「閲覧者」になっているか確認する
    - 共有リンクをコピーする
1. [PandAのゲノム情報解析入門ページ](https://panda.ecs.kyoto-u.ac.jp/portal/site/2020-111-5323-000)にアクセスする
1. 今回の課題提出ページに移動する  
  - 「課題」 > 「第14回（1月19日）の課題」
1. 上で発行した共有リンクを提出フォームに貼り付ける
1. 提出する



<img src="https://lh3.googleusercontent.com/pw/ACtC-3fY_OEQDEDFt6jq8EwbeBH0LU2rT6Ik-7tELLlaBPYI8dyOwcQ7PKSMLuaG9YYydjEBJ4ZyG86ScnKpRY6OLc0QZpjxa0sztcZ3xNprpFY92ogPWOjedJ8P72tgi397k4_vbp8Pa9lqTNapwf6RT_M7=w1326-h1094-no?authuser=0" alt="課題提出フォームへの入力例" height="500px" align="middle">