<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/lec_title.png?raw=true" alt="2019年度ゲノム情報解析入門" height="100px" align="middle">

# 機械学習 - 分類 - [課題]

実習テキストは [こちら](https://colab.research.google.com/github/CropEvol/lecture/blob/master/textbook_2019/L10_ML_classification.ipynb)

## 課題で使うサンプルデータ

　この課題には、次のような[データセット](https://github.com/CropEvol/lecture/blob/master/textbook_2019/dataset/CD_classification.csv)を使います。　

<small>*※ UCI Machine Learning Repositorの [gene expression cancer RNA-Seq Data Set](https://archive.ics.uci.edu/ml/datasets/gene+expression+cancer+RNA-Seq)を大幅に改変したデータセットです。遺伝子発現（説明変数）から2種類のがん（目的変数）を予測する機械学習用データセットです。*</small>

- 説明変数（特徴量）
  - x1, x2
- 目的変数（ラベル、クラス）
  - class: C, D
- サンプル数（計446サンプル）
  - class C: 300サンプル
  - class D: 146サンプル


　課題をおこなう前に、次のコードセルを実行してください。

In [0]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder

# サンプルデータと描画関数をダウンロード
!wget -q -O CD_classification.csv https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/dataset/CD_classification.csv
!wget -q -O classification.py https://raw.githubusercontent.com/CropEvol/lecture/master/textbook_2019/modules/classification.py

# データの読み込み
df = pd.read_csv("CD_classification.csv", sep=",", header=0)
# 説明変数
x = df.loc[:,["x1","x2"]]
cols = x.columns  # 列名
x = np.array(x)    # Numpy配列に変換
# ラベル変数
y = np.array(df.loc[:,"class"])  # 種名

# グラフ
c = df[df["class"] == "C"]
d = df[df["class"] == "D"]
plt.scatter(c["x1"], c["x2"], color="red", label="C")
plt.scatter(d["x1"], d["x2"], color="blue", label="D")
plt.xlabel("x1")
plt.ylabel("x2")
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show

# (1) データの分割
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, stratify=y, random_state=0)

# (2) スケーリング
ss = StandardScaler()
x_train_ss = ss.fit_transform(x_train) # トレーニングデータ
x_test_ss = ss.transform(x_test) # テストデータ

# (3) ラベルの数値変換
le = LabelEncoder()
y_train_le = le.fit_transform(y_train) # トレーニングデータ
y_test_le = le.transform(y_test) # テストデータ

# 確認
print("training data: ", np.unique(y_train, return_counts=True))  # トレーニングデータ内の各クラスのサンプル数
print("test data: ", np.unique(y_test, return_counts=True))  # テストデータ内の各クラスのサンプル数
print(y_test_le)

　以下の課題1-3では、各問題文に記載された条件に合うように、「2つのクラス（CとD）の分類モデル」を作成してください。なお、分類アルゴリズムは、どれを使用しても構いません。

- [ロジスティック回帰](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)
- [サポートベクトルマシン](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)
- [決定木](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)
- [ランダムフォレスト](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html)
- [ニューラルネットワーク](https://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPClassifier.html)
- その他のアルゴリズム（[ナイーブベイズ](https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.BernoulliNB.html#sklearn.naive_bayes.BernoulliNB)、[k-Nearest Neighbor](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html)）でもOK



## 課題1

- 条件はありません。自由に分類モデルを作成してください。
- ハイパーパラメータも自由に設定してください。

In [0]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

# 使用するデータ
# （説明変数は、スケーリング後のデータ）
x_train, y_train = x_train_ss, y_train_le  # トレーニングデータ
x_test, y_test  = x_test_ss, y_test_le   # テストデータ

# ============== 編集エリア(start) =============
# モデルを作成
clf = 

# ============== 編集エリア(end) ==============

# モデルをトレーニング
clf.fit(x_train, y_train)

# グラフ
from classification import draw_decision_boundary
draw_decision_boundary(x1_train=x_train[:,0], x2_train=x_train[:,1], 
                       x1_test=x_test[:,0], x2_test=x_test[:,1], 
                       y_train=y_train, y_test=y_test, 
                       labels=le.inverse_transform(y_train), 
                       model=clf, xlabel="x1", ylabel="x2")

# 評価（正解率）
print("training data: ", clf.score(x_train, y_train)) # トレーニングデータ
print("test data: ",    clf.score(x_test, y_test))  # テストデータ

## 課題2

- トレーニングデータの正解率が1.0（100%）になる分類モデルを作成してください。なお、テストデータの正解率は低くても構いません。

In [0]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

# 使用するデータ
# （説明変数は、スケーリング後のデータ）
x_train, y_train = x_train_ss, y_train_le  # トレーニングデータ
x_test, y_test  = x_test_ss, y_test_le   # テストデータ

# ============== 編集エリア(start) =============
# モデルを作成
clf = 

# ============== 編集エリア(end) ==============

# モデルをトレーニング
clf.fit(x_train, y_train)

# グラフ
from classification import draw_decision_boundary
draw_decision_boundary(x1_train=x_train[:,0], x2_train=x_train[:,1], 
                       x1_test=x_test[:,0], x2_test=x_test[:,1], 
                       y_train=y_train, y_test=y_test, 
                       labels=le.inverse_transform(y_train), 
                       model=clf, xlabel="x1", ylabel="x2")

# 評価（正解率）
print("training data: ", clf.score(x_train, y_train)) # トレーニングデータ
print("test data: ",    clf.score(x_test, y_test))  # テストデータ

## 課題3

- トレーニングデータとテストデータの正解率が両方とも0.94（94%）以上になるモデルを作成してください。

In [0]:
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier

# 使用するデータ
# （説明変数は、スケーリング後のデータ）
x_train, y_train = x_train_ss, y_train_le  # トレーニングデータ
x_test, y_test  = x_test_ss, y_test_le   # テストデータ

# ============== 編集エリア(start) =============
# モデルを作成
clf =

# ============== 編集エリア(end) ==============

# モデルをトレーニング
clf.fit(x_train, y_train)

# グラフ
from classification import draw_decision_boundary
draw_decision_boundary(x1_train=x_train[:,0], x2_train=x_train[:,1], 
                       x1_test=x_test[:,0], x2_test=x_test[:,1], 
                       y_train=y_train, y_test=y_test, 
                       labels=le.inverse_transform(y_train), 
                       model=clf, xlabel="x1", ylabel="x2")

# 評価（正解率）
print("training data: ", clf.score(x_train, y_train)) # トレーニングデータ
print("test data: ",    clf.score(x_test, y_test))  # テストデータ

## 課題の提出方法
1. 課題を終えたノートブックをダウンロードする
  - ダウンロード方法: 「ファイル」 > 「.ipynb をダウンロード」
1. メールで課題を提出する
  - 提出先メールアドレス: cropevol@gmail.com
  - メール件名: HW[課題番号(2桁)]+SID[学籍番号(4桁-2桁-４桁)]（**すべて半角英数**） にする
    - 課題番号: 10
    - 例: HW10+SID1234-56-7890
  - メール本文: 未入力でも構いません
  - 添付ファイル: ダウンロードしたノートブックファイル（.ipynb）を添付する
  - 提出締切: 12月31日（火）

<img src="https://github.com/CropEvol/lecture/blob/master/textbook_2019/images/submit_homework_L10.png?raw=true" alt="課題提出" height="400px" align="middle">