- 以降の、それぞれのセルにカーソルを合わせて、Shift + Enter キーを押すことで、そのセルのコードを実行することができます。

- 基本的には、上のセルから順番にコードを実行していきます。

# ライブラリの読み込み

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from IPython.display import Image
from sklearn.externals.six import StringIO
import pydotplus

# データを読み込む

In [None]:
# scikit-learn 付属の "Iris" サンプルデータを読み込む
# Iris: “setosa”, “versicolor”, “virginica” という 3 種類の品種のアヤメのがく片 (Sepal)、花弁 (Petal) の幅および長さを計測したデータ
iris = load_iris()

# 説明変数のデータ
#   カラム構成：
#     sepal length (cm)  がく片の長さ
#     sepal width (cm)  がく片の幅
#     petal length (cm)  花弁の長さ
#     petal width (cm)  花弁の幅
X = iris.data
# 目的変数のデータ（正解データ）
#  ラベル種別：
#    0: "setosa" 種、1: "versicolor" 種、2: "virginica" 種
y = iris.target

# データを学習用、検証用に分ける（全体の5割を検証用とする）
test_size = 0.5
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=1234)

# 学習用の説明変数データ
print("X_train: ")
print(X_train)
# 学習用の目的変数データ（正解データ）
print("y_train: ")
print(y_train)
# 検証用の説明変数データ
print("X_test: ")
print(X_test)
# 検証用の目的変数データ（正解データ）
print("y_test: ")
print(y_test)

# ロジスティック回帰で分類問題を解く

In [None]:
# SGDClassifier を用いてロジスティック回帰モデルを実装

max_iter = 10 # 最大のエポック数（学習させる回数）

# " loss='log' " : ロジスティック回帰モデルを利用する、という設定値
# " penalty='none' ":  正則化の設定（過学習を抑えるための設定）。ここでは正則化無しを指定（ほかには "l1"、"l2" などを指定可能）
logistic_regression = SGDClassifier(loss='log', penalty='none', max_iter=max_iter, random_state=1234)
# 学習を実行
logistic_regression.fit(X_train, y_train)

# 学習の結果、導出された重みを取得して表示
w0 = logistic_regression.intercept_[0]
w1 = logistic_regression.coef_[0, 0]
w2 = logistic_regression.coef_[0, 1]
w3 = logistic_regression.coef_[0, 2]
w4 = logistic_regression.coef_[0, 3]
print('w0 = {:.3f}, w1 = {:.3f}, w2 = {:.3f}, w3 = {:.3f}, w4 = {:.3f}'.format(w0, w1, w2, w3, w4))

# 学習用データを元にラベルを予測
y_train_predicted = logistic_regression.predict(X_train)
# 検証用データを元にラベルを予測
y_test_predicted = logistic_regression.predict(X_test)

# Accuracy（正答率）を表示（学習用データの場合）
print('Accuracy（X_train） = {:.3f}%'.format(100 * accuracy_score(y_train, y_train_predicted)))
# Accuracy（正答率）を表示（検証用データの場合）
print('Accuracy（X_test） = {:.3f}%'.format(100 * accuracy_score(y_test, y_test_predicted)))

# 決定木で分類問題を解く

In [None]:
# DecisionTreeClassifier を用いて決定木モデルを実装

criterion = 'gini' # 評価指標。"gini": ジニ係数。"entropy": エントロピー
max_depth = 4 # 木の枝分かれの深さの最大値。None を指定すると無制限になるが、過学習となる可能性も。
min_samples_split = 8 # 枝を分割するために必要な最小データサイズ。過学習の傾向がある場合はこの値を大きくする
min_samples_leaf = 4 # ひとつの枝の末端（＝葉）に、最低限格納されていなければならないデータ数。。過学習の傾向がある場合はこの値を大きくする

decision_tree = DecisionTreeClassifier(criterion=criterion, 
                                       max_depth=max_depth, 
                                       min_samples_split=min_samples_split, 
                                       min_samples_leaf=min_samples_leaf, 
                                       random_state=1234)
# 学習を実行
decision_tree = decision_tree.fit(X_train, y_train)

# 決定木の構造を描画
dot_data = StringIO() #dotファイル情報の格納先
export_graphviz(decision_tree, 
                out_file=dot_data,  
                feature_names=iris.feature_names,  
                class_names=iris.target_names,  
                filled=True, 
                rounded=True,  
                special_characters=True) 
graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) 
Image(graph.create_png())

In [None]:
# Accuracy（正答率）を表示（学習用データの場合）
print('Accuracy（X_train） = {:.3f}%'.format(100 * decision_tree.score(X_train, y_train)))
# Accuracy（正答率）を表示（検証用データの場合）
print('Accuracy（X_test） = {:.3f}%'.format(100 * decision_tree.score(X_test, y_test)))

# 考察

- モデルによって、Accuracy（正答率）にどのような違いが見られたでしょうか。

- ロジスティック回帰モデルのハイパーパラメータ（ max_iter ）の値を変更すると、Accuracy がどのように変化するでしょうか。

- 決定木モデルのハイパーパラメータ（ criterion、max_depth、min_samples_split、min_samples_leaf ）の値を変更すると、Accuracy がどのように変化するでしょうか。また、決定木の構造は、どのように変化するでしょうか。

- 検証用データ（ X_train ）のほうの Accuracy が最大となるように、これらのハイパーパラメータを調整してみましょう。