In [None]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris
from sklearn.model_selection import ShuffleSplit
from sklearn import linear_model

In [None]:
# IRIS データの読み込み
iris = load_iris()
columns = ['がく片の長さ','がく片の幅','花片の長さ','花片の幅']
X = pd.DataFrame(iris.data, columns = columns)
X.head()

In [None]:
iris.data.shape # データ個数×特徴数

In [None]:
X.loc[0] # 最初のデータ（4次元ベクトル）

In [None]:
y = iris.target # .targetにラベルが入っている

In [None]:
y.shape # データ個数

In [None]:
y

In [None]:
iris.target_names # ラベルの意味

[Iris flower data set @ Wikipedia](https://en.wikipedia.org/wiki/Iris_flower_data_set)


|class|image|license|
|------|------|--|
| Iris setosa |<img src="https://upload.wikimedia.org/wikipedia/commons/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg" width=200> | CC BY-SA 3.0 by Radomil |
|Iris versicolor|<img src="https://upload.wikimedia.org/wikipedia/commons/4/41/Iris_versicolor_3.jpg" width=200>|CC BY-SA 3.0 by Danielle Langlois|
|Iris virginica|<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/9/9f/Iris_virginica.jpg/736px-Iris_virginica.jpg" width=200>|CC BY-SA 2.0|

In [None]:
print(iris.DESCR) # データの詳細な記述

# 学習器を作って学習させてみよう
その前にデータをシャッフル

In [None]:
ss = ShuffleSplit(n_splits=1,      # 分割を1個生成
                  train_size=0.5,  # 学習は半分
                  test_size =0.5,  # テストも半分
                  random_state=0)  # 乱数種（再現用）

In [None]:
# 学習データとテストデータのインデックスを作成
train_index, test_index = next(ss.split(X))
train_index, test_index

In [None]:
X_train, X_test = X.iloc[train_index], X.iloc[test_index] # 学習データ，テストデータ
y_train, y_test = y[train_index], y[test_index] # 学習データのラベル，テストデータのラベル
y_train,y_test

# シャッフルされて偏りがないことに注意せよ

# 線型回帰識別器

In [None]:
# 線形モデルを準備
from sklearn import linear_model
# 識別器を作成
clf = linear_model.LogisticRegression()

In [None]:
clf

In [None]:
clf.fit(X_train, y_train); # 識別器の学習

In [None]:
print(clf.score(X_train, y_train)) # 学習データの精度

In [None]:
print(clf.score(X_test, y_test)) # テストデータの精度

１回だけではたまたまの結果なのかもしれないので、１０回試してみる

In [None]:
ss = ShuffleSplit(n_splits=10,     # 分割を10個生成
                  train_size=0.5,  # 学習は半分
                  test_size =0.5,  # テストも半分
                  random_state=0)  # 乱数種（再現用）

scores = []
for train_index, test_index in ss.split(X): # 学習データとテストデータのインデックスを作成
    
    X_train, X_test = X.iloc[train_index], X.iloc[test_index] # 学習データ，テストデータ
    y_train, y_test = y[train_index], y[test_index] # 学習データのラベル，テストデータのラベル

    clf.fit(X_train, y_train)         # 識別器の学習
    score = clf.score(X_test, y_test) # テストデータの精度
    scores.append(score)

scores = np.array(scores)
print(scores)

In [None]:
scores.mean() # 正解率の平均値を求める。

In [None]:
scores.std() # 正解率の標準偏差

In [None]:
print("識別実験結果　認識率　{0} +/- {1}".format(scores.mean(), scores.std()))

In [None]:
# matplotlibの準備
import matplotlib.pyplot as plt
%matplotlib inline

# 学習データの分量を0.1, 0.2, ..., 0.9と変えて実験してみる


In [None]:
train_sizes = np.arange(0.1, 1.0, 0.1)

In [None]:
all_mean = []
all_std  = []

for train_size in train_sizes: #  ループを回る毎に学習に用いる割合を増やして繰り返す

    ss = ShuffleSplit(n_splits=100,
                      train_size=train_size,     
                      test_size=1-train_size)

    scores = []
    for train_index, test_index in ss.split(X):

        X_train, X_test = X.iloc[train_index], X.iloc[test_index]
        y_train, y_test = y[train_index], y[test_index]

        clf.fit(X_train, y_train)
        score = clf.score(X_test, y_test)
        scores.append(score)

    scores = np.array(scores)
    print("train_size {0:.0f}%: {1:4.2f} +/- {2:4.2f} %".format(train_size    * 100, 
                                                                scores.mean() * 100, 
                                                                scores.std()  * 100))
    all_mean.append(scores.mean() * 100)
    all_std.append(scores.std() * 100)

# グラフ化する

In [None]:
plt.plot(train_sizes, all_mean) #  学習データの割合に対する平均認識率

In [None]:
plt.plot(train_sizes, all_mean)  #  学習データの割合に対する平均認識率
plt.ylim(70,100)
plt.xlim(0,1)

In [None]:
plt.plot(train_sizes, all_mean)
plt.ylim(70,100)
plt.xlim(0,1)
plt.errorbar(train_sizes, all_mean, yerr=all_std)
plt.xlabel("training size [%]")
plt.ylabel("recognition rate")
plt.title("Average of 10 hold-out tests for different training size")

# 課題
ML00 で出てきた他の識別器を使って同じ実験を試し、識別性能を比較せよ。

In [None]:
from sklearn import svm
# オブジェクト作成
clf = svm.LinearSVC(C=1)
clf = svm.LinearSVC(C=1)
