### sklearn手順
1. データを読込む。
from sklearn.datasets import load_iris
1. データを確認する。
iris_dataset['data'].shape
1. 教師データと評価データに分ける。
from sklearn.model_selection import train_test_split
1. 教師データの特徴をペアプロット（散布図）で確認する。
pd.plotting.scatter_matrix
1. アルゴリズムを実装する。
from sklearn.neighbors import KNeighborsClassifier
1. 教師データを用いてアルゴリズムに学習させる。
.fit(x_train, y_train)
1. 評価データを与えて予測結果を確認する。
.predict(X_test)
1. 精度を評価する。
.score(X_test, y_test)

In [45]:
# 必要最小限のコード
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)

print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))

Test set score: 0.97


### ↓以下、詳細

In [1]:
# データを読み込む。
from sklearn.datasets import load_iris
iris_dataset = load_iris()

In [16]:
# データ本体はdataキーおよびtargetキーに格納されている。
# dataキーはデータ、targetキーはクラス（属性情報）を格納している。以下、まずはデータの話。
# 行はサンプル、列は個々のサンプルに対して行われた4つの測定結果。
# つまり、['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
# sepal:ガク、petal:花弁
# ガクは土台なので大きく太い。花弁はひらひらしていてばらつきが大きい。
iris_dataset['data'][0:5]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2]])

In [17]:
# データセットの形を確認する。
print("Shape of data: {}".format(iris_dataset['data'].shape))

Shape of data: (150, 4)


In [18]:
# targetは以下の通り。
# 0:setosa, 1:versicolor, 2:virginica
print("Target:\n{}".format(iris_dataset['target']))

Target:
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]


In [19]:
# targetの形を確認する。
print("Shape of target: {}".format(iris_dataset['target'].shape))

Shape of target: (150,)


In [20]:
# 教師データと評価データに分ける。
# （デフォルト設定）データとラベルの75%を教師データに、25%を評価データにする。
# random_stateは乱数の種を固定するパラメータである。
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

In [30]:
print("X_train shape: {}".format(X_train.shape))
print("y_train shape: {}".format(y_train.shape))
print("X_test shape: {}".format(X_test.shape))
print("y_test shape: {}".format(y_test.shape))

X_train shape: (112, 4)
y_train shape: (112,)
X_test shape: (38, 4)
y_test shape: (38,)


In [39]:
# ペアプロット（散布図）を作図する。
# なぜか作図されない。バージョン違いが原因かも。多分matplotlibとか使わないといけない。
import pandas as pd
import mglearn
# create dataframe from data in X_train
# label the columns using the strings in iris_dataset.feature_names
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# create a scatter matrix from the dataframe, color by y_train
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o', hist_kwds={'bins': 20}, s=60, alpha=.8, cmap=mglearn.cm3)

In [43]:
# アルゴリズムの準備をする。
# つまり、モデルを使う前に、クラスのインスタンスを作成してオブジェクトを作る。
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

In [44]:
# 教師データを学習させる。
# ここで返される値は学習時のパラメータである。
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=1, p=2,
           weights='uniform')

In [46]:
# 評価データを与えて、予測を行う。
y_pred = knn.predict(X_test)
print("Test set predictions:\n {}".format(y_pred))

Test set predictions:
 [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]


In [47]:
# 精度を確認する。
# 正解情報（ここではy_test）を与えて、y_predと比較して正答率を算出する。
# 具体的な計算として、np.mean(y_pred == y_test)の計算をしている。
print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))

Test set score: 0.97
