<a href="https://colab.research.google.com/github/shomrkm/study_machine_learning/blob/master/supervised_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2章 教師あり学習

## サンプルデータセットの紹介

Forge データセット

In [0]:
!pip install mglearn

import matplotlib
import mglearn
import matplotlib.pyplot as plt

# forge データセットの散布図
#   データセットの生成
X,y = mglearn.datasets.make_forge()
#   データセットをプロット
mglearn.discrete_scatter(X[:,0], X[:,1], y)
plt.legend(["Class 0", "Class 1"], loc=4)
plt.xlabel("First feature")
plt.ylabel("Second feature")
print("X.shape: {}".format(X.shape))


wageデータセット  
- 以下でプロットしている(x軸に特徴量、y軸に回帰ターゲット)


In [0]:
!pip install mglearn

import mglearn
import matplotlib.pyplot as plt

# wage データセット
X, y = mglearn.datasets.make_wave(n_samples=40)
plt.plot(X, y, 'o')
plt.ylim(-3,3)
plt.xlabel("Feature")
plt.ylabel("Target")


ウィスコンシン乳がんデータセット

In [0]:
from sklearn.datasets import load_breast_cancer
import numpy as np

cancer = load_breast_cancer()
print("cancer.keys(): \n{}".format(cancer.keys()))
# データセット
print("Shape of cancer data: {}".format(cancer.data.shape))
# サンプルの良性・悪性の個数 (クラスごとのサンプル個数)
print("Sample counts per class:\n{}".format(
  {n: v for n, v in (zip(cancer.target_names, np.bincount(cancer.target)))}
))
# 特徴量名
print("Feature names: \n{}".format(cancer.feature_names))


boston_housing データセット
- ボストン郊外の住宅地の住宅価格の中央値


In [0]:
!pip install mglearn
import mglearn
from sklearn.datasets import load_boston

# 特徴量を読み込む
boston = load_boston()
print("Data shape: {}".format(boston.data.shape))
# print("Description: {}".format(boston.DESCR))

# 特徴量の積を読み込む
# もとの13の特徴量に、13の特徴量から2つの特徴量を選ぶ重複ありの組み合わせ91を足したもの
X, y = mglearn.datasets.load_extended_boston()
print("X.shape: {}".format(X.shape))



## k-最近傍法



k最近傍法のクラス分類

In [0]:
!pip install mglearn
import mglearn

mglearn.plots.plot_knn_classification(n_neighbors=3)


scikit-learn を用いた k-最近傍法

In [0]:
!pip install mglearn

import mglearn
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

X, y = mglearn.datasets.make_forge()
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
clf = KNeighborsClassifier(n_neighbors=3)
clf.fit(X_train, y_train)
print("Test set predictions: {}".format(clf.predict(X_test)))
print("Test set accuracy: {:.2f}".format(clf.score(X_test, y_test)))


決定境界の描画


In [0]:
!pip install mglearn
import mglearn
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier

X, y = mglearn.datasets.make_forge()
# 1x3 にグラフを分割してプロット
fig, axes = plt.subplots(1, 3, figsize=(10, 3))
# 近傍点数が1,3,9 のグラフを横に並べてプロット
for n_neighbors, ax in zip([1, 3, 9], axes):
  clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)
  mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)
  mglearn.discrete_scatter(X[:,0], X[:,1], y, ax=ax)
  ax.set_title("{} neighbor(s)".format(n_neighbors))
  ax.set_xlabel("feature 0")
  ax.set_ylabel("feature 1")

axes[0].legend(loc=3)
  

cancerデータセットを用いた性能評価

In [0]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data, cancer.target, stratify=cancer.target, random_state=66)

training_accuracy= []
test_accuracy =[]
# 近傍点数 を1から10まで試す
n_neighbors_settings = range(1, 11)

for n_neighbors in n_neighbors_settings:
  # モデル構築
  clf = KNeighborsClassifier(n_neighbors=n_neighbors)
  clf.fit(X_train, y_train)
  # 訓練セット精度を記録
  training_accuracy.append(clf.score(X_train, y_train))
  # 汎化精度を記録
  test_accuracy.append(clf.score(X_test, y_test))

plt.plot(n_neighbors_settings, training_accuracy, label="training accuracy")
plt.plot(n_neighbors_settings, test_accuracy, label="test accuracy")
plt.ylabel("Accuracy")
plt.xlabel("n_neighbors")
plt.legend()
