# 第３章　分類問題ー機械学習ライブラリscikit-learnの活用
- よく使用される分類アルゴリズムの概念
- scikit-learn機械学習ライブラリの使用法
- 機械学習アルゴリズムを選択するときに生じる疑問

# 3.1 分類アルゴリズムの
アルゴリズムにはそれぞれ癖があり、いくつかの学習アルゴリズムの性能を比較し、特定の問題に最適なモデルを選択することが常に推奨される。機械学習アルゴリズムのトレーニングには、以下の主要な５ステップから構成される。
- 特徴量を選択する。
- 性能指標を選択する
- 分類器と最適化アルゴリズムを選択する。
- モデルの性能を評価する。
- アルゴリズムを調整する。

# 3.2 scikit-learn活用へのファーストステップ

# 3.2.1　scikit-learnを使ったパーセプトろののトレーニング

In [4]:
from sklearn import datasets
import numpy as np
#Irisデータをロード
iris = datasets.load_iris()
#特徴量を抽出
X = iris.data[:,[2,3]]
#クラスラベルを取得
y = iris.target

In [12]:
from sklearn.cross_validation import train_test_split
# トレーニングデータに分割する。
# 全体の30%をテストデータにする
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)

In [14]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
#トレーニングデータの平均と標準偏差を計算
sc.fit(X_train)
#平均と標準偏差を用いて計算
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

- テストデータを標準化するのに同じスケーリングパラメータを使用していることに注意する。これはトレーニングデータセットとテストデータセットの値を相互に比較できるようにするためだ。

In [22]:
from sklearn.linear_model import Perceptron
ppn = Perceptron(n_iter=40,eta0=0.1,random_state=0,shuffle=True)
ppn.fit(X_train_std,y_train)

Perceptron(alpha=0.0001, class_weight=None, eta0=0.1, fit_intercept=True,
      n_iter=40, n_jobs=1, penalty=None, random_state=0, shuffle=True,
      verbose=0, warm_start=False)

In [29]:
y_pred = ppn.predict(X_test_std)
#誤分類のサンプルの個数お表示
print('Misclassified samples: %d') %(y_test != y_pred).astype(int).sum()

Misclassified samples: 4


- scikit-learnには様々な性能指標も実装されている。

In [30]:
from sklearn.metrics import accuracy_score
# 分類の正解率を表示
print('Accuracy: %.2f') % accuracy_score(y_test,y_pred)

Accuracy: 0.91
