# 3章 分類問題 -- 機械学習ライブラリscikit-learn の活用  

主にすること 
* よく使用されている分類アルゴリズムの概念  
* scikit-learn 機械学習ライブラリの使用法  
* 機械学習アルゴリズムを選択するときに生じる疑問 

## 3.1 分類アルゴリズムの選択  
1. 特徴量を選択する 
2. 性能指標を選択する 
3. 分類器と最適化アルゴリズムを選択する  
4. モデルの性能を評価する
5. アルゴリズムを調整する

 ## 3.2 scikit-learn 活用へのファーストステップ 

In [1]:
from sklearn import datasets
import numpy as np
iris = datasets.load_iris()
X = iris.data[:,[2,3]]
y = iris.target
print("Class labels:",np.unique(y))

Class labels: [0 1 2]


In [3]:
from sklearn.cross_validation import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y, test_size=0.3,random_state=0)

<特徴量のスケーリングを行う>
平均と標準偏差を求めて，それを用いて標準化

In [8]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

In [9]:
from sklearn.linear_model import Perceptron
ppn = Perceptron(n_iter=40, eta0= 0.1, random_state=0,shuffle=True)
ppn.fit(X_train_std,y_train)

Perceptron(alpha=0.0001, class_weight=None, eta0=0.1, fit_intercept=True,
      n_iter=40, n_jobs=1, penalty=None, random_state=0, shuffle=True,
      verbose=0, warm_start=False)

### 工夫されているところ 
* エポックごとにトレーニングデータセットの並び替えを再現できるよう，random_state パラメータを使用

In [10]:
y_pred = ppn.predict(X_test_std)
print('Misclassified samples: %d' % (y_test != y_pred).sum())

Misclassified samples: 4


過学習の検出と防止に役立つ方法は第5章で説明 


 ## 3.3 ロジスティック回帰を使ったクラスの確率のモデリング 

パーセプトロンの学習規則の問題点  
* クラスを完全に線形分離できない場合は決して収束しない  
→ これを解決する方法として，ロジスティック回帰について見ていく  
名前とは裏腹に回帰ではなく分類のためのモデル

### 3.3.1 ロジスティック回帰の直感的知識と条件付き確率 

ロジスティック回帰は分類モデルであり，非常に実装しやすいものの，高い性能が発揮されるのは線形分類可能なクラスに対してのみである． 

オッズ比 : $\frac{p}{(1-p)}$     
事象の起こりやすさを表す 

$p$を**正事象** といい，予測したい事象を表す  
ロジット関数  
\begin{equation}
{\rm logit}(p) = \log \frac{p}{(1-p)}
\end{equation}

ロジット関数は0よりも大きく1よりも小さい範囲の入力値を受け取り，実数値を返す．
この関数を使って，特徴量の値と対数オッズの間の線形関係を表すことができる．
\begin{equation}
{\rm logit}(p(y=1|x)) = w_0x_0+w_1x_1 + \cdots + w_m x_m = \sum_{i=0}^{m}w_i x_i = \vec{w}^T \vec{x}
\end{equation}