# データ分析入門編：scikit-learnで分類！

今回は、有名はIrisデータセットを使い、scikit-learnで分類モデルの作成します。
使うアルゴリズムはSVMとRandom Forestですが、他のアルゴリズムも同様に作成できます。
Irisデータセットはscikit-learnに組み込まれていますので、まずはデータセットをロードします。

In [1]:
import sklearn
from sklearn import datasets

iris = datasets.load_iris()

## irisの型について
この"iris"は、Bunchというscikit-learn独自の辞書のような型です。

In [2]:
type(iris)

sklearn.utils.Bunch

## irisの中身
まず、irisのキーを見てみましょう。御覧の通り、次の５つが入っています。
1. DESCR: データの説明文
1. data：データ本体
1. target：予測したい変数のデータ
1. target_name：上のターゲットが数値なので、数値と名前を紐づける情報
1. feature_names：dataの各列の名前

In [4]:
iris.keys()

dict_keys(['data', 'target', 'feature_names', 'DESCR'])

## irisの説明

それでは、まずは説明から見てみましょう。基本的な情報（何のデータなのか、データの数など）が記載されています。より詳しくはwikipediaなどを参照ください。尚、参考までに実際の花はこの通りです。

| Iris Setosa  |  Iris Versicolor  |  Iris Virginica  |
| ---- | ---- | ---- |
|  <img src="https://upload.wikimedia.org/wikipedia/commons/5/56/Kosaciec_szczecinkowaty_Iris_setosa.jpg" alt="Iris Setosa" style="width: 200px;"/>  |  <img src="https://upload.wikimedia.org/wikipedia/commons/4/41/Iris_versicolor_3.jpg" alt="Iris Versicolor" style="width: 200px;"/>  |  <img src="https://upload.wikimedia.org/wikipedia/commons/9/9f/Iris_virginica.jpg" alt="Iris Virginica" style="width: 200px;"/>  |

In [5]:
print(iris['DESCR'])

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

In [5]:
iris['feature_names']

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [6]:
iris['data'][:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [7]:
iris['target']

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [8]:
iris['target_names']

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

# SVCで分類

まずは学習用データセットと評価用データセットに分ける必要がありますが、scikit-learnにはそれを簡単にできるツールがあります。名前もtrain_test_splitです。再現性のためのrandom_stateを指定するのがおすすめです。

train_test_splitの詳細については

[ここ](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html)を参照ください。

In [9]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.4, random_state=0)

scikit-learnの素晴らしいところはアルゴリズムが何であれ、その使い方が（基本的に）一緒だということ点です。
次の３行でモデルを作成できます。

```python
from sklearn.hoge import fuga
clf = fuga()
clf.fit(X_train, y_train)
```
尚、各アルゴリズムにはそれぞれ特有のパラメーターがありますが、それらは`clf=fuga()`の引数にパラメーターを指定します。
例えば、SVCの場合は次の通りです。

In [10]:
from sklearn.svm import SVC
clf = SVC()
clf.fit(X_train, y_train) 

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

未知のデータに対して予測を行い場合はpredictメソッドを使います。例えば、今回学習に使っていないX_testで予測する場合は次の通りです。

In [11]:
clf.predict(X_test)

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 1, 0, 0, 1, 1, 0, 2, 1, 0, 2, 2, 1, 0, 2, 1, 1, 2, 0, 2, 0,
       0, 1, 2, 2, 2, 2, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2])

正解データを照らし合わせると3件間違えていますので、正答率は
57/60 = 95%です。

In [12]:
[ (y, y_hat, y == y_hat) for y, y_hat in zip(y_test, clf.predict(X_test))]

[(2, 2, True),
 (1, 1, True),
 (0, 0, True),
 (2, 2, True),
 (0, 0, True),
 (2, 2, True),
 (0, 0, True),
 (1, 1, True),
 (1, 1, True),
 (1, 1, True),
 (2, 2, True),
 (1, 1, True),
 (1, 1, True),
 (1, 1, True),
 (1, 1, True),
 (0, 0, True),
 (1, 1, True),
 (1, 1, True),
 (0, 0, True),
 (0, 0, True),
 (2, 2, True),
 (1, 1, True),
 (0, 0, True),
 (0, 0, True),
 (2, 1, False),
 (0, 0, True),
 (0, 0, True),
 (1, 1, True),
 (1, 1, True),
 (0, 0, True),
 (2, 2, True),
 (1, 1, True),
 (0, 0, True),
 (2, 2, True),
 (2, 2, True),
 (1, 1, True),
 (0, 0, True),
 (1, 2, False),
 (1, 1, True),
 (1, 1, True),
 (2, 2, True),
 (0, 0, True),
 (2, 2, True),
 (0, 0, True),
 (0, 0, True),
 (1, 1, True),
 (2, 2, True),
 (2, 2, True),
 (2, 2, True),
 (2, 2, True),
 (1, 1, True),
 (2, 2, True),
 (1, 1, True),
 (1, 1, True),
 (2, 2, True),
 (2, 2, True),
 (2, 1, False),
 (2, 2, True),
 (1, 1, True),
 (2, 2, True)]

尚、正答率を出したいだけであれば、scoreという関数が便利です。

In [13]:
clf.score(X_test, y_test) 

0.95

# RandomForestClassifierで分類

下記の通り、SVCであれ、RandomForestClassifierであれ、モデルの学習方法、分類方法が同じです。

In [14]:
from sklearn.ensemble import RandomForestClassifier
clf = RandomForestClassifier()
clf.fit(X_train, y_train) 
clf.score(X_test, y_test)  

0.9