# Random Forest を用いた分類機の実装

- データセット: Iris dataset
- 学習器の実装: sklearn.ensemble.RandomForestClassifier

### モジュールのインポート

In [7]:
import numpy as np
import sklearn.datasets
import sklearn.ensemble
import sklearn.metrics

### データセットのロード

In [8]:
dataset = sklearn.datasets.load_iris()

### テストデータと学習データの準備
- 学習データ: 120
- テストデータ: 30

In [9]:
P = 120
ids = np.arange(len(dataset["target"]))
np.random.shuffle(ids)
train_ids = ids[:P]
test_ids = ids[P:]

In [10]:
train_ids

array([ 44,  54,   9,   2, 147, 123,  10,  55,  25, 103,  61,  37,  34,
        72,  24,  18, 133,   5,  38,  71, 105,   1, 118,  92, 102,  82,
        50,  59,  91,  52,  12, 143, 141,  17,   8,  86,  35, 124,  94,
       137, 138,  60,  73, 108,  95,  20,  90,  76, 144,  14, 149, 142,
        16,  56, 140,  84, 126, 122, 111,  39, 130,   4, 120,  27,  99,
       112,  74,  68, 113, 109, 117,  89, 100,  97,  79,  21,  78, 127,
       145,  64,  48,  80, 110,  40, 101,  65,  23,  47,  77,  32,  88,
        75, 135,  49, 114,  11,  58,  69,  81, 129, 106,  66, 119,  63,
       125, 146,  29,  33, 128,  13, 107, 132, 139,  70,  93,  87,  41,
        42,  98, 136])

In [6]:
test_ids

array([ 75,  80,  51,  83,  44,  54,  71,  97,  32,  31,  16,  65, 102,
        38,  47, 105,  19, 104,  24,  42,  98, 109, 110,  78,  33,   1,
        43, 103, 124, 144])

### 学習器のロード
random forest のロード

`sklearn.ensemble.RandomForestClassifier` モジュールを用いる

In [11]:
classifier = sklearn.ensemble.RandomForestClassifier()

In [12]:
classifier

RandomForestClassifier()

### 学習

In [13]:
classifier.fit(dataset["data"][train_ids], dataset["target"][train_ids])

RandomForestClassifier()

### テスト

In [14]:
R = classifier.predict(dataset["data"][test_ids])
R

array([1, 0, 1, 1, 0, 2, 1, 2, 0, 2, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 2,
       0, 2, 0, 2, 0, 0, 2, 2])

### 評価
学習結果と実際のデータを比較

In [15]:
print("Predict: ", end = "")
print(R)
print("Actual:  ", end = "")
print(dataset["target"][test_ids])

Predict: [1 0 1 1 0 2 1 2 0 2 0 0 0 1 0 0 1 1 0 0 0 2 0 2 0 2 0 0 2 2]
Actual:  [1 0 1 1 0 2 1 1 0 2 0 0 0 1 0 0 1 1 0 0 0 2 0 2 0 2 0 0 2 2]


In [16]:
print(sklearn.metrics.classification_report(R, dataset["target"][test_ids]))
print("Accuracy: ", end = "")
print(sklearn.metrics.accuracy_score(R, dataset["target"][test_ids]))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        15
           1       0.88      1.00      0.93         7
           2       1.00      0.88      0.93         8

    accuracy                           0.97        30
   macro avg       0.96      0.96      0.96        30
weighted avg       0.97      0.97      0.97        30

Accuracy: 0.9666666666666667
