# 14章　決定木とフォレスト 
## レシピ14.1　決定木を用いたクラス分類器の訓練 


In [None]:
# ライブラリをロード
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 決定木クラス分類器オブジェクトを作成
decisiontree = DecisionTreeClassifier(random_state=0)

# 決定木クラス分類器を訓練
model = decisiontree.fit(features, target)

In [None]:
# 新しい観測値を作成
observation = [[ 5, 4, 3, 2]]

# 観測値のクラスを予測
model.predict(observation)

In [None]:
# 3つのクラスに対する予測クラス確率を表示
model.predict_proba(observation)

In [None]:
# エントロピーを用いる決定木クラス分類器オブジェクトを作成
decisiontree_entropy = DecisionTreeClassifier(
    criterion='entropy', random_state=0)

# 決定木クラス分類器を訓練
model_entropy = decisiontree_entropy.fit(features, target)


## レシピ14.2　決定木回帰器の訓練 


In [None]:
# ライブラリをロード
from sklearn.tree import DecisionTreeRegressor
from sklearn import datasets

# 特徴量が2つだけのデータをロード
diabetes = datasets.load_diabetes()
features = diabetes.data
target = diabetes.target

# 決定木回帰器オブジェクトを作成
decisiontree = DecisionTreeRegressor(random_state=0)

# 決定木回帰器を訓練
model = decisiontree.fit(features, target)

# 新しい観測値の作成
observation = [features[0]]

# 観測値のターゲット値を予測
model.predict(observation)

In [None]:
# MAE（平均絶対誤差）を用いる決定木回帰器オブジェクトを作成
decisiontree_mae = DecisionTreeRegressor(criterion="absolute_error",
    random_state=0)

# 決定木回帰器を訓練
model_mae = decisiontree_mae.fit(features, target)

## レシピ14.3　決定木モデルの可視化 


In [None]:
# ライブラリをロード
import pydotplus
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets
from IPython.display import Image
from sklearn import tree

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 決定木回帰器オブジェクトを作成
decisiontree = DecisionTreeClassifier(random_state=0)

# 回帰器を訓練
model = decisiontree.fit(features, target)

# DOTフォーマットでデータを作成
dot_data = tree.export_graphviz(decisiontree,
                                out_file=None,
                                feature_names=iris.feature_names,
                                class_names=iris.target_names)

# グラフを描画
graph = pydotplus.graph_from_dot_data(dot_data)

# グラフを表示
Image(graph.create_png())

In [None]:
# PDFを作成
graph.write_pdf("iris.pdf")

In [None]:
# PNGを作成
graph.write_png("iris.png")

## レシピ14.4　ランダムフォレストクラス分類器の訓練 


In [None]:
# ライブラリをロード
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# ランダムフォレストクラス分類器を作成
randomforest = RandomForestClassifier(random_state=0, n_jobs=-1)

# ランダムフォレストクラス分類器を訓練
model = randomforest.fit(features, target)


In [None]:
# 新しい観測値を作成
observation = [[ 5, 4, 3, 2]]

# 観測値のクラスを予測
model.predict(observation)

In [None]:
# エントロピーを用いるランダムフォレストクラス分類器オブジェクトを作成
randomforest_entropy = RandomForestClassifier(
criterion="entropy", random_state=0)

# クラス分類器を訓練
model_entropy = randomforest_entropy.fit(features, target)

## レシピ14.5　ランダムフォレスト回帰器の訓練 


In [None]:
# ライブラリをロード
from sklearn.ensemble import RandomForestRegressor
from sklearn import datasets

# 特徴量が2つだけのデータをロード
diabetes = datasets.load_diabetes()
features = diabetes.data
target = diabetes.target

# ランダムフォレスト回帰器を作成
randomforest = RandomForestRegressor(random_state=0, n_jobs=-1)

# ランダムフォレスト回帰器を訓練
model = randomforest.fit(features, target)

## レシピ14.6　ランダムフォレストのOOBエラーによる評価 


In [None]:
# ライブラリをロード
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# ランダムフォレストクラス分類器を作成
randomforest = RandomForestClassifier(
random_state=0, n_estimators=1000, oob_score=True, n_jobs=-1)

# ランダムフォレストクラス分類器を訓練
model = randomforest.fit(features, target)

# OOBエラーを表示
randomforest.oob_score_

## レシピ14.7　ランダムフォレストにおける重要な特徴量の特定 


In [None]:
# ライブラリをロード
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# ランダムフォレストクラス分類器を作成
randomforest = RandomForestClassifier(random_state=0, n_jobs=-1)

# ランダムフォレストクラス分類器を訓練
model = randomforest.fit(features, target)

# 特徴量重要性を計算
importances = model.feature_importances_

# 特徴量重要性を降順にソート
indices = np.argsort(importances)[::-1]

# 特徴量の名前を、ソートした順に並び替え
names = [iris.feature_names[i] for i in indices]

# プロットを作成
plt.figure()

# プロットのタイトルを作成
plt.title("Feature Importance")

# 棒グラフを追加
plt.bar(range(features.shape[1]), importances[indices])

# x軸に特徴量の名前を追加
plt.xticks(range(features.shape[1]), names, rotation=90)

# プロットを表示
plt.show()

In [None]:
# 特徴量重要度を表示
model.feature_importances_

## レシピ14.8　ランダムフォレストにおける重要な特徴量の選択 


In [None]:
# ライブラリをロード
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets
from sklearn.feature_selection import SelectFromModel

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# ランダムフォレストクラス分類器を作成
randomforest = RandomForestClassifier(random_state=0, n_jobs=-1)

# 重要度が閾値以上の特徴量だけを選択するオブジェクトを生成
selector = SelectFromModel(randomforest, threshold=0.3)

# 選択器を用いて新たな特徴量行列を作成
features_important = selector.fit_transform(features, target)

# 選択された重要度の高い特徴量を用いてランダムフォレストを訓練
model = randomforest.fit(features_important, target)

## レシピ14.9　不均等なクラスの処理

In [None]:
# ライブラリをロード
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 最初の40観測値を削除して、クラスを不均等に
features = features[40:,:]
target = target[40:]

# クラスが0なら0、それ以外なら1となるターゲットベクタを作成
target = np.where((target == 0), 0, 1)

# ランダムフォレストクラス分類器を作成
randomforest = RandomForestClassifier(
random_state=0, n_jobs=-1, class_weight="balanced")

# ランダムフォレストクラス分類器を訓練
model = randomforest.fit(features, target)

In [None]:
# 観測値数の少ないクラスの重みを計算
110/(2*10)

In [None]:
# 観測値数の多いクラスの重みを計算
110/(2*100)

 
## レシピ14.10　決定木サイズの制御 


In [None]:
# ライブラリをロード
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# 決定木クラス分類器を作成
decisiontree = DecisionTreeClassifier(random_state=0,
                                      max_depth=None,
                                      min_samples_split=2,
                                      min_samples_leaf=1,
                                      min_weight_fraction_leaf=0,
                                      max_leaf_nodes=None,
                                      min_impurity_decrease=0)

# 決定木クラス分類器を訓練
model = decisiontree.fit(features, target)

## レシピ14.11　ブースティングによる性能の向上 


In [None]:
# ライブラリをロード
from sklearn.ensemble import AdaBoostClassifier
from sklearn import datasets

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# adaboost決定木クラス分類器を作成
adaboost = AdaBoostClassifier(random_state=0)

# adaboost決定木クラス分類器を訓練
model = adaboost.fit(features, target)

## レシピ14.12　XGBoostモデルの訓練 


In [None]:
# ライブラリをロード
import xgboost as xgb
from sklearn import datasets, preprocessing
from sklearn.metrics import classification_report
from numpy import argmax

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# データセットを作成
xgb_train = xgb.DMatrix(features, label=target)

# パラメータを定義
param = {
    'objective': 'multi:softprob',
    'num_class': 3
}

# モデルを訓練
gbm = xgb.train(param, xgb_train)

# 予測結果を取得
predictions = argmax(gbm.predict(xgb_train), axis=1)

# クラス分類レポートを取得
print(classification_report(target, predictions))

## レシピ14.13　LightGBMを用いたリアルタイム性能改善 


In [None]:
# ライブラリをロード
import lightgbm as lgb
from sklearn import datasets, preprocessing
from sklearn.metrics import classification_report
from numpy import argmax

# データをロード
iris = datasets.load_iris()
features = iris.data
target = iris.target

# データセットを作成
lgb_train = lgb.Dataset(features, target)

# パラメータを定義
params = {
    'objective': 'multiclass',
    'num_class': 3,
    'verbose': -1,
}

# モデルを訓練
gbm = lgb.train(params, lgb_train)

# 予測結果を取得
predictions = argmax(gbm.predict(features), axis=1)

# クラス分類レポートを取得
print(classification_report(target, predictions))
