# Python で気軽に化学・化学工学
# 第 8 章 モデル y = f(x) を構築して、新たなサンプルの y を推定する
## 8.7.4 ランダムフォレスト (Random Forests, RF)
### 回帰分析

## Jupyter Notebook の有用なショートカットのまとめ
- <kbd>Esc</kbd>: コマンドモードに移行（セルの枠が青）
- <kbd>Enter</kbd>: 編集モードに移行（セルの枠が緑）
- コマンドモードで <kbd>M</kbd>: Markdown セル (説明・メモを書く用) に変更
- コマンドモードで <kbd>Y</kbd>: Code セル (Python コードを書く用) に変更
- コマンドモードで <kbd>H</kbd>: ヘルプを表示
- コマンドモードで <kbd>A</kbd>: ひとつ**上**に空のセルを挿入
- コマンドモードで <kbd>B</kbd>: ひとつ**下**に空のセルを挿入
- コマンドモードで <kbd>D</kbd><kbd>D</kbd>: セルを削除
- <kbd>Ctrl</kbd>+<kbd>Enter</kbd>: セルの内容を実行
- <kbd>Shift</kbd>+<kbd>Enter</kbd>: セルの内容を実行して下へ

わからないことがありましたら、関係する単語やエラーの文章などでウェブ検索してご自身で調べてみましょう。

### 沸点のデータセット (descriptors_8_with_boiling_point.csv)
Hall and Story が収集した[沸点のデータセット](https://pubs.acs.org/doi/abs/10.1021/ci960375x)。294 個の化合物について、沸点 (Boiling Point) が測定されており、8 つの分子記述子 (特徴量) で化学構造が数値化されています。特徴量は、分子量 (MolWt)、水素原子以外の原子で計算された分子量 (HeavyAtomMolWt)、価電子の数 (NumValenceElectrons)、水素原子以外の原子の数 (HeavyAtomCount)、窒素原子と酸素原子の数 (NOCount)、水素原子と炭素原子以外の原子の数 (NumHeteroatoms)、回転可能な結合の数 (NumRotatableBonds)、環の数 (RingCount) です。

In [None]:
import pandas as pd # pandas のインポート

In [None]:
dataset = pd.read_csv('descriptors_8_with_boiling_point.csv', index_col=0, header=0) # 沸点のデータセットの読み込み

In [None]:
x = dataset.iloc[:, 1:] # 記述子を 説明変数 x とします

In [None]:
y = dataset.iloc[:, 0] # 沸点を目的変数 y とします

トレーニングデータとテストデータの分割

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# ランダムにトレーニングデータとテストデータとに分割。random_state に数字を与えることで、別のときに同じ数字を使えば、ランダムとはいえ同じ結果にすることができます
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=94, shuffle=True, random_state=99)

DT モデルと同様にして RF モデルにおいても、一般的に x や y の標準化 (オートスケーリング) は行いません。

RF の実行

In [None]:
from sklearn.ensemble import RandomForestRegressor # 回帰分析用の RF の実行に使用

In [None]:
model = RandomForestRegressor(n_estimators=500, max_features=0.5, oob_score=True) # RF モデルの宣言

In [None]:
model.fit(x_train, y_train) # RF モデル構築

構築された RF モデルにおける説明変数 x の重要度

In [None]:
model.feature_importances_ # 特徴量の重要度。array 型で出力されます

In [None]:
importances = pd.DataFrame(model.feature_importances_) # pandas の DataFrame 型に変換

In [None]:
importances.index = x_train.columns # 説明変数に対応する名前を、元のデータの説明変数名に

In [None]:
importances.columns = ['importances'] # 列名を変更

In [None]:
importances # 念のため確認

In [None]:
importances.to_csv('importances.csv') # csv ファイルに保存。同じ名前のファイルがあるときは上書きされますので注意してください

Out Of Bag (OOB) における r<sup>2</sup>

In [None]:
model.oob_score_

トレーニングデータの y の値の推定

In [None]:
estimated_y_train = pd.DataFrame(model.predict(x_train)) # トレーニングデータの y の値を推定し、pandas の DataFrame 型に変換

In [None]:
estimated_y_train.index = x_train.index # サンプル名を、元のデータのサンプル名に

In [None]:
estimated_y_train.columns = ['estimated_y'] # 列名を変更

In [None]:
estimated_y_train # 念のため確認

In [None]:
estimated_y_train.to_csv('estimated_y_train.csv') # csv ファイルに保存。同じ名前のファイルがあるときは上書きされますので注意してください

トレーニングデータの y の実測値 vs. 推定値プロット

In [None]:
import matplotlib.pyplot as plt
import matplotlib.figure as figure # 図の調整に使用

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.figure(figsize=figure.figaspect(1)) # 図の形を正方形に
plt.scatter(y_train, estimated_y_train.iloc[:, 0]) # 散布図。estimated_y_train は 200×1 の行列のため、0 列目を選択する必要があります
y_max = max(y_train.max(), estimated_y_train.iloc[:, 0].max()) # 実測値の最大値と、推定値の最大値の中で、より大きい値を取得
y_min = min(y_train.min(), estimated_y_train.iloc[:, 0].min()) # 実測値の最小値と、推定値の最小値の中で、より小さい値を取得
plt.plot([y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], [y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], 'k-') # 取得した最小値-5%から最大値+5%まで、対角線を作成
plt.ylim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # y 軸の範囲の設定
plt.xlim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # x 軸の範囲の設定 
plt.xlabel("actual y") # x 軸の名前
plt.ylabel("estimated y") # y 軸の名前
plt.show() # 以上の設定で描画

トレーニングデータの r<sup>2</sup>, MAE

In [None]:
from sklearn import metrics

In [None]:
metrics.r2_score(y_train, estimated_y_train) # r2

In [None]:
metrics.mean_absolute_error(y_train, estimated_y_train) # MAE

テストデータの y の値の推定。トレーニングデータをテストデータに変えるだけで、実行する内容はトレーニングデータのときと同じです

In [None]:
estimated_y_test = pd.DataFrame(model.predict(x_test)) # テストデータの y の値を推定し、pandas の DataFrame 型に変換

In [None]:
estimated_y_test.index = x_test.index # サンプル名を、元のデータのサンプル名に

In [None]:
estimated_y_test.columns = ['estimated_y'] # 列名を変更

In [None]:
estimated_y_test # 念のため確認

In [None]:
estimated_y_test.to_csv('estimated_y_test.csv') # csv ファイルに保存。同じ名前のファイルがあるときは上書きされますので注意してください

テストデータの y の実測値 vs. 推定値プロット

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.figure(figsize=figure.figaspect(1)) # 図の形を正方形に
plt.scatter(y_test, estimated_y_test.iloc[:, 0]) # 散布図。estimated_y_train は 200×1 の行列のため、0 列目を選択する必要があります
y_max = max(y_test.max(), estimated_y_test.iloc[:, 0].max()) # 実測値の最大値と、推定値の最大値の中で、より大きい値を取得
y_min = min(y_test.min(), estimated_y_test.iloc[:, 0].min()) # 実測値の最小値と、推定値の最小値の中で、より小さい値を取得
plt.plot([y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], [y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], 'k-') # 取得した最小値-5%から最大値+5%まで、対角線を作成
plt.ylim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # y 軸の範囲の設定
plt.xlim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # x 軸の範囲の設定 
plt.xlabel("actual y") # x 軸の名前
plt.ylabel("estimated y") # y 軸の名前
plt.show() # 以上の設定で描画

テストデータの r<sup>2</sup>, MAE

In [None]:
metrics.r2_score(y_test, estimated_y_test) # r2

In [None]:
metrics.mean_absolute_error(y_test, estimated_y_test) # MAE

OOB を用いた説明変数 x の割合の最適化

In [None]:
import numpy as np # NumPy のインポート

In [None]:
ratios_of_x = np.arange(0.1, 1.1, 0.1) # 用いる説明変数の割合の候補

In [None]:
ratios_of_x # 念のため確認

In [None]:
r2_oob = [] # 空の list。説明変数の数の割合ごとに、OOB における r2 を入れていきます

In [None]:
for ratio_of_x in ratios_of_x:
    model = RandomForestRegressor(n_estimators=500, max_features=ratio_of_x, oob_score=True, random_state=1)
    model.fit(x_train, y_train)
    r2_oob.append(model.oob_score_)

In [None]:
import matplotlib.pyplot as plt # 図の描画に使用

In [None]:
# 結果の確認
plt.rcParams['font.size'] = 18
plt.scatter(ratios_of_x, r2_oob)
plt.xlabel('ratio of x')
plt.ylabel('r2 for OOB')
plt.show()

In [None]:
optimal_ratio_of_x = ratios_of_x[r2_oob.index(max(r2_oob))] # OOB における r2 が最大となる選択する x の割合

In [None]:
optimal_ratio_of_x # 念のため確認

RF モデルの構築および予測

In [None]:
model = RandomForestRegressor(n_estimators=500, max_features=optimal_ratio_of_x, oob_score=True)

In [None]:
model.fit(x_train, y_train) # RF モデル構築

構築された RF モデルにおける説明変数 x の重要度

In [None]:
model.feature_importances_ # 特徴量の重要度。array 型で出力されます

In [None]:
importances = pd.DataFrame(model.feature_importances_) # pandas の DataFrame 型に変換

In [None]:
importances.index = x_train.columns # 説明変数に対応する名前を、元のデータの説明変数名に

In [None]:
importances.columns = ['importances'] # 列名を変更

In [None]:
importances # 念のため確認

In [None]:
importances.to_csv('importances.csv') # csv ファイルに保存。同じ名前のファイルがあるときは上書きされますので注意してください

トレーニングデータの y の値の推定

In [None]:
estimated_y_train = pd.DataFrame(model.predict(x_train)) # トレーニングデータの y の値を推定し、pandas の DataFrame 型に変換

In [None]:
estimated_y_train.index = x_train.index # サンプル名を、元のデータのサンプル名に

In [None]:
estimated_y_train.columns = ['estimated_y'] # 列名を変更

In [None]:
estimated_y_train # 念のため確認

In [None]:
estimated_y_train.to_csv('estimated_y_train.csv') # csv ファイルに保存。同じ名前のファイルがあるときは上書きされますので注意してください

トレーニングデータの y の実測値 vs. 推定値プロット

In [None]:
import matplotlib.pyplot as plt
import matplotlib.figure as figure # 図の調整に使用

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.figure(figsize=figure.figaspect(1)) # 図の形を正方形に
plt.scatter(y_train, estimated_y_train.iloc[:, 0]) # 散布図。estimated_y_train は 200×1 の行列のため、0 列目を選択する必要があります
y_max = max(y_train.max(), estimated_y_train.iloc[:, 0].max()) # 実測値の最大値と、推定値の最大値の中で、より大きい値を取得
y_min = min(y_train.min(), estimated_y_train.iloc[:, 0].min()) # 実測値の最小値と、推定値の最小値の中で、より小さい値を取得
plt.plot([y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], [y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], 'k-') # 取得した最小値-5%から最大値+5%まで、対角線を作成
plt.ylim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # y 軸の範囲の設定
plt.xlim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # x 軸の範囲の設定 
plt.xlabel("actual y") # x 軸の名前
plt.ylabel("estimated y") # y 軸の名前
plt.show() # 以上の設定で描画

トレーニングデータの r<sup>2</sup>, MAE

In [None]:
from sklearn import metrics

In [None]:
metrics.r2_score(y_train, estimated_y_train) # r2

In [None]:
metrics.mean_absolute_error(y_train, estimated_y_train) # MAE

テストデータの y の値の推定。トレーニングデータをテストデータに変えるだけで、実行する内容はトレーニングデータのときと同じです

In [None]:
estimated_y_test = pd.DataFrame(model.predict(x_test)) # テストデータの y の値を推定し、pandas の DataFrame 型に変換

In [None]:
estimated_y_test.index = x_test.index # サンプル名を、元のデータのサンプル名に

In [None]:
estimated_y_test.columns = ['estimated_y'] # 列名を変更

In [None]:
estimated_y_test # 念のため確認

In [None]:
estimated_y_test.to_csv('estimated_y_test.csv') # csv ファイルに保存。同じ名前のファイルがあるときは上書きされますので注意してください

テストデータの y の実測値 vs. 推定値プロット

In [None]:
plt.rcParams['font.size'] = 18 # 横軸や縦軸の名前の文字などのフォントのサイズ
plt.figure(figsize=figure.figaspect(1)) # 図の形を正方形に
plt.scatter(y_test, estimated_y_test.iloc[:, 0]) # 散布図。estimated_y_train は 200×1 の行列のため、0 列目を選択する必要があります
y_max = max(y_test.max(), estimated_y_test.iloc[:, 0].max()) # 実測値の最大値と、推定値の最大値の中で、より大きい値を取得
y_min = min(y_test.min(), estimated_y_test.iloc[:, 0].min()) # 実測値の最小値と、推定値の最小値の中で、より小さい値を取得
plt.plot([y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], [y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)], 'k-') # 取得した最小値-5%から最大値+5%まで、対角線を作成
plt.ylim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # y 軸の範囲の設定
plt.xlim(y_min - 0.05 * (y_max - y_min), y_max + 0.05 * (y_max - y_min)) # x 軸の範囲の設定 
plt.xlabel("actual y") # x 軸の名前
plt.ylabel("estimated y") # y 軸の名前
plt.show() # 以上の設定で描画

テストデータの r<sup>2</sup>, MAE

In [None]:
metrics.r2_score(y_test, estimated_y_test) # r2

In [None]:
metrics.mean_absolute_error(y_test, estimated_y_test) # MAE

自分のデータセットをお持ちの方は、そのデータセットでも今回の内容を確認してみましょう。