# **ランダムフォレスト**

# **STEP0：事前準備**

**コード14-1 ライブラリとモジュールのインポート**

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# **STEP1：データの用意**

**コード14-2 乳がんデータの読み込み**

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame= True)

**コード14-3 学習データと検証データに分割**

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(bc.data,
                                                   bc.target,
                                                   test_size=0.3,
                                                   random_state=0)

# **STEP2：学習モデルの選択**

**コード14-4　学習モデルにランダムフォレストを選択**

In [None]:
from sklearn.ensemble import RandomForestClassifier

**コード14-5 ランダムフォレストの引数指定**

In [15]:
model_forest = RandomForestClassifier(n_estimators=100,
                                      max_depth=4,
                                      max_features=5,
                                      random_state=0)

# **STEP3：データを入れて学習**

**コード14-6 学習用データで学習させる**

In [None]:
model_forest.fit(x_train, y_train)

# **STEP4：予測を行う**

**コード14-7 検証用データを用いて予測する**

In [None]:
print(model_forest.predict(x_test))
print(np.array(y_test))

**コード14-8 混同行列の出力**

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_test, model_forest.predict(x_test), labels = [1,0])

# **STEP5：モデルの評価**

**コード14-9 正解率の出力**

In [None]:
print(model_forest.score(x_test, y_test))
print(model_forest.score(x_train, y_train))

**コード14-10 検証用データでAUC算出**

In [None]:
from sklearn.metrics import roc_auc_score
roc_auc_score(y_test, model_forest.predict_proba(x_test)[:,1])

**コード14-11 ROC曲線の描出**

In [None]:
from sklearn.metrics import RocCurveDisplay
RocCurveDisplay.from_predictions(y_test,
                                 model_forest.predict_proba(x_test)[:,1])
plt.axis('square')
plt.show()

**コード14-12 検証用データで適合率、再現率、F1値を算出**

In [None]:
from sklearn.metrics import classification_report
pd.DataFrame(classification_report(y_test,
                                   model_forest.predict(x_test),
                                   output_dict=True))

# **特徴量の重要度**

**コード14-13 特徴量重要度を取得**

In [None]:
print(model_forest.feature_importances_)

**コード14-14 特徴量重要度を見やすくする**

In [24]:
forest_importances = pd.DataFrame(
    model_forest.feature_importances_,
    index =bc.feature_names,
    columns=['Importance'])

**コード14-15 特徴量を表示**

In [None]:
forest_importances

**コード14-16 重要度が高い順に表示**

In [None]:
forest_importances.sort_values('Importance', ascending=False)

**コード14-17 特徴量重要度の図示**

In [None]:
forest_importances.plot.bar()