<a target="_blank" href="https://colab.research.google.com/github/trainocate-japan/Machine-Learning-and-Deep-Learning-Hands-on/blob/main/exercise/4_決定木_ランダムフォレスト/4-4_（演習）ランダムフォレストによるガンの悪性腫瘍の分類.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>


# 4-4_（演習）ランダムフォレストによるガンの悪性腫瘍の分類
こちらはロジスティック回帰で扱っているガンの悪性腫瘍判定と学習を開始するまで同じプログラムになっています。（ランダムフォレストのライブラリインポートは除く）

※ ただし、決定木系のアルゴリズムではスケールをそろえる必要がないため、ロジスティック回帰モデルで精度改善のために行っていた標準化は行いません。

## ライブラリのインポート

In [None]:
# データを処理するための基本的なライブラリ
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [None]:
# ランダムフォレストモデルをインポート
from sklearn.ensemble import RandomForestClassifier

In [None]:
# matplotlibで日本語表示するための設定
!pip install japanize_matplotlib | tail -n 1
import japanize_matplotlib

Google Colaboratory上での出力のデフォルト設定

In [None]:
# pandasのDataframeの出力
pd.set_option('display.max_columns', 500) # 表示列の最大
pd.set_option('display.max_rows', 500) # 表示行の最大
pd.set_option('display.unicode.east_asian_width', True) # 日本語出力時にヘッダのずれを解消
pd.options.display.float_format = '{:,.5f}'.format # 表示桁数の設定

# ノートブックの表示桁数設定。この設定はprint文には作用せず、セルの最後に書いたものを出力する際に適用されます。
%precision 3
# numpy配列の指数表示禁止設定
np.set_printoptions(suppress=True)
# numpy配列の表示桁数設定
np.set_printoptions(precision=3)

## データの準備
今回使用するデータはscikit-learnからもデータセットとして利用することができる、UCI ML Breast Cancer Wisconsin (Diagnostic) datasetsのコピーです。<br>
UCI Machine Learning Repositoryから公開されています。<br>
downloaded from : https://goo.gl/U2Uwz2

データセットについての説明はこちらに記載されています。<br>
https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset

#### データを取り込む
- pandasのread_csvメソッドを使用して、mlho/data/cancer.csvファイルを読み込みます
- 読み込んだものは変数df_cancerに代入します

In [None]:
# csvファイルを読み込みます
#★df_cancer = pd.read_csv("/content/drive/MyDrive/mlho/data/cancer.csv")

#### データを確認する

In [None]:
# 読み込んだデータを確認します
# Classが目的変数になる腫瘍の悪性または良性を表しています。（0:悪性、1:良性）
#★df_cancer.head()

In [None]:
# df_cancerのデータ要約を確認
#★df_cancer.info()

In [None]:
# df_cancerの統計情報を確認
#★df_cancer.describe()

#### 説明変数、目的変数を切り出す

In [None]:
# 目的変数にするClass以外をすべて説明変数にする
#★x = df_cancer.drop(columns='Class')

In [None]:
#★x.head(2)

In [None]:
#★y = df_cancer['Class']

In [None]:
#★y.head(2)

#### データを訓練データと検証データに分割する

**本研修でbreast-cancerデータセットを使用する際には、訓練データ70%、random_state=3で固定しています。他のモデルとの比較をしやすくするためです**

In [None]:
# 訓練データと検証データに分割(70%を訓練用に使用)
# stratifyは指定した列の値が均等に割り振られる
#★train_x, val_x, train_y, val_y = train_test_split(x, y, train_size=0.7, test_size=0.3, random_state=3, stratify=y)

## モデルの定義

In [None]:
#★model = RandomForestClassifier(random_state=0)

## モデルの学習

In [None]:
#★model.fit(train_x, train_y)

## 評価

In [None]:
# 訓練データで予測精度（正解率）を確認する
#★model.score(train_x, train_y)

In [None]:
# 検証データで予測精度（正解率）を確認する
#★model.score(val_x, val_y)

# ランダムフォレストモデルのパラメータチューニング

In [None]:
# ハイパーパラメータを変えて、精度の変化を確認してみましょう
#★model = RandomForestClassifier(n_estimators=10, max_depth=20, max_features=25, random_state=0)
#★model.fit(train_x,train_y)

In [None]:
# 訓練データで予測精度（正解率）を確認する
#★model.score(train_x, train_y)

In [None]:
# 検証データで予測精度（正解率）を確認する
#★model.score(val_x, val_y)

**※ 調整例**

`model = DecisionTreeClassifier(n_estimators=100, max_depth=5, max_features=15, random_state=0)`

過学習を抑制している様子は見えますが、正解率は97.7%から変化しません。<br>
97.7%というのは検証データ171件の内、167件を正しく予想しています。そして、残り4件がパラメータチューニングだけでは正解できないといえます。<br>
残りのデータが特異なデータなのかそれとも正解できなくてはいけないデータなのかにより、さらに工夫の必要があるかは変わってきます。

In [None]:
# 検証データのclassification_reportを確認する
#★prediction = model.predict(val_x)
#★print(classification_report(val_y, prediction))

## 特徴量（説明変数）の重要度を確認する

In [None]:
# matplotlibで画像サイズの調整（横幅、縦幅）
plt.figure(figsize=(10,12))
n_features = train_x.shape[1] # 特徴量の数
plt.barh(range(n_features), model.feature_importances_, align='center')
plt.yticks(np.arange(n_features), train_x.columns)
plt.plot;