<a target="_blank" href="https://colab.research.google.com/github/trainocate-japan/Machine-Learning-and-Deep-Learning-Hands-on/blob/main/exercise/4_決定木_ランダムフォレスト/4-2_（演習）決定木によるガンの悪性腫瘍の分類.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>


# 4-2_（演習）決定木によるガンの悪性腫瘍の分類
こちらはロジスティック回帰で扱っているガンの悪性腫瘍判定と学習を開始するまで同じプログラムになっています。（決定木のライブラリや可視化のためのライブラリインポートは除く）

※ ただし、決定木系のアルゴリズムではスケールをそろえる必要がないため、ロジスティック回帰モデルで精度改善のために行っていた標準化は行いません。

## ライブラリのインポート

In [None]:
# データを処理するための基本的なライブラリ
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

In [None]:
# 決定木モデルをインポート
from sklearn.tree import DecisionTreeClassifier
# 決定木を可視化したい場合はplot_treeもインポートする
from sklearn.tree import plot_tree

In [None]:
# matplotlibで日本語表示するための設定
!pip install japanize_matplotlib | tail -n 1
import japanize_matplotlib

## データの準備
今回使用するデータはscikit-learnからもデータセットとして利用することができる、UCI ML Breast Cancer Wisconsin (Diagnostic) datasetsのコピーです。<br>
UCI Machine Learning Repositoryから公開されています。<br>
downloaded from : https://goo.gl/U2Uwz2

データセットについての説明はこちらに記載されています。<br>
https://scikit-learn.org/stable/datasets/toy_dataset.html#breast-cancer-dataset

#### データを取り込む
- pandasのread_csvメソッドを使用して、mlho/data/cancer.csvファイルを読み込みます
- 読み込んだものは変数df_cancerに代入します

In [None]:
# csvファイルを読み込みます
#★df_cancer = pd.read_csv("cancer.csv")

#### データを確認する

In [None]:
# 読み込んだデータを確認します
# Classが目的変数になる腫瘍の悪性または良性を表しています。（0:悪性、1:良性）
#★df_cancer.head()

In [None]:
# df_cancerのデータ要約を確認
#★df_cancer.info()

In [None]:
# df_cancerの統計情報を確認
#★df_cancer.describe()

#### 説明変数、目的変数を切り出す

In [None]:
# 目的変数にするClass以外をすべて説明変数にする
#★x = df_cancer.drop(columns='Class')

In [None]:
#★x.head(2)

In [None]:
#★y = df_cancer['Class']

In [None]:
#★y.head(2)

#### データを訓練データと検証データに分割する

**本研修でbreast-cancerデータセットを使用する際には、訓練データ70%、random_state=3で固定しています。他のモデルとの比較をしやすくするためです**

In [None]:
# 訓練データと検証データに分割(70%を訓練用に使用)
# stratifyは指定した列の値が均等に割り振られる
#★train_x, val_x, train_y, val_y = train_test_split(x, y, train_size=0.7, test_size=0.3, random_state=3, stratify=y)

## モデルの定義

In [None]:
#★model = DecisionTreeClassifier(random_state=0)

## モデルの学習

In [None]:
#★model.fit(train_x, train_y)

## 作成された決定木を可視化する

In [None]:
# 決定木の可視化を行う
# matplotlibで画像サイズの調整（横幅、縦幅）
plt.figure(figsize=(45,10))
# 描画と設定
plot_tree(
    model, # 可視化するモデルを指定
    max_depth=6, # 可視化する木の深さ
    feature_names = train_x.columns, # 分割するときの説明変数名を設定
    filled=True, # 色を付ける場合はTrue
    fontsize=12,
    impurity=False
    )
#matplotlibで保存
plt.savefig("tree.pdf")

## 評価

In [None]:
# 訓練データで予測精度（正解率）を確認する
#★model.score(train_x, train_y)

In [None]:
# 検証データで予測精度（正解率）を確認する
#★model.score(val_x, val_y)

# 決定木モデルのパラメータチューニング

In [None]:
# ハイパーパラメータを変えて、精度の変化を確認してみましょう
#★model = DecisionTreeClassifier(max_depth = 15, random_state=0)
#★model.fit(train_x,train_y)

In [None]:
# 訓練データで予測精度（正解率）を確認する
#★model.score(train_x, train_y)

In [None]:
# 検証データで予測精度（正解率）を確認する
#★model.score(val_x, val_y)

**※ 調整例**

`model = DecisionTreeClassifier(max_depth=4, random_state=0)`

過学習を抑制して93%程の正解率が出ます。

In [None]:
# 検証データのclassification_reportを確認する
#★prediction = model.predict(val_x)
#★print(classification_report(val_y, prediction))

## 特徴量（説明変数）の重要度を確認する

In [None]:
# 特徴量重要度
#★importances= model.feature_importances_
#★importances

In [None]:
# DataFrameに整形して出力
# dataを特徴量重要度に設定し、行のインデックスを説明変数の列名にする
#★df_importances =pd.DataFrame(data=importances, index=train_x.columns)
#★df_importances

In [None]:
# 特徴量重要度（0番目の列）でソートする。ascending=Falseで降順に並び替える
#★df_importances.sort_values(0, ascending=False)

In [None]:
# （参考）matplotlibで棒グラフにする
plt.figure(figsize=(10,12))   # グラフのサイズ
n_features = train_x.shape[1] # 特徴量の数
plt.barh(range(n_features), model.feature_importances_, align='center') # x軸に特徴量、y軸に重要度を表示して中央寄せ（横棒グラフなので、x,yが逆）
plt.yticks(np.arange(n_features), train_x.columns) # x軸に項目名を表示
plt.plot;                     # グラフを表示