<a href="https://colab.research.google.com/github/RyoNaruse/aiuaiu/blob/master/AI_DecisionTree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

～～～データのダウンロードからデータの解説～～～

In [0]:
#sklearnの中のdatasetsに入っている関数群のうち、load_breast_cancerを使います。
これによって、米国ウィスコンシン州で集められた乳がんのデータセットをダウンロードできます。
from sklearn.datasets import load_breast_cancer

In [0]:
#乳がんのデータをロードして変数に入れます。
cancer_data = load_breast_cancer()

In [41]:
#データはディクショナリ型です。
# キーを見てみましょう
print(cancer_data.keys())

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names', 'filename'])


dataには数値データが入っています。<br>
targetには、各数値データに対応する正解ラベル（悪性が0、良性が1という表現）が入っています。<br>
target_namesには悪性、良性が入っています。<br>
feature_namesにはデータを構成する特徴量の名前が入っています。<br>

In [0]:
# まずはデータがどのような特徴量で構成されているか見てみましょう。
print(cancer_data['feature_names'])

「平均半径」「平均テクスチャ（グレースケール値の標準偏差）」「平均周辺」「平均面積」
 「平均的な滑らかさ」「平均的なコンパクトさ」「平均的な凹面」
 「平均凹点」「平均対称性」「平均フラクタル次元（フラクタル幾何学において、より細かなスケールへと拡大するにつれあるフラクタルがどれだけ完全に空間を満たしているように見えるかを示す統計的な量）」
 「半径エラー（エラーは誤差）」「テクスチャエラー」「周辺エラー」「エリアエラー」
 「滑らかさエラー」「コンパクトエラー」「凹みエラー」
 「凹点エラー」「対称エラー」「フラクタル次元エラー」
 「最悪の半径（一番大きいところの半径）」「最悪のテクスチャ」「最悪の周囲」「最悪の領域」
 「最悪の滑らかさ」「最悪のコンパクトさ」「最悪の凹み」
 「最悪の凹点」「最悪の対称性」「最悪のフラクタル次元」

In [0]:
# データの値を見てみましょう。
print(cancer_data['data'])

In [0]:
# データを表形式にして見てみましょう。
# まず表形式にして変数に入れます。
import pandas as pd
data_frame = pd.DataFrame(cancer_data['data'], columns=cancer_data['feature_names'])
print('次のセルも実行してね！')

In [0]:
#続いて作った表形式データを表示しましょう。
data_frame

In [0]:
#今度は各データに対応する正解のラベルがどのような順番で並んでいるか見てみましょう。
print(cancer_data['target'])
#0が悪銭、1が良性

～～～教師あり機械学習で与えられたデータをもつ腫瘍が悪性か良性か予測してみる～～～

In [0]:
#機械学習に必要なライブラリと関数をインポートします。
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score

DecisionTreeClassifier・・・分類木クラスのインスタンスを生成する関数です。分類してくれるマシーンです。<br>
export_graphviz・・・決定木を可視化する時に必要です。<br>
train_test_split・・・データと正解ラベルを、訓練用データと性能評価用（テスト用）データに分けます。<br>
confusion_matrix・・・正解ラベルと予想ラベルを表形式で表示します。<br>
accuracy_score・・・正解率を計算してくれます。


In [0]:
#全てのデータと全ての正解ラベルを、訓練用データ、訓練用正解ラベル、テスト用データ、テスト用正解ラベル、に分割します。
#データの正解ラベルの対応は保たれます。
# train_sizeは訓練用データの全体に占める割合です。
X_train, X_test, y_train, y_test = train_test_split(cancer_data['data'], cancer_data['target'],train_size=0.8)

In [21]:
分類木のインスタンスを作成して、fit関数で学習を実行します。
model = DecisionTreeClassifier(max_depth=3) #←まだ枝が1本もない分類木。最大の深さは3までに制限する。
model.fit(X_train,y_train)                  #←これで枝が生える。最大の深さが3まで木が成長する。

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=3, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [0]:
#試しにテスト用データから、正解ラベルを予想して出力してみましょう。
#予測には関数predictを使います。
predictions = model.predict(X_test)
print(predictions)

In [0]:
#決定木がどのような構成になっているか可視化してみましょう。
import pydotplus
from IPython.display import Image
from graphviz import Digraph

dot_data = export_graphviz(
    model,
    out_file=None,
    feature_names=cancer_data.feature_names,
    class_names=cancer_data.target_names,
    filled=True,
    proportion=True)
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())

In [0]:
#また別の感じで可視化するために、ライブラリをインストールします。
!pip install dtreeviz
print('次のセルも実行してね！')

In [0]:
# 決定木の可視化その2
from dtreeviz.trees import dtreeviz

viz = dtreeviz(
    model,
    cancer_data.data, 
    cancer_data.target,
    target_name='variety',
    feature_names=cancer_data.feature_names,
    class_names=[str(i) for i in cancer_data.target_names],
) 

display(viz)

In [54]:
# 上で行った予測の正解率を計算してみましょう。
accuracy_score(predictions, y_test)

0.9210526315789473

In [0]:
# 混合行列を表示して、予測がどのように間違っているかみてみましょう。
confusion_matrix(predictions, y_test)

In [0]:
# 以下お遊びスペース