<a href="https://colab.research.google.com/github/SocSysSci/B3_DecisionTree/blob/main/B3_DecisionTree.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 1. データの読み込み

### 1-1. データのアップロード
データのサイズが小さい場合は files.upload() が利用できます。
データのサイズが大きい場合はファイル領域にドラッグ＆ドロップでアップロードします。

In [None]:
from google.colab import files
uploaded = files.upload()

### 1-2. データの読み込み

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier

下のindex_col と header にはそれぞれ1列目（index_col）と1行目（header）にラベルが入っているかどうかを指定します。ラベルが入っている場合はラベルの入っている列・行の番号（1行目1列目が0，以下2行目2列目が1...）を，ラベルが入っていない場合は「None」を指定します。

In [None]:
data = pd.read_csv("play_golf.csv", index_col=None, header=0)

In [None]:
data.head()

### 1-3. 文字列データの数値データへの変換
文字列データは今回利用する決定木では使えませんので，これを数値に変換します。

In [None]:
data['weather_val']   = data['weather'].map({'sunny':0, 'cloudy':1, 'rainy':2})
data['wind_val']      = data['wind'].map({'strong':1, 'weak':0})
data['play_golf_val'] = data['play_golf'].map({'yes':1, 'no':0})

In [None]:
data.head()

### 1-4. 学習用データの作成
読み込んだデータから，学習用データを作成します。学習用データは入力（独立変数）と教師（正しい出力。目的変数の値）からなります。

データの作成方法としては a) 使うデータを指定する方法と b) 使わないデータを指定する方法の2種類があります。どちらも最終的には同じ結果になりますが。使うデータが少ない場合は a) が，使うデータが多い場合は b) が良いと思います。

a) 使うデータを指定する方法

In [None]:
features = ['weather_val', 'temperature', 'humidity', 'wind_val'] # 使うデータのラベル
X = data[features]
Y = data['play_golf_val']

b) 使わないデータを指定する方法

In [None]:
unused = ["weather", "wind", "play_golf", "play_golf_val"] # 使わないデータのラベル
X = data.drop(unused, axis=1)
Y = data["play_golf_val"]
features = X.keys().tolist()

## 2. 決定木の学習

### 2-1. 決定木オブジェクトの作成

In [None]:
clf = DecisionTreeClassifier()

### 2-2. 決定木の学習
独立変数Xに対する目的変数Yを用いて決定木を学習します。

In [None]:
clf.fit(X,Y)

## 3. 可視化

### 3-1. 日本語フォントのインストール

In [None]:
!apt install fonts-noto-cjk

### 3-2. GraphVizを用いた可視化

In [None]:
from sklearn import tree
import pydotplus.graphviz as gv
from IPython.display import Image

In [None]:
tree.export_graphviz(clf, out_file="play_golf.dot",
                     feature_names = features,
                     class_names=["no", "yes"])

In [None]:
graph = gv.graph_from_dot_file("play_golf.dot")
Image(graph.create_png())

In [None]:
clf.predict(X)

In [None]:
clf.predict([[1,19,40,1]])