# ต้นไม้การตัดสินใจ (Decision Tree)

เป็น Supervised Learning Algorithm: ที่สามารถใช้กับปัญหาได้ 2 ประเภท คือ
1.   สามารถใช้เพื่อการจำแนกข้อมูล (Classification) ของข้อมูลที่ไม่ต่อเนื่อง (Discrete)
2.   สามารถใช้เพื่อการวิเคราะห์การถดถอย (Regression) ของข้อมูลที่มีความต่อเนื่อง (Continuous)

เป็น Algorithm ที่สามารถอธิบายการตัดสินใจ ได้ง่ายผ่านการตัดสินใจคล้ายคำสั่ง IF...ELSE... ที่สร้างขึ้นมาจากข้อมูลโดยอัตโนมัติ

## ต้นไม้การตัดสินใจ (Decision Tree):

1. การทำความรู้จักกับข้อมูล (Data Understanding)
2. การแปลงข้อมูล (Data Encoding) <br/>
   2.1 นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล: sklearn.preprocessing<br/>
   2.2 สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (label_encoder) จาก sklearn.preprocessing <br/>
   2.3 ทำการแปลงคอลัมน์เพศ (sex) ด้วยวิธีการ Label Encoding <br/>
   2.4 ทำการแปลงคอลัมน์รองเท้าที่เป็นเป้าหมาย (target) ด้วยวิธีการ Label Encoding <br/>
3. แปลงข้อมูลจาก Pandas DataFrame เป็น อาร์เรย์ (Array) ด้วย Numpy
4. ทำการสร้างแบบจำลอง (Model) ต้นไม้การตัดสินใจ (Decision Tree)
5. แสดงภาพ (Data Visualization) ของการตัดสินใจภายใน Decision Tree
6. แสดงภาพ (Data Visualization) ของการตัดสินใจภายใน Decision Tree (ในรูปแบบข้อความ)
7. การบันทึกแบบจำลอง (Save Model) และการเรียนใช้งานแบบจำลองที่บันทึกไว้ (Load Model) มาใช้งาน


### Step 1: การทำความรู้จักกับข้อมูล (Data Understanding)

1.1 ข้อมูลที่จะใช้ในการทำงานของ Machine Learning เช่น เพศ (sex), อายุ (age) และ รองเท้าที่เป็นเป้าหมาย (target)<br/>
1.2 ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน Pandas ว่าจัดเก็บในรูปแบบกี่มิติ (1D, 2D, 3D, ...) ด้วยคุณสมบัติ .shape<br/>

#### Step 1.1: ข้อมูลที่จะใช้ในการทำงานของ Machine Learning เช่น เพศ (sex), อายุ (age) และ รองเท้าที่เป็นเป้าหมาย (target)

In [None]:
import pandas as pd

data = pd.DataFrame({
    'sex': ['male', 'female', 'male', 'male', 'female', 'male', 'female'],
    'age': [30, 17, 25, 18, 19, 35, 30],
    'target': ['oxfords', 'sneakers', 'oxfords', 'sneakers','sneakers', 'oxfords','high-heels']
})

?

#### Step 1.2: ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน Pandas ว่าจัดเก็บในรูปแบบกี่มิติ (1D, 2D, 3D, ...) ด้วยคุณสมบัติ .shape

In [None]:
data.?

### Step 2: การแปลงข้อมูล (Data Encoding)

การเลือก Encoding ให้เหมาะสมกับ Algorithms เป็นเรื่องที่สำคัญ เนื่องจาก**ถ้าข้อมูลเข้าไม่ดี (Garbage In)** **ผลลัพธ์ที่ได้ก็จะไม่ดี (Garbage Out)**

**ข้อมูลเข้า (Input / Features)**: คือ ข้อมูลที่ใช้ในการตัดสินใจ ประกอบด้วย เพศ (sex) และ อายุ (age) โดยมี **เพศ (sex) เป็นข้อมูลที่ไม่ใช่ตัวเลข (Categorial)**

**ข้อมูลผลเฉลย (Output / Target / Label)**: คือ รองเท้าที่เป็นเป้าหมาย (target) และ**รองเท้าเป็นข้อมูลที่ไม่ใช่ตัวเลข (Categorial)**

**คำถาม :** ในตัวอย่างนี้เราควรใช้เทคนิดการเข้ารหัสข้อมูลที่ไม่ใช่ตัวเลข ด้วยวิธีใด? ระหว่าง One-Hot กับ Label Encoding

**คำตอบ :**
1. **สำหรับ เพศ (sex)** ที่เป็นข้อมูลเข้า มีเพียง 2 ทางเลือก คือ ชาย (male) หรือ (female) สอดคล้องกับหลักการตัดสินใจของ Decision Tree จะคล้ายกับ IF...ELSE... ก็คือ จริง (True) กับ เท็จ (False) เราเลยสามารถเลือก Label Encoding มาเข้ารหัสให้กับเพศ (sex) ได้ ... <br/>(**หมายเหตุ:** แต่ถ้าจะใช้ One-Hot Encoding ก็สามารถทำได้)
2. **สำหรับ รองเท้าที่เป็นเป้าหมาย (target)** ที่เป็นผลเฉลย (Output) ก็ใช้ Label Encoding เนื่องจาก ผลเฉลย มีชื่อเรียกอื่น เช่น Target / Label

In [None]:
from sklearn import preprocessing                       # นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล: sklearn.preprocessing

label_encoder = ?           # สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (label_encoder) จาก sklearn.preprocessing
data['sex'] = ?             # ทำการแปลงคอลัมน์เพศ (sex) ด้วยวิธีการ Label Encoding

?

In [None]:
data['target'] = label_encoder.fit_transform(?)  # ทำการแปลงคอลัมน์รองเท้าที่เป็นเป้าหมาย (target) ด้วยวิธีการ Label Encoding

?

### Step 3: แปลงข้อมูลจาก Pandas DataFrame เป็น อาร์เรย์ (Array) ด้วย Numpy

In [5]:
import numpy as np              # นำเข้า Library ในการสร้าง อาร์เรย์ (Array)

feature_names = ['sex', 'age']  # เลือกคอลัมน์ที่จะใช้เป็นข้อมูลเข้า (Input/Features) ให้กับแบบจำลอง (Model)
target_name = 'target'          # เลือกคอลัมน์ที่จะใช้เป็นข้อมูลผลเฉลย (Output/Target/Label) ให้กับแบบจำลอง (Model)

features = np.array(?)          # จัดเก็บข้อมูลเข้า (Input/Features)
target = np.array(?)            # จัดเก็บข้อมูลผลเฉลย (Output/Target/Label)

# หมายเหตุ:
# ในทางปฏิบัติ การเลือกคอลัมน์ที่จะใช้เป็นข้อมูลเข้า (Input/Features) ให้กับแบบจำลอง (Model) จะมีวิธีการคำนวณว่าคอลัมน์ใดมีความสำคัญ (Important Feature) เรียกว่า "Feature Selection"
# https://medium.com/kbtg-life/feature-selection-techniques-in-machine-learning-2300f278c3d4

In [None]:
features  # แสดงข้อมูลเข้า (Input/Features)

In [None]:
target # แสดงข้อมูลผลเฉลย (Output/Target/Label)

### Step 4: ทำการสร้างแบบจำลอง (Model) ต้นไม้การตัดสินใจ (Decision Tree)

In [8]:
from sklearn.tree import DecisionTreeClassifier   # Library ต้นไม้การตัดสินใจสำหรับการจำแนก (Classification)

model = ?  # สร้างแบบจำลอง (Model)
model.fit(?, ?)       # ส่งข้อมูลเข้า (Input/Feature),  ข้อมูลผลเฉลย (Output/Target/Label) เข้าไปเรียนรู้ในแบบจำลอง
model.score(?, ?)     # ทดสอบ (Test) แบบจำลอง (Model) ด้วยการคำนวณคะแนนความถูกต้อง (Accuracy)

# หมายเหตุ:
#1. สาเหตุที่ model.score มีค่าความถูกต้อง (Accuracy) = 1 เนื่องจาก เราทำการทดสอบ(Test) แบบจำลอง(Model) โดยใช้ข้อมูลที่เราสอน(Train) เหมือนโกงข้อสอบ เพราะแบบจำลองเคยเห็นคำตอบ(ผลเฉลย) มาก่อนแล้ว
#2. ในความเป็นจริง ถ้าเรามีปริมาณข้อมูลมากพอ เราควรแบ่งข้อมูลเป็น 2 ส่วน คือ ข้อมูลสำหรับเรียนรู้ (Train) และข้อมูลสำหรับการทดสอบ (Test) -> train_test_split(...)


1.0

### Step 5: แสดงภาพ (Data Visualization) ของการตัดสินใจภายใน Decision Tree

In [None]:
import matplotlib.pyplot as plt
from mlxtend.plotting import plot_decision_regions

fig = plot_decision_regions(X=?, y=?, clf=?)

In [None]:
import matplotlib.pyplot as plt
from mlxtend.plotting import plot_decision_regions

ax = plot_decision_regions(X=?, y=?, clf=?)

plt.xlabel('sex')
plt.ylabel('age')
plt.title('Decision Tree for Buying Shoes')

handles, labels = ax.get_legend_handles_labels()
ax.legend(handles, ['high-heels', 'oxfords', 'sneakers']) # label_encoder.classes_

plt.show()


In [None]:
label_encoder.classes_

In [None]:
from sklearn import tree

tree.?            # แสดง Data Visualization ของ Tree

In [None]:
plt.figure(?)     # กำหนดขนาดของภาพที่แสดง (5, 6)

tree.plot_tree(model, filled=True)  # แสดง Data Visualization ของ Tree

In [None]:
plt.figure(figsize=(5,6))

tree.plot_tree(model, filled=True, feature_names=['sex', 'age'], class_names=['high-heels', 'oxfords', 'sneakers'], rounded=True)

### Step 6: แสดงภาพ (Data Visualization) ของการตัดสินใจภายใน Decision Tree (ในรูปแบบข้อความ)

In [None]:
tree_result = tree.export_text(?)

print(tree_result)

In [None]:
tree_result = tree.export_text(model, feature_names=[?, ?], )

print(tree_result)

In [None]:
label_encoder.classes_

### Step 7: การบันทึกแบบจำลอง (Save Model) และการเรียนใช้งานแบบจำลองที่บันทึกไว้ (Load Model) มาใช้งาน

In [18]:
import pickle

file_name = ?
pickle.dump(model, open(file_name, 'wb'))

In [None]:
load_model = pickle.load(open(file_name, 'rb'))
result = load_model.score(features, target)

print(?)

## การประยุกต์ใช้ Decision Tree กับ ข้อมูลการหาความสัมพันธ์ของผู้รอดชีวิต (Survivor) จากเรือ Titanic

https://www.kaggle.com/code/satishgunjal/tutorial-k-fold-cross-validation

In [20]:
import seaborn as sns

titanic = sns.load_dataset('titanic')

In [None]:
type(titanic)

In [None]:
titanic