# Cây quyết định
**Cây quyết định (Decision Tree)** là một phương pháp học máy có giám sát không tham số được sử dụng để phân lớp và hồi quy.

Mục đích của cây quyết định là tạo ra một mô hình dự đoán kết quả mục tiêu bằng cách học các luật quyết định đơn giản được suy diễn ra từ các đặc trưng dữ liệu.

Mỗi tập luật định nghĩa ra một giả thuyết, có thể được biểu diễn bằng một cây quyết định với đường đi xuôi từ gốc đến lá cho ta một luật quyết định. Nút gốc và mỗi nút trên cây là một thuộc tính/ điều kiện kiểm tra, các nhánh đi xuống từ nút ứng với các giá trị có thể của thuộc tính/điều kiện này. Nhãn của các mẫu phù hợp là các nút lá.


Hình dưới đây minh họa một cây quyết định của dữ liệu **Titanic** dự đoán khả năng sống sót khi tàu chìm.
<img src="titanic.png" style="text-align:center; max-height:400px">

**Bài tập:** Mô tả tập luật của cây quyết định trên.

**Trả lời**: *Điền đáp án vào đây!*

# Mô hình cây quyết định trong Scikit-learn
Trong `Scikit-learn`, mô hình cây quyết định được cài đặt trong gói `tree` với `DecisionTreeClassifier`.

**Bài tập:** Import dữ liệu và mô hình cây quyết định từ `Scikit-learn`, sau đó huấn luyện và biểu diễn mô hình thu được sau khi huấn luyện.

*Gợi ý:* Sử dụng kiến thức từ bài thực hành trước với mô hình `SVM`.

In [None]:
# TODO: Import mô hình và dữ liệu cần thiết từ thư viện
from sklearn import tree
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import Imputer, LabelEncoder
import pandas as pdx

# TODO: Chia dữ liệu huấn luyện và kiểm tra hợp lý

X_train, X_test, y_train, y_test = None

# TODO: Huấn luyện mô hình với dữ liệu
clf = tree.DecisionTreeClassifier()
clf.fit(X_train, y_train)

# TODO: Visualize mô hình vừa được xây dựng với tập dữ liệu kiểm tra
pass

# Các thuật toán xây dựng cây quyết định cơ bản

Vấn đề cơ bản của bài toán xây dựng cây quyết định là:
- Xác định thuộc tính/điều kiện của mỗi nút
- Thứ tự các nút

Trong bài này, chúng ta sẽ làm quen với 2 thuật toán cơ bản nhất là **ID3** (Iterative Dichotomiser 3) và **C4.5** (Classification and Regression Tree).

## ID3

Thuật toán ID3 (Quinlan 1986) chọn thuộc tính tốt nhất của tập huấn luyện được làm nút gốc theo tiêu chuẩn cực đại lượng thu hoạch thông tin (Information Gain). 

### Entropy
Entropy dùng để đo độ không chắc chắn (độ mù mờ của thông tin). Nếu ta tập dữ liệu $D$ có $N$ phần tử, thuộc $C$ lớp và số phần tử mỗi lớp là $N_c$ thì entropy của tập dữ liệu $D$ được tính theo công thức:

$$ E(D) = - \sum_{c=1}^{C} \frac{N_c}{N}\log (\frac{N_c}{N}) = - \sum_{c=1}^{C}p_c\log(p_c)$$
**Bài tập**: Định nghĩa hàm `entropy(freq)` để tính entropy của phân phối xác suất dữ liệu `freq`.


In [1]:
# TODO: Để có thể xây dựng được cây quyết định, việc đầu tiên cần làm là tính 
#       toán entropy cho dữ liệu với một phân phối cho trước (hoặc được tính
#       toán thông qua dữ liệu)
#       Định nghĩa hàm entropy(freq) tính toán độ mù mờ của dữ liệu với phân 
#       phối xác suất freq, là tần suất của mỗi lớp c trong bộ dữ liệu D. Hàm trả về số thực là độ đo entropy tương ứng.
import numpy as np
def entropy(freq):
    return -np.sum(np.log2(freq) * freq)

freq = np.array([0.2, 0.3, 0.12, 0.18, 0.08, 0.06, 0.06])
print("Entropy = {}".format(entropy(freq)))


Entropy = 2.5764258916820024


### Entropy hai thuộc tính
Khi thuộc tính $x_i$ được chọn làm nút, chia tập $D$ thành $K$ nhánh con $D_1, D_2,...,D_k$, số lượng phần tử trong mỗi nốt con kí hiệu là $m_k$. Độ đo entropy  sau phép chia này được tính:
$$ E(D,x_i) = \sum_{k=1}^{K} \frac{m_k}{N}E(D_k)= \sum_{k\in K}P(k)E(D_k) $$

**Bài tập:** Tính độ đo entropy khi có thêm một thuộc tính.

In [29]:
# TODO: Khi chọn thêm một thuộc tính làm nốt chia, ta phải tính entropy với
#       thuộc tính mới để tìm ra thuộc tính chia tốt nhất.
#       Định nghĩa hàm _entropy(data, prev_attr, target_attr):
#       - data (np.array): các mẫu huấn luyện
#       - prev_attr(id): thuộc tính chia được chọn trước đó. Nếu không có thuộc
#       tính nào được chọn trước đó, prev_attr = -1
#       - target_attr(id): thuộc tính chia cần tính entropy
# Gợi ý: Sử dụng lại hàm entropy()
from sklearn import datasets
from collections import Counter

def _entropy(data, target, target_attr):
    N = len(data)
    D = Counter(data[:,target_attr]).items()
    for D, m in D:
        freq = Counter(target[data[:,target_attr] == D])
        for i in range(4):
            if i not in freq:
                freq[i] = 0
#         freq = map(lambda x: x)
        print(freq.values(), sum(freq.values))
    return 0

dataset = datasets.load_iris()
data, target = dataset['data'], dataset['target']    
print(_entropy(data, target, 0))
# # Tính entropy cho dữ liệu hoa cẩm chướng
# first_entropy = _entropy(data, -1, 0)
# print("First attribute (without prev_attr): {}".format(first_entropy))
# # Giả sử tập dữ liệu đã được chia bởi thuộc tính đầu tiên: Độ dài của lá
# second_entropy = _entropy(data, 0, 1)
# print("Second pivot attribute: {}".format(second_entropy))

dict_values([0, 0, 1, 0])
dict_values([0, 2, 1, 0])
dict_values([4, 0, 0, 0])
dict_values([5, 1, 0, 0])
dict_values([0, 2, 5, 0])
dict_values([0, 1, 0, 0])
dict_values([0, 1, 2, 0])
dict_values([1, 3, 3, 0])
dict_values([0, 2, 2, 0])
dict_values([8, 2, 0, 0])
dict_values([0, 0, 1, 0])
dict_values([2, 5, 1, 0])
dict_values([2, 0, 0, 0])
dict_values([0, 0, 3, 0])
dict_values([0, 1, 3, 0])
dict_values([0, 0, 1, 0])
dict_values([1, 0, 0, 0])
dict_values([8, 1, 0, 0])
dict_values([5, 0, 0, 0])
dict_values([2, 5, 0, 0])
dict_values([0, 1, 4, 0])
dict_values([0, 5, 1, 0])
dict_values([0, 3, 6, 0])
dict_values([3, 1, 0, 0])
dict_values([4, 1, 1, 0])
dict_values([0, 0, 4, 0])
dict_values([0, 0, 1, 0])
dict_values([0, 4, 2, 0])
dict_values([0, 4, 2, 0])
dict_values([1, 0, 0, 0])
dict_values([1, 0, 0, 0])
dict_values([0, 2, 0, 0])
dict_values([0, 0, 1, 0])
dict_values([0, 3, 5, 0])
dict_values([3, 0, 0, 0])
0


### Độ thu hoạch thông tin
Độ thu hoạch thông tin được tính là độ giảm entropy khi biết thêm một thông tin $x$:
$$ Gain(D,x_i) = G(D,x_i)= E(D) - E(D,x_i) $$

Thuộc tính nào cho độ mù mờ thông tin (entropy) nhỏ nhất hay có độ thu hoạch thông tin lớn nhất sẽ được chọn làm thuộc tính tại nút.

$$ x^* = \underset{x}{\arg\max}G(D,x_i) = \underset{x}{\arg\min}E(D,x_i) $$
**Bài tập:** Viết hàm tính độ thu hoạch thông tin khi thử chọn một thuộc tính làm thuộc tính chia.


In [None]:
# TODO: Dựa vào công thức ở trên, định nghĩa hàm gain(data, new_attr) tính độ
#       thu hoạch thông tin khi chia nhỏ tập dữ liệu theo thuộc tính mới.
def gain(data, new_attr):
    # Tính entropy của tập dữ liệu
    data_entropy = None
    
    # Tính entropy khi tập dữ liệu bị chia bởi thuộc tính mới
    # Khi chọn thuộc tính lần thứ nhất, thuộc tính chia được chọn trước đó có id = -1
    data_entropy_divide = None
    
    # Tính độ thu hoạch thông tin
    pass

## C4.5
Thuật toán C4.5 được đề xuất năm 1993 bởi Quinlan nhằm khắc phục điểm yếu của thuật toán ID3: áp dụng Tỷ lệ thu hoạch thông tin cực đại (Gain Ratio).

Tỷ lệ thu hoạch này phạt các thuộc tính có nhiều giá trị bằng cách thêm vào một hạng tử gọi là `thông tin chia` (Split Information), đại lượng này rất nhạy cảm với việc đánh giá tính rộng và đồng nhất khi chia tách dữ liệu theo giá trị thuộc tính:
$$ SplitInformation(D,x_i)=-\sum_{i=1}^{k} \frac{\left|D_i\right|}{\left|D\right|} \log{\frac{\left|D_i\right|}{\left|D\right|}}$$
`Split Information` thực tế là entropy của tập dữ liệu `D` ứng với thuộc tính chia `x_i`.

Khi đó, tỷ lệ thông tin chia được tính bằng cách chia độ thu hoạch thông tin cho thông tin chia.
$$ GainRatio(D, x_i) = \frac{Gain(D,x_i)}{SplitInformation(D,x_i)} $$

**Bài tập:** Hoàn thành hàm `split_infor()` tính thông tin chia và hàm `gain_ratio()` để tỷ lệ thu hoạch thông tin.

In [None]:
# TODO: Định nghĩa hai hàm split_infor() và gain_ratio() để cải thiện thuật toán 
#       ID3 theo ý tưởng của C4.5
def split_infor(data, new_attr):
    pass

def gain_ratio(data, new_attr):
    pass