In [22]:
import pandas as pd
import numpy as np

# Thuật toán ID3 cho dữ liệu định tính

In [23]:
class Node:
    def __init__(self, feature=None, value=None, label=None, branches=None):
        self.feature = feature
        self.value = value
        self.label = label
        self.branches = branches

In [24]:
def entropy(data):
    label_freq = data.iloc[:, -1].value_counts(normalize=True)
    entropy = sum([-p * np.log2(p) for p in label_freq])
    return entropy

In [25]:
def information_gain(data, feature):
    total_entropy = entropy(data)
    values, counts = np.unique(data[feature], return_counts=True)
    
    weighted_entropy = sum([(counts[i]/np.sum(counts)) * 
                            entropy(data.where(data[feature] == values[i]).dropna()) for i in range(len(values))])
    
    information_gain = total_entropy - weighted_entropy
    return information_gain

In [26]:
def id3(data, features, target):
    if len(np.unique(data[target])) <= 1:
        return Node(label=np.unique(data[target])[0])
    elif len(features) == 0:
        return Node(label=np.unique(data[target])[np.argmax(data[target].value_counts())])
    else:
        best_feature = max(features, key=lambda x: information_gain(data, x))
        tree = Node(feature=best_feature)
        for value in np.unique(data[best_feature]):
            sub_data = data.where(data[best_feature] == value).dropna()
            sub_tree = id3(sub_data, [x for x in features if x != best_feature], target)
            tree.branches = tree.branches or {}
            tree.branches[value] = sub_tree
        return tree

In [27]:
# Để hiển thị cây quyết định được tạo ra bằng thuật toán ID3
def print_tree(node, depth=0):
    if node.label is not None:
        print("  "*depth, "Leaf:", node.label)
    else:
        print("  "*depth, node.feature)
        for value, subtree in node.branches.items():
            print("  "*(depth+1), value)
            print_tree(subtree, depth+2)

In [28]:
data = pd.read_csv("data.csv")
data.columns

Index(['id', 'outlook', 'temperature', 'humidity', 'wind', 'play'], dtype='object')

In [29]:
data

Unnamed: 0,id,outlook,temperature,humidity,wind,play
0,1,sunny,hot,high,weak,no
1,2,sunny,hot,high,strong,no
2,3,overcast,hot,high,weak,yes
3,4,rainy,mild,high,weak,yes
4,5,rainy,cool,normal,weak,yes
5,6,rainy,cool,normal,strong,no
6,7,overcast,cool,normal,strong,yes
7,8,sunny,mild,high,weak,no
8,9,sunny,cool,normal,weak,yes
9,10,rainy,mild,normal,weak,yes


In [11]:
target = "play"
features = list(data.columns[1:-1])
tree = id3(data, features, target)
print_tree(tree)

 outlook
   overcast
     Leaf: yes
   rainy
     wind
       strong
         Leaf: no
       weak
         Leaf: yes
   sunny
     humidity
       high
         Leaf: no
       normal
         Leaf: yes


# Decision Tree trong `sklearn`

Scikit-Learn sử dụng thuật toán `CART` chỉ tạo ra các cây nhị phân: các nút không là lá luôn có hai nút con (nghĩa là các câu hỏi chỉ có câu trả lời có/không).

Thuật toán này sử dụng một thuộc tính `k` trong tập các tập thuộc tính và ngưỡng $t_k$ là ngưỡng để phân chia dữ liệu thành 2 phần

## Gini Impurity (Gini index) 

- là một phương pháp đo độ tinh khiết của một tập hợp dữ liệu được sử dụng trong các thuật toán học máy

- Gini index đo lường khả năng chọn một mẫu ngẫu nhiên từ tập hợp dữ liệu và xác định xem nó sẽ được phân loại đúng trong tập hợp đó hoặc không

- Mục tiêu của việc sử dụng Gini index trong CART là tìm thuộc tính và giá trị ngưỡng phân chia mà cho kết quả tối ưu trong việc phân loại các mẫu vào các nhóm khác nhau.

$$\text{Gini Impurity} = \sum_{i=1}^{K}p_{i}(1-p_{i}) = 1 - \sum_{i=1}^{K}p_{i}^2$$

- Tính bằng cách tính tổng xác suất lỗi phân loại khi một quan sát được phân loại ngẫu nhiên theo phân phối xác suất của các nhãn.

## CART Hàm mất mát cho bài toán phân loại

$$J(k, t_k) = \frac{m_{\text{left}}}{m} G_{\text{left}} + \frac{m_{\text{right}}}{m} G_{\text{right}}$$

$$
\begin{cases}
    G_{\text{left/right}} \text{ measures the impurity of the left/right subset} \\
    m_{\text{left/right}} \text{ is the number of instances in the left/right subset}
\end{cases}
$$

Có thể chọn phép đo thành Entropy Impurity bằng cách đặt `criterion` bằng `entropy` trong `sklearn`

Việc sử dụng Gini Impurity hay Entropy làm tiêu chí phân tách tùy thuộc vào vấn đề và dữ liệu. Dưới đây là một số cân nhắc chung: 

- Gini Impurity có xu hướng tính toán nhanh hơn entropy, điều này làm cho nó trở thành một lựa chọn tốt khi xử lý các tập dữ liệu lớn. 

- Gini Impurity là một tiêu chí tốt để sử dụng khi các lớp cân bằng tốt, trong khi entropy có thể hoạt động tốt hơn khi các lớp không cân bằng. 

- Entropy là một tiêu chí cung cấp nhiều thông tin hơn so với Gini Impurity, vì nó tính đến xác suất của từng loại, thay vì chỉ các tần số. Nó có thể dẫn đến một cây cân bằng và chính xác hơn trong một số trường hợp. 

- Cả Gini Impurity và entropy đều được sử dụng rộng rãi và đã được chứng minh là hoạt động tốt trong nhiều ứng dụng trong thế giới thực. 


## CART Hàm mất mát cho bài toán hồi quy

Vẫn là cách hoạt động cũ, nhưng thay vì sư dụng `Gini Impurity` thì có thể huấn luyện mô hình với `MSE` (Mean Square Error), làm cho `MSE` là nhỏ nhất:

$$J(k, t_k) = \frac{m_{\text{left}}}{m} MSE_{\text{left}} + \frac{m_{\text{right}}}{m} MSE_{\text{right}}$$

$$
\begin{cases}
    MSE_{\text{node}} = \sum_{i \in \text{node}} (\hat{y}_{\text{node}} - y^{(i)})^2 \text{ measures the impurity of the left/right subset} \\
    \hat{y}_{\text{node}} = \frac{1}{m_{\text{node}}} \sum_{i \in \text{node}} y^{(i)} \\
    m_{\text{left/right}} \text{ is the number of instances in the left/right subset}
\end{cases}
$$