# Họ và Tên: Lâm Quang Phú
# MSSV: 21094601

## Import libary

In [87]:
import pandas as pd
import numpy as np

## 1- Tính Entropy

In [88]:
def entropy(S):
    if len(S) == 0 : 
        return 0
    target = S.iloc[:, -1]
    S = target.value_counts()
    
    if len(S) == 1:
        return 0
    else:
        prob1 =float(S["Yes"])/float(S.sum())
        prob0 = float(S["No"])/float(S.sum())
        return -prob0*np.log2(prob0)-prob1*np.log2(prob1)

## 2- Tính Information gain

In [89]:
def information_gain(t, A):
    HxS= 0
    n = 0
    
    for v in A:
        n += len(v)
        
    for v in A:
        HxS += len(v)*entropy(v)/n
    gain = t.entropy - HxS 
    return gain

## 3- Xây dựng cây Decision Tree

In [93]:


class Node(object):
    def __init__(self, data = None, children = [], entropy = 0):
        self.data = data #Dữ liêu quản lý
        self.children = children # Danh sách các node con
        self.entropy = entropy # entropy của node
        self.split_attribute = None # thuộc tính đại diện nếu nó không là node lá
        self.order = None       # giá trị thuộc tính nếu là node con
        self.label = None       # giá trị của lable nếu node là node lá

    def set_properties(self, split_attribute, order):
        self.split_attribute = split_attribute
        self.order = order

    def set_label(self, label):
        self.label = label

    
        
        
def split_selection_method(t, data):
    best_gain = 0
    best_splits = []
    best_attribute = None
    order = None
    for att in list(data.columns[:-1]):
        values = data[att].unique().tolist()
        if len(values) == 1:
            continue #entropy = 0
        splits = []
        for val in values: 
            sub_data = data[data[att] == val]
            splits.append(sub_data)
            
        gain = information_gain(t, splits)
        if gain > best_gain:
            best_gain = gain
            best_splits = splits
            best_attribute = att
            order = values
            
    t.set_properties(best_attribute, order)
    
    child_nodes = [Node(data =  split, entropy = entropy(split)) for split in best_splits]
    return child_nodes


def BuildTree(t, data, split_selection_method):    
    if t.entropy != 0:
        t.children = split_selection_method(t, data)
        if not t.children:
            target = data.iloc[:, -1]
            t.set_label(target.mode()[0])
        for child in t.children:
            BuildTree(child, child.data, split_selection_method)
    else:
        target = data.iloc[:, -1]
        t.set_label(target.mode()[0])
 

## 4- Áp dụng giải thuật này cho bộ dữ liệu sau

In [135]:
def predict(root, new_data):
    npoints = new_data.count()[0]
    labels = [None]*npoints
    for i in range(npoints):
        x = new_data.iloc[i, :] 
        # bắt đầu từ gốc và di chuyển đệ quy nếu không gặp lá
        node = root
        while node.children: 
            node = node.children[node.order.index(x[node.split_attribute])]
        
        print(f"{x.values}  {node.label}")
        
        labels[i] = node.label

    return labels

data_dict = [
    {"Outlook": "Sunny", "Humidity": "High", "Wind": "Weak", "PlayTennis": "No"},
    {"Outlook": "Sunny", "Humidity": "High", "Wind": "Strong", "PlayTennis": "No"},
    {"Outlook": "Overcast", "Humidity": "High", "Wind": "Weak", "PlayTennis": "Yes"},
    {"Outlook": "Rain", "Humidity": "High", "Wind": "Weak", "PlayTennis": "Yes"},
    {"Outlook": "Rain", "Humidity": "Normal", "Wind": "Weak", "PlayTennis": "Yes"},
    {"Outlook": "Rain", "Humidity": "Normal", "Wind": "Strong", "PlayTennis": "No"},
    {"Outlook": "Overcast", "Humidity": "Normal", "Wind": "Strong", "PlayTennis": "Yes"},
    {"Outlook": "Sunny", "Humidity": "High", "Wind": "Weak", "PlayTennis": "No"},
    {"Outlook": "Sunny", "Humidity": "Normal", "Wind": "Weak", "PlayTennis": "Yes"},
    {"Outlook": "Rain", "Humidity": "Normal", "Wind": "Weak", "PlayTennis": "Yes"},
    {"Outlook": "Sunny", "Humidity": "Normal", "Wind": "Strong", "PlayTennis": "Yes"},
    {"Outlook": "Overcast", "Humidity": "High", "Wind": "Strong", "PlayTennis": "Yes"},
    {"Outlook": "Overcast", "Humidity": "Normal", "Wind": "Weak", "PlayTennis": "Yes"},
    {"Outlook": "Rain", "Humidity": "High", "Wind": "Strong", "PlayTennis": "No"}
]


df = pd.DataFrame(data_dict)
X = df.iloc[:, :-1]
y = df.iloc[:, -1]



root = Node(data = df, entropy= entropy(df))
BuildTree(root, df, split_selection_method)

print("Predict")
print("="*20)
predict(root, X)
print("="*20)

Predict
['Sunny' 'High' 'Weak']  No
['Sunny' 'High' 'Strong']  No
['Overcast' 'High' 'Weak']  Yes
['Rain' 'High' 'Weak']  Yes
['Rain' 'Normal' 'Weak']  Yes
['Rain' 'Normal' 'Strong']  No
['Overcast' 'Normal' 'Strong']  Yes
['Sunny' 'High' 'Weak']  No
['Sunny' 'Normal' 'Weak']  Yes
['Rain' 'Normal' 'Weak']  Yes
['Sunny' 'Normal' 'Strong']  Yes
['Overcast' 'High' 'Strong']  Yes
['Overcast' 'Normal' 'Weak']  Yes
['Rain' 'High' 'Strong']  No
