In [57]:
# Decision Tree by using Gini Index
import numpy as np

def gini_index(groups, classes):
    # Tính toán chỉ số Gini của một tập hợp
    total_samples = float(sum([len(group) for group in groups]))
    gini = 0.0
    for group in groups:
        size = float(len(group))
        if size == 0:
            continue

        score = 0.0
        for class_val in classes:
            proportion = [row[-1] for row in group].count(class_val) / size
            score += proportion ** 2
        
        gini += (1.0 - score) * (size / total_samples)
    return gini

# Example:
dataset = [
    [2.8, "Yes"],
    [1.2, "No"],
    [3.6, "Yes"],
    [4.5, "No"],
    [5.1, "Yes"]
    ]

# Chia dataset theo một giá trị ngưỡng
def split_data(dataset, feature_index, threshold):
    left = [row for row in dataset if row[feature_index] < threshold]
    right = [row for row in dataset if row[feature_index] >= threshold]
    return left, right

# Tính Gini cho một cách chia dữ liệu
groups = split_data(dataset, 0, 3.0)
classes = ["Yes", "No"]
gini = gini_index(groups, classes)
print(f'Gini index = {gini:.4f}') 

Gini index = 0.4667


In [58]:
# Build Decission Tree by using OOP
class TreeNode:
    def __init__(self, feature_index = None, threshold = None, left = None, right = None, label = None):
        self.feature_index = feature_index
        self.threshold = threshold
        self.left = left
        self.right = right
        self.label = label

import numpy as np
class DecisionTree:
    def __init__(self, max_depth = 3):
        #Khởi tạo cây với độ sâu tối đa
        self.max_depth = max_depth
        self.root = None

    def gini_index(self, groups, classes):
        # Tính chỉ số gini
        total_samples = float(sum([len(group) for group in groups]))
        gini = 0.0
        for group in groups:
            size = len(group)
            if size == 0:
                continue
            score = 0.0
            for class_val in classes:
                proportion = [row[-1] for row in group].count(class_val) / size
                score += proportion ** 2
            gini += (1.0 - score) * (size / total_samples)
        return gini
    
    def split_data(self, dataset, feature_index, threshold):
        left = [row for row in dataset if row[feature_index] < threshold]
        right = [row for row in dataset if row[feature_index] >= threshold]
        return left, right

    def best_split(self, dataset):
        class_values = list(set(row[-1] for row in dataset))
        best_index, best_threshold, best_score, best_groups = None, None, float('inf'), None

        for index in range(len(dataset[0]) - 1):
            for row in dataset:
                groups = self.split_data(dataset, index, row[index])
                gini = self.gini_index(groups, class_values)
                if gini < best_score:
                    best_index, best_threshold, best_score, best_groups = index, row[index], gini, groups

        return best_index, best_threshold, best_groups

    def build_tree(self, dataset, depth = 0):
        class_values = [row[-1] for row in dataset]

        if len(set(class_values)) == 1 or depth >= self.max_depth:
            return TreeNode(label=max(set(class_values), key=class_values.count))

        feature_index, threshold, (left, right) = self.best_split(dataset)

        if not left or not right:
            return TreeNode(label=max(set(class_values), key=class_values.count))

        left_node = self.build_tree(left, depth + 1)
        right_node = self.build_tree(right, depth + 1)

        return TreeNode(feature_index, threshold, left_node, right_node)

    def fit(self, dataset):
        self.root = self.build_tree(dataset)

    def print_tree(self, node = None, depth = 0):
        if node is None:
            node = self.root

        if node.label is not None:
            print(f'{"  " * depth} [Leaf] Label: {node.label}')
        else:
            print(f'{"  " * depth} [Node] Feature {node.feature_index} <= {node.threshold}')
            print(f"{'  ' * depth} Left branch (<=):")
            self.print_tree(node.left, depth + 1)
            print(f"{'  ' * depth} Right branch (>):")
            self.print_tree(node.right, depth + 1)
        

In [59]:
dataset_2 = [
    [2.8, "Yes"],
    [1.2, "No"],
    [3.6, "Yes"],
    [4.5, "No"],
    [5.1, "Yes"]
    ]

tree = DecisionTree(max_depth = 3)
tree.fit(dataset_2)
tree.print_tree()

 [Node] Feature 0 <= 2.8
 Left branch (<=):
   [Leaf] Label: No
 Right branch (>):
   [Node] Feature 0 <= 4.5
   Left branch (<=):
     [Leaf] Label: Yes
   Right branch (>):
     [Node] Feature 0 <= 5.1
     Left branch (<=):
       [Leaf] Label: No
     Right branch (>):
       [Leaf] Label: Yes


In [61]:
#Bài 1:
data_1 = [
    [50, "Yes"],
    [20, "No"],
    [30, "No"],
    [70, "Yes"],
    [40, "No"],
    [60, "Yes"]
]
groups_1 = split_data(data_1, 0, 40)
print(groups_1)
gini_1 = gini_index(groups_1, classes)
print(f'Gini index = {gini_1}') 

([[20, 'No'], [30, 'No']], [[50, 'Yes'], [70, 'Yes'], [40, 'No'], [60, 'Yes']])
Gini index = 0.25


In [None]:
#Bài 2:
# Build Decission Tree by using OOP
class TreeNode:
    def __init__(self, feature_index = None, threshold = None, left = None, right = None, label = None):
        self.feature_index = feature_index
        self.threshold = threshold
        self.left = left
        self.right = right
        self.label = label

import numpy as np
class DecisionTree:
    def __init__(self, max_depth = 3):
        #Khởi tạo cây với độ sâu tối đa
        self.max_depth = max_depth
        self.root = None

    def gini_index(self, groups, classes):
        # Tính chỉ số gini
        total_samples = float(sum([len(group) for group in groups]))
        gini = 0.0
        for group in groups:
            size = len(group)
            if size == 0:
                continue
            score = 0.0
            for class_val in classes:
                proportion = [row[-1] for row in group].count(class_val) / size
                score += proportion ** 2
            gini += (1.0 - score) * (size / total_samples)
        return gini
    
    def split_data(self, dataset, feature_index, threshold):
        left = [row for row in dataset if row[feature_index] < threshold]
        right = [row for row in dataset if row[feature_index] >= threshold]
        return left, right

    def best_split(self, dataset):
        class_values = list(set(row[-1] for row in dataset))
        best_index, best_threshold, best_score, best_groups = None, None, float('inf'), None

        for index in range(len(dataset[0]) - 1):
            # Tính toán ngưỡng trung bình
            values = sorted(list(set(row[index] for row in dataset)))
            for i in range(len(values) - 1):
                threshold = (values[i] + values[i + 1]) / 2
                groups = self.split_data(dataset, index, threshold)
                gini = self.gini_index(groups, class_values)
                if gini < best_score:
                    best_index, best_threshold, best_score, best_groups = index, threshold, gini, groups
        return best_index, best_threshold, best_groups

    def build_tree(self, dataset, depth = 0):
        class_values = [row[-1] for row in dataset]

        if len(set(class_values)) == 1 or depth >= self.max_depth:
            return TreeNode(label=max(set(class_values), key=class_values.count))

        feature_index, threshold, (left, right) = self.best_split(dataset)

        if not left or not right:
            return TreeNode(label=max(set(class_values), key=class_values.count))

        left_node = self.build_tree(left, depth + 1)
        right_node = self.build_tree(right, depth + 1)
        return TreeNode(feature_index, threshold, left_node, right_node)

    def fit(self, dataset):
        self.root = self.build_tree(dataset)

    def print_tree(self, node = None, depth = 0):
        if node is None:
            node = self.root

        if node.label is not None:
            print(f'{"  " * depth} [Leaf] Label: {node.label}')
        else:
            print(f'{"  " * depth} [Node] Feature {node.feature_index} <= {node.threshold}')
            print(f"{'  ' * depth} Left branch (<=):")
            self.print_tree(node.left, depth + 1)
            print(f"{'  ' * depth} Right branch (>):")
            self.print_tree(node.right, depth + 1)
    
    def predict(self, row):
        node = self.root
        while node.label is None:
            if row[node.feature_index] < node.threshold:
                node = node.left
            else:
                node = node.right
        return node.label

    def predict_data(self, dataset):
        return [self.predict(row) for row in dataset]
        

In [68]:
test_data = [
    [25, 700, 50000, "Yes"],  # Tuổi 25, điểm tín dụng 700, lương 50000, vay được
    [35, 800, 75000, "Yes"],  # Tuổi 35, điểm tín dụng 800, lương 75000, vay được
    [45, 600, 60000, "No"], # Tuổi 45, điểm tín dụng 600, lương 60000, No vay được
    [20, 650, 30000, "No"], # Tuổi 20, điểm tín dụng 650, lương 30000, No vay được
    [30, 750, 80000, "Yes"],  # Tuổi 30, điểm tín dụng 750, lương 80000, vay được
    [50, 550, 40000, "No"], # Tuổi 50, điểm tín dụng 550, lương 40000, No vay được
    [28, 720, 65000, "Yes"],  # Tuổi 28, điểm tín dụng 720, lương 65000, vay được
    [40, 680, 55000, "No"], # Tuổi 40, điểm tín dụng 680, lương 55000, No vay được
    [33, 780, 70000, "Yes"],  # Tuổi 33, điểm tín dụng 780, lương 70000, vay được
    [22, 620, 35000, "No"]  # Tuổi 22, điểm tín dụng 620, lương 35000, No vay được
]

tree = DecisionTree()
tree.fit(test_data)
tree.print_tree()

 [Node] Feature 1 <= 690.0
 Left branch (<=):
   [Leaf] Label: No
 Right branch (>):
   [Leaf] Label: Yes
