# Thành viên nhóm:
## Nguyễn Hoàng Bảo       22110284
## Trần Thị Kim Chung     22110288
## Ngô Trung Hiếu         22110323

# Demo Tree Detection


In [9]:
import math
import csv
import os
from graphviz import Digraph

In [10]:
def read_csv(file_path):
    if not os.path.exists(file_path):
        raise FileNotFoundError(f"File {file_path} không tồn tại.")
    data = []
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            reader = csv.DictReader(file)
            headers = reader.fieldnames
            print("Các cột trong CSV:", headers)
            for row in reader:
                cleaned_row = {key.strip(): value.strip() for key, value in row.items()}
                data.append(cleaned_row)
        print("Dữ liệu 5 dòng đầu:")
        for row in data[:5]:
            print(row)
        return data
    except Exception as e:
        raise Exception(f"Lỗi khi đọc file CSV: {str(e)}")

In [11]:
def calculate_entropy(data, target_col): 
    total = len(data)
    if total == 0:
        return 0
    target_values = [row[target_col] for row in data]
    value_counts = {}
    for val in target_values:
        value_counts[val] = value_counts.get(val, 0) + 1
    entropy = 0
    for count in value_counts.values():
        probability = count / total
        entropy -= probability * math.log2(probability) if probability > 0 else 0
    return entropy

In [12]:
def calculate_information_gain(data, attribute, target_col):
    total_entropy = calculate_entropy(data, target_col)
    attribute_values = set(row[attribute] for row in data)
    weighted_entropy = 0
    total = len(data)
    
    for value in attribute_values:
        subset = [row for row in data if row[attribute] == value]
        subset_size = len(subset)
        if subset_size > 0:
            subset_entropy = calculate_entropy(subset, target_col)
            weighted_entropy += (subset_size / total) * subset_entropy
    
    return total_entropy - weighted_entropy


In [13]:
def find_best_attribute(data, attributes, target_col):
    max_gain = -float('inf')
    best_attr = None
    print(f"\nTính Information Gain cho các thuộc tính: {attributes}")
    for attr in attributes:
        if attr not in data[0]:
            raise KeyError(f"Thuộc tính {attr} không có trong dữ liệu.")
        gain = calculate_information_gain(data, attr, target_col)
        print(f"Information Gain của {attr}: {gain:.4f}")
        if gain > max_gain:
            max_gain = gain
            best_attr = attr
    print(f"Chọn thuộc tính tốt nhất: {best_attr} (Gain: {max_gain:.4f})")
    return best_attr


In [14]:
def build_decision_tree(data, attributes, target_col, depth=0):
    if not data:
        raise ValueError("Dữ liệu rỗng.")
    target_values = [row[target_col] for row in data]
    print(f"\nXây dựng cây tại độ sâu {depth}, số mẫu: {len(data)}, nhãn: {set(target_values)}")
    
    if len(set(target_values)) == 1:
        print(f"Trả về lá: {target_values[0]}")
        return target_values[0]
    
    if not attributes:
        majority = max(set(target_values), key=target_values.count)
        print(f"Hết thuộc tính, trả về nhãn đa số: {majority}")
        return majority
    
    best_attr = find_best_attribute(data, attributes, target_col)
    if not best_attr:
        majority = max(set(target_values), key=target_values.count)
        print(f"Không tìm được thuộc tính tốt, trả về nhãn đa số: {majority}")
        return majority
    
    tree = {best_attr: {}}
    attr_values = set(row[best_attr] for row in data)
    new_attributes = [attr for attr in attributes if attr != best_attr]
    print(f"Chia nhánh theo {best_attr}, giá trị: {attr_values}")
    
    for value in attr_values:
        subset = [row for row in data if row[best_attr] == value]
        if not subset:
            majority = max(set(target_values), key=target_values.count)
            tree[best_attr][value] = majority
            print(f"Nhánh {value} rỗng, gán nhãn đa số: {majority}")
        else:
            print(f"Xử lý nhánh {value} với {len(subset)} mẫu")
            tree[best_attr][value] = build_decision_tree(subset, new_attributes, target_col, depth + 1)
    
    return tree

In [15]:
def draw_tree(tree, dot=None, parent=None, edge_label=None, node_counter=None):
    if dot is None:
        dot = Digraph(comment='Decision Tree')
        dot.attr(rankdir='LR')
        dot.attr('node', shape='box', style='filled', fillcolor='lightblue')
        node_counter = [0]  # Danh sách để lưu bộ đếm, cho phép thay đổi giá trị trong hàm đệ quy
    
    if isinstance(tree, dict):
        for attr, branches in tree.items():
            node_counter[0] += 1
            node_id = f"node_{node_counter[0]}"  # Tạo node_id duy nhất
            dot.node(node_id, attr)
            if parent:
                dot.edge(parent, node_id, label=edge_label)
            for value, subtree in branches.items():
                draw_tree(subtree, dot, node_id, value, node_counter)
    else:
        node_counter[0] += 1
        node_id = f"node_{node_counter[0]}"
        dot.node(node_id, tree, fillcolor='lightgreen')
        if parent:
            dot.edge(parent, node_id, label=edge_label)
    
    return dot

In [16]:
file_path = "D:\Data_Mining\project\data\tennis.csv"
data = read_csv(file_path)

print("\nCác cột thuộc tính trong file đầu vào: ", list(data[0].keys()))

target_col = input("Chọn cột mục tiêu").strip()

attributes = [col for col in data[0].keys() if col != target_col]

print("\nThuộc tính bạn chọn làm cột mục tiêu là:", target_col)
print(f"Thuộc tính còn lại là: {attributes}")

  file_path = "D:\Data_Mining\project\data\tennis.csv"
  file_path = "D:\Data_Mining\project\data\tennis.csv"


FileNotFoundError: File D:\Data_Mining\project\data	ennis.csv không tồn tại.

In [None]:
try:
    # Thuộc tính và cột mục tiêu
    # attributes = ["Outlook", "Temperature", "Humidity", "Wind"]
    # target_col = "Play"
    
    # Kiểm tra cột
    expected_columns = attributes + [target_col]
    if not all(col in data[0] for col in expected_columns):
        missing_cols = [col for col in expected_columns if col not in data[0]]
        raise KeyError(f"Các cột không khớp. Thiếu cột: {missing_cols}")
    
    print("\nBắt đầu xây dựng cây quyết định...")
    decision_tree = build_decision_tree(data, attributes, target_col)
    
    # Vẽ và lưu cây dưới dạng hình ảnh
    print("\nVẽ cây bằng Graphviz...")
    dot = draw_tree(decision_tree)
    output_path = "decision_tree"
    dot.render(output_path, format='png', cleanup=True)
    print(f"Đã tạo file hình ảnh: {output_path}.png")
        
except FileNotFoundError as e:
        print(f"Lỗi: {e}")
except KeyError as e:
        print(f"Lỗi: {e}")
except Exception as e:
        print(f"Lỗi không xác định: {str(e)}")


Bắt đầu xây dựng cây quyết định...

Xây dựng cây tại độ sâu 0, số mẫu: 15, nhãn: {'yes', 'no'}

Tính Information Gain cho các thuộc tính: ['Outlook', 'Temperature', 'Humidity', 'Wind']
Information Gain của Outlook: 0.3058
Information Gain của Temperature: 0.0065
Information Gain của Humidity: 0.3368
Information Gain của Wind: 0.0280
Chọn thuộc tính tốt nhất: Humidity (Gain: 0.3368)
Chia nhánh theo Humidity, giá trị: {'low', 'normal', 'high'}
Xử lý nhánh low với 3 mẫu

Xây dựng cây tại độ sâu 1, số mẫu: 3, nhãn: {'no'}
Trả về lá: no
Xử lý nhánh normal với 6 mẫu

Xây dựng cây tại độ sâu 1, số mẫu: 6, nhãn: {'yes', 'no'}

Tính Information Gain cho các thuộc tính: ['Outlook', 'Temperature', 'Wind']
Information Gain của Outlook: 0.1909
Information Gain của Temperature: 0.1092
Information Gain của Wind: 0.1909
Chọn thuộc tính tốt nhất: Outlook (Gain: 0.1909)
Chia nhánh theo Outlook, giá trị: {'sunny', 'rainy', 'overcast'}
Xử lý nhánh sunny với 3 mẫu

Xây dựng cây tại độ sâu 2, số mẫu: 3, nh

In [None]:
name = input("Nhập vào: ")
age = int(input("tuổi: "))
print("XIN CHÀO", name, "- Bạn", age, "tuổi")

XIN CHÀO h - Bạn 12 tuổi
