In [None]:
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [5]:
# --- 1. Tải bộ dữ liệu Iris có sẵn ---
iris = load_iris()
X_temp = iris.data
y_temp = iris.target

print(f"Tổng số mẫu dữ liệu ban đầu: {len(X_temp)}")
print(f"Số lượng đặc trưng ban đầu: {X_temp.shape[1]}")
print(f"Các lớp (loài hoa) ban đầu: {iris.target_names}")

df = pd.DataFrame(data=X_temp, columns=iris.feature_names)
df["species"] = iris.target_names[y_temp]

print("Số lượng các hàng lặp lại: ")
print(df[:].value_counts())

# Xoá hàng trùng lặp
print("Xoá các hàng trùng lặp...")
df.drop_duplicates(inplace=True)

print("Số lượng cột bị thiếu dữ liệu:")
print(df.isnull().sum())

print("Thông tin về dữ liệu:")
df.info()

# Tách dữ liệu thành X và y
X = df.iloc[:, :-1].values  # Tất cả các cột ngoại trừ cột cuối cùng
y = df.iloc[:, -1].values   # Chỉ cột cuối cùng

print(f"Tổng số mẫu dữ liệu sau khi làm sạch: {len(X)}")
print(f"Số lượng đặc trưng sau khi làm sạch: {X.shape[1]}")
print(f"Các lớp (loài hoa) sau khi làm sạch: {iris.target_names}")
print("Cột y:", type(y))

Tổng số mẫu dữ liệu ban đầu: 150
Số lượng đặc trưng ban đầu: 4
Các lớp (loài hoa) ban đầu: ['setosa' 'versicolor' 'virginica']
Số lượng các hàng lặp lại: 
sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  species   
5.8                2.7               5.1                1.9               virginica     2
6.2                2.2               4.5                1.5               versicolor    1
                   2.9               4.3                1.3               versicolor    1
                   3.4               5.4                2.3               virginica     1
6.3                2.3               4.4                1.3               versicolor    1
                                                                                       ..
5.4                3.9               1.3                0.4               setosa        1
                                     1.7                0.4               setosa        1
5.5                2.3               4.0

In [6]:
# --- 2. Chia dữ liệu thành tập huấn luyện (80%) và tập kiểm tra (20%) ---
# train_test_split là bước cơ bản và phổ biến nhất
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2,      # 20% dữ liệu sẽ được dùng để kiểm tra
    random_state=42,    # Đảm bảo kết quả chia luôn giống nhau mỗi lần chạy
    stratify=y          # Giữ tỷ lệ các loài hoa trong cả hai tập
)

print("--- Kích thước các tập dữ liệu ---")
print(f"Tập huấn luyện (Train): {len(X_train)} mẫu")
print(f"Tập kiểm tra (Test):    {len(X_test)} mẫu")


--- Kích thước các tập dữ liệu ---
Tập huấn luyện (Train): 119 mẫu
Tập kiểm tra (Test):    30 mẫu


In [7]:
# --- 3. Huấn luyện mô hình trên tập HUẤN LUYỆN ---
print("\n--- Bắt đầu huấn luyện ---")
# Khởi tạo mô hình Cây quyết định
model = DecisionTreeClassifier(random_state=42)
# Dạy cho mô hình bằng dữ liệu huấn luyện
model.fit(X_train, y_train)
print("Huấn luyện hoàn tất!")


--- Bắt đầu huấn luyện ---
Huấn luyện hoàn tất!


In [None]:
# --- 4. Đánh giá mô hình trên tập KIỂM TRA ---
print("\n--- Đánh giá mô hình ---")
# Yêu cầu mô hình dự đoán trên dữ liệu nó chưa từng thấy
y_pred = model.predict(X_test)
# So sánh dự đoán với kết quả thật để tính độ chính xác
accuracy = accuracy_score(y_test, y_pred)

print(f"Độ chính xác trên tập kiểm tra: {accuracy * 100:.2f}%")


--- Đánh giá mô hình ---
Độ chính xác trên tập kiểm tra: 93.33%

--- Chi tiết đánh giá mô hình ---

Confusion Matrix:
[[10  0  0]
 [ 0  9  1]
 [ 0  1  9]]

Classification Report:
              precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       0.90      0.90      0.90        10
   virginica       0.90      0.90      0.90        10

    accuracy                           0.93        30
   macro avg       0.93      0.93      0.93        30
weighted avg       0.93      0.93      0.93        30


Độ chính xác qua 5-fold cross validation:
Mean: 0.95 (+/- 0.07)


In [9]:
# --- 5. Thử dự đoán một bông hoa mới ---
# Đặc trưng: [chiều dài đài, rộng đài, dài cánh, rộng cánh]
# Đây là đặc trưng của loài 'virginica'
new_flower = [[5.9, 3.0, 5.1, 1.8]] 

# Lấy kết quả dự đoán (lấy phần tử đầu tiên vì chỉ có 1 dự đoán)
prediction_index = model.predict(new_flower)[0]
print("Typele of prediction_index:", type(prediction_index))

print(f"\nDự đoán cho bông hoa mới: Loài '{prediction_index}'")

Typele of prediction_index: <class 'str'>

Dự đoán cho bông hoa mới: Loài 'virginica'
