<a href="https://colab.research.google.com/github/HPNChanel/Colab-Machine-Learning-Model/blob/main/Decision_Trees.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Mục tiêu: Sử dụng Decision Tree để phân loại với bộ dữ liệu Iris

1. Cài đặt và chuẩn bị môi trường

In [None]:
!pip install scikit-learn matplotlib graphviz



2. Tải và kiểm tra dữ liệu
Bộ dữ liệu Iris được tích hợp trong thư viện scikit-learn

In [2]:
# Import các thư viện cần thiết
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.tree import export_graphviz
import graphviz
import joblib
import pandas as pd

In [3]:
# Tải bộ dữ liệu Iris
iris = load_iris()

# Chuyển dữ liệu thành DataFrame để thao tác
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['species'] = iris.target
df['species'] = df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

# Hiển thị thông tin cơ bản
print(df.head())
print("\nData Information:")
print(df.info())

   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

  species  
0  setosa  
1  setosa  
2  setosa  
3  setosa  
4  setosa  

Data Information:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  150 non-null    float64
 1   sepal width (cm)   150 non-null    float64
 2   petal length (cm)  150 non-null    float64
 3   petal width (cm)   150 non-null    float64
 4   species            150 non-null    ob

3. Chia dữ liệu và xây dựng mô hình
Chia bộ dữ liệu thành tập huấn luyện và kiểm tra, sau đó xây dựng Decision Tree

In [4]:
# Chia dữ liệu thành X (features) và y (labels)
X = iris.data
y = iris.target

# Chia tập dữ liệu(80% huấn luyện, 20% kiểm tra)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Khởi tạo và huấn luyện Decision Tree
model = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=42)
model.fit(X_train, y_train)

# Dự đoán trên tập kiểm tra
y_pred = model.predict(X_test)

# Đánh giá hiệu suất
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Accuracy: 1.0

Classification Report:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



4. Hiển thị cây quyết định

In [5]:
# Xuất cây quyết định dưới dạng biểu đồ
dot_data = export_graphviz(
    model,
    out_file=None,
    feature_names=iris.feature_names,
    class_names=iris.target_names,
    filled=True,
    rounded=True,
    special_characters=True
)

# Hiển thị cây
graph = graphviz.Source(dot_data)
graph.render("decision_tree")  # Tạo file pdf
graph.view()  # Hiển thị lên Google Colab

'decision_tree.pdf'

5. Tối ưu hóa mô hình

In [6]:
# Tối ưu hóa với độ sâu lớn hơn
model_optimized = DecisionTreeClassifier(criterion='entropy', max_depth=5, random_state=42)
model_optimized.fit(X_train, y_train)

# Dự đoán và đánh giá lại
y_pred_optimized = model_optimized.predict(X_test)
print("Accuracy (Optimized):", accuracy_score(y_test, y_pred_optimized))

Accuracy (Optimized): 1.0


6. Lưu và tải mô hình (tái sử dụng mô hình)

In [7]:
# Lưu mô hình
joblib.dump(model, "decision_tree_model.pkl")

# Tải lại mô hình
loaded_model = joblib.load("decision_tree_model.pkl")
print("\nPredict loaded model:", loaded_model.predict(X_test[:5]))


Predict loaded model: [1 0 2 1 1]
