In [4]:
# gọi hai thuật toán chạy trong notebook này
%run decisionTree.ipynb
%run randomForest.ipynb

In [5]:
# nhập thư viện
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [6]:
# lấy dữ liệu
data = pd.read_csv('drug200.csv')
data

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,DrugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,DrugY
...,...,...,...,...,...,...
195,56,F,LOW,HIGH,11.567,drugC
196,16,M,LOW,HIGH,12.006,drugC
197,52,M,NORMAL,HIGH,9.894,drugX
198,23,M,NORMAL,NORMAL,14.020,drugX


![image.png](attachment:image.png)

In [7]:
# tạo tập X và y
X = data # frame
y = data["Drug"] # series

In [8]:
# xem giá trị xuất hiện của các cột định tính để biến đổi bước tiếp theo
# chúng ta có thể dùng set hoặc np.unique

print(X.Sex.unique())
print(X.BP.unique())
print(X.Cholesterol.unique())
print(y.unique())

['F' 'M']
['HIGH' 'LOW' 'NORMAL']
['HIGH' 'NORMAL']
['DrugY' 'drugC' 'drugX' 'drugA' 'drugB']


![image.png](attachment:image.png)

In [9]:
# biến đổi dữ liệu định tính sang định lượng: Sex, BP, Cholesterol và Drug
# 'M': 0, 'F': 1
# 'HIGH': 2, 'NORMAL': 1, 'LOW': 0
# 'HIGH': 1, 'NORMAL': 0
# 'drugA': 0, 'drugB': 1, 'drugC': 2, 'drugX': 3, 'DrugY': 4
sex_mapping = {'M': 0, 'F': 1}
bp_mapping = {'HIGH': 2, 'NORMAL': 1, 'LOW': 0}
cholesterol_mapping = {'HIGH': 1, 'NORMAL': 0}
drug_mapping = {'drugA': 0, 'drugB': 1, 'drugC': 2, 'drugX': 3, 'DrugY': 4}

X['Sex'] = X['Sex'].map(sex_mapping)
X['BP'] = X['BP'].map(bp_mapping)
X['Cholesterol'] = X['Cholesterol'].map(cholesterol_mapping)
y = y.map(drug_mapping)


In [10]:
print(X)
print(y)

     Age  Sex  BP  Cholesterol  Na_to_K   Drug
0     23    1   2            1   25.355  DrugY
1     47    0   0            1   13.093  drugC
2     47    0   0            1   10.114  drugC
3     28    1   1            1    7.798  drugX
4     61    1   0            1   18.043  DrugY
..   ...  ...  ..          ...      ...    ...
195   56    1   0            1   11.567  drugC
196   16    0   0            1   12.006  drugC
197   52    0   1            1    9.894  drugX
198   23    0   1            0   14.020  drugX
199   40    1   0            0   11.349  drugX

[200 rows x 6 columns]
0      4
1      2
2      2
3      3
4      4
      ..
195    2
196    2
197    3
198    3
199    3
Name: Drug, Length: 200, dtype: int64


![image.png](attachment:image.png)

In [11]:
# tạo dữ liệu train test với tỉ lệ tập test là 0.2
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print(X_train)
print(y_train)

     Age  Sex  BP  Cholesterol  Na_to_K   Drug
79    32    1   0            0   10.840  drugX
197   52    0   1            1    9.894  drugX
38    39    1   1            0    9.709  drugX
24    33    1   0            1   33.486  DrugY
122   34    0   1            1   22.456  DrugY
..   ...  ...  ..          ...      ...    ...
106   22    0   1            1   11.953  drugX
14    50    1   1            1   12.703  drugX
92    29    1   2            1   29.450  DrugY
179   67    1   1            1   15.891  DrugY
102   28    1   0            1   13.127  drugC

[160 rows x 6 columns]
79     3
197    3
38     3
24     4
122    4
      ..
106    3
14     3
92     4
179    4
102    2
Name: Drug, Length: 160, dtype: int64


![image.png](attachment:image.png)

In [12]:
# dùng model Decision Tree

In [13]:
decisionTree = DecisionTreeClass(min_samples_split = 2, max_depth = 10)

In [14]:
decisionTree.fit(X_train, y_train)

In [15]:
y_pred =  decisionTree.predict(X_test)
y_pred

array([3, 4, 3, 2, 4, 4, 4, 3, 0, 3, 0, 3, 4, 0, 1, 4, 1, 3, 2, 4, 1, 3,
       3, 4, 4, 4, 2, 3, 4, 3, 4, 2, 2, 4, 0, 4, 3, 0, 4, 0])

Kết quả này các bạn không nhất thiết phải giống từng giá trị trong array. Tuy nhiên chiều dài phải giống
![image.png](attachment:image.png)

In [16]:
print(y_test.values)

[3 4 3 2 4 4 4 3 0 3 0 3 4 0 1 4 1 3 2 4 1 3 3 4 4 4 2 3 4 3 4 2 2 4 0 4 3
 0 4 0]


In [17]:
# độ chính xác
accuracy(y_test.values, y_pred)

100.0

In [18]:
# dùng model Random Forest

In [19]:
randomForest = RandomForest(n_trees = 3, n_features = 4)

In [None]:
randomForest.fit(X_train, y_train)

In [21]:
y_pred = randomForest.predict(X_test)
y_pred

array([3, 4, 3, 2, 4, 4, 4, 3, 0, 3, 0, 3, 4, 0, 1, 4, 1, 3, 2, 4, 1, 3,
       3, 4, 4, 4, 2, 3, 4, 3, 4, 2, 2, 4, 0, 4, 3, 0, 4, 0])

In [22]:
print(y_test.values)

[3 4 3 2 4 4 4 3 0 3 0 3 4 0 1 4 1 3 2 4 1 3 3 4 4 4 2 3 4 3 4 2 2 4 0 4 3
 0 4 0]


In [23]:
# độ chính xác
accuracy(y_test.values, y_pred)

100.0

In [24]:
# phát triển thêm:
# 1. Học thêm Decision Tree bằng thuật toán CART cho dự đoán cả Classification và Regression
# 2. Tìm hiểu về phương pháp cắt tỉa để giảm overfitting
# 3. Code lại baiTap sử dụng thư viện Scikit-learn
# 4. So sánh hai thuật toán của Decision Tree: ID3 (cái đang làm) và CART.

In [25]:
# Xem thêm ảnh dưới để biết thêm thuật toán nào nên dùng các kỹ thuật Scale
# Min-max scaler, Standard scaler, Robust scaler

![Ảnh màn hình 2024-10-06 lúc 13.15.48.png](attachment:b608361b-9021-4483-88e2-b43b0b81b1f1.png)