## 1. Decision Tree for Classification


In [11]:
# Import libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier, AdaBoostRegressor, AdaBoostClassifier, GradientBoostingRegressor, GradientBoostingClassifier
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, accuracy_score



In [3]:
dataset_path = './Housing.csv'
df = pd.read_csv(dataset_path)
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


In [4]:
# Xử lý dữ liệu categorical
categorical_cols = df.select_dtypes(include=['object']).columns.to_list()
print(categorical_cols)

['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea', 'furnishingstatus']


In [6]:
# Chuyển đổi chúng thành dạng số
ordical_encoder = OrdinalEncoder()
encoded_categorical_cols = ordical_encoder.fit_transform(df[categorical_cols])
encoded_categorical_df = pd.DataFrame(encoded_categorical_cols, columns=categorical_cols)
numerical_df = df.drop(categorical_cols, axis=1)
encoded_df = pd.concat([numerical_df, encoded_categorical_df], axis=1)
encoded_df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking,mainroad,guestroom,basement,hotwaterheating,airconditioning,prefarea,furnishingstatus
0,13300000,7420,4,2,3,2,1.0,0.0,0.0,0.0,1.0,1.0,0.0
1,12250000,8960,4,4,4,3,1.0,0.0,0.0,0.0,1.0,0.0,0.0
2,12250000,9960,3,2,2,2,1.0,0.0,1.0,0.0,0.0,1.0,1.0
3,12215000,7500,4,2,2,3,1.0,0.0,1.0,0.0,1.0,1.0,0.0
4,11410000,7420,4,1,2,2,1.0,1.0,1.0,0.0,1.0,0.0,0.0


In [7]:
# Chuẩn hóa bộ dữ liệu
normalizer = StandardScaler()
dataset_arr = normalizer.fit_transform(encoded_df)
dataset_arr

array([[ 4.56636513,  1.04672629,  1.40341936, ...,  1.4726183 ,
         1.80494113, -1.40628573],
       [ 4.00448405,  1.75700953,  1.40341936, ...,  1.4726183 ,
        -0.55403469, -1.40628573],
       [ 4.00448405,  2.21823241,  0.04727831, ..., -0.67906259,
         1.80494113, -0.09166185],
       ...,
       [-1.61432675, -0.70592066, -1.30886273, ..., -0.67906259,
        -0.55403469,  1.22296203],
       [-1.61432675, -1.03338891,  0.04727831, ..., -0.67906259,
        -0.55403469, -1.40628573],
       [-1.61432675, -0.5998394 ,  0.04727831, ..., -0.67906259,
        -0.55403469,  1.22296203]])

In [8]:
# Tách dữ liệu X, y
X, y = dataset_arr[:, 1:], dataset_arr[:,0]

In [9]:

# Chia tập dữ liệu train, val tỷ lệ 7:3
test_size = 0.3
random_state = 1
is_shuffle = True
X_train, X_val, y_train, y_val = train_test_split(
                    X, y,
                    test_size=test_size,
                    random_state=random_state,
                    shuffle=is_shuffle)


In [12]:
# Huấn luyện mô hình Regressor
# Mô hình Random Forest
regressor_random = RandomForestRegressor(random_state = random_state)
regressor_random.fit(X_train, y_train)

# Mô hình AdaBoost
regressor_ada = AdaBoostRegressor(random_state = random_state)
regressor_ada.fit(X_train, y_train)

# Mô hình Gradient Boosting
regressor_gradient = GradientBoostingRegressor(random_state = random_state)
regressor_gradient.fit(X_train, y_train)

In [17]:
# Đánh giá mô hình
y_pred_random = regressor_random.predict(X_val)

mae_random = mean_absolute_error(y_val, y_pred_random)
mse_random = mean_squared_error(y_val, y_pred_random)
print('Evaluation results on validation set: ')
print(f'Mean Absolute Error: {mae_random}')
print(f'Mean Squared Error: {mse_random}')

print('---------')

y_pred_ada = regressor_ada.predict(X_val)

mae_ada = mean_absolute_error(y_val, y_pred_ada)
mse_ada = mean_squared_error(y_val, y_pred_ada)
print('Evaluation results on validation set: ')
print(f'Mean Absolute Error: {mae_ada}')
print(f'Mean Squared Error: {mse_ada}')

print('---------')

y_pred_gradient = regressor_gradient.predict(X_val)

mae_gradient = mean_absolute_error(y_val, y_pred_gradient)
mse_gradient = mean_squared_error(y_val, y_pred_gradient)
print('Evaluation results on validation set: ')
print(f'Mean Absolute Error: {mae_gradient}')
print(f'Mean Squared Error: {mse_gradient}')

Evaluation results on validation set: 
Mean Absolute Error: 0.46093873321571177
Mean Squared Error: 0.37944418523089524
---------
Evaluation results on validation set: 
Mean Absolute Error: 0.567680019897059
Mean Squared Error: 0.5739244030038942
---------
Evaluation results on validation set: 
Mean Absolute Error: 0.4516626127750995
Mean Squared Error: 0.39610445936979427


### Bài tập 11:
Cho một bộ dataset có nội dung như sau:
X = [2, 1, 3, 2]
Y = [4, 3, 5, 6]

Dựa trên bộ dataset này, bạn sẽ xây dựng một mô hình random forest với số cây là 2. Độ sâu cho mỗi cây max_depth = 1 và giá trị dự đoán cuối cùng là trung bình các giá trị dự đoán của mỗi cây.
Từ đây, các bạn hãy trả lời một số câu hỏi sau:
(a) Giả sử cả hai cây đều tính toán trên toàn bộ dataset trên. Cây 1 chia nhánh với điều kiện
X ≥ 2, cây 2 chia nhánh với điều kiện X ≥ 3. Khi đó, kết quả dự đoán của mô hình với
X = 2 là (lấy giá trị xấp xỉ)?

In [21]:
import numpy as np

# Dữ liệu gốc
X = np.array([2, 1, 3, 2])  # Cột X
y = np.array([4, 3, 5, 6])  # Cột Y

# Dự đoán cho Cây 1: Chia nhánh với điều kiện X >= 2
# Với X_test = 2, ta vào nhánh X >= 2, dự đoán là trung bình các y tương ứng với X >= 2
prediction_tree1 = y[X >= 2].mean()

# Dự đoán cho Cây 2: Chia nhánh với điều kiện X >= 3
# Với X_test = 2, ta vào nhánh X < 3, dự đoán là trung bình các y tương ứng với X < 3
prediction_tree2 = y[X < 3].mean()

# Kết quả dự đoán cuối cùng là trung bình của cả hai cây
final_prediction = (prediction_tree1 + prediction_tree2) / 2

print(f'Dự đoán của Cây 1: {prediction_tree1}')
print(f'Dự đoán của Cây 2: {prediction_tree2}')
print(f'Kết quả dự đoán cuối cùng: {final_prediction}')


Dự đoán của Cây 1: 5.0
Dự đoán của Cây 2: 4.333333333333333
Kết quả dự đoán cuối cùng: 4.666666666666666


(b) Giả sử bộ dữ liệu bootstrap của hai cây lần lượt là (hiển thị theo chỉ mục của các mẫu trong bộ dữ liệu gốc):
• Cây 1: Gồm các mẫu 0, 1, 2.
• Cây 2: Gồm các mẫu 1, 2, 3.
Cây 1 chia nhánh với điều kiện X ≥ 2, cây 2 chia nhánh với điều kiện X ≥ 3. Khi đó, kết
quả dự đoán của mô hình với X = 1 là?

In [20]:
import numpy as np

# Dữ liệu gốc
X = np.array([2, 1, 3, 2])  # Cột X
y = np.array([4, 3, 5, 6])  # Cột Y

# Bootstrap dataset cho Cây 1 và Cây 2
X_tree1 = X[[0, 1, 2]]  # Mẫu 0, 1, 2
y_tree1 = y[[0, 1, 2]]

X_tree2 = X[[1, 2, 3]]  # Mẫu 1, 2, 3
y_tree2 = y[[1, 2, 3]]

# Dự đoán cho Cây 1: Chia nhánh với điều kiện X >= 2
# Với X_test = 1, ta vào nhánh X < 2, dự đoán là y_tree1 tương ứng với X = 1
prediction_tree1 = y_tree1[X_tree1 < 2].mean()

# Dự đoán cho Cây 2: Chia nhánh với điều kiện X >= 3
# Với X_test = 1, ta vào nhánh X < 3, dự đoán là trung bình các y_tree2 tương ứng với X < 3
prediction_tree2 = y_tree2[X_tree2 < 3].mean()

# Kết quả dự đoán cuối cùng là trung bình của cả hai cây
final_prediction = (prediction_tree1 + prediction_tree2) / 2

print(f'Dự đoán của Cây 1: {prediction_tree1}')
print(f'Dự đoán của Cây 2: {prediction_tree2}')
print(f'Kết quả dự đoán cuối cùng: {final_prediction}')


Dự đoán của Cây 1: 3.0
Dự đoán của Cây 2: 4.5
Kết quả dự đoán cuối cùng: 3.75
