# A. Phần lập trình

### 1. Import thư viện các thư viện cần thiết

In [27]:
import numpy as np
import pandas as pd 
import matplotlib.pyplot as plt 

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error

### 2. Tải bộ dữ liệu cần thiết

### 3. Đọc bộ dữ liệu

In [28]:
dataset_path = './Housing.csv'
df = pd.read_csv(dataset_path)
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


### 4. Xử lý dữ liệu categorical

Vì có một số dữ liệu trong bảng là dạng String. Nên ta sẽ phải đổi các giá trị thành dạng số. Đầu tiên ta sẽ kiểm tra các cột có kiểu dữ liệu là Object như sau:

In [29]:
categorical_cols = df.select_dtypes(include=['object']).columns.to_list()
print(categorical_cols)

# [’mainroad’, ’guestroom’, ’basement’, ’hotwaterheating’, ’airconditioning’, ’prefarea’, ’furnishingstatus’]

['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea', 'furnishingstatus']


 Sau khi đã xác định được đối tượng cần xử lý, ta sẽ sử dụng OrdinalEncoder() để chuyển đổi
 chúng thành dạng số như sau:

In [30]:
ordinal_encoder = OrdinalEncoder()
encoded_categorical_cols = ordinal_encoder.fit_transform(
    df[categorical_cols]
)
encoder_categorical_df = pd.DataFrame(
    encoded_categorical_cols,
    columns=categorical_cols
)
numerical_df = df.drop(categorical_cols, axis=1)
encoded_df = pd.concat(
    [numerical_df, encoder_categorical_df], axis=1
)
encoded_df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking,mainroad,guestroom,basement,hotwaterheating,airconditioning,prefarea,furnishingstatus
0,13300000,7420,4,2,3,2,1.0,0.0,0.0,0.0,1.0,1.0,0.0
1,12250000,8960,4,4,4,3,1.0,0.0,0.0,0.0,1.0,0.0,0.0
2,12250000,9960,3,2,2,2,1.0,0.0,1.0,0.0,0.0,1.0,1.0
3,12215000,7500,4,2,2,3,1.0,0.0,1.0,0.0,1.0,1.0,0.0
4,11410000,7420,4,1,2,2,1.0,1.0,1.0,0.0,1.0,0.0,0.0


### 5. Chuẩn hóa bộ dữ liệu

Để việc tính toán thuận lợi, ta tiến hành chuẩn hóa toàn bộ giá trị
 trong bộ dữ liệu sử dụng StandardScaler() như sau:

In [31]:
normalizer = StandardScaler()
dataset_arr = normalizer.fit_transform(encoded_df)
print(dataset_arr)

[[ 4.56636513  1.04672629  1.40341936 ...  1.4726183   1.80494113
  -1.40628573]
 [ 4.00448405  1.75700953  1.40341936 ...  1.4726183  -0.55403469
  -1.40628573]
 [ 4.00448405  2.21823241  0.04727831 ... -0.67906259  1.80494113
  -0.09166185]
 ...
 [-1.61432675 -0.70592066 -1.30886273 ... -0.67906259 -0.55403469
   1.22296203]
 [-1.61432675 -1.03338891  0.04727831 ... -0.67906259 -0.55403469
  -1.40628573]
 [-1.61432675 -0.5998394   0.04727831 ... -0.67906259 -0.55403469
   1.22296203]]


### 6. Tách dữ liệu X, y

Khi đã hoàn tất các bước tiền xử lý, lúc này ta sẽ tách dữ liệu ban đầu thành
 hai biến X, y đại diện cho các đặc trưng và nhãn. Nhận thấy cột đầu tiên, price, là nhãn của bộ
 dữ liệu, ta sẽ tiến hành tách X, y ra như sau:

In [32]:
X, y = dataset_arr[:, 1:], dataset_arr[:, 0]

### 7. Chia tập dữ liệu train, val

Dựa vào bộ dữ liệu gốc, ta cần chia thành hai tập dữ liệu con,
 một dùng cho việc huấn luyện mô hình và một cho việc đánh giá mô hình. Ở đây, ta sẽ chia theo
 tỷ lệ 7:3 và tham số ngẫu nhiên random_state = 1:

In [33]:
test_size = 0.3
random_state = 1
is_shuffle = True
X_train, X_val, y_train, y_val = train_test_split(
    X, y,
    test_size=test_size,
    random_state=random_state,
    shuffle=is_shuffle
)

### 8. Huấn luyện mô hình

 Ta thực hiện huấn luyện mô hình với bộ dữ liệu train. Để huấn luyện
 mô hình Decision Tree, các bạn sẽ sử dụng DecisionTreeRegressor():

In [34]:
regressor = DecisionTreeRegressor(
    random_state=random_state
)
regressor.fit(X_train, y_train)

Để huấn luyện mô hình Random Forest, các bạn sẽ sử dụng RandomForestRegressor():

In [35]:
y_pred = regressor.predict(X_val)
mae = mean_absolute_error(y_val, y_pred)
mse = mean_squared_error(y_val, y_pred)

print('Evaluation results on validation set:')
print(f'Mean Absolute Error: {mae}')
print(f'Mean Squared Error: {mse}')

Evaluation results on validation set:
Mean Absolute Error: 0.594233095728814
Mean Squared Error: 0.7245255619360014


In [36]:
regressor = RandomForestRegressor(
    random_state=random_state
)
regressor.fit(X_train, y_train)

### 9. Đánh giá mô hình

 Để biết được mô hình đã huấn luyện có hoạt động tốt trên các mẫu dữ liệu
 mới hay không, ta sẽ đánh giá thông qua tập val. Đầu tiên, ta cho mô hình đã huấn luyện thực
 hiện dự đoán trên toàn bộ tập val:

In [37]:
y_pred = regressor.predict(X_val)

 Lúc này, ta hoàn toàn có thể áp dụng những độ đo đánh giá dành cho bài Regression để thực hiện
 đánh giá hiệu suất mô hình. Ở đây, ta sẽ sử dụng Mean Absolute Error (MAE) và Mean Squared
 Error (MSE):

In [38]:
mae = mean_absolute_error(y_val, y_pred)
mse = mean_squared_error(y_val, y_pred)

print('Evaluation results on validation set:')
print(f'Mean Absolute Error: {mae}')
print(f'Mean Squared Error: {mse}')

Evaluation results on validation set:
Mean Absolute Error: 0.46093873321571177
Mean Squared Error: 0.37944418523089524


# B. Phần trắc nghiệm

### Câu 1

In [39]:
# Đáp án: C

### Câu 2

In [40]:
# Đáp án: A

### Câu 3

In [41]:
# Đáp án: B

### Câu 4

In [42]:
# Đáp án: D

### Câu 5

In [43]:
# Đáp án: B

### Câu 6

In [44]:
# Đáp án (a): C
# Đáp án (b): B
# Đáp án (c): D

### Câu 7

In [45]:
# Đáp án: B

### Câu 8

In [46]:
# Đáp án: D

### Câu 9

In [47]:
# Đáp án: C

### Câu 10

In [48]:
# Đáp án: A

: 

### Câu 11

In [None]:
# Đáp án (a): B
# Đáp án (b): C

### Câu 12

In [None]:
# Đáp án: B