# ***A. Cài đặt và Huấn luyện Decision Tree và Random Forest***

# **1. Import thư viện cần thiết:**

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error


**2. Tải và đọc bộ dữ liệu:**

In [4]:
!gdown https://drive.google.com/uc?id=1qeJqFtRdjjHqExbWJcgKy0yJbczTTAE3


Downloading...
From: https://drive.google.com/uc?id=1qeJqFtRdjjHqExbWJcgKy0yJbczTTAE3
To: /content/Housing.csv
  0% 0.00/30.0k [00:00<?, ?B/s]100% 30.0k/30.0k [00:00<00:00, 63.6MB/s]


In [21]:
# Đường dẫn đến file dữ liệu
dataset_path = './Housing.csv'

# Đọc dữ liệu với pandas
df = pd.read_csv(dataset_path)

# Hiển thị vài mẫu dữ liệu để kiểm tra
print(df.head())


      price  area  bedrooms  bathrooms  stories mainroad guestroom basement  \
0  13300000  7420         4          2        3      yes        no       no   
1  12250000  8960         4          4        4      yes        no       no   
2  12250000  9960         3          2        2      yes        no      yes   
3  12215000  7500         4          2        2      yes        no      yes   
4  11410000  7420         4          1        2      yes       yes      yes   

  hotwaterheating airconditioning  parking prefarea furnishingstatus  
0              no             yes        2      yes        furnished  
1              no             yes        3       no        furnished  
2              no              no        2      yes   semi-furnished  
3              no             yes        3      yes        furnished  
4              no             yes        2       no        furnished  


**3. Xử lý dữ liệu categorical:**

In [7]:
# Tìm các cột có kiểu dữ liệu là Object
categorical_cols = df.select_dtypes(include=['object']).columns.to_list()
print(categorical_cols)

# Sử dụng OrdinalEncoder để chuyển đổi cột dạng chuỗi thành số [from sklearn.preprocessing import OrdinalEncoder]
ordinal_encoder = OrdinalEncoder()
encoded_categorical_cols = ordinal_encoder.fit_transform(df[categorical_cols])

# Tạo DataFrame mới cho các cột đã được mã hóa
encoded_categorical_df = pd.DataFrame(encoded_categorical_cols, columns=categorical_cols)

# Xóa các cột dạng chuỗi ban đầu và gộp lại DataFrame mới
numerical_df = df.drop(categorical_cols, axis=1)
encoded_df = pd.concat([numerical_df, encoded_categorical_df], axis=1)

# Hiển thị vài mẫu dữ liệu sau khi mã hóa
print(encoded_df.head())

['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea', 'furnishingstatus']
      price  area  bedrooms  bathrooms  stories  parking  mainroad  guestroom  \
0  13300000  7420         4          2        3        2       1.0        0.0   
1  12250000  8960         4          4        4        3       1.0        0.0   
2  12250000  9960         3          2        2        2       1.0        0.0   
3  12215000  7500         4          2        2        3       1.0        0.0   
4  11410000  7420         4          1        2        2       1.0        1.0   

   basement  hotwaterheating  airconditioning  prefarea  furnishingstatus  
0       0.0              0.0              1.0       1.0               0.0  
1       0.0              0.0              1.0       0.0               0.0  
2       1.0              0.0              0.0       1.0               1.0  
3       1.0              0.0              1.0       1.0               0.0  
4       1.0              

**4. Chuẩn hóa dữ liệu:**

In [22]:
# from sklearn.preprocessing import OrdinalEncoder, StandardScaler
normalizer = StandardScaler()
dataset_arr = normalizer.fit_transform(encoded_df)

# Hiển thị bộ dữ liệu sau khi chuẩn hóa
print(dataset_arr[:5])

[[ 4.56636513  1.04672629  1.40341936  1.42181174  1.37821692  1.51769249
   0.40562287 -0.46531479 -0.73453933 -0.2192645   1.4726183   1.80494113
  -1.40628573]
 [ 4.00448405  1.75700953  1.40341936  5.40580863  2.53202371  2.67940935
   0.40562287 -0.46531479 -0.73453933 -0.2192645   1.4726183  -0.55403469
  -1.40628573]
 [ 4.00448405  2.21823241  0.04727831  1.42181174  0.22441013  1.51769249
   0.40562287 -0.46531479  1.3613975  -0.2192645  -0.67906259  1.80494113
  -0.09166185]
 [ 3.98575468  1.08362412  1.40341936  1.42181174  0.22441013  2.67940935
   0.40562287 -0.46531479  1.3613975  -0.2192645   1.4726183   1.80494113
  -1.40628573]
 [ 3.55497918  1.04672629  1.40341936 -0.57018671  0.22441013  1.51769249
   0.40562287  2.14908276  1.3613975  -0.2192645   1.4726183  -0.55403469
  -1.40628573]]


**5. Tách dữ liệu X và y:**

**6. Chia tập dữ liệu train và validation:**

In [23]:
X, y = dataset_arr[:, 1:], dataset_arr[:, 0] # Tách dữ liệu X và y:

# Chia bộ dữ liệu thành hai tập: training (70%) và validation (30%).
test_size = 0.3
random_state = 1
is_shuffle = True

X_train, X_val, y_train, y_val = train_test_split(
    X, y,
    test_size=test_size,
    random_state=random_state,
    shuffle=is_shuffle
)

**7. Huấn luyện mô hình Random Forest:**

In [24]:
regressor_rf = RandomForestRegressor(random_state=random_state)
regressor_rf.fit(X_train, y_train)

**8. Huấn luyện mô hình Decision Tree (nếu cần):**

In [25]:
regressor_dt = DecisionTreeRegressor(random_state=random_state)
regressor_dt.fit(X_train, y_train)


**9. Đánh giá mô hình:**

In [12]:
# Dự đoán trên tập validation
y_pred_rf = regressor_rf.predict(X_val)
y_pred_dt = regressor_dt.predict(X_val)

# Tính toán MAE và MSE cho Random Forest
mae_rf = mean_absolute_error(y_val, y_pred_rf)
mse_rf = mean_squared_error(y_val, y_pred_rf)

# Tính toán MAE và MSE cho Decision Tree
mae_dt = mean_absolute_error(y_val, y_pred_dt)
mse_dt = mean_squared_error(y_val, y_pred_dt)

# In kết quả đánh giá
print('Random Forest Evaluation:')
print(f'Mean Absolute Error: {mae_rf}')
print(f'Mean Squared Error: {mse_rf}')

print('Decision Tree Evaluation:')
print(f'Mean Absolute Error: {mae_dt}')
print(f'Mean Squared Error: {mse_dt}')

Random Forest Evaluation:
Mean Absolute Error: 0.46093873321571177
Mean Squared Error: 0.37944418523089524
Decision Tree Evaluation:
Mean Absolute Error: 0.594233095728814
Mean Squared Error: 0.7245255619360014


# Q6. **Mean Squared Error (MSE) for different splits in the data**

** SSE (Sum of Squared Errors) = sum of the squared differences between the actual and predicted values**

SSE(D) = SSE(D_1) + SSE(D_2)

SSE(D_i) = \frac{1}{n_i}\sum_{j=1}^{n_i}(x_j-\bar{x}_i)^2

https://datamapu.com/posts/classical_ml/decision_tree_regression_example/

In [17]:
# Function to calculate SSE for a given split point
def calculate_sse_for_split(df, split_point):
    # Splitting the data into left and right partitions
    left_partition  = df[df['X'] <= split_point]
    right_partition = df[df['X'] > split_point]

    # If either partition is empty, return None to indicate an invalid split
    if len(left_partition) == 0 or len(right_partition) == 0:
        return None

    # Calculate the mean of Y for each partition
    left_mean  = left_partition['Y'].mean()
    right_mean = right_partition['Y'].mean()

    # Calculate the SSE for each partition
    left_sse = sum((left_partition['Y'] - left_mean) ** 2)/ len(left_partition)
    right_sse = sum((right_partition['Y'] - right_mean) ** 2) / len(right_partition)

    # Total SSE as the sum of both partitions' SSEs
    total_sse = left_sse + right_sse
    return total_sse

import pandas as pd
import matplotlib.pyplot as plt

# Data from the image
data = {
    'X': [3, 5, 8, 10, 12],
    'Y': [12, 20, 28, 32, 36]
}
df = pd.DataFrame(data)

# Static calculations for four different split points
split_points = [3, 5, 8, 10]
sse_results = {split: calculate_sse_for_split(df, split) for split in split_points}

# Display the SSE results
sse_results


# # Static calculations for four different split points
# split_points = [3, 5, 8, 10]
# mse_results = {split: calculate_mse_for_split(df, split) for split in split_points}

# # Display the results
# mse_results


{3: 35.0, 5: 26.666666666666664, 8: 46.666666666666664, 10: 59.0}

# **Total MSE as the weighted sum of both partitions' MSE**

** SSE (Sum of Squared Errors) = sum of the squared differences between the actual and predicted values**

SSE(D) = \frac{n_D_1}{n}SSE(D_1) + \frac{n_D_2}{n}SSE(D_2)

SSE(D_i) = \frac{1}{n_i}\sum_{j=1}^{n_i}(x_j-\bar{x}_i)^2

In [19]:
import pandas as pd
import matplotlib.pyplot as plt

# Data from the image
data = {
    'X': [3, 5, 8, 10, 12],
    'Y': [12, 20, 28, 32, 36]
}
df = pd.DataFrame(data)

# Function to calculate MSE for a given split point
def calculate_mse_for_split(df, split_point):
    # Splitting the data into left and right partitions
    left_partition  = df[df['X'] <= split_point]
    right_partition = df[df['X'] > split_point]

    # If either partition is empty, return a large MSE to indicate an invalid split
    if len(left_partition) == 0 or len(right_partition) == 0:
        return float('inf')

    # Calculate the mean of Y for each partition
    left_mean = left_partition['Y'].mean()
    right_mean = right_partition['Y'].mean()

    # Calculate the MSE for each partition
    left_mse = sum((left_partition['Y'] - left_mean) ** 2) / len(left_partition)
    right_mse = sum((right_partition['Y'] - right_mean) ** 2) / len(right_partition)

    # Total MSE as the weighted sum of both partitions' MSE
    total_mse = (len(left_partition) * left_mse + len(right_partition) * right_mse) / len(df)
    return total_mse

# Static calculations for four different split points
split_points = [3, 5, 8, 10]
mse_results = {split: calculate_mse_for_split(df, split) for split in split_points}

# Display the results
mse_results


{3: 28.0, 5: 12.8, 8: 27.2, 10: 47.2}

# Q7

In [20]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

# Dữ liệu đã được tạo trước đó
data = {
    'X': [3, 5, 8, 10, 12],
    'Y': [12, 20, 28, 32, 36]
}
df = pd.DataFrame(data)

# Tách X và y
X = df[['X']]
y = df['Y']

# Chia dữ liệu thành tập train và validation
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.3, random_state=1)

# Huấn luyện mô hình Random Forest
regressor_rf = RandomForestRegressor(n_estimators=10, random_state=1)
regressor_rf.fit(X_train, y_train)

# Dự đoán trên tập validation
y_pred = regressor_rf.predict(X_val)

# Tính toán MSE
mse = mean_squared_error(y_val, y_pred)
mse


22.160000000000014

*** Random Forest với số cây = 2, max_depth = 1***

In [29]:
from sklearn.ensemble import RandomForestRegressor
import numpy as np

# Dataset
data = {
    'X': [2, 1, 3, 2],
    'Y': [4, 3, 5, 6]
}
df = pd.DataFrame(data)

# Tách X và y
X = df[['X']]
y = df['Y']

# Thiết lập mô hình Random Forest với số cây = 2, max_depth = 1
regressor_rf = RandomForestRegressor(n_estimators=2, max_depth=1, bootstrap=True, random_state=1)

# Huấn luyện mô hình với toàn bộ dữ liệu
regressor_rf.fit(X, y)

# Câu 11(a): Dự đoán với X = 2 khi cả hai cây tính toán trên toàn bộ dataset
# prediction_a = regressor_rf.predict([[2]])
print('Dự đoán với X = 2 là :' ,regressor_rf.predict(pd.DataFrame([[2]], columns=['X'])))

# Câu 11(b): Dự đoán với X = 1 dựa trên bộ dữ liệu bootstrap
# Cây 1: Gồm các mẫu 0, 1, 2.
# Cây 2: Gồm các mẫu 1, 2, 3.
regressor_rf_bootstrap = RandomForestRegressor(n_estimators=2, max_depth=1, random_state=1)
bootstrap_indices = [[0, 1, 2], [1, 2, 3]]
X_bootstrap = np.vstack([X.iloc[indices].values for indices in bootstrap_indices])
y_bootstrap = np.hstack([y.iloc[indices].values for indices in bootstrap_indices])

# Huấn luyện mô hình với dữ liệu bootstrap
regressor_rf_bootstrap.fit(X_bootstrap, y_bootstrap)

# Dự đoán với X = 1 cho bộ dữ liệu bootstrap
print('Dự đoán với X = 1 là :' , regressor_rf_bootstrap.predict(pd.DataFrame([[1]], columns=['X'])))



Dự đoán với X = 2 là : [4.5]
Dự đoán với X = 1 là : [3.]


