## Ensemble Learning

### Phần 1: Giới thiệu 

Trong bài tập này, chúng ta sẽ thực hành các nội dung liên quan đến Decision Trê, Random Forest, Adaboost, Gradient Boosting áp dụng cho bài toán Regression. Trong Machine Learning, Bài toán regression là dạng bài toán mà kết quả đầu ra của mô  hình là một giá trị liên tục.

<img alt="regression" height="640" src="../../../../AIO-2024/data/module3/week4/image/regression.png" width="480"/>

Decision Tree (DT) là một thuật toán Machine Learning theo kiểu Supervised Learning có thể dùng để giải quyết cho hai dạng bài toán là Regression và Classification xây dựng một cấu trúc dạng cây, với các node đại diện cho quyết định dựa trên một điều kiện của đặc trưng nào đó. Sau khi trải quả một loại quyết định, kết quả dự đoán cuối cùng chính là giá trị mà node lá nắm giữ.

<img alt="regression" height="640" src="../../../../AIO-2024/data/module3/week4/image/decision_tree.png" width="480"/>

Random Forest (RF) là một thuật toán Machine Learning theo kiểu Ensemble Learning có thể dùng để giải quyết cho hai dạng bài toán là Regression và Classification. Ý tưởng của RF liên quan đến việc sử dụng nhiều DT, mỗi cây sẽ học trên một tập con của một bộ training dataset (Boostrap). Khi thực hiện dữ đoán, mỗi cây sẽ đưa ra kết quả dự đoán của mình, sau đó tổng hợp toàn bộ kết quả lại theo một cách thức nào đó(ví dụ: lấy trung bình với bài Classification) để trả về kết quả cuối cùng

<img alt="regression" height="640" src="../../../../AIO-2024/data/module3/week4/image/random_forest.png" width="480"/>

<b>AdaBoost</b> và <b> Gradient Boosting</b> là hai mô hình điển hiinfh cho kiến trúc tiếp cận Ensemble Learning, thay vì các mô hình được học song song nhau trên các tập con dataset, thì với 2 pp này sẽ được học theo trình tự, mô hình sau sẽ học kế thừa từ tri thức của mô hình trước.


<img alt="regression" height="640" src="../../../../AIO-2024/data/module3/week4/image/adaboost_gradient_boosting.png" width="480"/>





## Phần 2: Bài tập

### 1. Import thư viện các thư viện cần thiết

In [18]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.preprocessing import OrdinalEncoder, StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
from sklearn.ensemble import AdaBoostRegressor

### 2. Tải và đọc bộ dữ liệu

In [7]:
dataset_path = '../../../data/module3/week4/data/Housing.csv'
df = pd.read_csv(dataset_path)
df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,mainroad,guestroom,basement,hotwaterheating,airconditioning,parking,prefarea,furnishingstatus
0,13300000,7420,4,2,3,yes,no,no,no,yes,2,yes,furnished
1,12250000,8960,4,4,4,yes,no,no,no,yes,3,no,furnished
2,12250000,9960,3,2,2,yes,no,yes,no,no,2,yes,semi-furnished
3,12215000,7500,4,2,2,yes,no,yes,no,yes,3,yes,furnished
4,11410000,7420,4,1,2,yes,yes,yes,no,yes,2,no,furnished


### 3. Xử lý dữ liệu categorical

In [9]:
categorical_cols = df.select_dtypes(include = ['object']).columns.to_list()
print(categorical_cols)

['mainroad', 'guestroom', 'basement', 'hotwaterheating', 'airconditioning', 'prefarea', 'furnishingstatus']


Sau khi đã xác định được đối tượng cần xử lý, ta sẽ sử dụng OrdinalEncoder() để chuyển đổi chúng thành dạng số như sau:

In [10]:
ordinal_encoder = OrdinalEncoder()
encoded_categorical_cols = ordinal_encoder.fit_transform(
	df[categorical_cols]
)
encoded_categorical_df = pd.DataFrame(
	encoded_categorical_cols,
	columns = categorical_cols
)
numerical_df = df.drop(categorical_cols, axis = 1)
encoded_df = pd.concat(
	[numerical_df, encoded_categorical_df], axis = 1
)
encoded_df.head()

Unnamed: 0,price,area,bedrooms,bathrooms,stories,parking,mainroad,guestroom,basement,hotwaterheating,airconditioning,prefarea,furnishingstatus
0,13300000,7420,4,2,3,2,1.0,0.0,0.0,0.0,1.0,1.0,0.0
1,12250000,8960,4,4,4,3,1.0,0.0,0.0,0.0,1.0,0.0,0.0
2,12250000,9960,3,2,2,2,1.0,0.0,1.0,0.0,0.0,1.0,1.0
3,12215000,7500,4,2,2,3,1.0,0.0,1.0,0.0,1.0,1.0,0.0
4,11410000,7420,4,1,2,2,1.0,1.0,1.0,0.0,1.0,0.0,0.0


### 4. Chuẩn hóa bộ dữ liệu

In [11]:
normalizer = StandardScaler()
dataset_arr = normalizer.fit_transform(encoded_df)

### 5. Tách dữ liệu

In [12]:
X, y = dataset_arr[:, 1:], dataset_arr[:, 0]

### 6. Chia tệp dữ liệu train, val

In [13]:
test_size = 0.3
random_state = 1
is_shuffle = True
X_train, X_val, y_train, y_val = train_test_split(
	X, y,
	test_size = test_size,
	random_state = random_state,
	shuffle = is_shuffle
)

### 7. Huấn luyện mô hình

In [26]:
regressor = RandomForestRegressor(
	random_state = random_state
)
regressor.fit(X_train, y_train)

In [19]:
regressor = AdaBoostRegressor(
	random_state = random_state
)
regressor.fit(X_train, y_train)

In [23]:
regressor = GradientBoostingRegressor (
random_state = random_state
)
regressor .fit( X_train , y_train )

### 8. Đánh giá mô hình

In [27]:
y_pred = regressor . predict ( X_val )

In [28]:
mae = mean_absolute_error (y_val , y_pred )
mse = mean_squared_error (y_val , y_pred )

print ('Evaluation results on validation set :')
print (f'Mean Absolute Error : { mae}')
print (f'Mean Squared Error : { mse}')

Evaluation results on validation set :
Mean Absolute Error : 0.46093873321571177
Mean Squared Error : 0.37944418523089524
