# Feature Selection

## Filter method

### Reducing feature with low variance

**Variance threshold** được sử dụng để lựa chọn đặc trưng. Phương pháp này loại bỏ các đặc trưng mà phương sai không đáp ứng một ngưỡng nào đó. Theo mặc định, nó loại bỏ các đặc trưng có phương sai bằng 0, tức là những đặc trưng có cùng giá trị trong tất cả các mẫu.

*Source:* https://scikit-learn.org/stable/modules/feature_selection.html#removing-features-with-low-variance

### Univariate feature selection methods

*Source:* https://scikit-learn.org/stable/modules/feature_selection.html#univariate-feature-selection

Phương pháp này lựa chọn các đặc trưng tốt nhất dựa trên các phép kiểm tra thống kê (stastical tests). Sklearn cung cấp 4 phương pháp đưới đây:
- **SelectKBest**: Lựa chọn K đặc trưng tốt nhất dựa trên các kết quả của kiểm tra thống kê.

- **SelectPercentile**: Lựa chọn phần trăm đặc trưng tốt nhất dựa trên các kết quả của kiểm tra thống kê.

- Các phương pháp này dựa trên kiểm tra F-test nhưng với các mục tiêu khác nhau: **SelectFpr** chọn các đặc trưng với tỷ lệ false positive, **SelectFdr** chọn các đặc trưng để kiểm soát tỷ lệ false discovery rate, và **SelectFwe** chọn các đặc trưng để kiểm soát tỷ lệ family wise error.

- **GenericUnivariateSelection**: Config để lựa chọn cách univariate feature selection. Nó cho phép lựa chọn chiến lựơc univariate selection tốt nhất. 

**Note:**

Các hàm trên sẽ nhận tham số là 1 hàm kiểm tra và trả về univariate score:

- For regression tasks: [f_regression](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_regression.html#sklearn.feature_selection.f_regression), [mutual_info_regression](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_regression.html#sklearn.feature_selection.mutual_info_regression)
​
- For classification tasks: [chi2](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html#sklearn.feature_selection.chi2), 
[f_classif](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.f_classif.html#sklearn.feature_selection.f_classif), [mutual_info_classif](https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html#sklearn.feature_selection.mutual_info_classif)
​

Các phương pháp dựa trên F-test ước tính mức độ phụ thuộc tuyến tính giữa hai biến ngẫu nhiên. Mặt khác, các phương pháp mutual information có thể ước tính với bất kỳ loại phụ thuộc thống kê nào, nhưng không theo tham số, chúng yêu cầu nhiều mẫu hơn để ước tính chính xác.

# Tri comment: tìm hiểu kỹ hơn về các hàm như chi-square, cách tính, lưu ý về input cho các hàm này, ... (Optional)

#### Information Gain

**Mutual Information(MI)**

<img src="https://www.researchgate.net/profile/Jaakko-Vaeyrynen/publication/220017760/figure/fig1/AS:669375174565899@1536602886399/Mutual-information-IX-Y-measures-the-common-information-between-two-random.png" alt="MI" style="width: 400px;"/>

- **Discrete distribution**:
![](https://wikimedia.org/api/rest_v1/media/math/render/svg/1030462a874c1160206cf9347302067e20dbfb9a)

- **Continous distribution**:
![](https://wikimedia.org/api/rest_v1/media/math/render/svg/3f2b5ef93bc8c87f2ca4fe15e7a914f9fd163976)

Ta thấy:

- Thông tin chứa bởi cả cặp $(X, Y)$ là $H(X,Y)$.
- Thông tin chứa trong $X$ nhưng lại không chứa trong $Y$ là $H(X|Y)$.
- Thông tin chứa trong $Y$ nhưng lại không nằm trong $X$ là $H(Y|X)$.

Chúng ta có thể trả lời câu hỏi sau đây: "Lượng thông tin giống nhau, tức là cùng được biết bởi cả hai biến $X$ và $Y$, là bao nhiêu?". Một cách rất trực quan, chúng ta xây dựng khái niệm mutual information như sau

$$
I(X,Y) = H(X,Y) - H(X|Y) - H(Y|X)
$$

Như vậy, mutual information là lượng thông tin thu được từ một biến ngẫu nhiên thông qua việc quan sát giá trị của một biến ngẫu nhiên khác. 

$$
I(X;Y) = \mathbf{E}_{X,Y} [I(x \in \mathcal{X},y \in \mathcal{Y})] = \sum_{x \in \mathcal{X}}\sum_{y \in \mathcal{Y}} p(x,y) \log \frac{p(x,y)}{p(x) p(y)}
$$

Hai công thức trên cho chúng ta một tính chất quan trọng của mutual information, tính đối xứng

$$
I(X;Y) = I(Y;X).
$$

Ngoài ra, dựa vào mối quan hệ của entropy hợp và entropy có điều kiện, các biểu thức sau đây đều tương đương với MI

$$\begin{eqnarray}
I(X;Y) & = & I(Y;X) \\
& = & H(X,Y) - H(X|Y) - H(Y|X) \\ 
& = & H(X) - H(X|Y) \\
& = & H(Y) - H(Y|X) \\
& = & H(X) + H(Y) - H(X,Y)
\end{eqnarray}
$$

Từ đây, chúng ta thấy rằng MI luôn nhận giá trị không âm (tức là $H(X,Y) \geq 0$), và dấu $"="$ xảy ra khi và chỉ khi $X$ và $Y$ là hai biến ngẫu nhiên hoàn toàn độc lập. Khi đó, việc biết thông tin của một biến không cho chúng ta bất cứ thông tin gì về biến còn lại, và ngược lại.

- **Mutual Information and kNN estimators**

![](miKnn.png)

- Đây là một phương pháp trong thư viện sklearn dùng để ước tính thông tin chung (mutual information) cho một biến mục tiêu rời rạc.

- Thông tin chung (Mutual information, MI) giữa hai biến ngẫu nhiên là một giá trị không âm, đo lường mức độ phụ thuộc giữa các biến này. Nó bằng 0 nếu và chỉ nếu hai biến ngẫu nhiên độc lập, và giá trị cao hơn cho thấy mức độ phụ thuộc cao hơn.

- Phương pháp này sử dụng các phương pháp nonparametric dựa trên ước tính entropy từ k-nearest neighbors distances.

- Phương pháp này có thể được sử dụng để lựa chọn các đặc trưng dựa trên một biến (univariate feature selection).

*Source*: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_classif.html#sklearn.feature_selection.mutual_info_classif


**mutual_info_classif**

- **mutual_info_classif** áp dụng cho biến rời rạc

**mutual_info_regression**

- **mutual_info_regression** áp dụng cho biến liên tục.

*Source*: https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.mutual_info_regression.html#sklearn.feature_selection.mutual_info_regression


# Tri comment: tìm hiểu kỹ hơn về mutual information

#### Chi-square

**Chi-squared** test sẽ tính toán thống kê chi-squared giữa mối feature và biến target. Thống kê **chi-squared** tính toán sự khác biệt giữa tần số kì vọng(expected frequency) và tần số quan sát được(observed frequency) của mỗi feature

Ví dụ về **tần số kì vọng** và **tần số quan sát**:

<img src="Image\chi2.png" alt="chi2" style="width: 650px;"/>

Thống kê chi-squared **càng cao** thì cho thấy feature đó **càng liên quan** đến biến **target** (có ý nghĩa trong classification)

**Chi-squared** statistic được tính bằng công thức dưới đây:
$$
\chi^2 = \sum \left( \frac{(O - E)^2}{E} \right)
$$

Trong đó:

- **O** là tần số quan sát được (observed frequency) 

- **E** là tần số kì vọng (expected frequency)

**Chi-squared** được sử dụng với feature dạng **categorical**, được lấy mẫu **độc lập** và hàm **chi2** trong sklearn chỉ nhận các giá trị feature **không âm**

**Example**

In [32]:
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2, f_classif
import pandas as pd
import numpy as np

iris = load_iris()

X = iris.data
y = iris.target

X_cat = X.astype(int)

chi2_selector = SelectKBest(chi2, k=2)
chi2_selector.fit(X_cat, y)

chi2_scores = pd.DataFrame(list(zip(iris.feature_names, chi2_selector.scores_, chi2_selector.pvalues_)), 
                           columns=['feature', 'score', 'p-value'])
chi2_scores

Unnamed: 0,feature,score,p-value
0,sepal length (cm),10.287129,0.005836848
1,sepal width (cm),5.02267,0.08115982
2,petal length (cm),133.068548,1.272131e-29
3,petal width (cm),74.27907,7.421726e-17


In [33]:
kbest = np.asarray(iris.feature_names)[chi2_selector.get_support()]
kbest

array(['petal length (cm)', 'petal width (cm)'], dtype='<U17')

#### F_classif

**ANOVA F-value**


In [34]:
fclassif_selector = SelectKBest(f_classif, k=2)
fclassif_selector.fit(X, y)

f_scores = pd.DataFrame(list(zip(iris.feature_names, fclassif_selector.scores_, fclassif_selector.pvalues_)), 
                           columns=['feature', 'score', 'p-value'])
f_scores

Unnamed: 0,feature,score,p-value
0,sepal length (cm),119.264502,1.6696690000000001e-31
1,sepal width (cm),49.16004,4.4920170000000005e-17
2,petal length (cm),1180.161182,2.8567769999999996e-91
3,petal width (cm),960.007147,4.1694459999999995e-85


In [35]:
kbest = np.asarray(iris.feature_names)[fclassif_selector.get_support()]
kbest

array(['petal length (cm)', 'petal width (cm)'], dtype='<U17')

#### Correlation-Matrix with Heatmap

- **Tương quan (Correlation)** là một đo lường về mối quan hệ tuyến tính giữa 2 hoặc nhiều biến. Thông qua tương quan, chúng ta có thể dự đoán một biến từ biến khác.

- **Các biến tốt là những biến có mối tương quan cao với biến mục tiêu.**

- Các biến dự đoán có tương quan cung cấp thông tin trùng lặp.

- **Các biến nên có mối tương quan với biến mục tiêu nhưng không tương quan với nhau.**

- Lựa chọn đặc trưng dựa trên tương quan đánh giá các tập hợp đặc trưng dựa trên giả thuyết sau:

- "Các tập hợp đặc trưng tốt bao gồm các đặc trưng có mối tương quan cao với biến mục tiêu, nhưng không tương quan với nhau".

- Trong phần này, tôi sẽ minh họa cách chọn đặc trưng dựa trên tương quan giữa hai đặc trưng. Chúng ta có thể tìm các đặc trưng có tương quan với nhau. Bằng cách xác định những đặc trưng này, chúng ta sau đó có thể quyết định các đặc trưng chúng ta muốn giữ lại và những đặc trưng chúng ta muốn loại bỏ.

- Sử dụng tương quan Pearson, giá trị hệ số trả về sẽ biến đổi trong khoảng từ -1 đến 1.

- Nếu tương quan giữa hai đặc trưng bằng 0, điều này có nghĩa là thay đổi bất kỳ trong hai đặc trưng này sẽ không ảnh hưởng đến đặc trưng còn lại.

- Nếu tương quan giữa hai đặc trưng lớn hơn 0, điều này có nghĩa là tăng giá trị trong một đặc trưng sẽ làm tăng giá trị trong đặc trưng khác (càng gần hệ số tương quan với 1, mối quan hệ giữa hai đặc trưng càng mạnh).

- Nếu tương quan giữa hai đặc trưng nhỏ hơn 0, điều này có nghĩa là tăng giá trị trong một đặc trưng sẽ làm giảm giá trị trong đặc trưng khác (càng gần hệ số tương quan với -1, mối quan hệ giữa hai đặc trưng càng mạnh).

- Trong phân tích này, chúng ta sẽ kiểm tra xem các biến được lựa chọn có tương quan cao với nhau hay không. Nếu có, chúng ta cần giữ lại chỉ một trong những biến tương quan và loại bỏ các biến khác.

# Tri comment: Test - sử dụng correlation để chọn những feature cho 1 bài toán. Đánh giá kết quả trước và sau khi remove những feature có correlation cao

## Wrapper method

### Recursive feature elimination

**Recursive Feature Elimination (RFE)** thực hiện một phương pháp tìm kiếm tham lam để tìm tập con đặc trưng có hiệu suất tốt nhất. Nó lặp đi lặp lại việc xây dựng các mô hình và xác định đặc trưng tốt nhất hoặc tệ nhất ở mỗi vòng lặp. Đầu tiên, model estimator được huấn luyện trên tập đặc trưng ban đầu và sự quan trọng của mỗi đặc trưng được xác định thông qua các thuộc tính cụ thể (như coef_, feature_importances_). Sau đó, những đặc trưng ít quan trọng nhất được loại bỏ khỏi tập đặc trưng hiện tại. Việc này được lặp lại đệ quy trên tập cho đến khi đạt được số lượng đặc trưng cần chọn. Sau đó, nó xếp hạng các đặc trưng dựa trên thứ tự loại bỏ chúng. Trong trường hợp tồi nhất, nếu một tập dữ liệu chứa N đặc trưng, RFE sẽ thực hiện một tìm kiếm tham lam cho 2N sự kết hợp của các đặc trưng.

### Recursive feature elimination with cross-validation

A **recursive feature elimination** example with **automatic tuning of the number of features** selected with **cross-validation**.

## Embedded method

### Lasso Regression

### Ridge Regression

### Random forest importance

## How to choose a feature selection method

![how to choose a feature selection method](https://machinelearningmastery.com/wp-content/uploads/2019/11/How-to-Choose-Feature-Selection-Methods-For-Machine-Learning.png)

# Evaluating Regerssion Model

## Mean Absolute Error(MAE) (L1 Loss)

<img src="https://www.freecodecamp.org/news/content/images/2022/07/1_tu6FSDz_FhQbR3UHQIaZNg.png" alt="MAE" style="width: 400px;"/>

**Ưu điểm**

- Dễ hiểu và diễn giải: MAE là trung bình của giá trị tuyệt đối sai số giữa giá trị dự đoán và giá trị thực tế.
- Ít nhạy cảm hơn đối với outliers

**Nhược điểm**
- Cần so sánh với chỉ số MAE khác để biết đánh giá tốt hay không
- Ít nhạy cảm đối với outliers cũng được coi là nhược điểm của MAE khi mà có những outliers có sai số lớn, MAE sẽ bị tác động dẫn đến không phản ảnh được đúng hiệu suất mô hình
- Không khả vi tại 0 (khó khăn đối với các thuật toán tối ưu sử dụng đạo hàm)

**Áp dụng**

Sử dụng **MAE** khi muốn đánh giá mô hình dự đoán biến liên tục, nhạy cảm với mức lệch lệch

## MAPE (Mean absolute percentage error)

<img src="Image\mape.png" alt="MAPE" style="width: 350px;"/>

**Ưu điểm**
- Dễ hiểu. Cho biết kết quả theo tỉ lệ phần trăm, giúp dễ dàng so sánh với các mô hình khác 

**Nhược điểm**

- Bị ảnh hưởng bởi outliers như các giá trị quá lớn
- Không thể hiện chính xác khi giá trị thực tế gần 0
- Phạt negative error nặng hơn positive error

## MSE (L2 Loss)

<img src="https://editor.analyticsvidhya.com/uploads/53490MSE.png" alt="mse" style="width: 400px;"/>

**Ưu điểm**
- Sử dụng bình phương nên với những lỗi lớn sẽ bị phạt rất nặng
- Vì là một hàm bậc 2 nên những thuật toán tối ưu sử dụng đạo hàm sẽ tối ưu rất nhanh, không có cực tiểu địa phương

**Nhược điểm**
- Không cùng đơn vị với target
- Cần so sánh thêm với các MSE khác để biết đánh giá có tốt hay không
- Nhạy cảm với outlier cũng sẽ là nhược điểm của MSE, khi có lỗi ngoại lai rất lớn sẽ dẫn đến lỗi cực lớn

**Áp dụng**

## Root Mean Squared Error (RMSE)

![RMSE](https://www.freecodecamp.org/news/content/images/2022/07/0_2IuTz3Tr_dYNc6Df.png)

**Ưu điểm**
- Dễ hiểu
- Dễ dàng thực hiện đạo hàm cho các thuật toán tối ưu
- Không xử phạt các lỗi nhiều như MSE do đã được căn bậc 2, vì sử dụng căn bậc 2 nên có cùng đơn vị với target

**Nhược điểm**
- Muốn đánh giá được mô hình với RMSE cần so sánh với các chỉ số RMSE khác (như sử dụng mô hình khác, mô hình khi sử dụng các feature khác,...)
- Nhạy cảm với outliers

**Áp dụng**
- Khi muốn sử dụng để so sánh các mô hình mà thay vì dùng MSE ta muốn có đơn vị sai số tương đương với target

**Biến thể:**

**RMSE** có một số các biến thể khác như:
- **NRMSE** là **RMSE** được chuẩn hóa bằng cách chia cho một giá trị nào đó. Điều này giúp giảm phụ thuộc vào tỷ lệ, thuận lợi cho việc so sánh giữa các mô hình với các tỷ lệ khác nhau:
    - RMSE / maximum value in the series
    - RMSE / mean
    - RMSE / difference between the maximum and the minimum values (if mean is zero)
    - RMSE / standard deviation
    - RMSE / interquartile range
    
- **RRMSE**
<img src="Image\rrmse.webp" alt="rrmse" style="width: 300px;"/>

## RMSLE

<img src="https://editor.analyticsvidhya.com/uploads/32137RMSLE.png" alt="rmsle" style="width: 400px;"/>

**Ưu điểm**
- Không bị ảnh hưởng bởi các ngoại lệ lớn
- Không phụ thuộc vào quy mô, có thể đánh giá với dữ liệu có giá trị lớn

**Nhược điểm**:
- **MSLE** bị cho là có hình phạt thiên lệch (biased penalty) vì nó phạt việc ước tính thấp hơn (underestimation) nhiều hơn so với ước tính cao hơn (overestimation) (có thể thử so sánh giữa $|log(10) - log(19)|$ và $|log(10) - log(1)|$)

**Áp dụng**

Thường được sử dụng cho dữ liệu có phân phối lệch.

## R2 Score

<img src="https://www.freecodecamp.org/news/content/images/2022/08/image.png" alt="R2" style="width: 800px;"/>

**Ưu điểm**
- Thể hiện rõ ràng, R2 tính toán tỉ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập
- Không phụ thuộc vào quy mô của sai số và dữ liệu, R2 có thể đánh giá được mô hình mà không cần so sánh với mô hình khác

**Nhược điểm**

- Càng đưa thêm nhiều biến vào mô hình, mặc dù chưa xác định biến đưa vào có ý nghĩa hay không thì giá trị R2 sẽ giữ nguyên hoặc tăng lên. Lý do là khi càng đưa thêm biến giải thích vào mô hình thì sẽ càng khiến phần dư giảm xuống (vì bản chất những gì không giải thích được đều nằm ở phần dư), do vậy tăng thêm biến sẽ khiến tổng bình phương phần dư(Residual Sum of Squares) giảm, trong khi Total Sum of Squares không đổi, dẫn tới R2 tăng.

**Áp dung**

## Adjusted R-squared
**Adjusted R-squared** tính đến số lượng biến độc lập được sử dụng để dự đoán biến mục tiêu. Khi làm như vậy, chúng ta có thể xác định xem việc thêm các biến mới vào mô hình có thực sự làm tăng mức độ phù hợp của mô hình hay không.

<img src="Image\adj_r2.png" alt="adj_R2" style="width: 400px;"/>

Trong đó,

- **n** là số điểm dữ liệu trong dataset
- **k** là số lượng biến độc lập
- **R** là giá trị R-squared

**Ưu điểm**
- Khắc phục được nhược điểm của **R-squared**
- Cho phép chúng ta so sánh các mô hình với số lượng biến lộc lập khác nhau

**Nhược điểm**

**Áp dụng**
- Khi muốn so sánh các mô hình với số lượng biến độc lập khác nhau

## Nhìn chung, MAE, MSE và RMSE thường được sử dụng để so sánh các mô hình với nhau; R-squared và Adjusted R-squared thường được sử dụng để đánh giá mức độ phù hợp của mô hình.

# Tri comment: Bổ sung - các metric đánh giá ở trên có ưu, nhược điểm gì. Được áp dụng trong những trường hợp nào, có metric / biến thể nào khác không

# SLIDE REGRESSION MODEL:

https://www.canva.com/design/DAFrIZJ5TPw/wCD2L8RVIn1qBatUHsFNWg/edit

# Simple Linear Regression
![](Image\C1_W1_L3_S1_Lecture_b.png)

The model's prediction:

$$f_{w,b}(x^{(i)}) = wx^{(i)} + b$$


# Multiple Linear Regression

The model's prediction with multiple variables is given by the linear model:

$$ f_{\mathbf{w},b}(\mathbf{x}) =  w_0x_0 + w_1x_1 +... + w_{n-1}x_{n-1} + b $$
or in vector notation:
$$ f_{\mathbf{w},b}(\mathbf{x}) = \mathbf{w} \cdot \mathbf{x} + b  $$ 
where $\cdot$ is a vector `dot product`

**Cost funtion**
$$J(\mathbf{w},b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})^2 $$

**Gradient descent**
$$\begin{align*} \text{repeat}&\text{ until convergence:} \; \lbrace \newline\;
& w_j = w_j -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j}  \; & \text{for j = 0..n-1}\newline
&b\ \ = b -  \alpha \frac{\partial J(\mathbf{w},b)}{\partial b}  \newline \rbrace
\end{align*}$$

where, n is the number of features, parameters $w_j$,  $b$, are updated simultaneously and where  

$$
\begin{align}
\frac{\partial J(\mathbf{w},b)}{\partial w_j}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_{j}^{(i)}  \\
\frac{\partial J(\mathbf{w},b)}{\partial b}  &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})
\end{align}
$$
* m is the number of training examples in the data set

    
*  $f_{\mathbf{w},b}(\mathbf{x}^{(i)})$ is the model's prediction, while $y^{(i)}$ is the target value


# Support Vector Regression

<img src="Image\svr.png" alt="svr" style="width: 600px;"/>

# Decision Tree Regression

<img src="https://machinelearningcoban.com/assets/34_id3/dt_ex2.png" alt="decision tree" style="width: 800px;"/>

**References**:

- https://phamdinhkhanh.github.io/deepai-book/ch_ml/DecisionTree.html

- https://machinelearningcoban.com/2018/01/14/id3/

**Decision tree** là một mô hình supervised learning, có thể được áp dụng vào cả hai bài toán **classification** và **regression**. Việc xây dựng một decision tree trên dữ liệu huấn luyện cho trước là việc đi xác định các câu hỏi và thứ tự của chúng.

## Cách hoạt động của Decision tree
Decision Trees sử dụng nhiều thuật toán để quyết định chia một nút thành hai hoặc nhiều nút con. Việc tạo ra các nút con này làm tăng tính đồng nhất của các nút con kết quả. Nói cách khác, ta có thể nói rằng độ tinh khiết của nút tăng lên đối với biến mục tiêu. Cây quyết định chia nút dựa trên tất cả các biến có sẵn và sau đó chọn phân chia dẫn đến các nút con đồng nhất nhất.

Lựa chọn thuật toán cũng dựa trên loại biến mục tiêu. Dưới đây là một số thuật toán được sử dụng trong Decision Trees:

- **ID3**
- C4.5
- **CART (Classification And Regression Tree)**
- CHAID (Chi-square automatic interaction detection)
- MARS (multivariate adaptive regression splines)

## ID3 và CART

Trong ID3, tổng có trọng số của entropy tại các leaf-node sau khi xây dựng decision tree được coi là hàm mất mát của decision tree đó. Rẽ nhánh tập $S$ tạo thành $k$ tập $\mathcal{S}_1, \mathcal{S}_2,\dots,\mathcal{S}_{k}$ . Khi đó hàm entropy sau phân chia:

$$
\mathbf{H}(x^{(j)}, \mathbf{t}; \mathcal{S}) = \sum_{i=1}^{k}\frac{N_i}{N}\mathbf{H}(\mathcal{S}_i)
$$

**Information gain**:
$$
\begin{split}\begin{eqnarray}\mathbf{G}(x^{(j)}, \mathbf{t}; \mathcal{S}) & = & \mathbf{H}(\mathcal{S}) - \mathbf{H}(x^{(j)}, \mathbf{t}; \mathcal{S}) \\
& = & \mathbf{H}(\mathcal{S}) - \sum_{i=1}^{k}\frac{N_i}{N}\mathbf{H}(\mathcal{S}_i)\end{eqnarray}\end{split}
$$

Ở mỗi lượt, giải thuật tìm kiếm tham lam sẽ tìm kiếm theo thứ tự từ trên xuống dưới biến $x^{(j)}$ và ngưỡng $t$ tương ứng, sao cho giá trị hàm tin thu đạt cực đại. Tức là $j, t$ là nghiệm của bài toán tối ưu:
$$
\hat{j}, \hat{t}  = \arg \max_{j, t} \mathbf{G}(x^{(j)}, t; \mathcal{S})
$$
 
## Chỉ số Gini

Chỉ số Gini là một lựa chọn khác bên cạnh hàm entropy được sử dụng để đo lường mức độ bất bình đẳng trong phân phối của các lớp. Chỉ số này được tính bằng cách lấy 1 trừ đi tổng bình phương tỷ lệ phần trăm ở mỗi lớp:
\begin{aligned}
\displaystyle Gini = 1 - \sum_{i=1}^C(p_i)^2
\end{aligned}
$$
0 \leq \text{Gini} \leq 1-\frac{1}{C}
$$

![](https://machinelearningcoban.com/tabml_book/_images/gini_score.PNG)


## Decision tree cho bài toán regression
Thay vì sử dụng hàm information gain, bài toán sử dụng *độ suy giảm của phương sai (reduction in variance)*.

Đầu tiên chúng ta tính phương sai trước khi phân chia của biến mục tiêu $y$ tại node $S$:
$$
\text{S}(y; \mathcal{S}) = \frac{\sum_{i=1}^{N}(y_i-\bar{y})^2}{N}
$$
Phương sai của biến mục tiêu sau khi phân chia sẽ bằng tổng có trọng số của phương sai trên từng nhóm:
$$
\text{S}(y, x^{(j)}, \mathbf{t}; \mathcal{S}) = \sum_{i=1}^{k} \frac{N_i}{N}\text{S}(y;\mathcal{S_i})
$$
Giá trị của reduction variance sau phân chia:
$$
\text{RV}(y, x^{(j)}, \mathbf{t}; \mathcal{S}) = \text{S}(y; \mathcal{S}) - \text{S}(y, x^{(j)}, \mathbf{t}; \mathcal{S})
$$
Thuật toán tìm kiếm tham lam sẽ tìm cách lựa chọn $x_i$
 và ngưỡng phân chia sao cho *độ suy giảm phương sai* $\text{RV}(y, x_j, \mathbf{t}; \mathcal{S})$
 là lớn nhất. Điều này cũng có nghĩa rằng các quan sát được phân về cùng một node lá thì có giá trị dự báo sát nhau. Như vậy ta có thể đưa ra một ước lượng chung cho node lá bằng trung bình cộng của biến mục tiêu mà không lo lắng giá trị dự báo bị chệch. Như vậy giá trị ước lượng của một quan sát $(\mathbf{x}_i, y_i)$
 thuộc về node $(\mathbf{x}_i, y_i)$
 sẽ bằng trung bình cộng biến mục tiêu của node:
 $$
 \hat{y}_i = \frac{1}{|S_j|}\sum_{k=1}^{|S_j|} y_k
 $$
 
 ## Hyper parameters in sklearn

# Random Forest Regression


## Bagging
Bagging là phương pháp kết hợp nhiều mô hình học máy có độ chính xác cao nhưng có phương sai lớn để tăng tính ổn định (nhưng giữ độ chính xác). Trước khi có Bagging, mô hình cây quyết định phải sử dụng các kỹ thuật cắt tỉa cây để tăng tính ổn định (giảm hiện tượng học quá - overfitting) nhưng phải đánh đổi bằng việc giảm độ chính xác.

Lược đồ của phương pháp Bagging như sau, cho thuật toán học $\mathcal A$ và bộ dữ liệu $D$

$\mathrm{Bagging}(\mathcal A, D, B)$

1. Lấy mẫu có hoàn lại từ $D$ để tạo ra $B$ bộ dữ liệu mới $D_1, D_2, \ldots, D_B$
2. Chạy thuật toán $\mathcal A$ trên các bộ dữ liệu này để huấn luyện $m$ mô hình
    
    $$
    h_i = \mathcal A(D_i), i=1,2,\ldots,B
    $$
    
3. Xây dựng mô hình tổng hợp
    - Với mô hình phân lớp, sử dụng $h_i$ để **bỏ phiếu** chọn ra phân lớp có nhiều mô hình chọn nhất
    
    $$
    h(\mathbf x) = \underset{c}{\operatorname{argmax}}
 \sum_{i=1}^B \mathbb I(h_i(\mathbf x)=c)
    $$
    
    - Với mô hình hồi quy, lấy **trung bình cộng** kết quả của $h_i$
        
        $$
        h(\mathbf x) = \frac 1 B\sum_{i=1}^B h_i(\mathbf x)
        $$
        

## Random forest
Mô hình rừng ngẫu nhiên sử dụng **Bagging** đối với thuật toán cây quyết định với một thay đổi nhỏ. Trong đó, khi xây dựng cây quyết định từ tập mẫu $D_i$, tại mỗi bước phân chia nút trong cây, ta chỉ chọn ngẫu nhiên $m$ thuộc tính trong $p$ thuộc tính $A_1, A_2,\ldots, A_p$ để chọn ra thuộc tính phân chia tốt nhất.

$\mathrm{RandomForest}(D, B, m)$

1. Lấy mẫu có hoàn lại từ $D$ để tạo ra $B$ bộ dữ liệu mới $D_1, D_2, \ldots, D_B$

2. Với mỗi tập dữ liệu $D_i$, xây dựng cây quyết định $h_i =T_i$ sao cho:
    - Tại mỗi lần phân chia, chọn ngẫu nhiên $m$ thuộc tính trong $p$ thuộc tính dữ liệu
    - Tìm thuộc tính phân chia tốt nhất (theo ID3, C4.5, CART)
    - Phân chia đến khi mỗi nút có không quá $n_{min}$ mẫu dữ 
    
3. Xây dựng mô hình tổng hợp (giống như đã nêu ở Bagging)
- Phân lớp: $h(\mathbf x) = \underset{c}{\operatorname{argmax}}\sum_{i=1}^B \mathbb I(h_i(\mathbf x)=c)$

- Hồi quy: $h(\mathbf x) = \frac 1 B\sum_{i=1}^B h_i(\mathbf x)$

**Cách chọn tham số**: thường chọn $m\approx\sqrt{p}$

## Hyper parameters in sklearn

# Tri comment: Bổ sung 

- Với Linear Regression và các thuật toán Tree-based có phải scale dữ liệu trước khi fit với dữ liệu không
- Với những thuật toán Tree-based:
    - Feature importance là gì, có những loại feature importance nào
    - Tối ưu tham số mô hình: Mô hình cây có những tham số nào ảnh hưởng đến:
        - Tốc độ training
        - Kết quả mô hình

## Feature scaling với mô hình Linear regression và các thuật toán Tree-based

- Với **Linear regression**, việc scale dữ liệu là không bắt buộc nhưng nên thực hiện vì nó sẽ đem lại những lợi ích nhất định. Việc scale dữ liệu sẽ giúp đưa dữ liệu từ 1 phạm vi lớn thu về 1 phạm vi nhỏ hơn, điều này sẽ giúp cho thuật toán tối ưu Linear regression là gradient descent có thể tính toán nhanh, hội tụ nhanh hơn. Ngoài ra, Linear regression là 1 mô hình đơn giản, khá nhạy cảm với outliers, việc scale dữ liệu cũng sẽ giúp giảm ảnh hưởng của outlier đối với mô hình

- Với các thuật toán **Tree-based**, như **Decision tree**, việc phân chia các node thực hiện trên việc tính toán các ngưỡng thông tin của đặc trưng, chứ không bị ảnh hưởng bởi phạm vi giá trị, nên mô hình sử dụng các thuật toán Tree-based có thể hoạt động tốt mà không cần scale dữ liệu

## Feature importance

### Feature importance based on mean decrease in impurity

Tại mỗi node, tính toán sự giảm mức độ vẩn đục (impurity) khi split dữ liệu dựa trên một feature. Feature quan trọng sẽ là feature làm giảm mức độ impurity nhiều nhất. Feature importances cung cấp attribute *feature_importances_*, được tính bằng trung bình (mean) và độ lệch chuẩn (standard deviation) của độ giảm impuirty của tất cả các split dựa trên feature đó. 

### Feature importance based on feature permutation

Permutation feature importance được định nghĩa là model score giảm khi một feature được xáo trộn ngẫu nhiên. Quy trình này phá vỡ mối quan hệ giữa feature và target, do đó, việc model score giảm cho thấy mức độ quan trọng của feature đối với mô hình.\

Hàm **permutation_importance** tính toán feature importance của 1 mô hình estimator với bộ dataset cho trước. Tham số *n_repeats* set số lần feature được xáo trộn ngẫu nhiên và trả về bộ sample các feature importances

Permutation feature importance là việc model score bị giảm khi ta hoán vị 1 feature 1 cách ngẫu nhiên. Hàm tính điểm được sử dụng cho việc tính toán độ quan trọng có thể được chỉ định với tham số *scoring*. Chúng ta có thể sử dụng 1 lúc nhiều cách scoring khác nhau để tăng hiệu quả tính toán so với việc gọi lại liên tục hàm **permuatation_importance** cho mỗi cách tính điểm khác nhau(vì như vậy nó sẽ sử dụng lại các dự đoán của mô hình)

**Outline of the permutation importance algorithm**
- Inputs: fitted predictive model $m$ , tabular dataset (training or validation) $D$ .
- Compute the reference score $s$ of the model $m$ on data $D$ (for instance the accuracy for a classifier or the $R^2$ for a regressor).
- For each feature $j$(column of $D$):
    - For each repetition $k$ in ${1, ..., K}$:
        - Randomly shuffle column $j$ of dataset $D$ to generate a corrupted version of the data named $\tilde{D}_{k,j}$
        - Compute the score $s_{k,j}$ of model $m$ on corrupted data $\tilde{D}_{k,j}$
    - Compute importance $i_j$ for feature $f_j$ defined as:
$$
i_j = s - \frac{1}{K} \sum_{k=1}^{K} s_{k,j}
$$

**Mối quan hệ với impurity-based importance in trees**

Các Tree-based model cung cấp một cách đo độ quan trọng của các đặc trưng khác dựa trên mean decrease in impurity (MDI). Impurity được định lượng bằng tiêu chí chia nhánh của cây quyết định (như Gini, Log Loss hoặc Mean Squared Error). Tuy nhiên, phương pháp này có thể gán độ quan trọng cao cho các đặc trưng có thể không dự đoán được trên dữ liệu chưa nhìn thấy khi mô hình đang bị quá khớp. Trong khi đó, đo lường quan trọng dựa trên hoán vị của các đặc trưng tránh vấn đề này, vì nó có thể tính toán trên dữ liệu chưa nhìn thấy.

Hơn nữa, độ quan trọng dựa trên impurity cho các cây có sự thiên vị mạnh mẽ (**strongly biased**) và ưu ái đối với các đặc trưng có độ phân loại cao (**favor high cardinality features**) (thường là đặc trưng numerical) hơn là các đặc trưng có độ phân loại thấp như đặc trưng nhị phân hoặc biến categorical với một số lượng danh mục nhỏ.

Trong khi đó, permutation feature importance không thể hiện sự thiên vị(bias) như vậy. Hơn nữa, permutation feature importance có thể tính toán chỉ số hiệu suất trên dự đoán của mô hình và có thể được sử dụng để phân tích bất kỳ loại mô hình nào (không chỉ dựa trên cây).

**Misleading values on strongly correlated features**

Khi hai đặc trưng có sự tương quan và một trong các đặc trưng được hoán vị, mô hình vẫn sẽ có khả năng truy cập (*access*) đến đặc trưng thông qua đặc trưng tương quan với nó. Điều này sẽ dẫn đến mức độ quan trọng thấp hơn cho cả hai đặc trưng, trong khi thực tế chúng có thể quan trọng.

Một cách để xử lý tình huống này là gom nhóm các đặc trưng có tương quan và chỉ giữ lại một đặc trưng từ mỗi nhóm.

# Phương pháp Boosting

Trái với phương pháp **Bagging** tìm cách làm tăng sự ổn định của các mô hình chính xác (nhưng không ổn định), phương pháp **Boosting** tìm cách tăng sự chính xác của các mô hình có **độ chính xác thấp** (weak learners), tức là các mô hình chỉ cần cho xác suất lỗi lớn hơn dự đoán ngẫu nhiên một chút. Ý tưởng chính của **Boosting** là cập nhật mô hình bằng tổ hợp tuyến tính của các mô hình yếu sao cho hàm lỗi giảm dần.

<img src="https://tricky-tax-444.notion.site/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F5211dd2e-49c4-4030-8e8f-af719b89f3ca%2FIllustration-of-AdaBoost-algorithm-for-creating-a-strong-classifier-based-on-multiple.png?table=block&id=c0a92ac2-beef-47b8-8598-0b6c0fb5d57d&spaceId=489a998d-9308-40e6-bfe8-44f23a91cf17&width=1400&userId=&cache=v2" alt="svr" style="width: 700px;"/>


## Ada Boosting

Thuật toán này thực hiện việc xây dựng một mô hình và đưa ra các trọng số bằng nhau cho tất cả các điểm dữ liệu. Sau đó, nó gán trọng số cao hơn cho các điểm bị phân loại sai. Bây giờ tất cả các điểm có trọng số cao hơn sẽ được coi trọng hơn trong mô hình tiếp theo. Nó sẽ tiếp tục train các mô hình đào tạo cho đến khi được lỗi thấp hơn.

Đối với bài toán Regression, thuật toán thường được sử dụng là **AdaBoost.R2**. Đây cũng đang là thuật toán được thư viện sklearn sử dụng

**AdaBoost.R2** vẫn dựa trên ý tưởng học từ các sai sót của các **weak leaners** trước đó giống như **AdaBoost**.

- Khác **AdaBoost**, **AdaBoost.R2** không kết hợp trực tiếp trọng số vào hàm mất mát mà sử dụng trọng số để lấy mẫu có chỉ định (bootstrapping) từ tập dữ liệu huấn luyện. Các quan sát có trọng số lớn hơn sẽ có xác suất lớn hơn được lấy mẫu.

- Mỗi vòng lặp, huấn luyện một **weak learner** trên tập dữ liệu **bootstrapped**.

- Tính toán giá trị dự đoán của weak learner đó trên tập dữ liệu gốc (không phải tập bootstrapped).

- Sử dụng phương sai của các giá trị dự đoán so với giá trị thực để đánh giá chất lượng của weak learner (gọi là $\beta^t$).

- Cập nhật trọng số dựa trên chất lượng bộ học và độ chính xác dự đoán cho từng quan sát (gọi là $L_n$).

- Sau khi lặp qua nhiều weak learners, chúng ta sẽ có được các giá trị phù hợp. Cụ thể, với mỗi quan sát, ta sử dụng **weighted median** của weak learner's prediction, được tính trọng số bằng cách $\log(1/\beta^t)$ với $t = 1, \dots, T$

**AdaBoost.R2 Algorithm**

1. Initialize the weights with $w^1_n = \frac{1}{N}$ for $n = 1, 2, \dots, N$.

2. For $t = 1, 2, \dots, T$ or while $\bar{L}^t$, as defined below, is less than or equal to 0.5,

    - Draw a sample of size $N$ from the training data with replacement and with probability $w^t_n$ for $n = 1, 2, \dots, N$. 
    - Fit weak learner $t$ to the resampled data and calculate the fitted values on the original dataset. Denote these fitted values with $f^t(x_{n})$ for $n = 1, 2, \dots, N$.
    - Calculate the observation error $L^t_{n}$ for $n = 1, 2, \dots, N$:
      
    $$
    \begin{aligned}
    D^t &= \underset{n}{\text{max}} \{ |y_{n} - f^t(x_{n})|  \} \\
    L^t_{n} &= \frac{|y_{n} - f^t(x_{n})|}{D^t}
    \end{aligned}
    $$

    - Calculate the model error $\bar{L}^t$:
      
      $$
      \bar{L}^t = \sum_{n = 1}^N  L^t_n w^t_n
      $$

      If $\bar{L}^t \geq 0.5$, end iteration and set $T$ equal to $t - 1$.

    - Let $\beta^t = \frac{\bar{L}^t}{1- \bar{L}^t}$. The lower $\beta^t$, the greater our confidence in the model. 

    - Let $Z^t = \sum_{n = 1}^N w^t_n (\beta^t)^{1 - L^t_n}$ be a normalizing constant and update the model weights with 
      
      $$
      w^{t + 1}_n = \frac{w^t_n (\beta^t)^{1 - L^t_n}}{Z^t},
      $$

      which increases the weight for observations with a greater error $L^t_n$.

3. Set the overall fitted value for observation $n$ equal to the weighted median of $f^t(x_n)$ for $t = 1, 2, \dots, T$ using weights $\log(1/\beta^t)$ for model $t$.



## Gradient Boosting

Phương pháp _Gradient Boosting_ cũng có ý tưởng tương tự như _AdaBoost_ đó là huấn luyện liên tiếp các mô hình yếu. Nhưng chúng ta không sử dụng sai số của mô hình để tính toán trọng số cho dữ liệu huấn luyện mà sử dụng phần dư. Xuất phát từ mô hình hiện tại, chúng ta cố gắng xây dựng một cây quyết định cố gắng khớp phần dư từ mô hình liền trước. Điểm đặc biệt của mô hình này đó là thay vì chúng ta cố gắng khớp giá trị biến mục tiêu là $\mathbf{y}$ thì chúng ta sẽ tìm cách khớp giá trị sai số của mô hình trước đó. Sau đó chúng ta sẽ đưa thêm mô hình huấn luyện vào hàm dự báo để cập nhật dần dần phần dư. Mỗi một cây quyết định trong chuỗi mô hình có kích thước rất nhỏ với chỉ một vài _nodes quyết định_ được xác định bởi tham số độ sâu $d$ trong mô hình

<img src="https://tricky-tax-444.notion.site/image/https%3A%2F%2Fs3-us-west-2.amazonaws.com%2Fsecure.notion-static.com%2F0d979dc4-ffd6-42ea-8942-c024480033f2%2FUntitled.png?table=block&id=10d9f630-1f9f-4466-bb34-13226d4fa2bd&spaceId=489a998d-9308-40e6-bfe8-44f23a91cf17&width=2000&userId=&cache=v2" alt="gbm" style="width: 700px;"/>

Giả định $\hat{f}(x)$ là hàm dự báo từ _phương pháp tăng cường_ được áp dụng trên một tác vụ dự báo với ma trận đầu vào $\mathbf{X}$ và biến mục tiêu là véc tơ $\mathbf{y}$. Tại mô hình thứ $b$ trong chuỗi mô hình dự báo, kí hiệu là $\hat{f}^{b}$, ta tìm cách khớp một giá trị phần dư $\mathbf{r}_i$ từ cây quyết định tiền nhiệm $\hat{f}^{b-1}$. Các bước trong quá trình huấn luyện mô hình theo _phương pháp tăng cường_ được tóm tắt như sau:

**1.**- Ban đầu ta thiết lập hàm dự báo $\hat{f}(\mathbf{x}) = 0$ và số dư $\mathbf{r}_0 = \mathbf{y}$ cho toàn bộ quan sát trong tập huấn luyện.

**2.**- Lặp lại quá trình huấn luyện cây quyết định theo chuỗi tương ứng với $b = 1,2, \dots, B$. Với một lượt huấn luyện gồm các bước con sau đây:

  a. Khớp một cây quyết định $\hat{f}^{b}$ có độ sâu là $d$ trên tập huấn luyện $(\mathbf{X}, \mathbf{r}_b)$.

  b. Cập nhật $\hat{f}$  bằng cách cộng thêm vào giá trị dự báo của một cây quyết đinh, giá trị này được nhân với hệ số co $\lambda$:

  $$\hat{f}(\mathbf{x}) = \hat{f}(\mathbf{x})+\lambda \hat{f}^{b}(\mathbf{x})$$

  c. Cập nhật phần dư cho mô hình:

  $$\mathbf{r}_{b+1} := \mathbf{r}_b - \lambda \hat{f}^{b}(\mathbf{x})$$

  Thuật toán sẽ dừng cập nhật khi số lượng cây quyết định đạt ngưỡng tối đa $B$ hoặc toàn bộ các quan sát trên tập huấn luyện được dự báo đúng.

**3.**- Kết quả dự báo từ chuỗi mô hình sẽ là kết hợp của các mô hình con:

$$\hat{f}(\mathbf{x}) = \sum_{b=1}^{B} \lambda \hat{f}^{b}(\mathbf{x})$$

## XGBoost, LightGBM, Hist Gradient Boosting

**XGBoost**
- Tốc độ tính toán nhanh nhờ tính toán song song
- Tránh overfit bằng Regularization
- Linh hoạt trong sử dụng hàm tối ưu
- Tự động xử lý missing value
- Tự động cắt tỉa cây(pruning): Tự động bỏ qua những leaves, nodes không mang giá trị tích cực trong quá trình split tree

**LightGBM**

**Light GBM** sử dụng histogram-based algorithm, đưa các feature có giá trị liên tục thành các bins rời rạc. Điều này giúp tăng tốc độ training và giảm bộ nhớ sử dụng.

Dưới đây là ưu điểm khi sử dụng histogram based algorithm trích dẫn từ document LightGBM:

*Source*: https://lightgbm.readthedocs.io/en/stable/Features.html

**Advantages of histogram-based algorithms include the following:**

-  **Reduced cost of calculating the gain for each split**

   -  Pre-sort-based algorithms have time complexity ``O(#data)``

   -  Computing the histogram has time complexity ``O(#data)``, but this involves only a fast sum-up operation. Once the histogram is constructed, a histogram-based algorithm has time complexity ``O(#bins)``, and ``#bins`` is far smaller than ``#data``.

-  **Use histogram subtraction for further speedup**

   -  To get one leaf's histograms in a binary tree, use the histogram subtraction of its parent and its neighbor

   -  So it needs to construct histograms for only one leaf (with smaller ``#data`` than its neighbor). It then can get histograms of its neighbor by histogram subtraction with small cost (``O(#bins)``)
   
-  **Reduce memory usage**

   -  Replaces continuous values with discrete bins. If ``#bins`` is small, can use small data type, e.g. uint8\_t, to store training data

   -  No need to store additional information for pre-sorting feature values

-  **Reduce communication cost for distributed learning**

**Light GBM** đánh bại tất cả các thuật toán khác khi tập dataset có kích thước cực lớn. Thực tế chứng minh, nó cần ít thời gian đê xử lý hơn trên tập dữ liệu này. Nguyên nhân sâu xa của sự khác biệt này nằm ở cơ chế làm viêc của Light GBM. Trong khi các thuật toán khác sử dụng cơ chế *level-wise* thì nó lại sử dụng *leaf-wise*.

<img src="https://tiensu.github.io/images/post/level-wise.webp" alt="lv_wise" style="width: 500px;"/>
<img src="https://tiensu.github.io/images/post/leaf-wise.webp" alt="leaf_wise" style="width: 500px;"/>


Như chúng ta thấy, *leaf-wise* chỉ mở rộng tree theo 1 trong 2 hướng so với cả 2 hướng của *level-wise*, tức là số lượng tính toán của Light GBM chỉ bằng 1/2 so với XGBoost.

**Hist Gradient Boosting**

- HistGradientBoosting trên sklearn được lấy cảm hứng dựa trên LightGBM
- Nhanh hơn Gradient boosting thông thường rất nhiều khi sử dụng với dữ liệu có lượng samples lớn
- Tự động hỗ trợ xử lý missing value, không cần sử dụng imputer
- Estimator này trước tiên sẽ bin các mẫu đầu vào X vào các bins có giá trị số nguyên (thường là 256 bins), giúp giảm đáng kể số lượng điểm phân tách cần xem xét và cho phép thuật toán tận dụng các cấu trúc dữ liệu dựa trên số nguyên (histogram) thay vì dựa vào các giá trị liên tục được sắp xếp khi xây dựng cây.

*Tham khảo thêm*: https://robotenique.github.io/posts/gbm-histogram/ 

# Tham số trong các mô hình dạng cây

- **n_estimators**: Tổng số mô hình con (cây) sử dụng trong thuật toán ensemble. Nếu *n_estimators* càng lớn, tức là mô hình càng phức tạp, độ chính xác có thể sẽ tốt hơn nhưng thời gian training mô hình sẽ lâu hơn.
- **learning_rate**: Đối với các thuật toán boosting như Gradient Boosting, XGB (*learning rate* trong XGB gọi là *eta*), LightGBM,... *learning_rate* là 1 shrinkage parameter để tránh tình trạng overfitting, có thể coi là hệ số cập nhật các weights (phần dư) của các tree-estimators. *learning_rate* là 1 hệ số cần phải **trade-off** với *n_estimators*, khi *learning_rate* nhỏ chúng ta cần lặp nhiều hơn, tức là cần nhiều cây hơn để cải thiện hiệu suất. 
- **max_depth**: Độ sâu tối đa của cây. Nếu *max_depth* nhỏ có thể kết quả của cây sẽ không tốt. Nếu *max_depth* quá lớn có thể dẫn đến mô hình quá phức tạp, có khả năng kết quả bị overfit và thời gian training sẽ lâu hơn. Đối với các thuật toán boosting không cần cây phải có độ sâu quá lớn (vì boosting tăng cường trên các mô hình yếu).
- **min_samples_split**: số lượng samples tối thiểu cần split từ node ban đầu. Nếu *min_samples_split* tăng, cây của ta có thể giảm số lần split, giúp tránh overfitting. Tuy nhiên nếu *min_samples_split* quá cao sẽ dần khiến mô hình underfit.
- **min_samples_leaf**: số lượng samples tối thiểu tại mỗi leaf node.
- **max_leaf_nodes**: số lượng node lá tối đa, tham số này đặt ra điều kiện splitting của cây để hạn chế sự tăng trưởng của cây. Nếu *max_leaf_node* quá nhỏ có thể khiến mô hình underfit, và quá lớn sẽ dẫn đến overfit

Ngoài ra, với **XGBoost** và **LightGBM** là những mô hình không nằm trong sklearn sẽ có thêm các tham số khác để cải thiện tốc độ training hay độ chính xác (tham khảo ở các documents của mô hình):
- **LightGBM**:
    - Giảm thời gian training: https://lightgbm.readthedocs.io/en/stable/Parameters-Tuning.html#for-faster-speed
    - Cải thiện độ chính xác: https://lightgbm.readthedocs.io/en/stable/Parameters-Tuning.html#for-better-accuracy

# Differences Between Bagging and Boosting

| No. |                                                                     Bagging                                                                    |                                      Boosting                                      |
|:----:|:----------------------------------------------------------------------------------------------------------------------------------------------:|:----------------------------------------------------------------------------------:|
|  1.  |                                    The simplest way of combining predictions that  belong to the same type.                                    |         A way of combining predictions that  belong to the different types.        |
|  2.  |                                                       Aim to decrease variance, not bias.                                                      |                         Aim to decrease bias, not variance.                        |
|  3.  |                                                        Each model receives equal weight.                                                       |                 Models are weighted according to their performance.                |
|  4.  |                                                       Each model is built independently.                                                       |      New models are influenced  by the performance of previously built models.     |
|  5.  | Different training data subsets are selected using row sampling with replacement and random sampling methods from the entire training dataset. | Every new subset contains the elements that were misclassified by previous models. |
|  6.  |                                                Bagging tries to solve the over-fitting problem.                                                |                           Boosting tries to reduce bias.                           |
|  7.  |                                       If the classifier is unstable (high variance), then apply bagging.                                       |       If the classifier is stable and simple (high bias) the apply boosting.       |
|  8.  |                                                In this base classifiers are trained parallelly.                                                |                 In this base classifiers are trained sequentially.                 |
|   9  |                                                 Example: The Random forest model uses Bagging.                                                 |                   Example: The AdaBoost uses Boosting techniques                   |

# Voting Regressor

Ý tưởng của **VotingRegressor** là kết hợp các mô hình hồi quy khác nhau và trả về các giá trị dự đoán **trung bình**. Estimator có thể hoạt động tốt cho một tập hợp các mô hình hoạt động tốt như nhau nhằm cân bằng các điểm yếu riêng lẻ của chúng.

# Stacking Regressor

Stacked generalization là phương pháp kết hợp các estimator khác nhau để giảm bias của chúng. Chính xác hơn, dự đoán của mỗi estimator sẽ được stack với nhau sử dụng làm input cho final estimator tính toán. Final estimator này sẽ được train qua cross-validation

Thực tế, một stacking predictor sẽ có kết quả tốt tương đương với kết quả tốt nhất của mô hình trong layer base và đôi lúc có thể tốt hơn vì được kết hợp với các điểm mạnh của mô hình khác. Tuy nhiên, training stacking predictor đòi hòi tài nguyên tính toán lớn

<img src="https://editor.analyticsvidhya.com/uploads/39725Stacking.png" alt="stack" style="width: 700px;"/>

Một nhược điểm lớn của Stacking đó là **độ phức tạp lớn**. Với lượng dữ liệu lớn, mô hình stacking có thể phải **mất rất nhiều thời gian** để chạy

# Neural Network

*Nguồn: https://machinelearningcoban.com/2017/02/24/mlp/*

## Layer

Ngoài Input layers và Output layers, một Multi-layer Perceptron (MLP) có thể có nhiều Hidden layers ở giữa. Các Hidden layers theo thứ tự từ input layer đến output layer được đánh số thứ thự là Hidden layer 1, Hidden layer 2, … Hình dưới đây là một ví dụ với 2 Hidden layers.

<img src="https://machinelearningcoban.com/assets/14_mlp/multi_layers.png" alt="layer" style="width: 400px;"/>

## Unit

Một _node_ hình tròn trong một layer được gọi là một unit. Unit ở các input layer, hidden layers, và output layer được lần lượt gọi là input unit, hidden unit, và output unit. Đầu vào của các hidden layer được ký hiệu bởi \\(z\\), đầu ra của mỗi unit thường được ký hiệu là \\(a\\) (thể hiện _activation_, tức giá trị của mỗi unit sau khi ta áp dụng activation function lên \\(z\\)). Đầu ra của unit thứ \\(i\\) trong layer thứ \\(l\\) được ký hiệu là \\(a_i^{(l)}\\). Giả sử thêm rằng số unit trong layer thứ \\(l)\\) (không tính bias) là \\(d^{(l)}\\). Vector biểu diễn output của layer thứ \\(l\\) được ký hiệu là \\(\mathbf{a}^{(l)} \in \mathbb{R}^{d^{(l)}}\\).

<img src="https://machinelearningcoban.com/assets/14_mlp/mlp_notation.png" alt="unit" style="width: 500px;"/>



## Weight, Bias

Có \\(L\\) ma trận trọng số cho một MLP có \\(L\\) layers. Các ma trận này được ký hiệu là \\(\mathbf{W}^{(l)} \in \mathbb{R}^{d^{(l-1)}\times d^{(l)}}, l = 1, 2, \dots, L\\) trong đó \\(\mathbf{W}^{(l)}\\) thể hiện các _kết nối_ từ layer thứ \\(l-1\\) tới layer thứ \\(l\\) (nếu ta coi input layer là layer thứ \\(0\\)). Cụ thể hơn, phần tử \\(w^{(l)}_{ij}\\) thể hiện kết nối từ node thứ \\(i\\) của layer thứ \\((l-1)\\) tới node từ \\(j\\) của layer thứ \\((l)\\). Các biases của layer thứ \\((l)\\) được ký hiệu là \\(\mathbf{b}^{(l)} \in \mathbb{R}^{d^{(l)}}\\). Các trọng số này được ký hiệu như trên Hình 4. Khi tối ưu một MLP cho một công việc nào đó, chúng ta cần đi tìm các weghts và biases này.

Tập hợp các weights và biases lần lượt được ký hiệu là \\(\mathbf{W}\\) và \\(\mathbf{b}\\).


## Activate function

### Sigmoid

(hay dùng ở các lớp trước lớp cuối cùng (lớp ẩn)

$$\phi_l(a) = \sigma(a) = \frac 1 {1+e^{-a}}$$

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/1200px-Logistic-curve.svg.png" alt="sigmoid" style="width: 500px;"/>


### Tanh

$$\phi_l(a) = 2\sigma(a)-1$$

<img src="https://mathworld.wolfram.com/images/interactive/TanhReal.gif" alt="tanh" style="width: 500px;"/>


### ReLU

$$
\phi_l(a) = \max(0, a)$$

<img src="https://machinelearningmastery.com/wp-content/uploads/2018/10/Line-Plot-of-Rectified-Linear-Activation-for-Negative-and-Positive-Inputs.png" alt="relu" style="width: 500px;"/>

**- Hàm sigmoid hay hàm tanh đều là những hàm có dạng đồ thị đẹp, dễ dàng tính toán đạo hàm. Tuy nhiên 2 hàm này gặp nhược điểm khi đầu vào có trị tuyết đối quá lớn thì gradient của hàm sẽ rất gần với 0, dẫn đến các hệ số gần như không được cập nhật (vanishing gradient)**

**- Hàm ReLU có thể khắc phục được nhược điểm trên. Ngoài ra hàm ReLU còn được sử dụng rộng rãi vì tính đơn giản của nó cũng như sự tăng tốc hội tụ của các hàm tối ưu khi sử dụng ReLU được tăng lên đáng kể**

## Train neural network model

### Backpropagation

Phương pháp phổ biến nhất để tối ưu MLP vẫn là Gradient Descent (GD). Để áp dụng GD, chúng ta cần tính được gradient của hàm mất mát theo từng ma trận trọng số \\(\mathbf{W}^{(l)}\\) và vector bias \\(\mathbf{b}^{(l)}\\). Trước hết, chúng ta cần tính _predicted output_ \\( \mathbf{\hat{y}}\\)  với một input \\(\mathbf{x}\\):
\\[
\begin{eqnarray}
\mathbf{a}^{(0)} &=& \mathbf{x} \newline
z_{i}^{(l)} &=& \mathbf{w}_i^{(l)T}\mathbf{a}^{(l-1)} + b_i^{(l)} \newline
\mathbf{z}^{(l)}  &=& \mathbf{W}^{(l)T}\mathbf{a}^{(l-1)} + \mathbf{b}^{(l)},~~ l =  1, 2, \dots, L \newline
\mathbf{a}^{(l)} &=& f(\mathbf{z}^{(l)}), ~~ l =  1, 2, \dots, L \newline
\mathbf{\hat{y}} &=& \mathbf{a}^{(L)}
\end{eqnarray}
\\]

Bước này được gói là **feedforward** vì cách tính toán được thực hiện từ đầu đến cuối của network

Giả sử \\(J(\mathbf{W, b, X, Y})\\) là một hàm mất mát của bài toán, trong đó \\(\mathbf{W, b}\\) là tập hợp tất cả các ma trận trọng số giữa các layers và biases của mỗi layer. \\(\mathbf{X, Y}\\) là cặp dữ liệu huấn luyện với mỗi cột tương ứng với một điểm dữ liệu. Để có thể áp dụng các gradient-based methods (mà Gradient Descent là một ví dụ), chúng ta cần tính được:
\\[
\frac{\partial J}{\partial \mathbf{W}^{(l)}} ; \frac{\partial J}{\partial \mathbf{b}^{(l)}},~~ l = 1, 2, \dots, L
\\]

Theo những công thức ở trên, việc tính toán trực tiếp giá trị này là cực kỳ phức tạp vì hàm mất mát không phụ thuộc trực tiếp vào các hệ số. Phương pháp phổ biến nhất được dùng có tên là Backpropagation giúp tính gradient ngược từ layer cuối cùng đến layer đầu tiên. Layer cuối cùng được tính toán trước vì nó gần gũi hơn với predicted outputs và hàm mất mát. Việc tính toán gradient của các layer trước được thực hiện dựa trên một quy tắc quen thuộc có tên là **chain rule**.

Đạo hàm của hàm mất mát theo _chỉ một thành phần_ của ma trận trọng số của lớp cuối cùng:

\\[
\begin{eqnarray}
\frac{\partial J}{\partial w_{ij}^{(L)}} &=& \frac{\partial J}{\partial z_j^{(L)}}. \frac{\partial z_j^{(L)}}{\partial w_{ij}^{(L)}} \newline
&=& e_j^{(L)} a_i^{(L-1)}
\end{eqnarray}
\\]

Trong đó \\(e_j^{(L)} = \frac{\partial J}{\partial z_j^{(L)}} \\) thường là một đại lượng _dễ tính toán_ và \\(\frac{\partial z_j^{(L)}}{\partial w_{ij}^{(L)}}  = a_i^{(L-1)}\\) vì \\(z_j^{(L)} = \mathbf{w}_j^{(L)T}\mathbf{a}^{(L-1)} + b_j^{(L)}\\).

Tương tự như thế, đạo hàm của hàm mất mát theo bias của layer cuối cùng là:
\\[
\frac{\partial J}{\partial b_{j}^{(L)}} = \frac{\partial J}{\partial z_j^{(L)}}. \frac{\partial z_j^{(L)}}{\partial b_{j}^{(L)}} = e_j^{(L)}
\\]

Với đạo hàm theo hệ số ở các lớp \\(l\\) _thấp hơn_, xem hình dưới đây.
<hr>
<div class="imgcap">
 <img src ="https://machinelearningcoban.com/assets/14_mlp/backpropagation.png" align = "center" width = "800">
</div>
<hr>

Dựa vào hính trên, ta có thể tính được:

\\[
\begin{eqnarray}
\frac{\partial J}{\partial w_{ij}^{(l)}} &=& \frac{\partial J}{\partial z_j^{(l)}}. \frac{\partial z_j^{(l)}}{\partial w_{ij}^{(l)}} \newline
&=& e_j^{(l)} a_i^{(l-1)}
\end{eqnarray}
\\]
với:

\\[
\begin{eqnarray}
e_j^{(l)} &=& \frac{\partial J}{\partial z_j^{(l)}} = \frac{\partial J}{\partial a_j^{(l)}} . \frac{\partial a_j^{(l)}}{\partial z_j^{(l)}} \newline
&=& \left( \sum_{k = 1}^{d^{(l+1)}} \frac{\partial J}{\partial z_k^{(l+1)}} .\frac{\partial z_k^{(l+1)}}{\partial a_j^{(l)}} \right) f'(z_j^{(l)}) \newline
 &=&\left( \sum_{k = 1}^{d^{(l+1)}} e_k^{(l+1)} w_{jk}^{(l+1)} \right) f'(z_j^{(l)}) \newline
 &=&\left( \mathbf{w}_{j:}^{(l+1)} \mathbf{e}^{(l+1)} \right) f'(z_j^{(l)}) \newline
\end{eqnarray}
\\]

trong đó \\(\mathbf{e}^{(l+1)} = [e_1^{(l+1)}, e_2^{(l+1)}, ..., e_{d^{(l+1)}}^{(l+1)}]^T \in \mathbb{R}^{d^{(l+1)}\times 1} \\) và \\(\mathbf{w}_{j:}^{(l+1)}\\) được hiểu là **hàng** thứ \\(j\\) của ma trận \\(\mathbf{W}^{(l+1)}\\) (Chú ý dấu hai chấm, khi không có dấu này, mặc định ký hiệu nó cho vector _cột_).

Dấu sigma tính tổng ở hàng thứ hai trong phép tính trên xuất hiện vì \\(a_{j}^{(l)}\\) _đóng góp_ vào việc tính tất cả các \\(z_k^{(l+1)}, k = 1, 2, \dots, d^{(l+1)}\\). Biểu thức đạo hàm ngoài dấu ngoặc lớn là vì \\(a_j^{(l)}  = f(z_j^{(l)})\\). Tới đây, ta có thể thấy rằng việc activation function có đạo hàm đơn giản sẽ có ích rất nhiều trong việc tính toán.

Với cách làm tương tự, bạn đọc có thể suy ra:
\\[
\frac{\partial J}{\partial b_j^{(l)}} = e_j^{(l)}
\\]

Nhận thấy rằng trong các công thức trên đây, việc tính các \\(e_j^{(l)}\\) đóng một vài trò quan trọng. Hơn nữa, để tính được giá trị này, ta cần tính được các \\(e_j^{(l+1)}\\). Nói cách khác, ta cần tính _ngược_ các giá trị này từ cuối.

<a name="-backpropagation-cho-stochastic-gradient-descent"></a>

### Backpropagation cho Stochastic Gradient Descent

<a name="-dao-ham-theo-tung-he-so-\\wij^l-bi^l\\"></a>

#### Đạo hàm theo ma trận \\(\mathbf{W}^{(l)}, \mathbf{b}^{(l)}\\)

Đặt \\(\mathbf{e}^{(l)} = [e_1^{(l)}, e_2^{(l)}, ..., e_{d^{(l)}}^{(l)}]^T \in \mathbb{R}^{d^{(l)}\times 1} \\). Ta sẽ có quy tắc tính như sau:

<hr>

1. Bước feedforward: Với 1 giá trị đầu vào \\(\mathbf{x}\\), tính giá trị đầu ra của network, trong quá trình tính toán, lưu lại các _activation_ \\(\mathbf{a}^{(l)}\\) tại mỗi layer.

2. Với output layer, tính: \\[\mathbf{e}^{(L)} = \frac{\partial J}{\partial \mathbf{z}^{(L)}}\\]

3. Từ đó suy ra:
\\[
\begin{eqnarray}
\frac{\partial J}{\partial \mathbf{W}^{(L)}} &=& \mathbf{a}^{(L-1)}\mathbf{e}^{(L)T}\newline
\frac{\partial J}{\partial \mathbf{b}^{(L)}} &=&  \mathbf{e}^{(L)}
\end{eqnarray}
\\]
4. Với \\(l = L-1, L-2, ..., 1\\), tính:
\\[
\mathbf{e}^{(l)} = \left( \mathbf{W}^{(l+1)} \mathbf{e}^{(l+1)} \right) \odot f'(\mathbf{z}^{(l)})
\\]

trong đó \\(\odot\\) là *element-wise product* tức lấy từng thành phần của hai vector nhân với nhau để được vector kết quả.

5. Cập nhật đạo hàm cho ma trận trọng số và vector biases:
\\[
\begin{eqnarray}
\frac{\partial J}{\partial \mathbf{W}^{(l)}} &=& \mathbf{a}^{(l-1)}\mathbf{e}^{(l)T}\newline
\frac{\partial J}{\partial \mathbf{b}^{(l)}} &=& \mathbf{e}^{(l)}
\end{eqnarray}
\\]

<hr>