# XGBoost

The most accurate modeling technique for structured data.

XGBoost (Extreme Gradient Boosting) là một thuật toán học máy phổ biến được sử dụng để giải quyết các vấn đề dự đoán và phân loại. Nó là một biến thể của thuật toán Gradient Boosting và đã đạt được sự phổ biến lớn trong cộng đồng khoa học dữ liệu và học máy.

XGBoost hoạt động bằng cách xây dựng một loạt cây quyết định (Decision Trees) theo cách tuần tự, trong đó mỗi cây cố gắng cải thiện kết quả so với cây trước đó. Quy trình này được thực hiện theo các bước sau:

- Khởi tạo cây đầu tiên: XGBoost bắt đầu bằng việc tạo một cây quyết định đơn giản, thường là một cây có một nút gốc duy nhất. Cây này sẽ được cải thiện thông qua các bước tiếp theo.

- Tối ưu hóa hàm mất mát: Mục tiêu là tối ưu hóa một hàm mất mát (loss function) để đánh giá sự sai lệch giữa dự đoán và giá trị thực tế. XGBoost sẽ cố gắng điều chỉnh cây để làm giảm hàm mất mát này thông qua việc tối ưu hóa các tham số của cây.

- Thêm cây mới: Sau khi tối ưu hóa cây hiện tại, một cây quyết định mới sẽ được thêm vào, với mục tiêu là giảm thêm sai số trong dự đoán.

- Các cây kết hợp: XGBoost tổng hợp kết quả từ tất cả các cây để tạo ra dự đoán cuối cùng. Điều này có thể thực hiện thông qua trung bình hoặc trọng số các cây theo hiệu suất của chúng.

- Kiểm soát quá khớp: XGBoost cung cấp các cơ chế kiểm soát quá khớp (overfitting) như giới hạn độ sâu của cây, cân nhắc lề (regularization), và tỷ lệ học tập (learning rate) để đảm bảo mô hình không quá phức tạp và áp dụng được cho dữ liệu mới.

XGBoost là một trong những thuật toán học máy mạnh mẽ và hiệu quả, thường được sử dụng cho các nhiệm vụ như dự đoán giá cổ phiếu, phân loại hình ảnh, hoặc bất kỳ ứng dụng nào yêu cầu dự đoán và phân loại dữ liệu.



![](https://storage.googleapis.com/kaggle-media/learn/images/MvCGENh.png)

XGBoost và LightGBM đều là các thuật toán Gradient Boosting Machine (GBM) được sử dụng rộng rãi trong lĩnh vực học máy. Dưới đây là một số điểm khác biệt giữa chúng:

**Thuật toán tối ưu hóa:**

- XGBoost (Extreme Gradient Boosting): Sử dụng thuật toán tối ưu hóa Gradient Descent. Nó cải thiện từng cây một bằng cách sử dụng Gradient Descent và tham số tùy chỉnh như 'learning rate' để điều chỉnh quá khớp.
- LightGBM: Sử dụng thuật toán tối ưu hóa Gradient-based One-Side Sampling (GOSS) và Exclusive Feature Bundling (EFB). GOSS giúp tăng tốc quá trình huấn luyện bằng cách loại bỏ các ví dụ dễ học và tập trung vào ví dụ khó học. EFB giúp tối ưu hóa việc tạo ra các tài sản đặc trưng (feature assets).
  
**Tốc độ và hiệu năng:**

- XGBoost: Tốc độ huấn luyện tương đối chậm hơn so với LightGBM. Tuy nhiên, nó vẫn nhanh hơn nhiều so với nhiều thuật toán khác.
- LightGBM: Nổi tiếng với tốc độ nhanh hơn đáng kể. Điều này đặc biệt hữu ích khi bạn có tập dữ liệu lớn và muốn huấn luyện mô hình nhanh chóng.
  
**Quản lý bộ nhớ:**

- XGBoost: Đòi hỏi một lượng bộ nhớ lớn để lưu trữ dữ liệu, đặc biệt là khi bạn có nhiều cây quyết định trong mô hình.
- LightGBM: Sử dụng cách quản lý bộ nhớ hiệu quả hơn. Nó sử dụng cấu trúc dữ liệu histogram để giảm bộ nhớ cần thiết, làm cho nó thích hợp cho dữ liệu lớn hơn.
  
**Quá khớp (Overfitting):**

- XGBoost: Để kiểm soát quá khớp, bạn cần tinh chỉnh các tham số như 'learning rate' và 'max_depth'. Quá trình này có thể tốn thời gian.
- LightGBM: LightGBM cung cấp cơ chế kiểm soát quá khớp tự động thông qua GOSS và EFB.
  
**Thiết lập và tinh chỉnh tham số:**

- XGBoost: Cần tinh chỉnh tham số một cách cẩn thận và thường đòi hỏi hiểu biết sâu về mô hình.
- LightGBM: Có thể yêu cầu ít công sức hơn trong việc tinh chỉnh tham số nhờ vào việc tự động kiểm soát quá khớp và tốc độ nhanh.
  
Chọn giữa XGBoost và LightGBM phụ thuộc vào tình huống cụ thể của dự án của bạn. Nếu bạn cần một tốc độ nhanh và quản lý bộ nhớ hiệu quả, LightGBM có thể là lựa chọn tốt. Tuy nhiên, nếu bạn có thời gian để tinh chỉnh và muốn kiểm soát cẩn thận quá khớp, XGBoost có thể phù hợp hơn.

## Example

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Read the data
data = pd.read_csv('datasets/melb_data.csv')

# Select subset of predictors
cols_to_use = ['Rooms', 'Distance', 'Landsize', 'BuildingArea', 'YearBuilt']
X = data[cols_to_use]

# Select target
y = data.Price

# Separate data into training and validation sets
X_train, X_valid, y_train, y_valid = train_test_split(X, y)

In [2]:
from xgboost import XGBRegressor

my_model = XGBRegressor()
my_model.fit(X_train, y_train)

In [3]:
from sklearn.metrics import mean_absolute_error

predictions = my_model.predict(X_valid)
print("Mean Absolute Error: " + str(mean_absolute_error(predictions, y_valid)))

Mean Absolute Error: 234472.08181839102


### Parameter turning

**XGBoost** has a few parameters that can dramatically affect accuracy and training speed. The first parameters you should understand are:

`n_estimators`

`n_estimators` specifies how many times to go through the modeling cycle described above. It is equal to the number of models that we include in the ensemble.

Too low a value causes underfitting, which leads to inaccurate predictions on both training data and test data.

Too high a value causes overfitting, which causes accurate predictions on training data, but inaccurate predictions on test data (which is what we care about).

Typical values range from `100-1000`, though this depends a lot on the `learning_rate` parameter discussed below.

Here is the code to set the number of models in the ensemble:

In [4]:
my_model = XGBRegressor(n_estimators=500)
my_model.fit(X_train, y_train)

`early_stopping_rounds`

`early_stopping_rounds` offers a way to automatically find the ideal value for `n_estimators`. 

Early stopping causes the model to stop iterating when the validation score stops improving, even if we aren't at the hard stop for `n_estimators`. 

It's smart to set a high value for `n_estimators` and then use `early_stopping_rounds` to find the optimal time to stop iterating.

Since random chance sometimes causes a single round where validation scores don't improve, you need to specify a number for how many rounds of straight deterioration to allow before stopping. Setting `early_stopping_rounds=5`is a reasonable choice. In this case, we stop after 5 straight rounds of deteriorating (đang xấu đi) validation scores.

When using `early_stopping_rounds`, you also need to set aside some data for calculating the validation scores - this is done by setting the `eval_set` parameter.

We can modify the example above to include early stopping:

In [10]:
my_model = XGBRegressor(n_estimators=500, early_stopping_rounds=5)
my_model.fit(X_train, y_train,
            eval_set=[(X_valid, y_valid)],
            verbose=False)

If you later want to fit a model with all of your data, set `n_estimators` to whatever value you found to be optimal when run with early stopping.

`learning_rate`

Instead of getting predictions by simply adding up the predictions from each component model, we can multiply the predictions from each model by a small number (known as the learning rate) before adding them in.

This means each tree we add to the ensemble helps us less. So, we can set a higher value for `n_estimators` without overfitting. If we use early stopping, the appropriate number of trees will be determined automatically.

In general, a small learning rate and large number of estimators will yield more accurate XGBoost models, though it will also take the model longer to train since it does more iterations through the cycle. As default, XGBoost sets `learning_rate=0.1`.

Modifying the example above to change the learning rate yields the following code:

In [9]:
my_model = XGBRegressor(n_estimators=1000, learning_rate=0.05, early_stopping_rounds=5, )
my_model.fit(X_train, y_train, 
            eval_set=[(X_valid, y_valid)], 
            verbose=False)

`n_jobs`

On larger datasets where runtime is a consideration, you can use **parallelism** to build your models faster. 

It's common to set the parameter `n_jobs` equal to the **number of cores** on your machine. On smaller datasets, this won't help.

The resulting model won't be any better, so micro-optimizing for fitting time is typically nothing but a distraction. But, it's useful in large datasets where you would otherwise spend a long time waiting during the fit command.

Here's the modified example:

In [8]:
my_model = XGBRegressor(n_estimators=1000, learning_rate=0.05, n_jobs=4, early_stopping_rounds=5)
my_model.fit(X_train, y_train,
            eval_set=[(X_valid, y_valid)], 
            verbose=False)