# XGBoost

XGBoost 是一種高效的 Gradient Boosting 變體

XGBoost 是一種集成學習方法，通過組合多個弱學習器（通常是決策樹）的預測結果，來提高整體模型的準確性。它在 Gradient Boosting 的基礎上進行了一些改進，包括對模型的正則化、自定義損失函數、並引入了稀疏數據的處理方法。

## 基本步驟

1. 初始化模型：初始模型可以是一個常數值，也可以是根據某種啟發式方法設置。

2. 計算梯度和二階導數：使用訓練數據計算目標變數的梯度和二階導數，用於指導模型的訓練方向。

3. 迭代生成弱學習器：迭代過程中，每次生成一個弱學習器（通常是一棵淺層決策樹）。新的弱學習器將針對之前模型的預測誤差進行擬合。

4. 計算步長（learning rate）：根據模型的更新情況計算步長，以控制每個弱學習器的貢獻程度。

5. 更新模型：將新生成的弱學習器加入到模型中，並根據步長進行加權。

6. 重複迭代：重複執行步驟 3-5，生成多個弱學習器，這些學習器將逐漸減少訓練數據的預測誤差。

7. 集成弱學習器：將所有生成的弱學習器組合成一個強大的集成模型，該模型能更好地處理複雜的數據關係。

8. 得到最終模型：最終的 XGBoost 模型是多個弱學習器的組合，能夠在預測新數據時具有較高的準確性和泛化能力。

### 和 Gradient Boosting 的差別

* 正則化策略：XGBoost 在構建模型的過程中使用了正則化，而Gradient Boosting則沒有明確地包含正則化。XGBoost引入了L1（Lasso）和L2（Ridge）正則化，以及樹的深度控制，以避免過度擬合。

* 自適應學習率：XGBoost引入了一個自適應學習率（adaptive learning rate）的概念，該學習率在每次迭代中會自動調整，使得模型能更快收斂，同時又不容易出現震盪。

* 損失函數的二階導數：XGBoost計算損失函數的一階導數和二階導數，這使得它可以更好地處理非平穩損失函數。

* 特徵分裂策略：XGBoost採用了一個基於樣本權重的特徵分裂策略，這可以更好地處理不平衡數據集。

* 並行處理：XGBoost能夠利用多核CPU進行並行處理，加速模型的訓練過程。

## 優缺點

### 優點：

* 高效性： XGBoost優化了梯度提升算法的效率，使用了並行計算和近似分割等技術，使得訓練速度相對較快。

* 正則化： XGBoost允許使用正則化來控制模型的複雜度，防止過擬合。這有助於提高模型的泛化能力。

* 支持多種損失函數： XGBoost支持多種損失函數，包括均方誤差（MSE）、二元交叉熵等，使其適用於不同類型的問題。

* 處理缺失值： XGBoost能夠自動處理缺失值，不需要預先處理。

* 特徵重要性評估： XGBoost可以計算特徵的重要性，幫助了解哪些特徵對於模型的預測最有貢獻。

* 靈活性： XGBoost能夠處理各種類型的特徵，包括數值型和類別型。

### 限制：

* 參數調整： XGBoost的參數相對較多，需要進行複雜的參數調整來達到最佳效果。不恰當的參數設定可能導致過擬合或者欠擬合。

* 過度擬合： 如果不適當使用，XGBoost仍然可能面臨過度擬合的問題，特別是在數據量較少的情況下。

* 計算資源需求： 由於XGBoost使用了並行計算和多棵樹的集成，可能對計算資源（CPU和內存）的需求較高。

## python

```python
from xgboost import {model}
...
```

{model} :

* XGBClassifier：

    XGBClassifier 是 XGBoost 中的分類模型，用於解決分類問題。它是一個集成的強大模型，使用多個弱分類器來預測輸出類別。它的基本思想是通過訓練多個弱分類器，然後將它們的預測結果進行加權組合，以得到最終的預測結果。 XGBClassifier 支持二元分類和多類別分類，並可以自定義目標函數和評估指標。

* XGBRegressor：

    XGBRegressor 是 XGBoost 中的回歸模型，用於解決回歸問題。與 XGBClassifier 類似，它也是通過集成多個弱回歸器來進行預測。對於回歸任務，XGBRegressor 通常使用均方誤差（MSE）作為目標函數，但也可以自定義其他的目標函數和評估指標。

* XGBRanker:

    用於排序問題的模型，可以用於搜索引擎的排名、推薦系統等。

* XGBRFClassifier 和 XGBRFRegressor:

    這是一種基於隨機森林的變體，採用隨機特徵子集進行訓練，以減少過度擬合的風險。

* XGBDMatrix:

    這是一種特定的數據結構，用於存儲數據和標籤，可以更有效地處理大型數據集。

* XGBCallback:

    XGBoost 提供了回調函數的功能，可以在訓練過程中添加自定義的回調函數，以實現各種用途，如早期停止、自定義度量等。

### 部分參數解釋 :

* n_estimators (int): 決定要建立多少個樹模型，即迭代的次數。預設為100。

* learning_rate (float): 控制每個弱學習器的權重，也稱為學習率或步長。較小的學習率可以使模型更加穩定，但可能需要更多的迭代次數。通常與n_estimators一起調整，以找到適當的平衡點。預設為0.1。

* max_depth (int): 每棵樹的最大深度。深度越大，模型越複雜，容易過擬合。通常與min_child_weight一起調整以避免過擬合。預設為6。

* min_child_weight (int): 每個節點的最小樣本數。較小的值可以使模型更傾向於擬合較少數量的樣本，容易過擬合。通常與max_depth一起調整。預設為1。

* subsample (float): 控制每個迭代中隨機選取的樣本比例，以減少過擬合。較小的值使得模型更加保守，但也可能減緩學習速度。預設為1，即使用所有樣本。

* colsample_bytree (float): 控制每個迭代中隨機選取的特徵比例，以減少過擬合。預設為1，即使用所有特徵。

* gamma (float): 控制每個節點分割時所需的最小損失減少。增加此值將導致更保守的模型，避免過度分割。預設為0。

* lambda (float): L2 正則化項的權重，用於控制模型的複雜度。增加此值將降低模型的變異性。預設為1。

* alpha (float): L1 正則化項的權重，用於進一步控制模型的複雜度。增加此值將降低模型的變異性。預設為0。

* objective (str): 定義要最小化的損失函數。常見的目標函數包括'reg:squarederror'（均方誤差）和'binary:logistic'（二元分類的對數損失）。可以根據任務類型選擇合適的目標函數。

* eval_metric (str): 衡量模型性能的指標，例如'rmse'（均方根誤差）和'logloss'（對數損失）。通常根據目標函數選擇合適的評估指標。

In [12]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import mean_squared_error

# 從 CSV 檔案讀取資料
boston_data = pd.read_csv('BostonHousing.csv')

# 分割特徵和目標變數
X = boston_data.drop('medv', axis=1) 
y = boston_data['medv']

# 分割資料集為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化預測結果（初始化為訓練集平均值）
y_pred = np.full(y_train.shape, np.mean(y_train))

# 設定梯度提升迭代次數和初始學習率
n_estimators = 100
initial_learning_rate = 0.1

# 初始化自適應學習率為初始學習率
learning_rate = initial_learning_rate

# 建立迭代模型
for _ in range(n_estimators):
    # 計算殘差
    residuals = y_train - y_pred
    
    # 創建弱學習器（這裡使用決策樹）
    base_model = DecisionTreeRegressor(max_depth=3)
    base_model.fit(X_train, residuals)
    
    # 得到弱學習器的預測結果
    base_pred = base_model.predict(X_train) # 這裡沒有用正則化當例子
    
    # 更新預測結果（加上弱學習器預測的部分，乘以學習率）
    y_pred += learning_rate * base_pred
    
    # 計算訓練集的均方誤差
    train_mse = mean_squared_error(y_train, y_pred)
    
    # 更新學習率，可以根據需要進行調整
    learning_rate = initial_learning_rate / (1.0 + _)
    
    print(f"第 {_+1} 次迭代，訓練集均方誤差: {train_mse:.4f}")

# 計算測試集的預測結果
test_pred = np.full(y_test.shape, np.mean(y_train))
for _ in range(n_estimators):
    test_base_pred = base_model.predict(X_test)
    test_pred += learning_rate * test_base_pred

# 計算測試集的均方誤差
test_mse = mean_squared_error(y_test, test_pred)
print("測試集均方誤差:", test_mse)


第 1 次迭代，訓練集均方誤差: 73.3888
第 2 次迭代，訓練集均方誤差: 62.3076
第 3 次迭代，訓練集均方誤差: 57.6490
第 4 次迭代，訓練集均方誤差: 54.8146
第 5 次迭代，訓練集均方誤差: 52.8016
第 6 次迭代，訓練集均方誤差: 51.2842
第 7 次迭代，訓練集均方誤差: 50.0444
第 8 次迭代，訓練集均方誤差: 49.0242
第 9 次迭代，訓練集均方誤差: 48.1564
第 10 次迭代，訓練集均方誤差: 47.4029
第 11 次迭代，訓練集均方誤差: 46.7160
第 12 次迭代，訓練集均方誤差: 46.1036
第 13 次迭代，訓練集均方誤差: 45.5287
第 14 次迭代，訓練集均方誤差: 45.0415
第 15 次迭代，訓練集均方誤差: 44.5816
第 16 次迭代，訓練集均方誤差: 44.1404
第 17 次迭代，訓練集均方誤差: 43.7322
第 18 次迭代，訓練集均方誤差: 43.3527
第 19 次迭代，訓練集均方誤差: 43.0149
第 20 次迭代，訓練集均方誤差: 42.6949
第 21 次迭代，訓練集均方誤差: 42.3819
第 22 次迭代，訓練集均方誤差: 42.0867
第 23 次迭代，訓練集均方誤差: 41.8179
第 24 次迭代，訓練集均方誤差: 41.5699
第 25 次迭代，訓練集均方誤差: 41.3178
第 26 次迭代，訓練集均方誤差: 41.0868
第 27 次迭代，訓練集均方誤差: 40.8577
第 28 次迭代，訓練集均方誤差: 40.6387
第 29 次迭代，訓練集均方誤差: 40.4422
第 30 次迭代，訓練集均方誤差: 40.2483
第 31 次迭代，訓練集均方誤差: 40.0550
第 32 次迭代，訓練集均方誤差: 39.8691
第 33 次迭代，訓練集均方誤差: 39.6967
第 34 次迭代，訓練集均方誤差: 39.5242
第 35 次迭代，訓練集均方誤差: 39.3660
第 36 次迭代，訓練集均方誤差: 39.2050
第 37 次迭代，訓練集均方誤差: 39.0507
第 38 次迭代，訓練集均方誤差: 38.9000
第 39 次迭代，訓練集均方誤差: 38.

In [15]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
import xgboost as xgb
from sklearn.metrics import mean_squared_error

# 從 CSV 檔案讀取資料
boston_data = pd.read_csv('BostonHousing.csv')

# 分割特徵和目標變數
X = boston_data.drop('medv', axis=1) 
y = boston_data['medv']

# 分割資料集為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 創建XGBoost回歸模型
model = xgb.XGBRegressor(
    objective="reg:squarederror",
    n_estimators=100,
    learning_rate=0.1,
    max_depth=3,  # 控制樹的深度，進行正則化
    min_child_weight=1,  # 控制節點的最小樣本數，進行正則化
    gamma=0,  # 控制節點分裂的最小損失函數下降，進行正則化
    subsample=1,  # 控制每棵樹的隨機樣本比例
    colsample_bytree=1,  # 控制每棵樹的隨機特徵比例
    reg_alpha=0.5,  # L1 正則化項，加入正則化
    reg_lambda=0.5,  # L2 正則化項，加入正則化
    random_state=42
)

# 訓練模型
model.fit(X_train, y_train)

# 預測測試集
y_pred = model.predict(X_test)

# 計算均方誤差
mse = mean_squared_error(y_test, y_pred)
print("測試集均方誤差:", mse)


測試集均方誤差: 5.9641193087343005
