# CatBoost (Category Boost)

CatBoost的主要特點是能夠自動處理類別型特徵，無需進行獨熱編碼等預處理步驟，並且具有高效率和準確性。它在應用於分類和回歸任務時都具有良好的性能。最大的特點對類別特徵的直接支援，甚至允許字串類型的特徵進行模型訓練。

需要注意的是，CatBoost支援的特徵類型包括數值特徵、類別特徵和文本特徵，並且它有對類別特徵進行優化處理的內置機制。

[詳細參考文章](https://zhuanlan.zhihu.com/p/102540344)

## 執行步驟

1. 載入數據：從數據集中載入特徵和目標變數。

2. 訓練集和測試集分割：將數據集分割成訓練集和測試集。

3. 定義類別特徵：識別並定義數據中的類別特徵（類別型變數）。

4. 初始化CatBoost模型：初始化CatBoostClassifier或CatBoostRegressor模型，設置相應的超參數。

5. 訓練模型：使用訓練集進行模型的訓練，模型會根據目標變數的真實值逐步進行優化。

6. 驗證模型：使用測試集評估模型的性能，可以計算準確率、AUC等指標。

7. 調整超參數：根據模型的表現，進行超參數的調整，以提高模型的泛化能力。

8. 預測新數據：使用訓練好的CatBoost模型對新的數據進行預測。

## python
```python
from catboost import CatBoostClassifier
...
model = CatBoostClassifier(iterations=1000, depth=6, learning_rate=0.1, loss_function='MultiClass', cat_features=[])
...
```

其他模型還有 CatBoostRanker, CatboostRegressor 等

### 參數解釋, 以 CatBoostClassifier 為例

* iterations: 決定要執行的迭代次數，每次迭代中將生成一個新的樹。

* learning_rate: 控制每個迭代的樹的貢獻程度，通常與 iterations 一起使用，較小的值可以提高模型的魯棒性。

* depth: 樹的最大深度。較深的樹可以捕獲更複雜的模式，但也容易過擬合。

* loss_function: 定義了模型訓練過程中的損失函數，根據問題的性質選擇不同的損失函數，例如分類問題可以使用 'MultiClass'。

* cat_features: 如果數據集中有類別特徵，可以指定它們的索引，這樣CatBoost可以處理這些特徵。

* early_stopping_rounds: 在訓練過程中，如果驗證集的表現不再改善，可以提前停止訓練以避免過擬合。

* class_weights: 給不同類別分配不同的權重，用於處理不平衡的類別分佈。

* custom_metric: 可以自定義衡量模型性能的指標。

* random_seed: 控制隨機數的種子，用於保證實驗的可復現性。

[參考](https://catboost.ai/en/docs/concepts/python-reference_catboostclassifier_fit)

In [5]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from catboost import CatBoostClassifier
from sklearn.metrics import accuracy_score

# 載入Iris數據集
iris = load_iris()
X = iris.data
y = iris.target

# 分割訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化CatBoost分類器
model = CatBoostClassifier(iterations=1000, depth=6, learning_rate=0.1, loss_function='MultiClass', cat_features=[])

# 訓練模型
model.fit(X_train, y_train, verbose=100)

# 預測測試集
y_pred = model.predict(X_test)

# 計算準確率
accuracy = accuracy_score(y_test, y_pred)
print("模型準確率:", accuracy)


0:	learn: 0.9813365	total: 135ms	remaining: 2m 15s
100:	learn: 0.0482433	total: 209ms	remaining: 1.86s
200:	learn: 0.0208260	total: 288ms	remaining: 1.14s
300:	learn: 0.0129658	total: 365ms	remaining: 849ms
400:	learn: 0.0092262	total: 441ms	remaining: 659ms
500:	learn: 0.0071433	total: 514ms	remaining: 512ms
600:	learn: 0.0058393	total: 587ms	remaining: 390ms
700:	learn: 0.0049524	total: 661ms	remaining: 282ms
800:	learn: 0.0043034	total: 733ms	remaining: 182ms
900:	learn: 0.0037637	total: 814ms	remaining: 89.4ms
999:	learn: 0.0033542	total: 888ms	remaining: 0us
模型準確率: 1.0
