# XGBoost模型

XGBoost 是 eXtreme Gradient Boosting 极度梯度提升树 的缩写称呼. 是boosting算法的一种实现方式


XGBoost 在并行计算效率、缺失值处理、控制过拟合、预测泛化能力上都变现非常优秀。
>参考
> *  [图解机器学习 | XGBoost模型详解](https://www.showmeai.tech/article-detail/194)


## 监督学习

### 监督学习的核心要素

 * 符号（Notations）： $$ x_i $$ 表示训练集中的第i 个样本。

 * 模型（Model）：对于已知的 $$ x_i $$  如何预测 $$ \hat y_i $$  ？

 * 线性模型（Linear Model）$$ \hat y_i = \sum w_j x_{ij}  $$   （包括线性回归和逻辑回归），预测值根据不同的任务有不同的解释：

   * 线性回归（Linear Regression）：$$ \hat y_i $$  表示预测的分数。

   * 逻辑回归（Logistic Regression）： $$ 1/ ( 1+ e^ {-\hat y_i}) $$ 预测了实例为正的概率。

 * 参数（Parameters）：需要从数据中学习的东西。
    * 线性模型（Linear Model）： $$ \theta = \{ w_j|j = 1,2,... \} $$


 * 目标函数（Objective function） $$ Obj(\theta)  = L(\theta) + \Omega(\theta) $$

  *  L(\theta) 代表训练损失函数（Training Loss），表示模型多好的拟合了训练数据。

  *  \Omega(\theta) 为正则化项（Regularization）衡量了模型的复杂程度。



### 对比

| - | GBDT | XGBoost |
| ----- | ----- | ----- |
| - |机器学习算法|增加工程实现方面的优化|
| - |使用的是损失函数一阶导数，相当于函数空间中的梯度下降| 使用了损失函数二阶导数，相当于函数空间中的牛顿法。|
|正则化：| -|XGBoost 显式地加入了正则项来控制模型的复杂度，能有效防止过拟合。|
|列采样：| -|XGBoost 采用了随机森林中的做法，每次节点分裂前进行列随机采样。|
|缺失值：| -|XGBoost 运用稀疏感知策略处理缺失值，GBDT无缺失值处理策略。|
|并行高效：| -|XGBoost 的列块设计能有效支持并行运算，效率更优。|


In [2]:
from sklearn.model_selection import GridSearchCV
from sklearn.datasets import fetch_california_housing
import xgboost as xgb
import multiprocessing

X, y = fetch_california_housing(return_X_y=True)
xgb_model = xgb.XGBRegressor(n_jobs=multiprocessing.cpu_count() // 2)
clf = GridSearchCV(xgb_model, {'max_depth': [2, 4, 6],
                                'n_estimators': [50, 100, 200]}, verbose=1, n_jobs=2)
clf.fit(X, y)
print(clf.best_score_)
print(clf.best_params_)


ModuleNotFoundError: No module named 'xgboost'