
# XGBoost python 软件包介绍
***
相关链接:
* [python演示代码](https://github.com/tqchen/xgboost/tree/master/demo/guide-python "Python walkthrough code collections")
* [python API](http://xgboost.readthedocs.io/en/latest/python/python_api.html "Python API Reference")

## 1. 数据接口(Data Interface)
***
XGBoost python 模块能够导入的数据, 来源于:
* libsvm txt format file
* Numpy 2D array
* xgboost binary buffer file

数据存储在 `DMatrix` 对象中.
* 加载一个 libsvm 文本文件或者 XGBoost 二进制文件到 `DMatrix`:

In [None]:
import xgboost as xgb

dtrain = xgb.DMatrix('train.svm.txt')
dtest = xgb.DMatrix('test.svm.buffer')

* 加载一个 numpy 数组到 `DMatrix`:

In [None]:
import numpy as np

data = np.random.rand(5, 10) # 5 entities, each contains 10 features
label = np.random.randint(2, size=5) # binary target
dtrain = xgb.DMatrix(data, label=label)

* 加载一个 scipy.sparse 数组到 `DMatrix`:

In [None]:
import scipy

csr = scipy.sparse.csr_matrix((dat, (row, col)))
dtrain = xgb.DMatrix(csr)

* 保存 `DMatrix` 到 XGBoost 二进制文件会加快加载速度:

In [None]:
dtrain = xgb.DMatrix('train.svm.txt')
dtrain.save_binary('train.buffer')

* 缺失值被 `DMatrix` 构造器中给定的默认值填充:

In [None]:
dtrain = xgb.DMatrix(data, label=label, missing=-999.0)

* 权重能够被设置:

In [None]:
w = np.random.rand(5, 1)
dtrain = xgb.DMatrix(data, label=label, missing=-999.0, weight=w)

## 2. 设定参数(Setting Parameters)
***
XGBoost 能够使用键值对列表(list of pairs)或者字典去设置参数. 例如:
* Booster parameters

In [None]:
param = {'max_depth': 2, 'eta': 1, 'silent': 1, 'objective': 'binary:logistic'}
param['nthread'] = 4
param['eval_metric'] = 'auc'

* 你也可以指定多个评价指标:

In [None]:
param['eval_metric'] = ['auc', 'ams@0']

# alternatively:
# plst = param.items()
# plst += [('eval_metric', 'ams@0')]

* 指定验证集测试性能

In [None]:
evallist = [(dtest, 'eval'), (dtrain, 'train')]

## 3. 训练
***
训练一个模型需要一个参数列表和数据集.

In [None]:
num_round = 10
bst = xgb.train(plst, dtrain, num_round, evallist)

完成训练之后, 模型能够被保存下来.

In [None]:
bst.save_model('0001.model')

模型和特征映射也能被保存到文本文件中.

In [None]:
# dump model
bst.dump_model('dump.raw.txt')
# dump model with feature map
bst.dump_model('dump.raw.txt', 'featmap.txt')

保存的模型能够通过如下方式加载:

In [None]:
bst = xgb.Booster({'nthread': 4})  # init model
bst.load_model('model.bin')  # load data

## 4. 早停(Early Stopping)
***
如果你有一个验证集, 你能够使用早停去找到最优的提升轮数. 早停需要至少一个数据集在 `eval` 中. 如果这里有多个数据集, 将会使用最后一个.

`train(..., evals=evals, early_stopping_rounds=10)`

模型会训练到验证集评分不在增长时停止训练. 

如果早停发生了, 模型将会有三个额外的域: `bst.best_score`, `bst.best_iteration` 和 `bst.best_ntree_limit`. 注意: `train()`将会返回最后一次迭代后的模型, 而不是最优模型.

早停对最小化指标(RMSE, log loss 等)和最大化指标(MAP, NDCG, AUC)均适用. 注意: 如果你指定了多个评价指标, `param['eval_metric']` 中的最后一个指标将会被用作早停指标.

## 5. 预测
***
训练好或者加载保存的模型能够用来预测.

In [None]:
# 7 entities, each contains 10 features
data = np.random.rand(7, 10)
dtest = xgb.DMatrix(data)
ypred = bst.predict(dtest)

如果在训练时使能了早停, 你能通过 `bst.best_ntree_limit` 获得最优模型的预测:

In [None]:
ypred = bst.predict(dtest, ntree_limit=bst.best_ntree_limit)

## 6. 绘图(Plotting)
***
你能够使用绘图模块去绘制重要的和输出的树.

使用 `plot_importance` 去绘制重要的树. 这个功能需要 `matplotlib` 的支持.

In [None]:
xgb.plot_importance(bst)

通过 `matplotlib` 使用 `plot_tree` 绘制输出树, 指定树的数目. 该函数需要 `graphviz` 和 `matplotlib`的支持.

In [None]:
xgb.plot_tree(bst, num_trees=2)

当你使用 `IPython` 时, 你可以使用 `to_graphviz` 函数, 该函数将目标树转换为一个 `graphviz` 实例. `graphviz` 实例在 `IPython` 中被自动绘制.

In [None]:
xgb.to_graphviz(bst, num_trees=2)