# XGBoost Model
* 此 notebook 基于训练得到的 XGBoost 模型对测试数据集进行预测，预测结果保存在 ```Output``` 目录下
* 运行此 notebook 前，请确保已经正确运行前置程序 ```testPrep.py```，得到特征文件 ```test_data.csv```，并确保它们和此程序位于同一目录下
* 运行此 notebook 前，请确保已经正确运行前置程序 ```xgbModel.ipynb```，并得到保存在 ```Model``` 目录下的模型文件 ```XGB.pickle.dat```

## 1. Preparation
导入需要的模块

In [1]:
import warnings
warnings.filterwarnings('ignore') # 取消warning

import xgboost as xgb
import pandas as pd
import numpy as np
import pickle

## 2. Load Data & Standardization
读取数据，并使用 z-score 进行标准化

In [2]:
# 读取测试数据
test_ = pd.read_csv('test_data.csv')
# 填充缺失值
test_ = test_.fillna(0)
# 定义标准化函数
def standardization(df):
    newDataFrame = pd.DataFrame(index=df.index)
    columns = df.columns.tolist()
    for c in columns:
        if (c == 'label'):
            newDataFrame[c] = df[c].tolist()
        else:
            d = df[c]
            newDataFrame[c] = ((d - np.mean(d)) / (np.std(d))).tolist()
    return newDataFrame
# 进行标准化
test_data =  standardization(test_)

## 3. Load Model & Prediction
读取训练得到的 XGBoost 模型对测试数据集进行预测，预测结果保存在 ```Output``` 目录下，预测结果文件名为 ```xgb_result.csv```

In [3]:
# 读取模型
model = pickle.load(open("Model/XGB.pickle.dat", "rb"))
# 测试数据集置入DMatrix数据结构
xgtest=xgb.DMatrix(test_data)
# 进行预测
preds=model.predict(xgtest,ntree_limit=model.best_iteration) + 1 # +1 是为了将 label 改回从1开始标记
np.savetxt('Output/xgb_result.csv',np.c_[range(1,len(test_data)+1),preds],
           delimiter=',',header='id,label',comments='',fmt='%d')