# XGBoost Model
* 此 notebook 用于训练 XGBoost 模型，模型结果保存在 ```Model``` 目录下
* 此 notebook 基于上述模型对测试数据集进行预测，预测结果保存在 ```Output``` 目录下
* 运行此 notebook 前，请确保已经正确运行前置程序 ```trainPrep.py``` 和 ```testPrep.py```，得到特征文件 ```train_data.csv``` 和 ```test_data.csv```，并确保它们和此程序位于同一目录下

## 1. Preparation
导入需要的模块

In [1]:
import warnings
warnings.filterwarnings('ignore') # 取消warning

import time
import xgboost as xgb
import pandas as pd
import numpy as np
import pickle
from sklearn.model_selection import train_test_split

## 2. Load Data & Standardization
读取数据，并使用 z-score 进行标准化

In [2]:
# 读取数据
train_ = pd.read_csv('train_data.csv')
test_ = pd.read_csv('test_data.csv')
# 填充缺失值
train_ = train_.fillna(0)
test_ = test_.fillna(0)
# 定义标准化函数
def standardization(df):
    newDataFrame = pd.DataFrame(index=df.index)
    columns = df.columns.tolist()
    for c in columns:
        if (c == 'label'):
            newDataFrame[c] = df[c].tolist()
        else:
            d = df[c]
            newDataFrame[c] = ((d - np.mean(d)) / (np.std(d))).tolist()
    return newDataFrame
# 进行标准化
train_data = standardization(train_)
test_data =  standardization(test_)
# 提取特征和类别
label = train_data['label'] # label 从 0 开始标记，0，1，2，3 分别表示 4 种情绪
feature = train_data.drop(['label'],axis=1)

## 3. Model Training
训练 XGBoost 模型，并调整超参数

In [3]:
now = time.time()
# 超参数
paras={
    'booster':'gbtree',
    'objective':'multi:softmax', # 多分类问题，采用multisoft多分类器
    'num_class':4, # 类别数，与multi softmax并用
    'gamma':0.015, # 树的叶子节点下一个区分的最小损失
    'max_depth':20, # 树的最大深度
    'lambda':40, # L2正则项权重
    'subsample':0.6, # 用于训练模型的子样本占整个样本集合的比例
    'colsample_bytree':0.7, # 在建立树时对特征采样的比例
    'min_child_weight':22, # 节点的最少特征数
    'silent':1,
    'eta':0.5, # 为了防止过拟合，更新过程中用到的收缩步
    'seed':123,
    'nthread':4, # cpu线程数
}
# 将上述所有超参数放到集合plst中
plst=list(paras.items())

# 将训练集划分为训练集（90%）和验证集（10%）
X_train,x_val,Y_train,y_val = train_test_split(feature,label,test_size=0.1,random_state=156)

# 设定总迭代次数
num_rounds=5000

# 置入DMatrix数据结构
xgtrain=xgb.DMatrix(X_train, label=Y_train)#将训练集的二维数组加入到里面
xgval=xgb.DMatrix(x_val,label=y_val)#将验证集的二维数组形式的数据加入到DMatrix对象中
xgtest=xgb.DMatrix(test_data)

# 设定观察训练集和验证集上的错误率
watchlist =[(xgtrain,'train'),(xgval,'val')]

# 训练 XGBoost 模型
model = xgb.train(plst,xgtrain,num_rounds,watchlist,early_stopping_rounds=100)

# 计算训练用时
cost_time=time.time()-now
print("end...",'\n',"cost time",cost_time,"(s)...")

[0]	train-merror:0.55039	val-merror:0.615584
Multiple eval metrics have been passed: 'val-merror' will be used for early stopping.

Will train until val-merror hasn't improved in 100 rounds.
[1]	train-merror:0.488882	val-merror:0.579221
[2]	train-merror:0.457118	val-merror:0.594805
[3]	train-merror:0.435749	val-merror:0.584416
[4]	train-merror:0.410049	val-merror:0.563636
[5]	train-merror:0.40283	val-merror:0.545455
[6]	train-merror:0.371643	val-merror:0.524675
[7]	train-merror:0.359515	val-merror:0.532468
[8]	train-merror:0.33497	val-merror:0.527273
[9]	train-merror:0.321109	val-merror:0.527273
[10]	train-merror:0.306671	val-merror:0.511688
[11]	train-merror:0.29743	val-merror:0.514286
[12]	train-merror:0.287323	val-merror:0.519481
[13]	train-merror:0.27635	val-merror:0.511688
[14]	train-merror:0.262489	val-merror:0.532468
[15]	train-merror:0.251516	val-merror:0.527273
[16]	train-merror:0.243431	val-merror:0.527273
[17]	train-merror:0.235634	val-merror:0.524675
[18]	train-merror:0.228

## 4. Save The Model
将训练得到的模型文件保存在 ```Model``` 目录下，模型文件名为 ```XGB.pickle.dat```

In [4]:
# 保存模型
pickle.dump(model, open("Model/XGB.pickle.dat", "wb"))

## 5. Prediction
基于得到的 XGBoost 模型对测试数据集进行预测，预测结果保存在 ```Output``` 目录下，预测结果文件名为 ```xgb_result.csv```

In [5]:
# 读取模型
model = pickle.load(open("Model/XGB.pickle.dat", "rb"))
# 进行预测
preds=model.predict(xgtest,ntree_limit=model.best_iteration) + 1 # +1 是为了将 label 改回从1开始标记
np.savetxt('Output/xgb_result.csv',np.c_[range(1,len(test_data)+1),preds],
           delimiter=',',header='id,label',comments='',fmt='%d')