In [2]:
import numpy as np
import pandas as pd
import xgboost as xgb

In [None]:
# 处理二分类的问题

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import accuracy_score

data = load_breast_cancer()
X = data['data']
Y = data['target']

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, 
                                                test_size = 0.3
                                                ,random_state = 5  # 5最优
                      )

In [None]:
# 使用xgboost原生的包
# 将数据转化成xgboost自己能读懂的数据结构


# 参数字典设置

# 尝试自己调整这些参数，看下在测试集上的分数

# 设置一下watchlist
# 从而使得xgboost在拟合训练集的时候，不仅是不断提升训练集上的分数，而且也同时观测测试机上的分数


# 开始训练模型， 训练模型的过程中，可以尝试设置很大的基分类器的个数
# 并且通过设置'提前停止'的条件从而使得迭代提早停止


In [None]:
# 这个时候binary : logistic给出的predict结果是sigmod转化之后的类概率的值
# 需要自己定义一个函数来将其转换成最后的结果
# 使用自定义的函数将最后的结果进行0.5的处理，大于0.5的预测成1，小于则预测成0




In [None]:
# ROC_AUC

In [None]:
# 如何使用xgboost的交叉验证，当前是xgboost原生的包，无法使用cross_validate_score

# 在做交叉验证的时候也可以尝试设置评估指标，通过评估指标，来在适当的时候停止迭代
# 并且将交叉验证在训练集上的分数和测试集上的分数全都打印出来


In [None]:
# 可以尝试使用测试集迭代完之后的模型来进行参数的调优，我们可以使用以下的方式
params = {
    'objective' : 'binary:logistic',#目标函数，逻辑回归，predict输出为类概率
    #'objective' : 'binary:logitraw',#目标函数，逻辑回归，给出的是做sigmod转换之前的值
    'booster' : 'gbtree',#基分类器的种类
    'eta' : 0.1,#学习率,默认值是0.1
    'gamma' : 0,#后剪枝的过程,0到正无穷, 默认0，尝试0, 1，5，10，100
    'min_child_weight':1,#叶子节点权重分数的下界
    'max_depth': 5, #最大深度
    'eval_metric' : ['auc','error']
}

d_list = []



In [3]:
# 将图给画出来

In [4]:
# 从上面的max_depth调优之中，我们看到max_depth在等于3的时候，交叉验证里测试集上的分数是最高的
# 接着我们保证max_depth = 3 的前提下，对其他的参数调优
# 这个过程较为繁琐，可以尝试使用sklearn的API

In [5]:
# 尝试使用随机森林，查看这份数据集下，随机森林得出的结果


In [None]:
# xgboost的原生的包不能放入gridsearchcv进行调参, 不好调参
# 但是xgboost也提供了sklearn的API
# 小试牛刀一下XGBClassifier
# 尝试使用cross_validate_score



In [9]:
# 实例化详细的了解一下fit方法
# 在fit里面也是可以尝试使用的参数, 查看作重要的几个
# eval_set, 在训练的过程当中，也可以查看在训练集上的分数和测试集上的分数
# eval_metric, 到底使用什么指标来进行计算
# early_stopping_rounds, 在eval_set最后一个元素上，检测每一次跌倒的分数
# 如果在指定的次数内，eval_metric的分数没有一个较大的提升，就终止迭代
# verbose, 指的是是否要打印出每一次迭代的分数

In [None]:
# 这个时候由于是sklearn的API，则可以使用grid_search_cv来做网格搜索了
# 每个参数的范围，可以尝试通过每个参数的学习曲线去找

In [None]:
# 将grid_search_cv的参数放入原生的xgb里面进行计算




In [None]:
# 查看每一个数的结构

In [11]:
# 查看特征重要性

In [None]:
# 画出特征重要性

In [None]:
# 每一个树的可视化

In [None]:
# 将最后的结果保存下来，每一个数具体的信息就可以保存txt当总
# 这种txt文件可以后期进行一些处理，将其转换成sql语句，作用于数据库中

In [None]:
# 如何来保存模型，有两种方法

# 第一种是直接使用.save_model的方式

In [None]:
# 第二种比较常用，使用的是pickle的方式来保存
# pickle几乎能保存所有可能的类

#首先要打开一个文件，然后将模型写进去
#如果是要写一个二进制文件的话，就需要用wb, write binary在写入

#从二进制文件读取模型

#调用出来之前上模型来预测数据

In [12]:
# 多分类问题的,小麦种子的案例
# https://archive.ics.uci.edu/ml/machine-learning-databases/00236/

In [None]:
# 取出数据集里的X与Y

# 查看Y的标签

# 这个时候观测到数据集的标签是从1打头的

In [None]:
# 对于多分类的问题来说
# 需要更改objective为multi:softmax, 也需要指定num_class

# 尝试设置简单的params来拟合数据

# 尝试开始训练数据
# 这个时候会报错，报错的信息提示label里面必须是从0开始的，但是当前的标签是从1开始的

# 所以需要将label里面的值减一个


In [None]:
# 按正常的方式来切分数据集

In [None]:
# 设置多分类问题的参数，并且拟合数据

In [None]:
# softmax是直接给出预测的标签值，不是类概率
# 可以直接使用sklearn的accuracy_score方法来计算准确度

In [None]:
# 模型表现不怎么样，xgboost不行的话，看一下rfc和ada的表现呢

# 发现rfc和ada表现都不咋滴，还是xgboost略微高一些

In [None]:
# 小试牛刀尝试使用sklearn的API

# API可以直接使用交叉验证

In [None]:
# 开始设置一些参数的范围，开始网格搜索



In [None]:
# 设置多分类的参数，使用xgboost原生的包



In [None]:
# 回归类问题

from xgboost import XGBRegressor
import warnings
from sklearn.datasets import load_boston
from sklearn.metrics import mean_squared_error as MSE, r2_score

#导入数据并且切分数据集
data = load_boston()
X = data.data
Y = data.target

Xtrain, Xtest, Ytrain, Ytest = train_test_split(X, Y, test_size = 0.3
                                                , random_state = 420
                                               )

In [None]:
#实例化模型


In [None]:
# 尝试使用cross_val_score

In [None]:
# 和随机森林回归来比较

# 也看一下cross_val_score

In [None]:
# 使用类DMatrix读取数据, 特征矩阵和标签进行一起传入

# 并且这里也介绍一些新的参数 
# colsample_bytree 列的随机采样
# subsample bootstrap样本的有放回随机采样


In [13]:
# 计算出MSE和r2分数

In [None]:
# 尝试使用网格搜索的方式来找最优参数



In [14]:
# 将最优的参数放入在原生的包里面查看最后的结果

In [None]:
# 之前使用的是rmse来进行判定的，此时如果我们想自定义一个评估标准的话可以写一个函数出来

# 定义一个计算R平方的函数，注意return记结果的格式有规则，不然xgb不认识


# 定义好函数之后，在train里面放入到feval

# 查看最后的结果