### 一.偏差方差是什么   

对于模型表现，我们通常首先会从偏差-方差的角度来进行分析，可以简单定义如下：    

1）偏差=训练集上的评估指标与最优指标之间的差距；  
2）方差=验证集与训练集在评估指标上的差距；   

所以我们上一页notebook中的：   
偏差=1.0-0.51=0.49   
方差=0.51-0.3=0.21   

可以发现偏差和方差都不低，且偏差>方差，对于偏差方差的高低不同还有另外两种常见的说法：    
欠拟合：高偏差低方差；   
过拟合：高方差低偏差

### 二.高偏差低方差（欠拟合）的处理方法   

往往是由于模型简单导致的，往增加模型复杂度的方向调整就可以了，通常有些这些方法：    
1）加深树深度；    
2）增加叶子节点；    
3）增加分箱数；    
4）添加新特征；   
5）添加树数量；   
6）减小正则化权重；  

### 三.高方差低偏差（过拟合）的处理方法   

对于上面6条进行反向操作即可，另外还可以考虑:    
1）添加训练数据；   
2）添加噪声；  
3）baggging集成；   

### 四.优先级问题

优先降低偏差，增加模型复杂度，原因很简单，如果模型在训练集上表现都很差时，你还能指望它在验证集上的效果会更好嘛？   

### 五.调参   
在找到我们的问题之后，就为调参指明了方向，对于我们的模型，偏差=0.39，方差=0.21，当然首先考虑降低偏差，根据上面的处理方法，我们至少有6种参数可以尝试，另外有点建议：    
1）每次固定其它参数，只调整其中一个，这样方便对照，如果你一次调整2个参数，就不好判断究竟是哪个参数起到了主导作用；   
2）如果评估指标没有明显变化时，就可以停止调整当前参数了，避免陷入过（欠）拟合；

In [1]:
import numpy as np


class DataBinWrapper(object):
    def __init__(self, max_bins=10):
        # 分段数
        self.max_bins = max_bins
        # 记录x各个特征的分段区间
        self.XrangeMap = None

    def fit(self, x):
        n_sample, n_feature = x.shape
        # 构建分段数据
        self.XrangeMap = [[] for _ in range(0, n_feature)]
        for index in range(0, n_feature):
            tmp = sorted(x[:, index])
            for percent in range(1, self.max_bins):
                percent_value = np.percentile(tmp, (1.0 * percent / self.max_bins) * 100.0 // 1)
                self.XrangeMap[index].append(percent_value)
            self.XrangeMap[index] = sorted(list(set(self.XrangeMap[index])))

    def transform(self, x):
        """
        抽取x_bin_index
        :param x:
        :return:
        """
        if x.ndim == 1:
            return np.asarray([np.digitize(x[i], self.XrangeMap[i]) for i in range(0, x.size)])
        else:
            return np.asarray([np.digitize(x[:, i], self.XrangeMap[i]) for i in range(0, x.shape[1])]).T

In [2]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")
import lightgbm as lgb
from sklearn.metrics import mean_absolute_error, mean_squared_error, auc
from pre_process.pre_process_wy1_beforejt3000_joincx import *
import toad
from sklearn import metrics
diretory="xxx"
test0 = pd.read_csv(diretory+'xxx.csv', low_memory=False)
test0 = test0[(test0['dpt'] == 217) & (test0['renew_flag'] == 1)]
claim = pd.read_csv(diretory+'/data/claimnum.csv')
claim = claim[['polnum_com', 'num']]
claim = claim.rename(columns={'polnum_com': 'policy_no'})
test0=pd.merge(test0,claim,on="policy_no",how="inner")
test0['y'] = np.where(test0['num']>0, 1, 0)
test0=test0.drop("num",axis=1)
dat1=test0.copy()
#因子筛选
dat1 = ppcess_filterCols(dat1, cols='join')
#去掉饱和度过低的因子 by 80%
na_cols = []
for c in dat1.columns:
    if dat1[c].isnull().sum()/len(dat1)>0.8:
        na_cols.append(c)
dat1 = dat1.drop(na_cols, axis=1)
jt_cx_cols = ['xxx']
dat1 = dat1.drop(jt_cx_cols, axis=1)
dat1 = ppcess_dateCols(dat1,print_process_cols=False) # 日期因子格式
dat1 = ppcess_toNum(dat1,print_process_cols=False) # 部分因子转换为数值型
dat1 = ppcess_delCols_na(dat1,print_process_cols=False) # 删去饱和度低于1%的因子
dat1 = ppcess_inpute(dat1,print_process_cols=False) # 部分因子按规则进行空值填充，数值型因子在后面做均值填充
dat1 = ppcess_delCols_uniValue(dat1,print_process_cols=False) # 删去全部唯一值的因子

dat2 = dat1.copy()
dat2 = feature_catValues(dat2,print_process_cols=False) # 修正部分因子取值
dat2 = feature_factorLabel1(dat2,print_process_cols=False) # 离散特征编码1
dat2 = feature_factorLabel2(dat2,print_process_cols=False) # 离散特征编码2
dat2 = feature_lambda(dat2,print_process_cols=False) # 构建一些特征
dat2 = dat2.drop(['xxx'], axis=1)
dat2['xxx'] = dat2['xxx'].fillna(0)
dat2['y']=test0['y']
#切分训练、验证、测试
trn_df=dat2[test0['effdate'].apply(lambda x:x[:7]<="2019-10")]

dev_test_df=dat2[test0['effdate'].apply(lambda x:x[:7]>="2019-11")]
indice=list(range(0,dev_test_df.shape[0]))
np.random.shuffle(indice)
dev_test_df=dev_test_df.iloc[indice]
dev_df=dev_test_df.iloc[:dev_test_df.shape[0]//2]
test_df=dev_test_df.iloc[dev_test_df.shape[0]//2:]

#target encoding
object_cols=trn_df.dtypes[trn_df.dtypes==object].reset_index()['index'].tolist()
trn_df[object_cols]=trn_df[object_cols].fillna("missing")
dev_df[object_cols]=dev_df[object_cols].fillna("missing")
test_df[object_cols]=test_df[object_cols].fillna("missing")
object_target_cols=[]
for col in object_cols:
    object_target_cols.append(col+"_target")
    trn_df[col+"_target"]=trn_df[col]
    dev_df[col+"_target"]=dev_df[col]
    test_df[col+"_target"]=test_df[col]
import category_encoders as ce
le=ce.TargetEncoder(cols=object_target_cols)
le.fit(trn_df,trn_df['y'])
trn_df=le.transform(trn_df)
dev_df=le.transform(dev_df)
test_df=le.transform(test_df)
#ordinary encoding
oe=ce.OrdinalEncoder()
oe.fit(trn_df,cols=object_cols)
trn_df=oe.transform(trn_df)
dev_df=oe.transform(dev_df)
test_df=oe.transform(test_df)
#分箱做一次WOE
trn_woe_df=trn_df.drop(["policy_no","y"],axis=1).copy()
dev_woe_df=dev_df.drop(["policy_no","y"],axis=1).copy()
test_woe_df=test_df.drop(["policy_no","y"],axis=1).copy()
woe_cols=[item+"_woe" for item in trn_woe_df.columns]
dbw=DataBinWrapper()
dbw.fit(trn_woe_df.values)
trn_woe_df=pd.DataFrame(data=dbw.transform(trn_woe_df.values),columns=woe_cols)
dev_woe_df=pd.DataFrame(data=dbw.transform(dev_woe_df.values),columns=woe_cols)
test_woe_df=pd.DataFrame(data=dbw.transform(test_woe_df.values),columns=woe_cols)
trn_woe_df=trn_woe_df.astype("object")
dev_woe_df=dev_woe_df.astype("object")
test_woe_df=test_woe_df.astype("object")
woe_encoder=ce.WOEEncoder()
woe_encoder.fit(trn_woe_df,trn_df['y'],cols=woe_cols)
trn_woe_df=woe_encoder.transform(trn_woe_df)
dev_woe_df=woe_encoder.transform(dev_woe_df)
test_woe_df=woe_encoder.transform(test_woe_df)
trn_df=pd.concat([trn_df.reset_index(),trn_woe_df.reset_index()],axis=1).drop(["index"],axis=1)
dev_df=pd.concat([dev_df.reset_index(),dev_woe_df.reset_index()],axis=1).drop(["index"],axis=1)
test_df=pd.concat([test_df.reset_index(),test_woe_df.reset_index()],axis=1).drop(["index"],axis=1)

训练模型

In [3]:
#自定义metrics
def eval_function(y_true,y_pred):
    try:
        y_pred=y_pred.get_label()
    except:
        pass
    sort_indice=np.argsort(y_pred)[::-1]
    metric_value=y_true[sort_indice[:int(0.05*len(y_true))]].mean()
    return "eval_function",metric_value,True
def eval(y_true,y_pred):
    return np.round(eval_function(y_true,y_pred)[1]/eval_function(y_true,y_true)[1],2)

In [1]:
# 调参推荐：https://lightgbm.readthedocs.io/en/latest/Parameters-Tuning.html
# 超参
params = {
'boosting_type':'gbdt',#集成方式，还包括rf,dart,goss等
'objective':'binary',
'metric':"eval_function",
'learning_rate':0.03,#学习率
'max_depth':8,#单颗树的最大深度
'num_leaves':200,#叶子节点数
'max_bins':255,#分箱数
'lambda_l1':1e-3,#l1正则化权重
'lambda_l2':1e-3,#l2正则化权重
# 'min_data_in_leaf':5,#叶子节点最小记录数
# 'feature_fraction':0.9,#特征抽取比例
}

trn_x = trn_df.drop(['policy_no','y'], axis=1)
trn_y = trn_df['y']

val_x = dev_df.drop(['policy_no','y'], axis=1)
val_y = dev_df['y']

trn_data = lgb.Dataset(trn_x, trn_y,categorical_feature=object_cols)
val_data = lgb.Dataset(val_x, val_y,categorical_feature=object_cols)

reg = lgb.train(params = params,
                train_set = trn_data,
                num_boost_round = 500,#最大树数量
                early_stopping_rounds = 20,#如何验证集效果在20轮中没有明显变好，就终止
                feval=eval_function,
                valid_sets = [val_data])

In [5]:
test_x = test_df.drop(['policy_no','y'], axis=1)
test_y = test_df['y']
print("训练集预测结果",eval(trn_y.values,reg.predict(trn_x)))
print("验证集预测结果",eval(val_y.values,reg.predict(val_x)))
print("测试集预测结果",eval(test_y.values,reg.predict(test_x)))

训练集预测结果 0.72
验证集预测结果 0.46
测试集预测结果 0.5


这时,    
偏差=1.0-0.72=0.28   
方差=0.72-0.46=0.26  
比较符合预期，偏差下降不少，但方差有所上升，目前偏差似乎也要也要接近极限了，接下来需要考虑降低方差，这内容放到下一页，在这里，我们可以再尝试一下自动调参技术，之前的note中介绍过网格、随机、贝叶斯调参，这里我们尝试一下automl,与人工调参做对比    

### 六.AutoML  


In [6]:
#https://microsoft.github.io/FLAML/
#https://github.com/microsoft/FLAML
from flaml import AutoML
automl = AutoML()

In [7]:
def eval_function_automl(X_test, y_test, estimator, labels,
 X_train, y_train, weight_test=None, weight_train=None):
    eval_score=eval_function(y_test,estimator.predict(X_test))[1]
    return -1*eval_score,(eval_score,)

In [2]:
# %%timeit
# automl.fit(trn_x, trn_y,X_val=val_x,y_val=val_y, task="classification", estimator_list=["lgbm"],
#            metric=eval_function_automl)

In [9]:
print("训练集预测结果",eval(trn_y.values,automl.predict(trn_x)))
print("验证集预测结果",eval(val_y.values,automl.predict(val_x)))
print("测试集预测结果",eval(test_y.values,automl.predict(test_x)))

训练集预测结果 0.13
验证集预测结果 0.05
测试集预测结果 0.05


In [3]:
# %%timeit
# automl.fit(trn_x, trn_y,X_val=val_x,y_val=val_y, task="classification", estimator_list=["lgbm"])

In [11]:
print("训练集预测结果",eval(trn_y.values,automl.predict(trn_x)))
print("验证集预测结果",eval(val_y.values,automl.predict(val_x)))
print("测试集预测结果",eval(test_y.values,automl.predict(test_x)))

训练集预测结果 0.13
验证集预测结果 0.05
测试集预测结果 0.05


In [4]:
# %%timeit
# automl.fit(trn_x, trn_y,X_val=val_x,y_val=val_y, task="classification", estimator_list=["lgbm"],
#            metric="f1")

In [13]:
print("训练集预测结果",eval(trn_y.values,automl.predict(trn_x)))
print("验证集预测结果",eval(val_y.values,automl.predict(val_x)))
print("测试集预测结果",eval(test_y.values,automl.predict(test_x)))

训练集预测结果 0.68
验证集预测结果 0.31
测试集预测结果 0.34
