GBDT衍生变量及其应用
- get_gbdt_path_var 将GBDT各子树的路径衍生为变量,变量名包含了路径的节点信息,便于回溯
- get_data_gbdt 回溯GBDT衍生变量给其他数据集(根据各变量取值判断直接回溯,比sklearn的apply和transform更易推广)
- get_head_rule 打印前n个目标占比最高的规则
- get_rule_df 计算所有规则的覆盖率、目标占比,返回包含这些信息的数据集
- max_depth 控制每条规则的最多使用变量个数,即一条规则的条件判断不超过max_depth个
- min_samples_leaf 控制每条规则的最少样本覆盖率,即一条规则的样本覆盖率不小于min_samples_leaf(float)
- n_estimators 综合max_depth控制规则个数,即提取的规则不超过n_estimators*2^(max_depth)个
- get_lr_model 训练逻辑回归模型,打印并返回模型的截距项、系数、选择变量
- get_lr_proba 计算特定截距项、系数、选择变量下的逻辑回归模型的预测概率值(结果与lr.predict_proba相同)