Skip to content

Latest commit

 

History

History
47 lines (37 loc) · 1.4 KB

release_note_023.md

File metadata and controls

47 lines (37 loc) · 1.4 KB

Version 0.2.3

本次发布优化及新增的特性:

  • 数据清洗

    • 支持从数据类型为数值型的特征中自动识别类别列
    • 可指定在数据清洗时对某些列不做处理
  • 特征衍生

    • 增加对时间、文本、经纬度类型的支持
    • 增加对分布式的支持
  • 建模算法

    • XGBoost:分布式建模从 dask_xgboost 迁移到 xgboost.dask ,与XGBoost官网保值一致
    • LightGBM:增加对多机分布式的支持
  • 模型训练

    • 搜索过程可复现
    • 支持低保真搜索
    • 基于统计信息预测学习曲线
    • 支持非侵入式超参数优化
    • EarlyStopping时间限制的范围调整为对整个实验的训练周期
    • 训练时支持自定义pos_label
    • 分布式场景下,eval-set支持Dask数据集
    • 优化模型训练中间结果的缓存策略
  • 搜索算法

    • 增加GridSearch算法
    • 增加Playback算法
  • 高级特性

    • 增加一阶段特征筛选并支持多种策略
    • 二阶段特征筛选支持多种策略
    • 伪标签支持多种数据筛选策略,并增加对多分类的支持
    • 优化概念漂移处理的执行性能
    • 增加对高级特性执行中间结果的缓存机制
  • 可视化

    • 实验信息可视化
    • 训练过程可视化
  • 命令行工具

    • 模型训练时可通过命令行参数支持实验的大部分特性
    • 支持模型评价
    • 支持模型预测