the method to precess missing value #5

PseudoProgrammer · 2018-08-21T07:54:19Z

模型在处理missing value有点问题，麻烦看一下，谢谢！
这是我构造的训练集A，20条样本，训练集上的auc=0.55
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
0 1 0:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1
1 1 1:1

训练集合B，对A补全了特征，20条样本，训练集上auc=1
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
0 1 0:1 1:0
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1
1 1 0:0 1:1

PseudoProgrammer · 2018-08-21T07:56:34Z

ps：之所以倾向于构建训练集A，是因为应用场景的特征高维稀疏。训练集A可以降低硬盘存储和训练模型的内存

qiyiping · 2018-08-22T12:06:21Z

你好，

训练数据格式有这么一个约定：如果某一维特征没有出现在样本中，则认为这条样本中这一维特征为缺失（N/A，not available)。

树模型拟合过程中，也会对缺失值进行特殊的处理。

所以目前数据格式中对于特征值为0的情况也得显示的标明。

另外，从训练复杂度来看的话，树模型的训练时间和特征维度成正比，如果特征维度特别高的话，树模型的训练时间会特别大，可以考虑尝试其他模型（LR、FM、FFM等）

PseudoProgrammer · 2018-08-23T02:49:10Z

你好，
1、由于一些场景需要，其他模型可能不太适合，需要这个c++的gbdt
2、这两份数据集A和B的信息量是一样，所以期待两分数据抛出来的auc效果是一样的。因为B只是对A的所有缺失值补0而已，信息量没有增加
所以，想问下当前的gbdt对missing value是怎样处理的，以及，有没有推荐的方案供参考

PseudoProgrammer · 2018-08-23T02:49:18Z

@qiyiping

PseudoProgrammer · 2018-08-23T02:50:19Z

比如xgboost的方案是把missing value的样本全分到左孩子节点

qiyiping · 2018-08-23T08:18:22Z

你好，这个实现中，是用一颗“三叉树”来处理missing value情况的：左右子节点+NaN节点。

所以对数据格式有了这样的要求。

如果你期望实现sparse的数据格式，可以简单修改一下数据加载模块：

gbdt/src/cpp/data.cpp

Line 44 in 5aa5b9f

result->feature[i] = kUnknownValue;

将初始值从kUnknownValue改为0即可以了。

希望能帮助到你。

多谢

PseudoProgrammer · 2018-08-27T09:42:20Z

好的，另外有个疑问哈，如果是三叉树的话，训练集A的auc为什么不是1呢

PseudoProgrammer · 2018-08-27T09:43:23Z

特征0 非miss即判断为0类别，miss即判断为1类别

qiyiping · 2018-08-27T10:23:20Z

目前的处理逻辑是NaN是单独放到一个节点，对剩余的样本进行分裂。在这个issue的例子当中，由于特征除了NaN就是1（或者就是0），分裂无法进行，所以会导致上述结果。

…

On Mon, Aug 27, 2018 at 5:43 PM PseudoProgrammer ***@***.***> wrote: 特征0 非miss即判断为0类别，miss即判断为1类别 — You are receiving this because you modified the open/close state. Reply to this email directly, view it on GitHub <#5 (comment)>, or mute the thread <https://github.com/notifications/unsubscribe-auth/ABd-du4A9Er3Ntk923t4PjE7sYkd3X04ks5uU787gaJpZM4WFRsH> .

--

PseudoProgrammer · 2018-08-28T02:25:58Z

okay，了解了，谢谢！那我把所有miss的值用计算机的最小值补全，则miss值会分配到左孩子节点。你觉得这样做会不会有什么问题呢？

qiyiping closed this as completed Aug 27, 2018

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

the method to precess missing value #5

the method to precess missing value #5

PseudoProgrammer commented Aug 21, 2018

PseudoProgrammer commented Aug 21, 2018

qiyiping commented Aug 22, 2018

PseudoProgrammer commented Aug 23, 2018

PseudoProgrammer commented Aug 23, 2018

PseudoProgrammer commented Aug 23, 2018

qiyiping commented Aug 23, 2018

PseudoProgrammer commented Aug 27, 2018

PseudoProgrammer commented Aug 27, 2018

qiyiping commented Aug 27, 2018 via email •

edited

PseudoProgrammer commented Aug 28, 2018

the method to precess missing value #5

the method to precess missing value #5

Comments

PseudoProgrammer commented Aug 21, 2018

PseudoProgrammer commented Aug 21, 2018

qiyiping commented Aug 22, 2018

PseudoProgrammer commented Aug 23, 2018

PseudoProgrammer commented Aug 23, 2018

PseudoProgrammer commented Aug 23, 2018

qiyiping commented Aug 23, 2018

PseudoProgrammer commented Aug 27, 2018

PseudoProgrammer commented Aug 27, 2018

qiyiping commented Aug 27, 2018 via email • edited

PseudoProgrammer commented Aug 28, 2018

qiyiping commented Aug 27, 2018 via email •

edited