define_py_data_sources2 如何读取不同形式的训练文件？ #2431

huangpingchun · 2017-06-09T11:00:03Z

我有两种训练文件一种是稠密的向量dense 数据，一种是sparse的，怎么将这两种训练文件读入，读取后不同的data_layer的联合训练，类似google 的wide和deep的模型训练方式？

lcy-seso · 2017-06-10T02:20:15Z

请阅读文档：http://www.paddlepaddle.org/release_doc/0.9.0/doc_cn/ui/data_provider/index.html

huangpingchun · 2017-06-10T04:13:29Z

好的，谢谢！
1：我想在train.list的时候分开不同的文件，里面含有两种类型的训练文件，在process的时候分别处理，可是这样会出错。
2：我把两种数据合并在一个文件里，一个ins的拼接稀疏二值向量和浮点稠密的向量在一个dataProvider的process里面做了解析，在inputtypes里面定义了两个数据field，在网络配置里分别指给对应的data_layer。这样能run，请问这种做法是不是比较low？有更好的方式请给予建议。

lcy-seso · 2017-06-10T08:31:38Z

这里有一个Google Wide & Deep 网络的例子，用 v2 写成，供参考：https://github.com/PaddlePaddle/models/tree/develop/ctr 。
如果您仍需要使用 v1 版本，实际上，这两个版本在读取数据接口的核心是一致的，都是只需要自己来编写一个 python 的 generator ，实现处理一行数据的逻辑。
不论是 v1 还是 v2 ，需要实现的这个 generator 的逻辑一样，返回的数据类型也一样，只是用不同的 decorator 修饰一下。可以参考 Paddle/models 中的例子。

huangpingchun · 2017-06-10T08:56:20Z

好的，非常感谢

typhoonzero assigned lcy-seso Jun 9, 2017

lcy-seso closed this as completed Jun 14, 2017

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

define_py_data_sources2 如何读取不同形式的训练文件？ #2431

define_py_data_sources2 如何读取不同形式的训练文件？ #2431

huangpingchun commented Jun 9, 2017

lcy-seso commented Jun 10, 2017

huangpingchun commented Jun 10, 2017 •

edited

Loading

lcy-seso commented Jun 10, 2017 •

edited

Loading

huangpingchun commented Jun 10, 2017

define_py_data_sources2 如何读取不同形式的训练文件？ #2431

define_py_data_sources2 如何读取不同形式的训练文件？ #2431

Comments

huangpingchun commented Jun 9, 2017

lcy-seso commented Jun 10, 2017

huangpingchun commented Jun 10, 2017 • edited Loading

lcy-seso commented Jun 10, 2017 • edited Loading

huangpingchun commented Jun 10, 2017

huangpingchun commented Jun 10, 2017 •

edited

Loading

lcy-seso commented Jun 10, 2017 •

edited

Loading