数据格式

[TOC]

embedx 支持图模型、深度排序和深度召回模型，不同类型的模型在 训练 或者 预测 时，需要准备不同的数据。

以下依次介绍图模型、深度排序和深度召回模型在 训练阶段使用的数据、 预测阶段使用的数据 和两个阶段使用到的数据的 数据格式。

训练阶段使用的数据

图模型

图模型训练时需要准备 图数据 和 训练数据。

图数据

图数据包括 节点关系数据、节点特征数据 和 邻居节点特征数据
不同的图模型使用不同的图数据
- 有些图模型如 deepwalk 使用部分图数据如 节点关系数据
- 有些图模型如 graphsage 使用全部图数据包括 节点关系数据、节点特征数据 和 邻居节点特征数据

图数据使用总结

模型	节点关系数据	节点特征数据	邻居节点特征数据
deepwalk	✔️
node2vec	✔️
struc2vec	✔️
metapath2vec	✔️
eges	✔️	✔️
unsup_graphsage	✔️	✔️	✔️
pinsage	✔️	✔️	✔️
sup_graphsage（多标签）	✔️	✔️	✔️
sup_graphsage（多分类）	✔️	✔️	✔️

训练数据

训练数据包括 随机游走生成的序列数据、随机游走生成的边数据、多分类数据 和 多标签数据
不同的图模型使用不同的训练数据
- 有些图模型如 deepwalk 使用 随机游走生成的序列数据
- 有些图模型如 graphsage 使用 随机游走生成的边数据

训练数据使用总结

模型	随机游走之序列数据	随机游走之边数据	多分类数据	多标签数据
deepwalk	✔️
node2vec	✔️
struc2vec	✔️
metapath2vec	✔️
eges	✔️
unsup_graphsage		✔️
pinsage		✔️
sup_graphsage（多分类）			✔️
sup_graphsage（多标签）				✔️

深度排序模型

深度排序模型训练时需要准备 训练数据。

训练数据
- 训练数据包括 排序样本数据
  - 排序样本数据格式

深度召回模型

深度召回模型训练时需要准备 物品频次数据 和 训练数据。

物品频次数据
- 物品频次数据包括 物品频次数据 和 物品编码类型配置
  - 物品频次数据格式
  - 物品编码类型配置格式
- 物品频次数据使用总结
  
  模型物品频次数据物品编码类型配置
  
  youtube_dnn ✔️ ✔️
  
  dssm ✔️ ✔️
训练数据
- 训练数据包括 用户特征数据 和 物品特征数据
  - 用户特征数据格式
  - 物品特征数据格式
- 不同的深度召回模型使用不同的训练数据
  - 有些深度召回模型如 youtube_dnn 只使用 用户特征数据
  - 有些深度召回模型如 dssm 同时使用 用户特征数据 和 物品特征数据
- 训练数据使用总结
  
  模型用户特征数据物品特征数据
  
  youtube_dnn ✔️
  
  dssm ✔️ ✔️

预测阶段使用的数据

图模型

图模型预测时使用 图数据 和 图预测数据
- 图数据
  - 图模型在 预测阶段 与 训练阶段 使用的 图数据完全相同
- 图预测数据
  - 图模型在 预测阶段 使用到的 图预测数据 格式是相同的。图预测数据格式

深度排序模型

深度排序模型预测时使用 排序样本数据。
- 预测阶段 与 训练阶段 使用的 排序样本数据完全相同

深度召回模型

深度召回模型预测时使用 用户特征数据 和 物品特征数据
- 用户特征数据
  - 模型预测 user embedding 使用。用户特征数据格式
- 物品特征数据
  - 模型预测 item embedding 使用。物品特征数据格式

数据格式介绍

总结以上图模型、深度排序模型 与 深度召回模型 在 训练 与 预测 阶段使用到的数据，如下表格，接下来依次介绍。

数据总结

数据	功能
节点关系数据	`图模型`，提供图查询功能（采样节点，采样邻居等）
节点特征数据	`图模型`，部分图模型使用节点特征
邻居节点特征数据	`图模型`，部分图模型使用的邻居节点特征
随机游走之序列数据	`图模型`，部分无监督图模型的训练数据
随机游走之边数据	`图模型`，部分无监督图模型的训练数据
多分类数据	`图模型`，有监督图模型的训练数据
多标签数据	`图模型`，有监督图模型的训练数据
图预测数据	`图模型`，预测使用的数据
排序样本数据	`深度排序模型`，训练或者预测使用
物品频次数据	`深度召回模型`，负采样的物品集合
物品编码类型配置	`深度召回模型`，指定物品编码类型
用户特征数据	`深度召回模型`，训练或者预测使用
物品特征数据	`深度召回模型`，训练或者预测使用

libsvm 格式

节点关系数据、节点特征数据、邻居节点特征数据、用户特征数据 和 物品特征特征数据 都是 类 libsvm 格式 数据。

首先介绍libsvm 格式，参考libsvm，以空格作为分隔符，格式是：

label id1:value1 id2:value2 ...

节点关系数据格式

部分图模型 训练或预测时参数 --node_graph 指的是就是节点关系数据，参考节点关系数据。

格式

node adj_node1:vaule1 adj_node2:value2 ...

概述
- 类 libsvm 格式，区别是 node 取代了 label、adj_node1 取代了 id1，adj_node2 取代了 id2
- 其中 node adj_node1:value1, 指的是图中的边(node adj_node1), value1 是边的权重
- 其中 node adj_node2:value2, 指的是图中的边(node adj_node2), value2 是边的权重
- node、adj_node1 和 adj_node2 等是uint64 类型, value1、value2 是 浮点类型
示例

41 224:1.0 302:1.0 112:1.0 542:1.0
1 202:1.0
1000 50:0.3 16:0.2 27:0.5

节点特征数据格式

部分图模型 训练或预测时参数 --node_feature 指的就是节点特征数据，参考节点特征数据。

格式

node id1:value1 id2:value2 ...

介绍
- 类 libsvm 格式，区别是 node 取代了 label
- 其中 id1、id2 等是 node 的 特征 id, value1 和 value2 是 特征 id 对应的特征权重
- node、id1 和 id2 等是 uint64 类型, value1 和 value2 是 浮点类型
- 特征 id 的编码与生成方式参考特征如何编码
示例

41 123:1.5 456:1.0 567:0.1
1 1:1.0 40000:1.5
1000 3333:1.0 4444:1.2

邻居节点特征数据格式

部分图模型 训练或者预测时参数 --neighbor_feature 指的是邻居特征数据，参考邻居节点特征数据。它用于图卷积类模型的加速，参考邻居特征平均。

格式

node id1:value1 id2:value2 ...

概述
- 类 libsvm 格式，区别是 node 取代了 label
- 其中 id1、id2 等是 node 的 特征 id, value1 和 value2 是 特征 id 对应的特征权重
- node、id1 和 id2 等是 uint64 类型, value1 和 value2 是 浮点类型
- 特征 id 的编码与生成方式参考特征如何编码
示例

41 123:1.5 456:1.0 567:0.1
1 1:1.0 40000:1.5
1000 3333:1.0 4444:1.2

随机游走之序列数据格式

部分图模型 训练时参数 --in 指的是随机游走之序列数据，参考随机游走之序列数据。 embedx 提供了随机游走工具，辅助用户生成序列数据，参考随机游走。

格式

node1 node2 node3

概述
- 行间以空格分隔，以 node1 为源节点随机游走得到的序列
- node1、node2 和 node3 等是 uint64 类型
示例

1 100 234 567
57 89 100 123
90 100 190 290

随机游走之边数据格式

部分图模型 训练时参数 --in 指的是随机游走之边数据，参考随机游走之边数据。 embedx提供了随机游走工具，可以辅助用户生成游走边数据，参考随机游走。

格式

node1 node2

概述
- 行间以空格分隔，node1 指的是 源顶点、node2 指的是 目标顶点
- node1 和 node2 均是 uint64 类型
示例

1 100
1 57
23 56

多分类数据格式

部分图模型 训练时参数 --in 指的是多分类数据，参考多分类数据。

格式

node label

概述
- 行间以空格分隔，其中 node 指的是 节点、label 指的是 此节点的类别
- node 是 uint64 类型，label 是 int 类型
示例

1 0
234 2
23 1

多标签数据格式

部分图模型 训练时参数 --in 指的是多标签数据，参考多标签数据。

格式

node label1 label2 label3

概述
- 行间以空格分隔，其中 node 指的是 节点、label1、label2 和 label3 指的此节点的标签
- node 是 uint64 类型，label1、label2 和 label3 是 int 类型
示例

1 0 1 0
234 1 0 1
90 0 1 1

图预测数据格式

图模型 预测时参数 --in 指的是图预测数据，参考图预测数据。

格式

node

概述
- 每行一个节点，node 是 uint64 类型，指的是用户待预测的节点
- 用户在 demo 中会发现我们使用了 节点关系数据 作为 图预测数据。这是因为在预测时，embedx 代码只会解析 节点关系数据 的第一个节点使用
- 用户可以选择复用 节点关系数据 作为图预测数据，也可以按照 图预测数据格式 准备数据
示例

1
234
90

排序样本数据格式

深度排序模型 训练和预测时, 输入样本数据支持 libsvm、libsvm_ex 和 uch 多种格式, 参考样本格式.

用户特征数据格式

深度召回模型 训练或者预测时参数 --in 指的是就是用户特征数据，参考用户特征数据

格式

node id1:value1 id2:value2 ...

概述
- 类 libsvm 格式，区别是 node 取代了 label
- id1 和 id2是描述当前 node 的 特征 id, value1 和 value2 是 特征 id 对应的特征权重
- item_node、id1 和 id2 是 uint64 类型, value1 和 value2 是 浮点类型
- 特征 id 的编码与生成方式参考特征如何编码
示例

41 224:1.0 302:1.0 112:1.0 542:1.0
1 202:1.0
1000 50:0.3 16:0.2 27:0.5

物品特征数据格式

深度召回模型 训练或者预测时候参数 --node_feauture 指的是就是物品特征数据，参考物品特征数据

格式

node id1:value1 id2:value2 ...

概述
- 类 libsvm 格式，区别是 node 取代了 label、它指的是用户输入的 物品频次数据 中的节点
- id1 和 id2 是描述当前 node 的 特征 id, value1 和 value2 是 特征 id 对应的特征权重
- node、id1 和 id2 是 uint64 类型, value1 和 value2 是 浮点类型
- 特征 id 的编码与生成方式参考特征如何编码
示例

41 224:1.0 302:1.0 112:1.0 542:1.0
1 202:1.0
1000 50:0.3 16:0.2 27:0.5

物品频次数据格式

深度召回模型 训练时参数 --freq_file 指的就是物品频次数据，参考物品频次数据

格式

node frequncy

概述
- 每行格式为 node frequency, 以空格分隔，包含 node 和对应频次信息
- node 和 frequncy 都是 uint64 类型
- 深度召回模型使用物品频次数据进行负采样
- 负例采样的时候可以选择 均匀采样 或 带权采样，带权采样时会根据 item 的频次 进行采样
示例

41 20
2 15
3 10

物品编码类型配置

深度模型 训练时参数 --node_config 指的是 freq_file 中物品编码类型，参考物品编码类型文件

格式

group_name group_id

概述
- group_name 是 string 类型用来记录 id 的意义，给一个有意义的名字即可
- group_id 是 int 类型，表明 item 编码类型
- 生成方式参考[编码](encode.md#生成 node_config 文件)
示例

Item 9999

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data_format.md

data_format.md

数据格式

训练阶段使用的数据

图模型

深度排序模型

深度召回模型

预测阶段使用的数据

图模型

深度排序模型

深度召回模型

数据格式介绍

libsvm 格式

节点关系数据格式

节点特征数据格式

邻居节点特征数据格式

随机游走之序列数据格式

随机游走之边数据格式

多分类数据格式

多标签数据格式

图预测数据格式

排序样本数据格式

用户特征数据格式

物品特征数据格式

物品频次数据格式

物品编码类型配置

Files

data_format.md

Latest commit

History

data_format.md

File metadata and controls

数据格式

训练阶段使用的数据

图模型

深度排序模型

深度召回模型

预测阶段使用的数据

图模型

深度排序模型

深度召回模型

数据格式介绍

libsvm 格式

节点关系数据格式

节点特征数据格式

邻居节点特征数据格式

随机游走之序列数据格式

随机游走之边数据格式

多分类数据格式

多标签数据格式

图预测数据格式

排序样本数据格式

用户特征数据格式

物品特征数据格式

物品频次数据格式

物品编码类型配置