Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

如何使用自己的数据集 #10

Open
nivyY1112 opened this issue Jul 13, 2023 · 1 comment
Open

如何使用自己的数据集 #10

nivyY1112 opened this issue Jul 13, 2023 · 1 comment

Comments

@nivyY1112
Copy link

您好,如果想用自己的数据集运行DejaVu模型的话,需要怎么做呢?数据集的格式有要求吗?需要做什么预处理?

@lizeyan
Copy link
Member

lizeyan commented Jul 13, 2023

简而言之,处理成和发布的公开数据集一样的格式就可以。输入数据都由FDG这个类读取和处理,主要会包含三块:

  • metrics.norm.csv,即归一化后的指标(务必要归一化)。字段参考公开数据集。其中每个指标的命名规则必须为:{component_name}##{metric_kind}。我的代码中是通过split("##")的方式区分指标在哪个component上的,务必注意。
  • faults.csv,里面需要标记每个故障的时间点和根因,FDG会自动将其拆分成训练集、验证集和测试集。里面必需的字段就是timestamp和root_cause_node
  • graph.yml(所有的故障公用的FDG)或者一个文件夹(里面需要是每个故障对应的FDG)。里面具体定义图的语法请参考我给的公开数据集。

@lizeyan lizeyan pinned this issue Jul 13, 2023
@lizeyan lizeyan changed the title 关于数据集 如何使用自己的数据集 Jul 13, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants