Skip to content

复现DoHBrw数据集效果不佳 #11

@xiaoxiaoxiaoxiaoxiaozhu

Description

作者您好,我正在复现这个实验,遇到了几个问题,您可以帮帮我嘛,非常非常感谢/(ㄒoㄒ)/~~
1.使用您提供的私有数据集,效果较好。
2.我尝试跟着论文所述,将DoHBrw数据集进行划分,按照论文所述“数据集中第一天生成的流被视为T1,其余的被视为T2。在每个实验中,我们从T1中随机选择少量训练数据,而整个T2用于测试。”我将BenignDoH_NonDoH-Firefox-Google-small(2019-12-09~10日)作为良性T1,共4381条流(与论文提到一致),MaliciousDoH-iodine-pcap所有作为恶意的T1,共12368流,其余分别作为良性/恶意的T2,这样划分是否正确呢?或者您方便提供您实验中划分好T1/T2的数据集嘛?
3.我通过我划分的DoHBrw数据集,使用作者提供的预处理代码进行预处理后,随机选取250良性+250恶意,噪声30%,测试样本良性5000,恶意500,实验了多次结果都很差,我尝试剔除一些较短的流,仍无法达到论文中的效果,您可以帮我看看是什么问题嘛?
=== 标签修正效果统计 ===
良性集合样本总数:303
良性集合中恶意样本数:66
恶意集合样本总数:197
恶意集合中良性样本数:13
整体噪声比例:15.80%
Testing data: Benign/Malicious = 5000/500
Recall: 0.05, Precision: 0.06, F1: 0.05
Acc: 0.84
epoch: 399, loss: 10.871779

AE 训练完成
Epoch: 259, Train Loss: 14.380848, Val Loss: 18.754013, Patience: 49/50
Epoch: 260, Train Loss: 14.249353, Val Loss: 18.708855, Patience: 50/50
早停触发,训练终止!

MADE 训练完成 - be
最佳验证损失: 24.331614

epoch: 493, loss_be: -0.006653, loss_ma1: 0.003443, loss_ma2: -0.001462
epoch: 494, loss_be: -0.088948, loss_ma1: -0.269058, loss_ma2: -0.001021
epoch: 495, loss_be: -0.340252, loss_ma1: -0.252343, loss_ma2: -0.001359
epoch: 496, loss_be: -0.376762, loss_ma1: 0.027022, loss_ma2: 0.001122
epoch: 497, loss_be: -0.075168, loss_ma1: 0.026959, loss_ma2: -0.000715
epoch: 498, loss_be: 0.006122, loss_ma1: 0.028574, loss_ma2: -0.001332
epoch: 499, loss_be: 0.078699, loss_ma1: 0.026108, loss_ma2: 0.001052

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions