使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？ #90

Coconut059 · 2024-04-12T12:42:20Z

在MISP2021数据集上使用speaker diarization，使用cam++模型，audio_only:MISS=23;FA=2.56;SER=9;DER=35;;audio_visual:MISS=23,FA=2.56;SER=15;DER=40;
在eval数据上DER差距更大分别是36%和48%，请问clustering部分可以微调嘛

wanghuii1 · 2024-04-12T14:18:35Z

可以调，但是当前pipeline无法处理overlap的问题，而MISP有大量的overlap，如果想在MISP数据集上做出好的结果，建议follow历届MISP的report，使用多模态的TASVD方案

Coconut059 · 2024-04-12T14:22:14Z

可以调，但是当前pipeline无法处理overlap的问题，而MISP有大量的overlap，如果想在MISP数据集上做出好的结果，建议follow历届MISP的report，使用多模态的TASVD方案
谢谢！想问一下该代码效果比较好的数据集有哪些？同时如果可以调整audio和visual的联合聚类的话要怎么调呢

wanghuii1 · 2024-04-15T01:37:09Z

我们后续会开源一个overlap较少的音视频数据集。调参可以试着调整下conf/diar_video.yaml中的vision_cluster.fix_cos_thr

yfchenlucky closed this as completed Apr 15, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？ #90

使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？ #90

Coconut059 commented Apr 12, 2024

wanghuii1 commented Apr 12, 2024

Coconut059 commented Apr 12, 2024

wanghuii1 commented Apr 15, 2024

使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？ #90

使用speaker diarization结合视频的DER结果效果比单音频的还要差，请问这可以微调嘛？ #90

Comments

Coconut059 commented Apr 12, 2024

wanghuii1 commented Apr 12, 2024

Coconut059 commented Apr 12, 2024

wanghuii1 commented Apr 15, 2024