Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于音频事件检测 #19

Closed
dong-0412 opened this issue Aug 24, 2022 · 1 comment
Closed

关于音频事件检测 #19

dong-0412 opened this issue Aug 24, 2022 · 1 comment

Comments

@dong-0412
Copy link

你好,
我想知道用于音频事件检测的部分,也就是关于定位的部分(在DESED数据上跑到模型),和那种在esc-50这种数据集上跑到分类任务相比,多了那些操作,可以大体说说吗。
论文中说是那个最后的Token Semantic Module实现了定位的功能,我是初学者只看到有卷积操作在里模块里面,可以粗略讲讲关于实现定位的细节吗。

@RetroCirce
Copy link
Owner

token semantic module 本质上就是一个CNN将频率轴进行了压缩,然后把channel的维度转换为了类别的维度,因为在这篇paper中它将其作为token semantic moduel称呼,我们也在我们的paper中用了这个说法;更进一步说,token semantic module还有一个attention的平均机制,你可能在我代码中的注释中有所看到,但是我们发现最后的效果比较类似,于是就没有使用。

关于定位的部分,你可以看到我们的model最后会输出一个527维的向量(对应audioset中的527)类,这个向量其实上是由上一层的(T,527)矩阵平均过来的,如果你只有弱标签,你就只能通过这个向量去做loss计算(因为你没有每一个时刻上的数据),如果你有强标签,你就不仅可以527维的向量去做loss计算,还可以加上用你强标签的数据转换成(T,527)的矩阵答案,和model的这个矩阵做loss。

如此一来,就可以用该model跑定位模型了

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants