关于音频事件检测 #19

dong-0412 · 2022-08-24T11:17:13Z

你好，
我想知道用于音频事件检测的部分，也就是关于定位的部分（在DESED数据上跑到模型），和那种在esc-50这种数据集上跑到分类任务相比，多了那些操作，可以大体说说吗。
论文中说是那个最后的Token Semantic Module实现了定位的功能，我是初学者只看到有卷积操作在里模块里面，可以粗略讲讲关于实现定位的细节吗。

RetroCirce · 2022-08-24T19:02:56Z

token semantic module 本质上就是一个CNN将频率轴进行了压缩，然后把channel的维度转换为了类别的维度，因为在这篇paper中它将其作为token semantic moduel称呼，我们也在我们的paper中用了这个说法；更进一步说，token semantic module还有一个attention的平均机制，你可能在我代码中的注释中有所看到，但是我们发现最后的效果比较类似，于是就没有使用。

关于定位的部分，你可以看到我们的model最后会输出一个527维的向量（对应audioset中的527）类，这个向量其实上是由上一层的(T，527)矩阵平均过来的，如果你只有弱标签，你就只能通过这个向量去做loss计算（因为你没有每一个时刻上的数据），如果你有强标签，你就不仅可以527维的向量去做loss计算，还可以加上用你强标签的数据转换成（T,527）的矩阵答案，和model的这个矩阵做loss。

如此一来，就可以用该model跑定位模型了

RetroCirce closed this as completed Aug 24, 2022

dong-0412 mentioned this issue Aug 27, 2022

关于语义模块 #20

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于音频事件检测 #19

关于音频事件检测 #19

dong-0412 commented Aug 24, 2022

RetroCirce commented Aug 24, 2022

关于音频事件检测 #19

关于音频事件检测 #19

Comments

dong-0412 commented Aug 24, 2022

RetroCirce commented Aug 24, 2022