We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
你好, 我想知道用于音频事件检测的部分,也就是关于定位的部分(在DESED数据上跑到模型),和那种在esc-50这种数据集上跑到分类任务相比,多了那些操作,可以大体说说吗。 论文中说是那个最后的Token Semantic Module实现了定位的功能,我是初学者只看到有卷积操作在里模块里面,可以粗略讲讲关于实现定位的细节吗。
The text was updated successfully, but these errors were encountered:
token semantic module 本质上就是一个CNN将频率轴进行了压缩,然后把channel的维度转换为了类别的维度,因为在这篇paper中它将其作为token semantic moduel称呼,我们也在我们的paper中用了这个说法;更进一步说,token semantic module还有一个attention的平均机制,你可能在我代码中的注释中有所看到,但是我们发现最后的效果比较类似,于是就没有使用。
关于定位的部分,你可以看到我们的model最后会输出一个527维的向量(对应audioset中的527)类,这个向量其实上是由上一层的(T,527)矩阵平均过来的,如果你只有弱标签,你就只能通过这个向量去做loss计算(因为你没有每一个时刻上的数据),如果你有强标签,你就不仅可以527维的向量去做loss计算,还可以加上用你强标签的数据转换成(T,527)的矩阵答案,和model的这个矩阵做loss。
如此一来,就可以用该model跑定位模型了
Sorry, something went wrong.
No branches or pull requests
你好,
我想知道用于音频事件检测的部分,也就是关于定位的部分(在DESED数据上跑到模型),和那种在esc-50这种数据集上跑到分类任务相比,多了那些操作,可以大体说说吗。
论文中说是那个最后的Token Semantic Module实现了定位的功能,我是初学者只看到有卷积操作在里模块里面,可以粗略讲讲关于实现定位的细节吗。
The text was updated successfully, but these errors were encountered: