[这个问题困扰我很久，望解答，多谢！]多帧输入，结果出现帧间不连续 #60

GreenHandLW · 2021-05-07T07:28:02Z

您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！
具体如图：

yongxuUSTC · 2021-05-07T16:28:24Z

你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM

…

On Fri, 7 May 2021 at 00:29, Li leevin ***@***.***> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] <https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg> [image: 22] <https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg> — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q> .

GreenHandLW · 2021-05-08T01:44:21Z

你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM
…
On Fri, 7 May 2021 at 00:29, Li leevin @.***> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q .

hop size是256，window size是512，做512点STFT后，将对数谱送入网络进行训练。这样做应该没问题吧？
我再试下LSTM。
多谢！

yongxuUSTC · 2021-05-08T06:29:33Z

STFT win/hop=512/256 没问题。我上面问的是你的DNN输入5帧的时候，这5帧每次只移位1帧吧？跳帧可能会导致不连续。不过你用LSTM可能会好些，因为是句子级连续输入连续预测的

…

On Fri, 7 May 2021 at 18:44, Li leevin ***@***.***> wrote: 你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM … <#m_-3322541834238111297_> On Fri, 7 May 2021 at 00:29, Li leevin *@*.***> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60 <#60>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q . 你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM … <#m_-3322541834238111297_> On Fri, 7 May 2021 at 00:29, Li leevin *@*.***> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60 <#60>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q . hop size是256，window size是512，做512点STFT后，将对数谱送入网络进行训练。这样做应该没问题吧？我再试下LSTM。多谢！ — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#60 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ABJGHUXHYWZ3F6DCN6GJR63TMSJQLANCNFSM44JF7D7Q> .

GreenHandLW · 2021-05-08T07:33:17Z

STFT win/hop=512/256 没问题。我上面问的是你的DNN输入5帧的时候，这5帧每次只移位1帧吧？跳帧可能会导致不连续。不过你用LSTM可能会好些，因为是句子级连续输入连续预测的
…
On Fri, 7 May 2021 at 18:44, Li leevin @.> wrote: 你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM … <#m_-3322541834238111297_> On Fri, 7 May 2021 at 00:29, Li leevin @.> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60 <#60>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q . 你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM … <#m_-3322541834238111297_> On Fri, 7 May 2021 at 00:29, Li leevin @.***> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60 <#60>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q . hop size是256，window size是512，做512点STFT后，将对数谱送入网络进行训练。这样做应该没问题吧？我再试下LSTM。多谢！ — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#60 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUXHYWZ3F6DCN6GJR63TMSJQLANCNFSM44JF7D7Q .

STFT win/hop=512/256 没问题。我上面问的是你的DNN输入5帧的时候，这5帧每次只移位1帧吧？跳帧可能会导致不连续
-->增强阶段，每次只移位1帧，这时候跳帧应该是不对的。不过在训练阶段是否跳帧应该关系不大，正如你们在其他的回答里所说。
不过你用LSTM可能会好些，因为是句子级连续输入连续预测的不过你用LSTM可能会好些，因为是句子级连续输入连续预测的
-->这里我再多问一下。LSTM虽然是句子级连续输入连续预测的，但是由于内存空间的限制以及某些应用场景的实时性需求，在实际应用中应当把句子切成多大的时间片段送入LSTM网络训练？
非常感谢大佬的解答。

GreenHandLW · 2021-05-08T07:34:04Z

STFT win/hop=512/256 没问题。我上面问的是你的DNN输入5帧的时候，这5帧每次只移位1帧吧？跳帧可能会导致不连续。不过你用LSTM可能会好些，因为是句子级连续输入连续预测的
…
On Fri, 7 May 2021 at 18:44, Li leevin @.> wrote: 你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM … <#m_-3322541834238111297_> On Fri, 7 May 2021 at 00:29, Li leevin @.> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60 <#60>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q . 你的hop size是一帧吗？即每次移位一帧处理，确保最大的overlap，减少不连续性。另外可以试下LSTM … <#m_-3322541834238111297_> On Fri, 7 May 2021 at 00:29, Li leevin @.***> wrote: 您好！非常感谢你的开源代码供大家学习参考。我已经minidata上跑通了代码。现在我尝试用我自己的data set训练网络，试过3帧输入和5帧输入，处理结果会出现明显的帧间不连续（在时域上表现为，上一帧的最后一个样本点与当前帧的第一个样本点明显不连续，在频域上表现为通频带的竖线），听起来有令人不适的噪声。请问你们是否遇到这种问题？如果遇到，你们是怎么解决的？如果没遇到，是否有些思路给我启发？非常感谢！具体如图： [image: 11] https://user-images.githubusercontent.com/34733298/117413628-c60a4500-af48-11eb-83df-56e55b0d3711.jpg [image: 22] https://user-images.githubusercontent.com/34733298/117413650-cc002600-af48-11eb-967a-580ac8ad66a6.jpg — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub <#60 <#60>>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUR7RIMTNVPMA74NAPLTMOJBJANCNFSM44JF7D7Q . hop size是256，window size是512，做512点STFT后，将对数谱送入网络进行训练。这样做应该没问题吧？我再试下LSTM。多谢！ — You are receiving this because you commented. Reply to this email directly, view it on GitHub <#60 (comment)>, or unsubscribe https://github.com/notifications/unsubscribe-auth/ABJGHUXHYWZ3F6DCN6GJR63TMSJQLANCNFSM44JF7D7Q .

STFT win/hop=512/256 没问题。我上面问的是你的DNN输入5帧的时候，这5帧每次只移位1帧吧？跳帧可能会导致不连续
-->增强阶段，每次只移位1帧，这时候跳帧应该是不对的。不过在训练阶段是否跳帧应该关系不大，正如你们在其他的回答里所说。
不过你用LSTM可能会好些，因为是句子级连续输入连续预测的不过你用LSTM可能会好些，因为是句子级连续输入连续预测的
-->这里我再多问一下。LSTM虽然是句子级连续输入连续预测的，但是由于内存空间的限制以及某些应用场景的实时性需求，在实际应用中应当把句子切成多大的时间片段送入LSTM网络训练？
非常感谢大佬的解答。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[这个问题困扰我很久，望解答，多谢！]多帧输入，结果出现帧间不连续 #60

[这个问题困扰我很久，望解答，多谢！]多帧输入，结果出现帧间不连续 #60

GreenHandLW commented May 7, 2021

yongxuUSTC commented May 7, 2021 via email

GreenHandLW commented May 8, 2021

yongxuUSTC commented May 8, 2021 via email

GreenHandLW commented May 8, 2021

GreenHandLW commented May 8, 2021

[这个问题困扰我很久，望解答，多谢！]多帧输入，结果出现帧间不连续 #60

[这个问题困扰我很久，望解答，多谢！]多帧输入，结果出现帧间不连续 #60

Comments

GreenHandLW commented May 7, 2021

yongxuUSTC commented May 7, 2021 via email

GreenHandLW commented May 8, 2021

yongxuUSTC commented May 8, 2021 via email

GreenHandLW commented May 8, 2021

GreenHandLW commented May 8, 2021