信号处理实验分组任务
:)
2024.5.4 14:06:32
对指令含义稍微做了一点优化,现在on,off为开始和暂停,up和down为上一曲下一曲,另外它能区分on和off了
目前存在的问题:
1.对up、on的识别率有点点低:(后续大概我会尝试对其做一点点优化;)
2.关于县城卡死的问题仍然存在,如果要修的话应该可以通过将开始和结束语音识别放入一个线程来解决,不出意外的thread库里应该有这种功能
2024.5.3 11:45:14
将语音识别与GUI接轨完成,目前有一点点小问题如下:
1.每次结束语音时好像会吞掉一小部分语音的末尾部分,需要说完指令后再稍微顿一小会儿结束,不知道为啥
2.识别指令的准确率稍微有一点点低,特别是'on',特别容易被搞混,感觉可以给数据集加噪声力
3.可以加入语音合成部分了
4.GUI写的不错功能很完善:D
2024.5.3
GUI基本编写好了,需要你把那俩回调函数放进去,我看你之前不是写好了回调函数嘛,塞进去就好了
2024.5.2
开始编写GUI部分
- 一个页面,包括播放音乐,显示歌曲相关信息,语音识别开始与结束按钮
- 测试
2024/5/1 10:26:48
现在它能识别所有需要的命令的,包括up(上一曲),down(下一曲),stop(暂停),go(继续),on(开启),off(关闭),yes(是的/同意/确认),no(不/取消)
TODO_LIST:
1.做语音合成
2.系统设备收声,按1s分割送入模型,根据识别结果执行指令
3.将语音合成结果作为人机交互提示,并播放对应音频
哦btw,五一快乐;)
2024/4/18 19:34:22
一些测试
FCNmodel能正常使用,然而问题是准确率不够,验证集上准确率提到31%左右就提不动了
RNN:不知道为什么每个batch的输出总是完全相同
2024/4/18 19:46:43
OK 我发现更有可能是输入的问题,将librosa_get_wav_mfcc中
mfccs /= norm # 归一
这步操作取消以后连FCN也出现了上述情况......
2024/4/18 20:03:19
真见鬼!深度学习不存在了!
我什么都没动,我发誓!我只是重新运行了一遍代码
然后FCN的准确率就达到了72/54!刚才的问题也全消失了,活见鬼!
2024/4/18 20:11:33
还在升!还在升!还在升!仅仅在第一个epoch,准确率就达到了79.583%
这不对...这不对!200个epoch....在不到2分钟就跑完了
97.99%/88.940%...
我是在做梦吗?发生什么事了?
这...一切...这不对...
不.................
2024/4/18 20:50:23
——好吧,至少RNN的效果仍然和以前的一样差这一点给我带来了慰藉......
————可以确定,这个真的是因为梯度弥散造成的!