signal_processing

信号处理实验分组任务
：）

2024.5.4 14:06:32
对指令含义稍微做了一点优化，现在on,off为开始和暂停，up和down为上一曲下一曲，另外它能区分on和off了
目前存在的问题：
1.对up、on的识别率有点点低:(后续大概我会尝试对其做一点点优化;)
2.关于县城卡死的问题仍然存在，如果要修的话应该可以通过将开始和结束语音识别放入一个线程来解决，不出意外的thread库里应该有这种功能

2024.5.3 11:45:14
将语音识别与GUI接轨完成，目前有一点点小问题如下：

1.每次结束语音时好像会吞掉一小部分语音的末尾部分，需要说完指令后再稍微顿一小会儿结束，不知道为啥
2.识别指令的准确率稍微有一点点低，特别是'on'，特别容易被搞混，感觉可以给数据集加噪声力
3.可以加入语音合成部分了
4.GUI写的不错功能很完善:D

2024.5.3
GUI基本编写好了，需要你把那俩回调函数放进去，我看你之前不是写好了回调函数嘛，塞进去就好了

2024.5.2
开始编写GUI部分

一个页面，包括播放音乐，显示歌曲相关信息，语音识别开始与结束按钮
测试

2024/5/1 10:26:48
现在它能识别所有需要的命令的，包括up(上一曲),down(下一曲),stop(暂停),go(继续),on(开启),off(关闭),yes(是的/同意/确认),no(不/取消)

TODO_LIST:
1.做语音合成
2.系统设备收声，按1s分割送入模型，根据识别结果执行指令
3.将语音合成结果作为人机交互提示，并播放对应音频

哦btw，五一快乐;)

2024/4/18 19:34:22
一些测试
FCNmodel能正常使用，然而问题是准确率不够，验证集上准确率提到31%左右就提不动了
RNN：不知道为什么每个batch的输出总是完全相同

2024/4/18 19:46:43
OK 我发现更有可能是输入的问题，将librosa_get_wav_mfcc中
mfccs /= norm # 归一
这步操作取消以后连FCN也出现了上述情况......

2024/4/18 20:03:19
真见鬼！深度学习不存在了！
我什么都没动，我发誓！我只是重新运行了一遍代码
然后FCN的准确率就达到了72/54！刚才的问题也全消失了，活见鬼！

2024/4/18 20:11:33
还在升！还在升！还在升！仅仅在第一个epoch，准确率就达到了79.583%
这不对...这不对！200个epoch....在不到2分钟就跑完了
97.99%/88.940%...
我是在做梦吗？发生什么事了？
这...一切...这不对...
不.................

2024/4/18 20:50:23
——好吧，至少RNN的效果仍然和以前的一样差这一点给我带来了慰藉......
————可以确定，这个真的是因为梯度弥散造成的！

Name		Name	Last commit message	Last commit date
Latest commit History 40 Commits
.idea		.idea
GUI		GUI
_background_noise_		_background_noise_
bg_noise_seg		bg_noise_seg
model		model
test		test
wav		wav
.gitignore		.gitignore
Confusion_matrix0.png		Confusion_matrix0.png
Confusion_matrix10.png		Confusion_matrix10.png
Confusion_matrix100.png		Confusion_matrix100.png
Confusion_matrix110.png		Confusion_matrix110.png
Confusion_matrix120.png		Confusion_matrix120.png
Confusion_matrix130.png		Confusion_matrix130.png
Confusion_matrix140.png		Confusion_matrix140.png
Confusion_matrix150.png		Confusion_matrix150.png
Confusion_matrix160.png		Confusion_matrix160.png
Confusion_matrix170.png		Confusion_matrix170.png
Confusion_matrix180.png		Confusion_matrix180.png
Confusion_matrix190.png		Confusion_matrix190.png
Confusion_matrix20.png		Confusion_matrix20.png
Confusion_matrix200.png		Confusion_matrix200.png
Confusion_matrix30.png		Confusion_matrix30.png
Confusion_matrix40.png		Confusion_matrix40.png
Confusion_matrix50.png		Confusion_matrix50.png
Confusion_matrix60.png		Confusion_matrix60.png
Confusion_matrix70.png		Confusion_matrix70.png
Confusion_matrix80.png		Confusion_matrix80.png
Confusion_matrix90.png		Confusion_matrix90.png
FCNModel-160-acc88.2104.pth		FCNModel-160-acc88.2104.pth
FCNModel-180-acc88.3257.pth		FCNModel-180-acc88.3257.pth
Hype.py		Hype.py
README.md		README.md
Train.py		Train.py
asr_test.py		asr_test.py
audio.py		audio.py
curves_0.png		curves_0.png
curves_100.png		curves_100.png
curves_120.png		curves_120.png
curves_140.png		curves_140.png
curves_160.png		curves_160.png
curves_180.png		curves_180.png
curves_20.png		curves_20.png
curves_200.png		curves_200.png
curves_40.png		curves_40.png
curves_60.png		curves_60.png
curves_80.png		curves_80.png
data_process.py		data_process.py
dataloader.py		dataloader.py
dataset.py		dataset.py
model.py		model.py
noise_add.py		noise_add.py
recorded_audio.wav		recorded_audio.wav
resize_test.py		resize_test.py
resized_audio.wav		resized_audio.wav

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

signal_processing

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

CaptainRong/signal_processing

Folders and files

Latest commit

History

Repository files navigation

signal_processing

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages