Skip to content
Branch: master
Find file History
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
..
Failed to load latest commit information.
1706.05781.pdf
1807.03418.pdf
1904.08779.pdf
1905.00078.pdf
FFT_STFT_wavelet_101.py
Fujipress_JRM-29-1-4.pdf
README.md
brian_mcfee.pdf
python_ASR.pdf

README.md

音频处理

Todo


1.TFRecord读取数据集

2.使用TensorFlow实现音频分类任务

实战


1.Car engine sound classification

2.FFT STFT WaveLet 分析(python)

文章


1.音频数据扩展方法:SpecAugment | 实现方法之一 | 实现方法之二

2.Kapre: On-GPU Audio Preprocessing Layers for a Quick Implementation of Deep Neural Network Models with Keras | 实现方法

3.Sound Source Localization using Deep Residual Learning | 实现方法

4.ESC-50:Dataset for Environmental Sound Classification

5.Interpreting and Explaining Deep Neural Networks for Classification of Audio Signals | 实现方法

6.Librosa:用于音频和音乐分析的Python库 | Librosa | Librosa Tutorials | Librosa Gallery

7.Python For Audio Signal Processing

8.Signal Processing with Python | 下载:Python for Signal Processing

9.Deep Learning for Audio Signal Processing


相关资源


该库为ASR提供常见的语音功能,包括MFCC和滤波器组能量。
地址:https://github.com/jameslyons/python_speech_features

awesome-speech:语音相关资源,包括开源库、数据、代码文章、主页等。
地址:https://github.com/mxer/awesome-speech

kapre:keras 音频预处理库。
地址:https://github.com/keunwoochoi/kapre

wavenet:语音合成算法。
地址:https://github.com/ibab/tensorflow-wavenet

Wavenet_vocoder:语音合成技术。
地址:https://github.com/r9y9/wavenet_vocoder/

Tacotron:TensorFlow中Tacotron语音合成的实现。
地址:https://github.com/keithito/tacotron

awesome speech:优秀的语音处理资源。
地址: https://github.com/mxer/awesome-speech

awesome audio:语音资源。
地址:https://github.com/faroit/awesome-python-scientific-audio

audiomate:Audiomate是一个可以轻松访问音频数据集的库。它提供了以通用方式访问/加载不同数据集的数据结构。这应该可以简化音频数据集的使用,例如用于机器学习任务。
地址:https://github.com/ynop/audiomate

kaldi:音频处理工具。
地址:https://github.com/kaldi-asr/kaldi

voice-web:web、android、ios声音收集。
地址:https://github.com/mozilla/voice-web

Open Assistant:提供Siri、Cortana和Google Now之外的一种开源选择。目的是创建一种能够进行交谈的完全可定制的AI。
地址:http://openassistant.org

Mycroft:号称是“世界上第一个开源助理。”它可回答问题、播放音频及视频、控制与物联网连接的设备等。它对系统的要求很低,甚至可以在Raspberry Pi上运行。
地址:https://github.com/MycroftAI/mycroft-core

声纹处理。
地址:https://github.com/RDShi/voiceprint

DFSMN:阿里巴巴开源的语音识别模型。
地址:https://github.com/alibaba/Alibaba-MIT-Speech

dejavu:Audio fingerprinting and recognition in Python,音频指纹(声纹)提取和识别。
地址:https://github.com/worldveil/dejavu

Neural Network Voices:模仿Kate Winslet说话。
地址;https://github.com/llSourcell/Neural_Network_Voices

NNDial:是一个用于构建端到端可训练任务型对话模型的开源工具包,本项目来自剑桥大学,使用的数据集为CamRest676。
地址:https://github.com/shawnwun/NNDIAL

Voice Activity Detection Toolkit:语音端点检测工具包。是论文 Voice Activity Detection Using an Adaptive Context Attention Model 的开源实现,此外还包含作者团队自行录制的语音数据集。该工具包支持 4 种基于 MRCG 的分类器:自适应上下文注意模型(ACAM)、增强型深度神经网络(bDNN)、深度神经网络(DNN)、基于LSTM的循环神经网络(LSTM-RNN)
地址;https://github.com/jtkim-kaist/VAD

叮当是一款可以工作在 Raspberry Pi 上的中文语音对话机器人/智能音箱项目。
地址:http://dingdang.hahack.com

英伟达的 WaveGlow:是一个基于流的网络,能够生成高质量的音频。本质上,它是一个面向语音合成的单网络。这个开源项目包括 WaveGlow 的 PyTorch 实现。
地址:https://github.com/NVIDIA/waveglow

使用深度学习开始进行音频数据分析(附案例研究)。
地址:https://www.analyticsvidhya.com/blog/2017/08/audio-voice-processing-deep-learning/

10 个音频处理任务让你开始深度学习应用(附案例研究)。
地址:https://www.analyticsvidhya.com/blog/2018/01/10-audio-processing-projects-applications/

语音合成技术:https://github.com/lbqin/SpeechSynthesis

You can’t perform that action at this time.