B14-城市声音分类-图像超分辨率

此页面分享基于Visual Studio Tools for AI的高级机器学习课程-复旦赵卫东课程的案例

案例代码与指导书请进入相应链接查看

城市声音分类

音频在世界上无处不在，人类常常对入耳的声音习以为常并能快速判定声音的来源并做出合适的反应。但相比人类，计算机在很长的时间里更难认识和理解音频。早期通常使用概率模型例如高斯混合模型和隐马尔科夫模型对语音进行识别，但是限于概率模型的能力，音频并不能较好地得到表示。近年来随着深度学习的发展，其对复杂的非结构化数据拥有非常好的表示能力，因此音频处理领域迎来的新的突破。

本实验的背景是城市声音的分类，这是智慧城市非常重要的话题，如果能对城市中随机出现的声音进行正确的分类，那么可以及时对一些突发情况做出预警或采取措施，例如在检测到警笛声后可以自动调整红绿灯为应急车辆提供道路方便、在检测到持续犬吠声后可以及时出动城管予以处理、在检测到工业噪声后可为行政处罚提供证据等等，因此城市声音分类有着非常重要的研究和实用价值。

本实验对城市声音数据进行了分析，选择了过零率、光谱质心、色度、调性网络和梅尔频率倒谱系数等多种特征进行特征工程，在 TensorFlow 框架下构建了包括多层感知机、LSTM、GRU 和 CNN 等多种模型，通过大量的实验得到了在测试集上分类准确率接近 0.9 的模型，有较好的实用价值。VS Tools for AI 提供的高效开发、测试、部署功能，加快了实验的开发速度，为数据分析案例的开发提供了新的选择。

图像超分辨率

在计算机视觉领域，图像超分辨率重建技术是一个经典但重要的话题。图像的分辨率高意味着图像有着更高的清晰度，视觉上会捕获更多的细节信息。低分辨率的图像更为粗糙，一定程度上影响了信息的传递。但是由于技术或环境的影响低分辨率图像无可避免。图像超分辨率技术就是在这样低分辨率图像的基础上，重建出高分辨的图像。图像超分辨率有非常多的应用场景，例如在医学影像、卫星遥感、视频影像、军事、监控等等领域。

图像超分辨率技术已经有了几十年的发展，经典的方法是基于插值的方法，常见的如最近邻插值、双线性插值、双平方插值、双立方插值等等。基于插值的方法原理简单计算速度快，但是效果较差，锯齿效果较明显，无法满足实际应用的高要求。另一类方法是基于重建的方法，包括了凸集投影法、最大后验概率估计法等，这类方法虽然一定程度上提升了重建后的图像质量，但是算法的参数很难估计，计算量也较大。深度学习的崛起为图像超分辨率提供了新的思路，该方法试图学习低分辨率图像与高分辨率图像之间的映射关系，以CNN作为主要的建模方式。最近几年使用深度学习进行图像超分辨率重建成为计算机视觉领域的热门话题，大量的网络被提出，超分辨率技术也有了质的飞跃。

本实验使用 CelebA 数据集作为实验数据，在一系列数据预处理的基础上，通过构建以 GAN 为基础的 CNN、GAN 和 ResNet 的混合模型作为超分辨率模型实现，在迭代训练60次后有非常明显的效果。VS Tools for AI 为实验提供了高效的开发环境，另外结合 Visual Studio 强大的功能，可在实验后无需切换IDE直接开发AI应用。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

B14-城市声音分类-图像超分辨率

城市声音分类

图像超分辨率

Files

README.md

Latest commit

History

README.md

File metadata and controls

B14-城市声音分类-图像超分辨率

城市声音分类

图像超分辨率