Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

hugging-audio #187

Open
46 of 49 tasks
YikunHan42 opened this issue Dec 6, 2023 · 1 comment
Open
46 of 49 tasks

hugging-audio #187

YikunHan42 opened this issue Dec 6, 2023 · 1 comment

Comments

@YikunHan42
Copy link
Member

YikunHan42 commented Dec 6, 2023

你是否已经阅读并同意《Datawhale开源项目指南》?

你是否已经阅读并同意《Datawhale开源项目行为准则》?

项目简介

Hugging Face Audio Course的中文版。这门课程是关于如何使用Transformers进行音频处理。Transformers是一种功能强大且多用途的深度学习架构,已在多个任务中取得了最先进的成果,包括自然语言处理、计算机视觉,以及最近的音频处理​​。

课程结构分为几个单元,涵盖不同的主题:

学习处理音频数据的具体方法,包括音频处理技术和数据准备。

了解音频应用,学习如何使用Transformers处理不同任务,如音频分类和语音识别。
探索音频Transformers架构,了解它们的不同之处及适用任务。
学习构建自己的音乐流派分类器。
深入语音识别,构建转录会议记录的模型。
学习如何从文本生成语音。
学习如何用Transformers构建真实世界的音频应用程序。
每个单元都包括理论部分,帮助你深入理解底层概念和技术。课程中还提供测验来测试你的知识并加强学习。有些章节还包括实践练习,让你有机会应用所学的知识​​。

这个课程适合有深度学习背景并且对Transformers有基本了解的学习者。不要求音频数据处理的专业知识​​。

立项理由

AI语音技术已成为当今技术领域的热点,其流行程度和应用范围正在迅速扩大。这种技术不仅在智能助手、客户服务和家庭自动化系统中得到广泛应用,还在医疗、教育、娱乐等行业中扮演着重要角色。随着技术的进步,AI语音技术变得越来越智能,能够理解、生成和转换语音,以及执行复杂的语言处理任务。此外,随着人们对便捷和无接触交互方式需求的增加,AI语音技术的流行程度预计将持续增长。

目前国内部分视频平台确实有诸如”5分钟拥有你自己的AI语音助手“这样的应用开发教程,但过于碎片化,也缺少前置知识的铺垫。国外有一些比较优质的网课CS224S,但现在已经不再开设。而Hugging Face的这一教程非常适合有深度学习基础但对语音不甚了解的学习者。

项目受众

  • 有深度学习背景的学习者
  • 对Transformer有基本了解的学习者
  • 对音频数据处理感兴趣的学习者

项目亮点

这门语音课程的亮点包括:

  • Transformer技术的深入探索:课程专注于Transformer在音频处理中的应用,包括语音识别、音频分类和文本到语音等任务。

  • 实用案例学习:涵盖了构建音乐流派分类器、转录会议记录的模型等实际应用,提供了学习理论与实践相结合的机会。

  • 面向多层次学习者:课程旨在适合具有深度学习背景的学习者,无需音频数据处理的专业知识。

  • 全面的课程结构:从音频数据的基础处理到构建复杂的音频应用,课程结构全面,覆盖音频Transformer领域的多个关键方面。

项目规划

目录

  1. 欢迎来到课程
  • 对课程的期待
  1. 使用语音数据
  • 你将学到什么
  • 语音数据介绍
  • 加载和探索语音数据集
  • 预处理语音数据
  • 流式化语音数据
  • 小测
  • 补充阅读和材料
  1. 语音应用入门
  • 语音应用概览
  • 音频分类流水线
  • 自动语音识别流水线
  • 音频生成流水线
  • 动手实践
  1. 语音Transformer架构
  • Transformer回顾
  • CTC架构
  • Seq2Seq架构
  • 语音分类架构
  • 小测
  • 补充阅读和材料
  1. 构建音乐流派分类器
  • 你将学到和构建什么
  • 音频分类预训练模型
  • 微调音乐分类模型
  • 使用Gradio构建demo
  • 动手实践
  1. 自动语音识别
  • 你将学到和构建什么
  • 语音识别预训练模型
  • 选择数据集
  • 语音识别评估和指标
  • 使用Trainer API微调自动语音识别系统
  • 构建demo
  • 动手实践
  • 补充阅读和材料
  1. 文本-语音
  • 你将学到和构建什么
  • 文本-语音数据集
  • 文本-语音预训练模型
  • 微调SpeechT5
  • 评估文本-语音模型
  • 动手实践
  • 补充阅读和材料
  1. 组合语音与文本
  • 你将学到和构建什么
  • 语音-语音翻译
  • 创建语音助手
  • 会议转录
  • 动手实践
  • 补充阅读和材料
  1. 结语
  • 恭喜

时间安排

在1月底完成初版翻译和在线文档部署

后续考虑

在翻译工作完成之后,考虑添加Whisper等语音大模型的使用,进一步完善教程。

项目负责人

@YikunHan42 韩颐堃
微信:Sherry___42

样章

hugging-audio

项目地址

hugging-audio

备注:发起立项申请后DOPMC成员将会在7天内给出审核意见,若7天内无反对意见则默认立项通过~

  • 我已知悉上述备注
@Sm1les
Copy link
Contributor

Sm1les commented Dec 18, 2023

7天内无反对意见则默认立项通过

@Sm1les Sm1les added this to 筹划 in Datawhale开源项目看板 via automation Dec 18, 2023
@Sm1les Sm1les moved this from 筹划 to 立项 in Datawhale开源项目看板 Dec 18, 2023
@Sm1les Sm1les added the 立项 label Dec 18, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment