Skip to content

lifefeel/SpeechSynthesis

master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 

Text-to-Speech Synthesis

딥러닝을 이용한 음성합성 관련 자료 모음

Lectures & Seminars

Dataset

  • CMU_ARCTIC (en)
    • CMU의 Language Technologies Institute에서 음성합성 연구를 위해 만든 US English 데이터셋
  • The LJ Speech Dataset (en)
    • Keith Ito란 사람의 웹사이트에 올라와 있지만 어디서, 왜 만들었는지에 대한 내용은 찾지 못함
  • Blizzard 2012 (en)
    • Blizzard Challenge 2012라는 코퍼스기반 음성합성 챌린지에서 사용된 데이터셋
  • CSTR VCTK Corpus (en)
    • English Multi-speaker Corpus for CSTR Voice Cloning Toolkit

Tools

  • Festival Speech Synthesis System
    • University of Edinburgh에서 개발한 오픈소스 Text-to-Speech 시스템. 최신버전은 Festival 2.5이며 2017.12.25.에 릴리즈 됨. 온라인데모에서 음성별로 들어볼 수 있음.

한국어 코퍼스

WaveNet

Paper

Articles

Source Code

Multi-GPU

WaveNet 학습시간이 너무 오래 걸려서 멀티 GPU를 이용하지 않으면 답이 나오지 않는 것 같다. 그와 관련된 코드 링크를 정리하였다.

Fast WaveNet

Paper

Articles

Source Code

Parallel WaveNet

Paper

Articles

Source Code

WaveRNN

Paper

Deep Voice

Paper

Deep Voice 2

Paper

Deep Voice 3

Paper

Source Code

Tacotron

Paper

Source Code

Tacotron 2

Paper

Articles

Source Code

HybridNet

  • HybridNet: A Hybrid Neural Architecture to Speed-up Autoregressive Models (2018.02) - Yanqi Zhou et al.
    • WaveNet을 이용해 오디오 컨텍스트를 뽑아내고, 그 컨텍스트로부터 LSTM을 이용해 다음 샘플들을 더 빠르게 생성하도록 했다고 함. WaveNet보다 MOS가 높고, 오디오 생성속도는 동일 음질수준 대비 2~4배까지 빠르다고 함. (예: 40-layer WAVENET vs. 20-layer WAVENET + 1 LSTM)

ClariNet

  • ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech (2018.07) - Wei Ping et al.
    • Gaussian autoregressive WaveNet을 teacher-net으로 하고 Gaussian inverse autoregressive flow을 student-net으로 하여 highly picked distribution에 대해 Regularized KL divergence를 최소화 했다고 함.
    • End-to-end로 음성을 생성하는 text-to-wave 아키텍쳐를 제안.

Articles

Demo

Audio Systhesis

Nsynth

Voice Cloning

Paper

API Service

  • Google Cloud Text-to-Speech API - WaveNet
    • WaveNet을 이용한 음성합성기술을 API로 제공. 가격은 WaveNet과 비 WaveNet이 표면적으로는 4배가량 차이가 남. 무료 사용량의 차이도 있으므로 실제로는 4배 이상으로 보이며 가격적으로만 봐도 하드웨어적인 오버헤드가 크다는 것을 알 수 있음.
    • 다양한 음성을 제공하지만 아쉽게도 아직은 한국어는 1개의 음성만 지원하며 한국어 WaveNet 음성은 아직 없음. (2018.07.31. 기준)

SSML

  • Speech Synthesis Markup Language (SSML)
    • W3C에서 정의한 Speech Synthesis 마크업 언어. 합성할 텍스트에 발음, 볼륨, 음높이, 속도 등을 제어할 수 있도록 정의할 수 있음. 구글 TTS API에서도 SSML을 지원함.

Speed Up 전략

  • Fast Generation for Convolutional Autoregressive Models (2017.04) - Prajit Ramachandran et al.
    • 이 기법을 Wavenet과 PixelCNN++ 모델에 적용하여 각각 최대 21배, 183배의 속도향상이 있었다고 함. 어디까지나 특정 상황에 대한 성능향상 최대치 이므로 실제 환경에서는 속도향상이 생각보다 크지 않을 수 있다는 것에 주의 필요.

About

음성합성 관련 자료 모음

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published