AIGC-Audio · Sounakray2003 · Mar 28, 2023 · Mar 28, 2023 · Mar 28, 2023 · Mar 28, 2023
diff --git a/.gitignore b/.gitignore
@@ -5,6 +5,7 @@
 
 # Byte-compiled / optimized / DLL files
 *__pycache__/
+__pycache__/
 *.py[cod]
 *$py.class
 

diff --git a/...eAnAudio/ldm/models/diffusion/__init__.py → LICENSE b/...eAnAudio/ldm/models/diffusion/__init__.py → LICENSE
diff --git a/text_to_sing/DiffSinger/LICENSE → NeuralSeq/LICENSE b/text_to_sing/DiffSinger/LICENSE → NeuralSeq/LICENSE
diff --git a/NeuralSeq/README.md b/NeuralSeq/README.md
@@ -0,0 +1 @@
+In this directory, we support FastSpeech, GenerSpeech, SyntaSpeech, DiffSinger
diff --git a/..._sing/DiffSinger/configs/config_base.yaml → NeuralSeq/configs/config_base.yaml b/..._sing/DiffSinger/configs/config_base.yaml → NeuralSeq/configs/config_base.yaml
diff --git a/...sing/DiffSinger/configs/singing/base.yaml → NeuralSeq/configs/singing/base.yaml b/...sing/DiffSinger/configs/singing/base.yaml → NeuralSeq/configs/singing/base.yaml
diff --git a/..._sing/DiffSinger/configs/singing/fs2.yaml → NeuralSeq/configs/singing/fs2.yaml b/..._sing/DiffSinger/configs/singing/fs2.yaml → NeuralSeq/configs/singing/fs2.yaml
diff --git a/..._to_sing/DiffSinger/configs/tts/base.yaml → NeuralSeq/configs/tts/base.yaml b/..._to_sing/DiffSinger/configs/tts/base.yaml → NeuralSeq/configs/tts/base.yaml
diff --git a/..._sing/DiffSinger/configs/tts/base_zh.yaml → NeuralSeq/configs/tts/base_zh.yaml b/..._sing/DiffSinger/configs/tts/base_zh.yaml → NeuralSeq/configs/tts/base_zh.yaml
diff --git a/...er/configs/tts/emotion/base_text2mel.yaml → ...eq/configs/tts/emotion/base_text2mel.yaml b/...er/configs/tts/emotion/base_text2mel.yaml → ...eq/configs/tts/emotion/base_text2mel.yaml
diff --git a/...ffSinger/configs/tts/emotion/pre_align.py → NeuralSeq/configs/tts/emotion/pre_align.py b/...ffSinger/configs/tts/emotion/pre_align.py → NeuralSeq/configs/tts/emotion/pre_align.py
diff --git a/text_to_sing/DiffSinger/configs/tts/fs2.yaml → NeuralSeq/configs/tts/fs2.yaml b/text_to_sing/DiffSinger/configs/tts/fs2.yaml → NeuralSeq/configs/tts/fs2.yaml
diff --git a/..._sing/DiffSinger/configs/tts/hifigan.yaml → NeuralSeq/configs/tts/hifigan.yaml b/..._sing/DiffSinger/configs/tts/hifigan.yaml → NeuralSeq/configs/tts/hifigan.yaml
diff --git a/...r/configs/tts/libritts/base_text2mel.yaml → ...q/configs/tts/libritts/base_text2mel.yaml b/...r/configs/tts/libritts/base_text2mel.yaml → ...q/configs/tts/libritts/base_text2mel.yaml
diff --git a/.../DiffSinger/configs/tts/libritts/fs2.yaml → NeuralSeq/configs/tts/libritts/fs2.yaml b/.../DiffSinger/configs/tts/libritts/fs2.yaml → NeuralSeq/configs/tts/libritts/fs2.yaml
diff --git a/...fSinger/configs/tts/libritts/pre_align.py → NeuralSeq/configs/tts/libritts/pre_align.py b/...fSinger/configs/tts/libritts/pre_align.py → NeuralSeq/configs/tts/libritts/pre_align.py
diff --git a/.../DiffSinger/configs/tts/libritts/pwg.yaml → NeuralSeq/configs/tts/libritts/pwg.yaml b/.../DiffSinger/configs/tts/libritts/pwg.yaml → NeuralSeq/configs/tts/libritts/pwg.yaml
diff --git a/...ffSinger/configs/tts/lj/base_mel2wav.yaml → NeuralSeq/configs/tts/lj/base_mel2wav.yaml b/...ffSinger/configs/tts/lj/base_mel2wav.yaml → NeuralSeq/configs/tts/lj/base_mel2wav.yaml
diff --git a/...fSinger/configs/tts/lj/base_text2mel.yaml → NeuralSeq/configs/tts/lj/base_text2mel.yaml b/...fSinger/configs/tts/lj/base_text2mel.yaml → NeuralSeq/configs/tts/lj/base_text2mel.yaml
diff --git a/...o_sing/DiffSinger/configs/tts/lj/fs2.yaml → NeuralSeq/configs/tts/lj/fs2.yaml b/...o_sing/DiffSinger/configs/tts/lj/fs2.yaml → NeuralSeq/configs/tts/lj/fs2.yaml
diff --git a/...ng/DiffSinger/configs/tts/lj/hifigan.yaml → NeuralSeq/configs/tts/lj/hifigan.yaml b/...ng/DiffSinger/configs/tts/lj/hifigan.yaml → NeuralSeq/configs/tts/lj/hifigan.yaml
diff --git a/...o_sing/DiffSinger/configs/tts/lj/pwg.yaml → NeuralSeq/configs/tts/lj/pwg.yaml b/...o_sing/DiffSinger/configs/tts/lj/pwg.yaml → NeuralSeq/configs/tts/lj/pwg.yaml
diff --git a/text_to_sing/DiffSinger/configs/tts/pwg.yaml → NeuralSeq/configs/tts/pwg.yaml b/text_to_sing/DiffSinger/configs/tts/pwg.yaml → NeuralSeq/configs/tts/pwg.yaml
diff --git a/...DiffSinger/data_gen/tts/base_binarizer.py → NeuralSeq/data_gen/tts/base_binarizer.py b/...DiffSinger/data_gen/tts/base_binarizer.py → NeuralSeq/data_gen/tts/base_binarizer.py
diff --git a/...er/data_gen/tts/base_binarizer_emotion.py → ...eq/data_gen/tts/base_binarizer_emotion.py b/...er/data_gen/tts/base_binarizer_emotion.py → ...eq/data_gen/tts/base_binarizer_emotion.py
diff --git a/...iffSinger/data_gen/tts/base_preprocess.py → NeuralSeq/data_gen/tts/base_preprocess.py b/...iffSinger/data_gen/tts/base_preprocess.py → NeuralSeq/data_gen/tts/base_preprocess.py
@@ -110,11 +110,6 @@ def process(self):
                 f.writelines([f'{l}\n' for l in mfa_dict])
         with open(f"{processed_dir}/{self.meta_csv_filename}.json", 'w') as f:
             f.write(re.sub(r'\n\s+([\d+\]])', r'\1', json.dumps(items, ensure_ascii=False, sort_keys=False, indent=1)))
-
-        # save to csv
-        meta_df = pd.DataFrame(items)
-        meta_df.to_csv(f"{processed_dir}/metadata_phone.csv")
-
         remove_file(wav_processed_tmp_dir)
 
 

diff --git a/...g/DiffSinger/data_gen/tts/binarizer_zh.py → NeuralSeq/data_gen/tts/binarizer_zh.py b/...g/DiffSinger/data_gen/tts/binarizer_zh.py → NeuralSeq/data_gen/tts/binarizer_zh.py
diff --git a/...DiffSinger/data_gen/tts/data_gen_utils.py → NeuralSeq/data_gen/tts/data_gen_utils.py b/...DiffSinger/data_gen/tts/data_gen_utils.py → NeuralSeq/data_gen/tts/data_gen_utils.py
diff --git a/.../DiffSinger/data_gen/tts/emotion/audio.py → NeuralSeq/data_gen/tts/emotion/audio.py b/.../DiffSinger/data_gen/tts/emotion/audio.py → NeuralSeq/data_gen/tts/emotion/audio.py
diff --git a/...fSinger/data_gen/tts/emotion/inference.py → NeuralSeq/data_gen/tts/emotion/inference.py b/...fSinger/data_gen/tts/emotion/inference.py → NeuralSeq/data_gen/tts/emotion/inference.py
diff --git a/.../DiffSinger/data_gen/tts/emotion/model.py → NeuralSeq/data_gen/tts/emotion/model.py b/.../DiffSinger/data_gen/tts/emotion/model.py → NeuralSeq/data_gen/tts/emotion/model.py
diff --git a/...inger/data_gen/tts/emotion/params_data.py → ...alSeq/data_gen/tts/emotion/params_data.py b/...inger/data_gen/tts/emotion/params_data.py → ...alSeq/data_gen/tts/emotion/params_data.py
diff --git a/...nger/data_gen/tts/emotion/params_model.py → ...lSeq/data_gen/tts/emotion/params_model.py b/...nger/data_gen/tts/emotion/params_model.py → ...lSeq/data_gen/tts/emotion/params_model.py
diff --git a/...nger/data_gen/tts/emotion/test_emotion.py → ...lSeq/data_gen/tts/emotion/test_emotion.py b/...nger/data_gen/tts/emotion/test_emotion.py → ...lSeq/data_gen/tts/emotion/test_emotion.py
diff --git a/...r/data_gen/tts/txt_processors/__init__.py → ...q/data_gen/tts/txt_processors/__init__.py b/...r/data_gen/tts/txt_processors/__init__.py → ...q/data_gen/tts/txt_processors/__init__.py
diff --git a/...tts/txt_processors/base_text_processor.py → ...tts/txt_processors/base_text_processor.py b/...tts/txt_processors/base_text_processor.py → ...tts/txt_processors/base_text_processor.py
diff --git a/..._speech/data_gen/tts/txt_processors/en.py → NeuralSeq/data_gen/tts/txt_processors/en.py b/..._speech/data_gen/tts/txt_processors/en.py → NeuralSeq/data_gen/tts/txt_processors/en.py
@@ -6,9 +6,8 @@
 from nltk import pos_tag
 from nltk.tokenize import TweetTokenizer
 
-from text_to_speech.data_gen.tts.txt_processors.base_text_processor import BaseTxtProcessor, register_txt_processors
-from text_to_speech.utils.text.text_encoder import PUNCS, is_sil_phoneme
-
+from data_gen.tts.txt_processors.base_text_processor import BaseTxtProcessor, register_txt_processors
+from data_gen.tts.data_gen_utils import is_sil_phoneme, PUNCS
 
 class EnG2p(G2p):
     word_tokenize = TweetTokenizer().tokenize
@@ -75,4 +74,4 @@ def process(cls, txt, preprocess_args):
             else:
                 txt_struct[i_word][1].append(p)
         txt_struct = cls.postprocess(txt_struct, preprocess_args)
-        return txt_struct, txt
+        return txt_struct, txt
diff --git a/...fSinger/data_gen/tts/txt_processors/zh.py → NeuralSeq/data_gen/tts/txt_processors/zh.py b/...fSinger/data_gen/tts/txt_processors/zh.py → NeuralSeq/data_gen/tts/txt_processors/zh.py
@@ -1,4 +1,5 @@
 import re
+import jieba
 from pypinyin import pinyin, Style
 from data_gen.tts.data_gen_utils import PUNCS
 from data_gen.tts.txt_processors.base_text_processor import BaseTxtProcessor
@@ -20,6 +21,7 @@ def preprocess_text(text):
         text = re.sub(f"([{PUNCS}])+", r"\1", text)  # !! -> !
         text = re.sub(f"([{PUNCS}])", r" \1 ", text)
         text = re.sub(rf"\s+", r"", text)
+        text = re.sub(rf"[A-Za-z]+", r"$", text)
         return text
 
     @classmethod

diff --git a/...er/data_gen/tts/txt_processors/zh_g2pM.py → ...eq/data_gen/tts/txt_processors/zh_g2pM.py b/...er/data_gen/tts/txt_processors/zh_g2pM.py → ...eq/data_gen/tts/txt_processors/zh_g2pM.py
diff --git a/...r/data_gen/tts/wav_processors/__init__.py → ...q/data_gen/tts/wav_processors/__init__.py b/...r/data_gen/tts/wav_processors/__init__.py → ...q/data_gen/tts/wav_processors/__init__.py
diff --git a/..._gen/tts/wav_processors/base_processor.py → ..._gen/tts/wav_processors/base_processor.py b/..._gen/tts/wav_processors/base_processor.py → ..._gen/tts/wav_processors/base_processor.py
diff --git a/...n/tts/wav_processors/common_processors.py → ...n/tts/wav_processors/common_processors.py b/...n/tts/wav_processors/common_processors.py → ...n/tts/wav_processors/common_processors.py
@@ -2,11 +2,10 @@
 import subprocess
 import librosa
 import numpy as np
-from text_to_speech.data_gen.tts.wav_processors.base_processor import BaseWavProcessor, register_wav_processors
-from text_to_speech.utils.audio import trim_long_silences
-from text_to_speech.utils.audio.io import save_wav
-from text_to_speech.utils.audio.rnnoise import rnnoise
-from text_to_speech.utils.commons.hparams import hparams
+from data_gen.tts.wav_processors.base_processor import BaseWavProcessor, register_wav_processors
+from data_gen.tts.data_gen_utils import trim_long_silences
+from utils.audio import save_wav, rnnoise
+from utils.hparams import hparams
 
 
 @register_wav_processors(name='sox_to_wav')

diff --git a/...datasets/audio/emotion/base_text2mel.yaml → ...datasets/audio/emotion/base_text2mel.yaml b/...datasets/audio/emotion/base_text2mel.yaml → ...datasets/audio/emotion/base_text2mel.yaml
diff --git a/...r/egs/datasets/audio/emotion/pre_align.py → ...q/egs/datasets/audio/emotion/pre_align.py b/...r/egs/datasets/audio/emotion/pre_align.py → ...q/egs/datasets/audio/emotion/pre_align.py
diff --git a/...atasets/audio/libritts/base_text2mel.yaml → ...atasets/audio/libritts/base_text2mel.yaml b/...atasets/audio/libritts/base_text2mel.yaml → ...atasets/audio/libritts/base_text2mel.yaml
diff --git a/...nger/egs/datasets/audio/libritts/fs2.yaml → ...lSeq/egs/datasets/audio/libritts/fs2.yaml b/...nger/egs/datasets/audio/libritts/fs2.yaml → ...lSeq/egs/datasets/audio/libritts/fs2.yaml
diff --git a/.../egs/datasets/audio/libritts/pre_align.py → .../egs/datasets/audio/libritts/pre_align.py b/.../egs/datasets/audio/libritts/pre_align.py → .../egs/datasets/audio/libritts/pre_align.py
diff --git a/...nger/egs/datasets/audio/libritts/pwg.yaml → ...lSeq/egs/datasets/audio/libritts/pwg.yaml b/...nger/egs/datasets/audio/libritts/pwg.yaml → ...lSeq/egs/datasets/audio/libritts/pwg.yaml
diff --git a/...r/egs/datasets/audio/lj/base_mel2wav.yaml → ...q/egs/datasets/audio/lj/base_mel2wav.yaml b/...r/egs/datasets/audio/lj/base_mel2wav.yaml → ...q/egs/datasets/audio/lj/base_mel2wav.yaml
diff --git a/...peech/egs/datasets/audio/lj/preprocess.py → ...alSeq/egs/datasets/audio/lj/preprocess.py b/...peech/egs/datasets/audio/lj/preprocess.py → ...alSeq/egs/datasets/audio/lj/preprocess.py
@@ -1,4 +1,4 @@
-from text_to_speech.data_gen.tts.base_preprocess import BasePreprocessor
+from data_gen.tts.base_preprocess import BasePreprocessor
 
 
 class LJPreprocess(BasePreprocessor):

diff --git a/...DiffSinger/egs/datasets/audio/lj/pwg.yaml → NeuralSeq/egs/datasets/audio/lj/pwg.yaml b/...DiffSinger/egs/datasets/audio/lj/pwg.yaml → NeuralSeq/egs/datasets/audio/lj/pwg.yaml
diff --git a/...egs/datasets/audio/vctk/base_mel2wav.yaml → ...egs/datasets/audio/vctk/base_mel2wav.yaml b/...egs/datasets/audio/vctk/base_mel2wav.yaml → ...egs/datasets/audio/vctk/base_mel2wav.yaml
diff --git a/...ffSinger/egs/datasets/audio/vctk/fs2.yaml → NeuralSeq/egs/datasets/audio/vctk/fs2.yaml b/...ffSinger/egs/datasets/audio/vctk/fs2.yaml → NeuralSeq/egs/datasets/audio/vctk/fs2.yaml
diff --git a/...nger/egs/datasets/audio/vctk/pre_align.py → ...lSeq/egs/datasets/audio/vctk/pre_align.py b/...nger/egs/datasets/audio/vctk/pre_align.py → ...lSeq/egs/datasets/audio/vctk/pre_align.py
diff --git a/...ffSinger/egs/datasets/audio/vctk/pwg.yaml → NeuralSeq/egs/datasets/audio/vctk/pwg.yaml b/...ffSinger/egs/datasets/audio/vctk/pwg.yaml → NeuralSeq/egs/datasets/audio/vctk/pwg.yaml
diff --git a/...DiffSinger/egs/egs_bases/config_base.yaml → NeuralSeq/egs/egs_bases/config_base.yaml b/...DiffSinger/egs/egs_bases/config_base.yaml → NeuralSeq/egs/egs_bases/config_base.yaml
diff --git a/..._to_sing/DiffSinger/usr/configs/base.yaml → NeuralSeq/egs/egs_bases/svs/base.yaml b/..._to_sing/DiffSinger/usr/configs/base.yaml → NeuralSeq/egs/egs_bases/svs/base.yaml
@@ -1,4 +1,4 @@
-task_cls: usr.task.DiffFsTask
+task_cls: tasks.svs.task.DiffFsTask
 pitch_type: frame
 timesteps: 100
 dilation_cycle_length: 1

diff --git a/...g/DiffSinger/usr/configs/lj_ds_beta6.yaml → NeuralSeq/egs/egs_bases/svs/lj_ds_beta6.yaml b/...g/DiffSinger/usr/configs/lj_ds_beta6.yaml → NeuralSeq/egs/egs_bases/svs/lj_ds_beta6.yaml
@@ -23,7 +23,7 @@ spec_max: [ -0.5982, -0.0778,  0.1205,  0.2747,  0.4657,  0.5123,  0.5684,  0.70
             0.0086, -0.0698,  0.1385,  0.0941,  0.1864,  0.1225,  0.2176,  0.2566,
             0.1670,  0.1007,  0.1444,  0.0888,  0.1998,  0.2414,  0.2932,  0.3047 ]
 
-task_cls: usr.diffspeech_task.DiffSpeechTask
+task_cls: tasks.svs.diffspeech_task.DiffSpeechTask
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0414_hifi_lj_1
 num_valid_plots: 10

diff --git a/.../configs/midi/cascade/opencs/aux_rel.yaml → ...ases/svs/midi/cascade/opencs/aux_rel.yaml b/.../configs/midi/cascade/opencs/aux_rel.yaml → ...ases/svs/midi/cascade/opencs/aux_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
   - configs/singing/fs2.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 audio_sample_rate: 24000
 hop_size: 128            # Hop size.
@@ -42,8 +42,8 @@ test_prefixes: [
     '2100',
 ]
 
-task_cls: usr.diffsinger_task.AuxDecoderMIDITask
-#vocoder: usr.singingvocoder.highgan.HighGAN
+task_cls: tasks.svs.diffsinger_task.AuxDecoderMIDITask
+#vocoder: tasks.svs.singingvocoder.highgan.HighGAN
 #vocoder_ckpt: checkpoints/h_2_model/checkpoint-530000steps.pkl
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0109_hifigan_bigpopcs_hop128

diff --git a/...configs/midi/cascade/opencs/ds60_rel.yaml → ...ses/svs/midi/cascade/opencs/ds60_rel.yaml b/...configs/midi/cascade/opencs/ds60_rel.yaml → ...ses/svs/midi/cascade/opencs/ds60_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -21,7 +21,7 @@ pe_ckpt: ''
 
 fs2_ckpt: 'checkpoints/0302_opencpop_fs_midi/model_ckpt_steps_160000.ckpt'  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 K_step: 60
 max_tokens: 36000

diff --git a/.../midi/cascade/opencs/opencpop_statis.yaml → .../midi/cascade/opencs/opencpop_statis.yaml b/.../midi/cascade/opencs/opencpop_statis.yaml → .../midi/cascade/opencs/opencpop_statis.yaml
diff --git a/...nfigs/midi/e2e/opencpop/ds1000-10dil.yaml → ...s/svs/midi/e2e/opencpop/ds1000-10dil.yaml b/...nfigs/midi/e2e/opencpop/ds1000-10dil.yaml → ...s/svs/midi/e2e/opencpop/ds1000-10dil.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 timesteps: 1000
 K_step: 1000

diff --git a/...usr/configs/midi/e2e/opencpop/ds1000.yaml → ...s_bases/svs/midi/e2e/opencpop/ds1000.yaml b/...usr/configs/midi/e2e/opencpop/ds1000.yaml → ...s_bases/svs/midi/e2e/opencpop/ds1000.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 # for diffusion schedule
 timesteps: 1000

diff --git a/...figs/midi/e2e/opencpop/ds100_adj_rel.yaml → .../svs/midi/e2e/opencpop/ds100_adj_rel.yaml b/...figs/midi/e2e/opencpop/ds100_adj_rel.yaml → .../svs/midi/e2e/opencpop/ds100_adj_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/opencs/opencpop_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/opencs/opencpop_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.OpencpopBinarizer
 binary_data_dir: 'data/binary/opencpop-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 K_step: 100
 max_tokens: 36000

diff --git a/...configs/midi/e2e/popcs/ds100_adj_rel.yaml → ...ses/svs/midi/e2e/popcs/ds100_adj_rel.yaml b/...configs/midi/e2e/popcs/ds100_adj_rel.yaml → ...ses/svs/midi/e2e/popcs/ds100_adj_rel.yaml
@@ -1,6 +1,6 @@
 base_config:
-  - usr/configs/popcs_ds_beta6.yaml
-  - usr/configs/midi/cascade/popcs/popcs_statis.yaml
+  - egs/egs_bases/svs/popcs_ds_beta6.yaml
+  - egs/egs_bases/svs/midi/cascade/popcs/popcs_statis.yaml
 
 binarizer_cls: data_gen.singing.binarize.MidiSingingBinarizer
 binary_data_dir: 'data/binary/popcs-midi-dp'
@@ -17,7 +17,7 @@ dur_predictor_layers: 5  # *
 
 fs2_ckpt: ''  #
 #num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerMIDITask
+task_cls: tasks.svs.diffsinger_task.DiffSingerMIDITask
 
 K_step: 100
 max_tokens: 40000

diff --git a/..._sing/DiffSinger/usr/configs/midi/pe.yaml → NeuralSeq/egs/egs_bases/svs/midi/pe.yaml b/..._sing/DiffSinger/usr/configs/midi/pe.yaml → NeuralSeq/egs/egs_bases/svs/midi/pe.yaml
diff --git a/...iffSinger/usr/configs/popcs_ds_beta6.yaml → ...Seq/egs/egs_bases/svs/popcs_ds_beta6.yaml b/...iffSinger/usr/configs/popcs_ds_beta6.yaml → ...Seq/egs/egs_bases/svs/popcs_ds_beta6.yaml
@@ -48,8 +48,8 @@ spec_max: [ 0.2645,  0.0583, -0.2344, -0.0184,  0.1227,  0.1533,  0.1103,  0.121
             -0.8770, -0.9520, -0.8749, -0.7297, -0.8374, -0.8667, -0.7157, -0.9035,
             -0.9219, -0.8801, -0.9298, -0.9009, -0.9604, -1.0537, -1.0781, -1.3766]
 
-task_cls: usr.diffsinger_task.DiffSingerTask
-#vocoder: usr.singingvocoder.highgan.HighGAN
+task_cls: tasks.svs.diffsinger_task.DiffSingerTask
+#vocoder: tasks.svs.singingvocoder.highgan.HighGAN
 #vocoder_ckpt: checkpoints/h_2_model/checkpoint-530000steps.pkl
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0109_hifigan_bigpopcs_hop128

diff --git a/...r/usr/configs/popcs_ds_beta6_offline.yaml → ...egs_bases/svs/popcs_ds_beta6_offline.yaml b/...r/usr/configs/popcs_ds_beta6_offline.yaml → ...egs_bases/svs/popcs_ds_beta6_offline.yaml
@@ -3,7 +3,7 @@ base_config:
 
 fs2_ckpt: checkpoints/popcs_fs2_pmf0_1230/model_ckpt_steps_160000.ckpt  # to be infer
 num_valid_plots: 0
-task_cls: usr.diffsinger_task.DiffSingerOfflineTask
+task_cls: tasks.svs.diffsinger_task.DiffSingerOfflineTask
 
 # tmp:
 #pe_enable: true

diff --git a/...ing/DiffSinger/usr/configs/popcs_fs2.yaml → NeuralSeq/egs/egs_bases/svs/popcs_fs2.yaml b/...ing/DiffSinger/usr/configs/popcs_fs2.yaml → NeuralSeq/egs/egs_bases/svs/popcs_fs2.yaml
@@ -26,7 +26,7 @@ test_prefixes: [
 ]
 
 task_cls: tasks.tts.fs2.FastSpeech2Task
-#vocoder: usr.singingvocoder.highgan.HighGAN
+#vocoder: tasks.svs.singingvocoder.highgan.HighGAN
 #vocoder_ckpt: checkpoints/h_2_model/checkpoint-530000steps.pkl
 vocoder: vocoders.hifigan.HifiGAN
 vocoder_ckpt: checkpoints/0109_hifigan_bigpopcs_hop128

diff --git a/...ng/DiffSinger/egs/egs_bases/tts/base.yaml → NeuralSeq/egs/egs_bases/tts/base.yaml b/...ng/DiffSinger/egs/egs_bases/tts/base.yaml → NeuralSeq/egs/egs_bases/tts/base.yaml
diff --git a/..._to_speech/egs/egs_bases/tts/base_zh.yaml → NeuralSeq/egs/egs_bases/tts/base_zh.yaml b/..._to_speech/egs/egs_bases/tts/base_zh.yaml → NeuralSeq/egs/egs_bases/tts/base_zh.yaml
diff --git a/...ing/DiffSinger/egs/egs_bases/tts/fs2.yaml → NeuralSeq/egs/egs_bases/tts/fs2.yaml b/...ing/DiffSinger/egs/egs_bases/tts/fs2.yaml → NeuralSeq/egs/egs_bases/tts/fs2.yaml
diff --git a/...DiffSinger/egs/egs_bases/tts/fs2_adv.yaml → NeuralSeq/egs/egs_bases/tts/fs2_adv.yaml b/...DiffSinger/egs/egs_bases/tts/fs2_adv.yaml → NeuralSeq/egs/egs_bases/tts/fs2_adv.yaml
diff --git a/text_to_speech/egs/egs_bases/tts/ps.yaml → NeuralSeq/egs/egs_bases/tts/ps.yaml b/text_to_speech/egs/egs_bases/tts/ps.yaml → NeuralSeq/egs/egs_bases/tts/ps.yaml
@@ -1,4 +1,4 @@
-base_config: ./fs.yaml
+base_config: ./fs2.yaml
 
 ###########################
 # models

diff --git a/..._to_speech/egs/egs_bases/tts/ps_flow.yaml → NeuralSeq/egs/egs_bases/tts/ps_flow.yaml b/..._to_speech/egs/egs_bases/tts/ps_flow.yaml → NeuralSeq/egs/egs_bases/tts/ps_flow.yaml
@@ -1,4 +1,4 @@
-base_config: ./ps.yaml
+base_config: ./ps2.yaml
 task_cls: tasks.tts.ps_flow.PortaSpeechFlowTask
 
 use_post_flow: true

diff --git a/...eech/egs/egs_bases/tts/ps_flow_small.yaml → ...lSeq/egs/egs_bases/tts/ps_flow_small.yaml b/...eech/egs/egs_bases/tts/ps_flow_small.yaml → ...lSeq/egs/egs_bases/tts/ps_flow_small.yaml
diff --git a/...inger/egs/egs_bases/tts/vocoder/base.yaml → ...alSeq/egs/egs_bases/tts/vocoder/base.yaml b/...inger/egs/egs_bases/tts/vocoder/base.yaml → ...alSeq/egs/egs_bases/tts/vocoder/base.yaml
diff --git a/...ch/egs/egs_bases/tts/vocoder/hifigan.yaml → ...eq/egs/egs_bases/tts/vocoder/hifigan.yaml b/...ch/egs/egs_bases/tts/vocoder/hifigan.yaml → ...eq/egs/egs_bases/tts/vocoder/hifigan.yaml
diff --git a/...Singer/egs/egs_bases/tts/vocoder/pwg.yaml → NeuralSeq/egs/egs_bases/tts/vocoder/pwg.yaml b/...Singer/egs/egs_bases/tts/vocoder/pwg.yaml → NeuralSeq/egs/egs_bases/tts/vocoder/pwg.yaml
diff --git a/text_to_sing/DiffSinger/gitattributes → NeuralSeq/gitattributes b/text_to_sing/DiffSinger/gitattributes → NeuralSeq/gitattributes
diff --git a/...iffSinger/inference/svs/base_svs_infer.py → NeuralSeq/inference/svs/base_svs_infer.py b/...iffSinger/inference/svs/base_svs_infer.py → NeuralSeq/inference/svs/base_svs_infer.py
diff --git a/...ng/DiffSinger/inference/svs/ds_cascade.py → NeuralSeq/inference/svs/ds_cascade.py b/...ng/DiffSinger/inference/svs/ds_cascade.py → NeuralSeq/inference/svs/ds_cascade.py
@@ -1,11 +1,9 @@
 import torch
-# from inference.tts.fs import FastSpeechInfer
-# from modules.tts.fs2_orig import FastSpeech2Orig
 from inference.svs.base_svs_infer import BaseSVSInfer
 from utils import load_ckpt
 from utils.hparams import hparams
-from usr.diff.shallow_diffusion_tts import GaussianDiffusion
-from usr.diffsinger_task import DIFF_DECODERS
+from modulesmodules.diff.shallow_diffusion_tts import GaussianDiffusion
+from tasks.svs.diffsinger_task import DIFF_DECODERS
 
 class DiffSingerCascadeInfer(BaseSVSInfer):
     def build_model(self):
@@ -53,4 +51,4 @@ def forward_model(self, inp):
     }  # input like Opencpop dataset.
     DiffSingerCascadeInfer.example_run(inp)
 
-# # CUDA_VISIBLE_DEVICES=1 python inference/svs/ds_cascade.py --config usr/configs/midi/cascade/opencs/ds60_rel.yaml --exp_name 0303_opencpop_ds58_midi
+# # CUDA_VISIBLE_DEVICES=1 python inference/svs/ds_cascade.py --config egs/egs_bases/svs/midi/cascade/opencs/ds60_rel.yaml --exp_name 0303_opencpop_ds58_midi
diff --git a/...o_sing/DiffSinger/inference/svs/ds_e2e.py → NeuralSeq/inference/svs/ds_e2e.py b/...o_sing/DiffSinger/inference/svs/ds_e2e.py → NeuralSeq/inference/svs/ds_e2e.py
@@ -4,8 +4,8 @@
 from inference.svs.base_svs_infer import BaseSVSInfer
 from utils import load_ckpt
 from utils.hparams import hparams
-from usr.diff.shallow_diffusion_tts import GaussianDiffusion
-from usr.diffsinger_task import DIFF_DECODERS
+from modules.diff.shallow_diffusion_tts import GaussianDiffusion
+from tasks.svs.diffsinger_task import DIFF_DECODERS
 from modules.fastspeech.pe import PitchExtractor
 import utils
 
@@ -64,4 +64,4 @@ def forward_model(self, inp):
     DiffSingerE2EInfer.example_run(inp)
 
 
-# CUDA_VISIBLE_DEVICES=3 python inference/svs/ds_e2e.py --config usr/configs/midi/e2e/opencpop/ds100_adj_rel.yaml --exp_name 0228_opencpop_ds100_rel
+# CUDA_VISIBLE_DEVICES=3 python inference/svs/ds_e2e.py --config egs/egs_bases/svs/midi/e2e/opencpop/ds100_adj_rel.yaml --exp_name 0228_opencpop_ds100_rel
diff --git a/...inference/svs/opencpop/cpop_pinyin2ph.txt → ...inference/svs/opencpop/cpop_pinyin2ph.txt b/...inference/svs/opencpop/cpop_pinyin2ph.txt → ...inference/svs/opencpop/cpop_pinyin2ph.txt
diff --git a/.../DiffSinger/inference/svs/opencpop/map.py → NeuralSeq/inference/svs/opencpop/map.py b/.../DiffSinger/inference/svs/opencpop/map.py → NeuralSeq/inference/svs/opencpop/map.py
@@ -1,7 +1,7 @@
 def cpop_pinyin2ph_func():
     # In the README file of opencpop dataset, they defined a "pinyin to phoneme mapping table"
     pinyin2phs = {'AP': 'AP', 'SP': 'SP'}
-    with open('text_to_sing/DiffSinger/inference/svs/opencpop/cpop_pinyin2ph.txt') as rf:
+    with open('NeuralSeq/inference/svs/opencpop/cpop_pinyin2ph.txt') as rf:
         for line in rf.readlines():
             elements = [x.strip() for x in line.split('|') if x.strip() != '']
             pinyin2phs[elements[0]] = elements[1]