espnet · mergify · Jul 21, 2023 · Jul 9, 2023 · Jul 9, 2023 · Jul 9, 2023
diff --git a/egs2/librimix/tse1/README.md b/egs2/librimix/tse1/README.md
@@ -0,0 +1,22 @@
+<!-- Generated by ./scripts/utils/show_enh_score.sh -->
+# RESULTS
+## Environments
+- date: `Mon Jun  5 22:42:07 CST 2023`
+- python version: `3.8.16 (default, Mar  2 2023, 03:21:46)  [GCC 11.2.0]`
+- espnet version: `espnet 202301`
+- pytorch version: `pytorch 2.0.1`
+- Git hash: ``
+  - Commit date: ``
+
+
+## enh_train_raw
+
+ - config: ./conf/train.yaml
+ - Pretrained model: https://huggingface.co/espnet/Wangyou_Zhang_librimix_train_enh_tse_td_speakerbeam_raw
+
+|dataset|PESQ_WB|STOI|SAR|SDR|SIR|SI_SNR|OVRL|SIG|BAK|P808_MOS|
+|---|---|---|---|---|---|---|---|---|---|---|
+|dev|1.08|64.43|7.18|-1.71|0.08|-1.81|1.60|2.26|1.62|2.68|
+|test|1.08|64.56|6.90|-1.83|0.09|-1.93|1.63|2.33|1.66|2.71|
+|enhanced_dev|1.73|86.50|12.50|11.40|24.83|10.58|2.95|3.24|3.92|3.23|
+|enhanced_test|1.73|87.36|12.34|11.47|24.51|10.74|2.99|3.29|3.91|3.25|
diff --git a/egs2/librimix/tse1/conf/tuning/train_enh_tse_td_speakerbeam_4gpu_max.yaml b/egs2/librimix/tse1/conf/tuning/train_enh_tse_td_speakerbeam_4gpu_max.yaml
diff --git a/egs2/wsj0_2mix/tse1/README.md b/egs2/wsj0_2mix/tse1/README.md
@@ -0,0 +1,20 @@
+<!-- Generated by ./scripts/utils/show_enh_score.sh -->
+# RESULTS
+## Environments
+- date: `Sun Jul  9 09:23:16 CST 2023`
+- python version: `3.8.16 (default, Mar  2 2023, 03:21:46)  [GCC 11.2.0]`
+- espnet version: `espnet 202301`
+- pytorch version: `pytorch 2.0.1`
+- Git hash: ``
+  - Commit date: ``
+
+
+## enh_train_enh_tse_td_speakerbeam_raw
+
+ - config: conf/tuning/train_enh_tse_td_speakerbeam.yaml
+ - Pretrained model: https://huggingface.co/espnet/Wangyou_Zhang_wsj0_2mix_train_enh_tse_td_speakerbeam_raw
+
+|dataset|PESQ_NB|STOI|SAR|SDR|SIR|SI_SNR|
+|---|---|---|---|---|---|---|
+|enhanced_cv_min_8k|3.54|96.41|18.75|18.75|0.00|18.37|
+|enhanced_tt_min_8k|3.46|96.35|17.51|17.51|0.00|17.11|
diff --git a/egs2/wsj0_2mix/tse1/conf/tuning/train_enh_tse_td_speakerbeam.yaml b/egs2/wsj0_2mix/tse1/conf/tuning/train_enh_tse_td_speakerbeam.yaml
@@ -4,7 +4,7 @@ max_epoch: 100
 batch_type: folded
 batch_size: 4
 iterator_type: chunk
-chunk_length: 24000
+chunk_length: 32000
 # exclude keys "enroll_ref", "enroll_ref1", "enroll_ref2", ...
 # from the length consistency check in ChunkIterFactory
 chunk_excluded_key_prefixes:
@@ -23,7 +23,7 @@ val_scheduler_criterion:
 - loss
 best_model_criterion:
 -   - valid
-    - si_snr
+    - snr
     - max
 -   - valid
     - loss
@@ -40,7 +40,7 @@ model_conf:
     share_encoder: true  # this must be False if load_spk_embedding is True
 
 train_spk2enroll: null
-enroll_segment: 24000
+enroll_segment: 16000
 load_spk_embedding: false
 load_all_speakers: false
 

diff --git a/egs2/wsj0_2mix/tse1/local/wsj0_2mix_data_prep.sh b/egs2/wsj0_2mix/tse1/local/wsj0_2mix_data_prep.sh
@@ -121,8 +121,8 @@ done
 # change to the original path
 cd ..
 
-awk '(ARGIND==1) {txt[$1]=$0} (ARGIND==2) {split($1, lst, "_"); if(FNR %2 != 0){utt1=lst[3];}else{utt1=lst[5];} text=txt[utt1]; print($1, text)}' tmp/si_tr_s.txt ${data}/${tr}/wav.scp | awk '{$2=""; print $0}' > ${data}/${tr}/text
-awk '(ARGIND==1) {txt[$1]=$0} (ARGIND==2) {split($1, lst, "_"); if(FNR %2 != 0){utt1=lst[3];}else{utt1=lst[5];} text=txt[utt1]; print($1, text)}' tmp/si_tr_s.txt ${data}/${cv}/wav.scp | awk '{$2=""; print $0}' > ${data}/${cv}/text
-awk '(ARGIND<=2) {txt[$1]=$0} (ARGIND==3) {split($1, lst, "_"); if(FNR %2 != 0){utt1=lst[3];}else{utt1=lst[5];} text=txt[utt1]; print($1, text)}' tmp/si_dt_05.txt tmp/si_et_05.txt ${data}/${tt}/wav.scp | awk '{$2=""; print $0}' > ${data}/${tt}/text
+awk '(ARGIND==1) {txt[$1]=$0} (ARGIND==2) {n=split($1, lst, "_"); if(substr(lst[n],0,3) == substr(lst[3],0,3)){utt1=lst[3];}else{utt1=lst[5];} text=txt[utt1]; print($1, text)}' tmp/si_tr_s.txt ${data}/${tr}/wav.scp | awk '{$2=""; print $0}' > ${data}/${tr}/text
+awk '(ARGIND==1) {txt[$1]=$0} (ARGIND==2) {n=split($1, lst, "_"); if(substr(lst[n],0,3) == substr(lst[3],0,3)){utt1=lst[3];}else{utt1=lst[5];} text=txt[utt1]; print($1, text)}' tmp/si_tr_s.txt ${data}/${cv}/wav.scp | awk '{$2=""; print $0}' > ${data}/${cv}/text
+awk '(ARGIND<=2) {txt[$1]=$0} (ARGIND==3) {n=split($1, lst, "_"); if(substr(lst[n],0,3) == substr(lst[3],0,3)){utt1=lst[3];}else{utt1=lst[5];} text=txt[utt1]; print($1, text)}' tmp/si_dt_05.txt tmp/si_et_05.txt ${data}/${tt}/wav.scp | awk '{$2=""; print $0}' > ${data}/${tt}/text
 
 rm -r tmp