Merge pull request #1419 from mravanelli/sample_refactor

Clean up of samples and integration tests
speechbrain · May 31, 2022 · 421fb46 · 421fb46
2 parents be3628a + f87e40e
commit 421fb46
Show file tree

Hide file tree

Showing 172 changed files with 230 additions and 708 deletions.
diff --git a/samples/audio_samples/csv_example3.csv b/samples/audio_samples/csv_example3.csv
diff --git a/samples/audio_samples/csv_example_multichannel.csv b/samples/audio_samples/csv_example_multichannel.csv
diff --git a/samples/audio_samples/example_fr.wav b/samples/audio_samples/example_fr.wav
diff --git a/samples/audio_samples/example_multichannel.wav b/samples/audio_samples/example_multichannel.wav
diff --git a/samples/audio_samples/example_noisy.wav b/samples/audio_samples/example_noisy.wav
diff --git a/samples/audio_samples/nn_training_samples/debug.csv b/samples/audio_samples/nn_training_samples/debug.csv
diff --git a/samples/audio_samples/nn_training_samples/dev.csv b/samples/audio_samples/nn_training_samples/dev.csv
diff --git a/samples/audio_samples/nn_training_samples/spk1_snt1.pkl b/samples/audio_samples/nn_training_samples/spk1_snt1.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk1_snt2.pkl b/samples/audio_samples/nn_training_samples/spk1_snt2.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk1_snt3.pkl b/samples/audio_samples/nn_training_samples/spk1_snt3.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk1_snt4.pkl b/samples/audio_samples/nn_training_samples/spk1_snt4.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk1_snt5.pkl b/samples/audio_samples/nn_training_samples/spk1_snt5.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk1_snt6.pkl b/samples/audio_samples/nn_training_samples/spk1_snt6.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk2_snt1.pkl b/samples/audio_samples/nn_training_samples/spk2_snt1.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk2_snt2.pkl b/samples/audio_samples/nn_training_samples/spk2_snt2.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk2_snt3.pkl b/samples/audio_samples/nn_training_samples/spk2_snt3.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk2_snt4.pkl b/samples/audio_samples/nn_training_samples/spk2_snt4.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk2_snt5.pkl b/samples/audio_samples/nn_training_samples/spk2_snt5.pkl
diff --git a/samples/audio_samples/nn_training_samples/spk2_snt6.pkl b/samples/audio_samples/nn_training_samples/spk2_snt6.pkl
diff --git a/samples/audio_samples/nn_training_samples/test.csv b/samples/audio_samples/nn_training_samples/test.csv
diff --git a/samples/audio_samples/nn_training_samples/train.csv b/samples/audio_samples/nn_training_samples/train.csv
diff --git a/samples/audio_samples/sourcesep_samples/csv_example_sourcesep_mixture.csv b/samples/audio_samples/sourcesep_samples/csv_example_sourcesep_mixture.csv
diff --git a/samples/audio_samples/sourcesep_samples/csv_example_sourcesep_source1.csv b/samples/audio_samples/sourcesep_samples/csv_example_sourcesep_source1.csv
diff --git a/samples/audio_samples/sourcesep_samples/csv_example_sourcesep_source2.csv b/samples/audio_samples/sourcesep_samples/csv_example_sourcesep_source2.csv
diff --git a/samples/audio_samples/sourcesep_samples/minimal_example_convtasnet_tr.csv b/samples/audio_samples/sourcesep_samples/minimal_example_convtasnet_tr.csv
diff --git a/samples/audio_samples/test_csv_merge.csv b/samples/audio_samples/test_csv_merge.csv
diff --git a/samples/audio_samples/test_mixture.wav b/samples/audio_samples/test_mixture.wav
diff --git a/samples/label_samples/hyp.csv b/samples/label_samples/hyp.csv
diff --git a/samples/label_samples/ref.csv b/samples/label_samples/ref.csv
diff --git a/samples/noise_samples/noise.csv b/samples/noise_samples/noise.csv
diff --git a/samples/noise_samples/noise_multichannel.csv b/samples/noise_samples/noise_multichannel.csv
diff --git a/samples/noise_samples/noise_multichannel.wav b/samples/noise_samples/noise_multichannel.wav
diff --git a/samples/rir_samples/rir_multichannel.csv b/samples/rir_samples/rir_multichannel.csv
diff --git a/samples/rir_samples/rir_multichannel.wav b/samples/rir_samples/rir_multichannel.wav
diff --git a/samples/rir_samples/rirs.csv b/samples/rir_samples/rirs.csv
diff --git a/samples/text_samples/hdf5_example.h5 b/samples/text_samples/hdf5_example.h5
diff --git a/samples/text_samples/label_dict.pkl b/samples/text_samples/label_dict.pkl
diff --git a/samples/text_samples/readme.txt b/samples/text_samples/readme.txt
diff --git a/samples/voxceleb_samples/meta/iden_split.txt b/samples/voxceleb_samples/meta/iden_split.txt
diff --git a/samples/voxceleb_samples/readme.txt b/samples/voxceleb_samples/readme.txt
diff --git a/samples/voxceleb_samples/wav/dev.csv b/samples/voxceleb_samples/wav/dev.csv
diff --git a/samples/voxceleb_samples/wav/id10001/1zcIwhmdeo4/00001.wav b/samples/voxceleb_samples/wav/id10001/1zcIwhmdeo4/00001.wav
diff --git a/samples/voxceleb_samples/wav/id10001/1zcIwhmdeo4/00002.wav b/samples/voxceleb_samples/wav/id10001/1zcIwhmdeo4/00002.wav
diff --git a/samples/voxceleb_samples/wav/id10001/1zcIwhmdeo4/00003.wav b/samples/voxceleb_samples/wav/id10001/1zcIwhmdeo4/00003.wav
diff --git a/samples/voxceleb_samples/wav/id10002/xTV-jFAUKcw/00001.wav b/samples/voxceleb_samples/wav/id10002/xTV-jFAUKcw/00001.wav
diff --git a/samples/voxceleb_samples/wav/id10002/xTV-jFAUKcw/00002.wav b/samples/voxceleb_samples/wav/id10002/xTV-jFAUKcw/00002.wav
diff --git a/samples/voxceleb_samples/wav/id10002/xTV-jFAUKcw/00003.wav b/samples/voxceleb_samples/wav/id10002/xTV-jFAUKcw/00003.wav
diff --git a/samples/voxceleb_samples/wav/train.csv b/samples/voxceleb_samples/wav/train.csv
diff --git a/speechbrain/alignment/ctc_segmentation.py b/speechbrain/alignment/ctc_segmentation.py
@@ -185,7 +185,7 @@ class CTCSegmentation:
         >>> asr_model = EncoderDecoderASR.from_hparams(source=pre_trained)
         >>> aligner = CTCSegmentation(asr_model, kaldi_style_text=False)
         >>> # load data
-        >>> audio_path = "./samples/audio_samples/example1.wav"
+        >>> audio_path = "tests/samples/single-mic/example1.wav"
         >>> text = ["THE BIRCH CANOE", "SLID ON THE", "SMOOTH PLANKS"]
         >>> segments = aligner(audio_path, text, name="example1")
 

diff --git a/speechbrain/dataio/dataio.py b/speechbrain/dataio/dataio.py
@@ -772,7 +772,7 @@ def get_md5(file):
 
     Example
     -------
-    >>> get_md5('samples/audio_samples/example1.wav')
+    >>> get_md5('tests/samples/single-mic/example1.wav')
     'c482d0081ca35302d30d12f1136c34e5'
     """
     # Lets read stuff in 64kb chunks!
@@ -803,7 +803,7 @@ def save_md5(files, out_file):
     None
 
     Example:
-    >>> files = ['samples/audio_samples/example1.wav']
+    >>> files = ['tests/samples/single-mic/example1.wav']
     >>> tmpdir = getfixture('tmpdir')
     >>> save_md5(files, os.path.join(tmpdir, "md5.pkl"))
     """
@@ -983,8 +983,8 @@ def merge_csvs(data_folder, csv_lst, merged_csv):
 
     Example
     -------
-    >>> merge_csvs("samples/audio_samples/",
-    ... ["csv_example.csv", "csv_example2.csv"],
+    >>> merge_csvs("tests/samples/annotation/",
+    ... ["speech.csv", "speech.csv"],
     ... "test_csv_merge.csv")
     """
     write_path = os.path.join(data_folder, merged_csv)

diff --git a/speechbrain/dataio/preprocess.py b/speechbrain/dataio/preprocess.py
@@ -20,14 +20,14 @@ class AudioNormalizer:
     Example
     -------
     >>> import torchaudio
-    >>> example_file = 'samples/audio_samples/example_multichannel.wav'
+    >>> example_file = 'tests/samples/multi-mic/speech_-0.82918_0.55279_-0.082918.flac'
     >>> signal, sr = torchaudio.load(example_file, channels_first = False)
     >>> normalizer = AudioNormalizer(sample_rate=8000)
     >>> normalized = normalizer(signal, sr)
     >>> signal.shape
-    torch.Size([33882, 2])
+    torch.Size([160000, 4])
     >>> normalized.shape
-    torch.Size([16941])
+    torch.Size([80000])
 
     NOTE
     ----

diff --git a/speechbrain/pretrained/interfaces.py b/speechbrain/pretrained/interfaces.py
@@ -379,7 +379,7 @@ class EndToEndSLU(Pretrained):
     ...     source="speechbrain/slu-timers-and-such-direct-librispeech-asr",
     ...     savedir=tmpdir,
     ... )
-    >>> slu_model.decode_file("samples/audio_samples/example6.wav")
+    >>> slu_model.decode_file("tests/samples/single-mic/example6.wav")
     "{'intent': 'SimpleMath', 'slots': {'number1': 37.67, 'number2': 75.7, 'op': ' minus '}}"
     """
 
@@ -495,7 +495,7 @@ class EncoderDecoderASR(Pretrained):
     ...     source="speechbrain/asr-crdnn-rnnlm-librispeech",
     ...     savedir=tmpdir,
     ... )
-    >>> asr_model.transcribe_file("samples/audio_samples/example2.flac")
+    >>> asr_model.transcribe_file("tests/samples/single-mic/example2.flac")
     "MY FATHER HAS REVEALED THE CULPRIT'S NAME"
     """
 
@@ -743,7 +743,7 @@ class EncoderClassifier(Pretrained):
     ... )
 
     >>> # Compute embeddings
-    >>> signal, fs = torchaudio.load("samples/audio_samples/example1.wav")
+    >>> signal, fs = torchaudio.load("tests/samples/single-mic/example1.wav")
     >>> embeddings =  classifier.encode_batch(signal)
 
     >>> # Classification
@@ -896,8 +896,8 @@ class SpeakerRecognition(EncoderClassifier):
     ... )
 
     >>> # Perform verification
-    >>> signal, fs = torchaudio.load("samples/audio_samples/example1.wav")
-    >>> signal2, fs = torchaudio.load("samples/audio_samples/example2.flac")
+    >>> signal, fs = torchaudio.load("tests/samples/single-mic/example1.wav")
+    >>> signal2, fs = torchaudio.load("tests/samples/single-mic/example2.flac")
     >>> score, prediction = verification.verify_batch(signal, signal2)
     """
 
@@ -994,7 +994,7 @@ class VAD(Pretrained):
     ... )
 
     >>> # Perform VAD
-    >>> boundaries = VAD.get_speech_segments("samples/audio_samples/example1.wav")
+    >>> boundaries = VAD.get_speech_segments("tests/samples/single-mic/example1.wav")
     """
 
     HPARAMS_NEEDED = ["sample_rate", "time_resolution", "device"]
@@ -2033,7 +2033,7 @@ class SpectralMaskEnhancement(Pretrained):
     ...     source="speechbrain/mtl-mimic-voicebank",
     ...     savedir=tmpdir,
     ... )
-    >>> noisy, fs = torchaudio.load("samples/audio_samples/example_noisy.wav")
+    >>> noisy, fs = torchaudio.load("tests/samples/single-mic/example1.wav")
     >>> # Channel dimension is interpreted as batch dimension here
     >>> enhanced = enhancer.enhance_batch(noisy)
     """

diff --git a/speechbrain/processing/decomposition.py b/speechbrain/processing/decomposition.py
@@ -140,9 +140,9 @@ def svdl(a):
     >>> from speechbrain.dataio.dataio import read_audio_multichannel
 
     >>> xs_speech = read_audio_multichannel(
-    ...    'samples/audio_samples/multi_mic/speech_-0.82918_0.55279_-0.082918.flac'
+    ...    'tests/samples/multi-mic/speech_-0.82918_0.55279_-0.082918.flac'
     ... )
-    >>> xs_noise = read_audio_multichannel('samples/audio_samples/multi_mic/noise_diffuse.flac')
+    >>> xs_noise = read_audio_multichannel('tests/samples/multi-mic/noise_diffuse.flac')
     >>> xs = xs_speech + 0.05 * xs_noise
     >>> xs = xs.unsqueeze(0).float()
     >>>
@@ -378,9 +378,9 @@ def inv(x):
     >>> from speechbrain.processing.decomposition import inv
     >>>
     >>> xs_speech = read_audio(
-    ...    'samples/audio_samples/multi_mic/speech_-0.82918_0.55279_-0.082918.flac'
+    ...    'tests/samples/multi-mic/speech_-0.82918_0.55279_-0.082918.flac'
     ... )
-    >>> xs_noise = read_audio('samples/audio_samples/multi_mic/noise_0.70225_-0.70225_0.11704.flac')
+    >>> xs_noise = read_audio('tests/samples/multi-mic/noise_0.70225_-0.70225_0.11704.flac')
     >>> xs = xs_speech + 0.05 * xs_noise
     >>> xs = xs.unsqueeze(0).float()
     >>>