huggingface · albertvillanova · Oct 13, 2021 · May 5, 2021 · May 5, 2021 · May 5, 2021
diff --git a/src/datasets/arrow_dataset.py b/src/datasets/arrow_dataset.py
@@ -1332,6 +1332,19 @@ def cast(
         dataset = dataset.with_format(**format)
         return dataset
 
+    def cast_column(self, column, feature):
+        """Cast column to feature for decoding.
+
+        Args:
+            column: Column name.
+            feature: Target feature.
+
+        Returns:
+            :class:`Dataset`
+        """
+        self.features[column] = feature
+        return self
+
     @deprecated(help_message="Use Dataset.remove_columns instead.")
     @fingerprint_transform(inplace=True)
     def remove_columns_(self, column_names: Union[str, List[str]]):

diff --git a/tests/features/test_audio.py b/tests/features/test_audio.py
@@ -110,6 +110,30 @@ def test_resampling_at_loading_dataset_with_audio_feature(shared_datadir):
     assert batch["audio"][0]["sampling_rate"] == 16000
 
 
+@require_sndfile
+def test_resampling_after_loading_dataset_with_audio_feature(shared_datadir):
+    audio_path = str(shared_datadir / "test_audio_44100.wav")
+    data = {"audio": [audio_path]}
+    features = Features({"audio": Audio()})
+    dset = Dataset.from_dict(data, features=features)
+    item = dset[0]
+    assert item["audio"]["sampling_rate"] == 44100
+    dset = dset.cast_column("audio", Audio(sampling_rate=16000))
+    item = dset[0]
+    assert item.keys() == {"audio"}
+    assert item["audio"].keys() == {"path", "array", "sampling_rate"}
+    assert item["audio"]["path"] == audio_path
+    assert item["audio"]["array"].shape == (73401,)
+    assert item["audio"]["sampling_rate"] == 16000
+    batch = dset[:1]
+    assert batch.keys() == {"audio"}
+    assert len(batch["audio"]) == 1
+    assert batch["audio"][0].keys() == {"path", "array", "sampling_rate"}
+    assert batch["audio"][0]["path"] == audio_path
+    assert batch["audio"][0]["array"].shape == (73401,)
+    assert batch["audio"][0]["sampling_rate"] == 16000
+
+
 @require_sndfile
 def test_dataset_with_audio_feature_map_is_not_decoded(shared_datadir):
     audio_path = str(shared_datadir / "test_audio_44100.wav")