In [2]:
import os
from utils import persian_normalizer
from datasets import load_dataset, DatasetDict, load_from_disk, DatasetDict

# fleurs

In [2]:
lang_code = "fa_ir"
dataset = load_dataset("google/fleurs", lang_code, trust_remote_code=True)

In [3]:
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id'],
        num_rows: 3101
    })
    validation: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id'],
        num_rows: 369
    })
    test: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id'],
        num_rows: 871
    })
})

In [5]:
def normalize_transcription(example):
    example['normalized_transcription'] = persian_normalizer(example['transcription'])
    return example

normalized_dataset = dataset.map(normalize_transcription)

Map:   0%|          | 0/3101 [00:00<?, ? examples/s]

Map:   0%|          | 0/369 [00:00<?, ? examples/s]

Map:   0%|          | 0/871 [00:00<?, ? examples/s]

In [9]:
normalized_dataset["train"][0]

{'id': 135,
 'num_samples': 215040,
 'path': '/home/dev/.cache/huggingface/datasets/downloads/extracted/9b01d1d7f2d123695c22d5c652da6e747cf0bba7575f333eb0cd70ad62be0d6f/10005925264288051221.wav',
 'audio': {'path': 'train/10005925264288051221.wav',
  'array': array([0.        , 0.        , 0.        , ..., 0.00459224, 0.00350004,
         0.00263834]),
  'sampling_rate': 16000},
 'transcription': 'پدیده کشند سرخ وقتی رخ می\u200cدهد که تراکم کارنیا برویس نوعی جاندار دریایی تک\u200cسلولی که به\u200cصورت طبیعی پدید می\u200cآید بالاتر از حد عادی باشد',
 'raw_transcription': 'پدیده کشند سرخ وقتی رخ می\u200cدهد که تراکم کارنیا برویس، نوعی جاندار دریایی تک\u200cسلولی که به\u200cصورت طبیعی پدید می\u200cآید، بالاتر از حد عادی باشد.',
 'gender': 0,
 'lang_id': 22,
 'language': 'Persian',
 'lang_group_id': 2,
 'normalized_transcription': 'پدیده کشند سرخ وقتی رخ می\u200cدهد که تراکم کارنیا برویس نوعی جاندار دریایی تک\u200cسلولی که به\u200cصورت طبیعی پدید می\u200cآید بالاتر از حد عادی باشد'}

In [12]:
!huggingface-cli whoami

hsekhalilian


In [15]:
# normalized_dataset.push_to_hub("hsekhalilian/fleurs", private=True)
normalized_dataset.save_to_disk("/home/jovyan/.cache/huggingface/datasets/hsekhalilian/fleurs")

Saving the dataset (0/6 shards):   0%|          | 0/3101 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/369 [00:00<?, ? examples/s]

Saving the dataset (0/2 shards):   0%|          | 0/871 [00:00<?, ? examples/s]

In [19]:
dataset = load_from_disk("/home/jovyan/.cache/huggingface/datasets/hsekhalilian/fleurs")

In [20]:
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id', 'normalized_transcription'],
        num_rows: 3101
    })
    validation: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id', 'normalized_transcription'],
        num_rows: 369
    })
    test: Dataset({
        features: ['id', 'num_samples', 'path', 'audio', 'transcription', 'raw_transcription', 'gender', 'lang_id', 'language', 'lang_group_id', 'normalized_transcription'],
        num_rows: 871
    })
})

# Common Voice

In [2]:
from glob import glob

In [3]:
dataset_splits = {}

for split_path in glob("/home/jovyan/.cache/huggingface/datasets/common_voice/*"):
    print(f"Loading from: {split_path}")
    split_name = os.path.basename(split_path).split('-')[-1]
    dataset_splits[split_name] = load_from_disk(split_path)

dataset = DatasetDict(dataset_splits)

Loading from: /home/jovyan/.cache/huggingface/datasets/common_voice/commonvoice-fa-train
Loading from: /home/jovyan/.cache/huggingface/datasets/common_voice/commonvoice-fa-test
Loading from: /home/jovyan/.cache/huggingface/datasets/common_voice/commonvoice-fa-dev


In [4]:
dataset

DatasetDict({
    train: Dataset({
        features: ['client_id', 'path', 'sentence_id', 'sentence', 'sentence_domain', 'up_votes', 'down_votes', 'age', 'gender', 'accents', 'variant', 'locale', 'segment', 'audio'],
        num_rows: 29789
    })
    test: Dataset({
        features: ['client_id', 'path', 'sentence_id', 'sentence', 'sentence_domain', 'up_votes', 'down_votes', 'age', 'gender', 'accents', 'variant', 'locale', 'segment', 'audio'],
        num_rows: 10676
    })
    dev: Dataset({
        features: ['client_id', 'path', 'sentence_id', 'sentence', 'sentence_domain', 'up_votes', 'down_votes', 'age', 'gender', 'accents', 'variant', 'locale', 'segment', 'audio'],
        num_rows: 10676
    })
})

In [10]:
def normalize_transcription(example):
    example['normalized_transcription'] = persian_normalizer(example['sentence'])
    return example

normalized_dataset = dataset.map(normalize_transcription)

Map:   0%|          | 0/29789 [00:00<?, ? examples/s]

Map:   0%|          | 0/10676 [00:00<?, ? examples/s]

Map:   0%|          | 0/10676 [00:00<?, ? examples/s]

In [11]:
normalized_dataset["train"][10]

{'client_id': 'ba038266a6588b8329768dcdfdf9c9ceca6474462e7bb0849ea71ab2b7b97cc985a4fd12690eb262522ae3a62fe5a67fffda03ad8177cd4c7f82d55c62718dea',
 'path': 'common_voice_fa_24473289.mp3',
 'sentence_id': '28efb8e53a35420683be04d2f583a7902b09339fcd74e79321fcf0c846fc5ddb',
 'sentence': 'با صداقتی آکنده از احساس صحبت میکرد.',
 'sentence_domain': None,
 'up_votes': 2,
 'down_votes': 1,
 'age': None,
 'gender': None,
 'accents': None,
 'variant': None,
 'locale': 'fa',
 'segment': None,
 'audio': {'path': 'common_voice_fa_24473289.mp3',
  'array': array([ 0.00000000e+00, -4.61928239e-13, -3.61539574e-12, ...,
         -1.82849817e-06, -1.78594769e-06, -1.70895544e-06]),
  'sampling_rate': 32000},
 'normalized_transcription_01': 'با صداقتی آکنده از احساس صحبت میکرد.'}

In [18]:
all_text = " ".join(normalized_dataset['train']['sentence'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))


all_text = " ".join(normalized_dataset['train']['normalized_transcription'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

Unique characters: [' ', '!', '"', '(', ')', ',', '-', '.', ':', ';', '=', 'A', 'C', 'G', 'I', 'L', 'P', 'S', 'T', 'a', 'b', 'c', 'd', 'e', 'h', 'i', 'l', 'n', 'o', 'r', 't', 'u', 'w', 'x', '«', '»', '،', '؛', '؟', 'ء', 'آ', 'أ', 'ؤ', 'ئ', 'ا', 'ب', 'ة', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ـ', 'ف', 'ق', 'ك', 'ل', 'م', 'ن', 'ه', 'و', 'ى', 'ي', 'ً', 'ٌ', 'َ', 'ُ', 'ِ', 'ّ', 'ٔ', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ۀ', 'ی', 'ے', '–', '“', '”', '…', 'ﮩ']
Number of unique characters: 95
Unique characters: [' ', '!', '"', '(', ')', ',', '-', '.', ':', '=', 'A', 'C', 'G', 'I', 'L', 'P', 'S', 'T', 'a', 'b', 'c', 'd', 'e', 'h', 'i', 'l', 'n', 'o', 'r', 't', 'u', 'w', 'x', '«', '»', '،', '؛', '؟', 'آ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ی', '–']
Number of unique characters: 73


In [19]:
normalized_dataset.save_to_disk("/home/jovyan/.cache/huggingface/datasets/hsekhalilian/commonvoice")

Saving the dataset (0/2 shards):   0%|          | 0/29789 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/10676 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/10676 [00:00<?, ? examples/s]

# psrb

In [2]:
dataset = load_from_disk("/home/jovyan/.cache/huggingface/datasets/psrb")

In [4]:
dataset = DatasetDict({"train": dataset})

In [6]:
dataset["train"][0]

{'audio': {'path': 'audio_1.wav',
  'array': array([0.00799561, 0.01330566, 0.01773071, ..., 0.00030518, 0.00140381,
         0.00228882]),
  'sampling_rate': 44100},
 'path': 'audio_1.wav',
 'text': 'می\u200cگم نمی\u200cخواین طبق نقشه جلو بریم؟ نقشه رو بی\u200cخیال غمت نباشه ما مستر رد پا رو داریم. حس بویایی و شم\u200cام اشتباه نمی\u200cکنه. همین الان اشتباه کرده.',
 'audio_duration': 11.88,
 'number_of_speakers': 3,
 'gender': 'male',
 'age': 'mix',
 'accents': 'Standard',
 'formality': 'informal',
 'semantic_content': 'artistic&literary',
 'data_source': 'animation',
 'acoustic_environment': 'noisy',
 'spontaneous': 1}

In [8]:
all_text = " ".join(dataset['train']['text'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

Unique characters: [' ', '!', '.', ':', '{', '}', '،', '؟', 'ء', 'آ', 'أ', 'ؤ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ك', 'ل', 'م', 'ن', 'ه', 'و', 'ي', 'َ', 'ُ', 'ِ', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ی', '\u200c']
Number of unique characters: 51


In [9]:
def normalize_transcription(example):
    example['normalized_transcription'] = persian_normalizer(example['text'])
    return example

normalized_dataset = dataset.map(normalize_transcription)

Map:   0%|          | 0/344 [00:00<?, ? examples/s]

In [10]:
all_text = " ".join(dataset['train']['text'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

all_text = " ".join(normalized_dataset['train']['normalized_transcription'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

Unique characters: [' ', '!', '.', ':', '{', '}', '،', '؟', 'ء', 'آ', 'أ', 'ؤ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ك', 'ل', 'م', 'ن', 'ه', 'و', 'ي', 'َ', 'ُ', 'ِ', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ی', '\u200c']
Number of unique characters: 51
Unique characters: [' ', '!', '.', ':', '{', '}', '،', '؟', 'آ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ی', '\u200c']
Number of unique characters: 43


In [11]:
normalized_dataset.save_to_disk("/home/jovyan/.cache/huggingface/datasets/hsekhalilian/psrb")

Saving the dataset (0/1 shards):   0%|          | 0/344 [00:00<?, ? examples/s]

# SedAli

In [2]:
dataset = load_dataset("SeyedAli/Persian-Speech-Dataset")

In [6]:
dataset

DatasetDict({
    train: Dataset({
        features: ['audio_id', 'audio', 'speaker_id', 'gender', 'emotion', 'transcript', 'ipa'],
        num_rows: 2270
    })
    test: Dataset({
        features: ['audio_id', 'audio', 'speaker_id', 'gender', 'emotion', 'transcript', 'ipa'],
        num_rows: 568
    })
})

In [8]:
def normalize_transcription(example):
    example['normalized_transcription'] = persian_normalizer(example['transcript'])
    return example

normalized_dataset = dataset.map(normalize_transcription)

Map:   0%|          | 0/2270 [00:00<?, ? examples/s]

Map:   0%|          | 0/568 [00:00<?, ? examples/s]

In [9]:
all_text = " ".join(dataset['train']['transcript'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

all_text = " ".join(normalized_dataset['train']['normalized_transcription'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

Unique characters: [' ', '!', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '،', '؟', 'ء', 'آ', 'أ', 'ؤ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'ً', 'َ', 'ُ', 'ِ', 'ّ', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ۀ', 'ی', '\u200c', '\u200d', '\u200e', '\u200f', '\ufeff']
Number of unique characters: 63
Unique characters: [' ', '!', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '،', '؟', 'آ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'پ', 'چ', 'ژ', 'ک', 'گ', 'ی', '\u200c']
Number of unique characters: 50


In [10]:
normalized_dataset.save_to_disk("/home/jovyan/.cache/huggingface/datasets/hsekhalilian/sedali")

Saving the dataset (0/2 shards):   0%|          | 0/2270 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/568 [00:00<?, ? examples/s]

# Customer Service

In [11]:
dataset = load_dataset("MohammadGholizadeh/costumer-service-persian-1")

In [13]:
dataset

DatasetDict({
    train: Dataset({
        features: ['audio', 'sentence'],
        num_rows: 688
    })
    test: Dataset({
        features: ['audio', 'sentence'],
        num_rows: 173
    })
})

In [15]:
def normalize_transcription(example):
    example['normalized_transcription'] = persian_normalizer(example['sentence'])
    return example

normalized_dataset = dataset.map(normalize_transcription)

Map:   0%|          | 0/688 [00:00<?, ? examples/s]

Map:   0%|          | 0/173 [00:00<?, ? examples/s]

In [16]:
all_text = " ".join(dataset['train']['sentence'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

all_text = " ".join(normalized_dataset['train']['normalized_transcription'])
unique_chars = sorted(set(all_text))

print("Unique characters:", unique_chars)
print("Number of unique characters:", len(unique_chars))

Unique characters: [' ', '-', '.', '_', 'آ', 'أ', 'ؤ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'ً', 'َ', 'ُ', 'ِ', 'ّ', 'ٔ', 'پ', 'چ', 'ک', 'گ', 'ۀ', 'ی', '\u200c', '\u200d', '\u200f', '\u202c', '\u202e', '\u2068', '\u2069']
Number of unique characters: 53
Unique characters: [' ', '-', '.', 'آ', 'ئ', 'ا', 'ب', 'ت', 'ث', 'ج', 'ح', 'خ', 'د', 'ذ', 'ر', 'ز', 'س', 'ش', 'ص', 'ض', 'ط', 'ظ', 'ع', 'غ', 'ف', 'ق', 'ل', 'م', 'ن', 'ه', 'و', 'پ', 'چ', 'ک', 'گ', 'ی', '\u200c']
Number of unique characters: 37


In [23]:
normalized_dataset.save_to_disk("/home/jovyan/.cache/huggingface/datasets/hsekhalilian/customerservice")

Saving the dataset (0/1 shards):   0%|          | 0/688 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/173 [00:00<?, ? examples/s]

# Belebele fleurs

In [3]:
from datasets import load_dataset
dataset = load_dataset("wuenlp/fleurs-belebele", "pes_Arab", trust_remote_code=True)

In [3]:
dataset

DatasetDict({
    test: Dataset({
        features: ['link', 'question_number', 'flores_passage', 'question', 'mc_answer1', 'mc_answer2', 'mc_answer3', 'mc_answer4', 'correct_answer_num', 'dialect', 'ds', 'sentence_data'],
        num_rows: 673
    })
})

In [5]:
for sample in dataset["test"]:
    for item in sample["sentence_data"]:
        for i, audio in enumerate(item["audio"]):
            print(item["sentence"])
            print(item["gender"][i])
            print(item["raw_transcription"])
            print(item["seamlessm4t_asr"][i])
            print(item["seamlessm4t_asr_translation"][i])
            print(item["transcription"])
            print(item["whisper_asr"][i])
            print(item["whisper_asr_translation"][i])
            ipd.display(ipd.Audio(data=audio["array"], rate=audio["sampling_rate"]))
    break

بسیاری، ریتم‌های فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون‌زا و تولید آن‌ها را به ساعت‌های بیولوژیکی مرتبط می‌دانند.
FEMALE
بسیاری، ریتم‌های فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون‌زا و تولید آن‌ها را به ساعت‌های بیولوژیکی مرتبط می‌دانند.
بسیاری از ریتم های فیزیولوژیکی و رفتار را غالبا به صورت جدی به صورت چرخه درونزا و تولید آنها را به ساعت های بیولوژیکی مرتبط می دانند.
Many physiological and behavioral rhythms are often seriously associated with the internal cycle and their production in biological clocks.
بسیاری ریتم‌های فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون‌زا و تولید آن‌ها را به ساعت‌های بیولوژیکی مرتبط می‌دانند
بسیاری از ریزم های فیزیولوژی و رفتار را غالبا به صورت جدی به صورت چرخه درونزا و تولید آنها را به ساعت های بیولوژیکی مرتبط می دانند.
Many of the physiological and behavioral rhythms are probably seriously related to the circulation of the kidneys and the production of them in biological hours.


بسیاری، ریتم‌های فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون‌زا و تولید آن‌ها را به ساعت‌های بیولوژیکی مرتبط می‌دانند.
FEMALE
بسیاری، ریتم‌های فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون‌زا و تولید آن‌ها را به ساعت‌های بیولوژیکی مرتبط می‌دانند.
بسیاری ریتم های فیزیولوژیکی و رفتار را غالبا به صورت جدی به وجود چرخه درونزا و تولید آنها را به ساعت های بیولوژیکی مرتبط می دانند.
Many physiological and behavioral rhythms are often seriously associated with the existence of an internal cycle and their production in biological clocks.
بسیاری ریتم‌های فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون‌زا و تولید آن‌ها را به ساعت‌های بیولوژیکی مرتبط می‌دانند
بسیار ریتم های فیزیولوژی و رفتار را قالبن به صورت جدی به وجود چرخه درونزا و تولید آنها را به ساعت های بیولوژیکی مرتبط می دانند.
Many of the rhythms of physiology and behavior are probably seriously related to the existence of the dorsal fin and the production of them in biological hours.


ریتم‌های دوره‌ای، که به سادگی یک پاسخ به نشانه‌های دوره‌ای خارجی نیستند، برای اکثر موجودات زنده از جمله باکتری‌ها، قارچ‌ها، گیاهان و حیوانات ثبت شده است.
MALE
ریتم‌های دوره‌ای، که به سادگی یک پاسخ به نشانه‌های دوره‌ای خارجی نیستند، برای اکثر موجودات زنده از جمله باکتری‌ها، قارچ‌ها، گیاهان و حیوانات ثبت شده است.
ریتمهای دورهای که به سادگی یک پاسخ به نشانههای دورهای خارجی نیستند، برای اکثر موجودات زنده از جمله باکتریها، قارچها، گیاهان و حیوانات ثبت شده است
Periodic rhythms, which are not simply a response to external periodic signals, have been recorded for most living things, including bacteria, fungi, plants, and animals.
ریتم‌های دوره‌ای که به سادگی یک پاسخ به نشانه‌های دوره‌ای خارجی نیستند برای اکثر موجودات زنده از جمله باکتری‌ها قارچ‌ها گیاهان و حیوانات ثبت شده است
ریتم های دورهی که به سادهی یک پاسخ به نشانه های دورهی خارجی نیستند، برای اکثر موجودات زنده از جمعه باکتری ها، گارچ ها، گیاهان و حیوانات سب شده هست.
Rhythmic rhythms, which are not simply a letter in a periodic pattern, ar

ریتم‌های دوره‌ای، که به سادگی یک پاسخ به نشانه‌های دوره‌ای خارجی نیستند، برای اکثر موجودات زنده از جمله باکتری‌ها، قارچ‌ها، گیاهان و حیوانات ثبت شده است.
MALE
ریتم‌های دوره‌ای، که به سادگی یک پاسخ به نشانه‌های دوره‌ای خارجی نیستند، برای اکثر موجودات زنده از جمله باکتری‌ها، قارچ‌ها، گیاهان و حیوانات ثبت شده است.
ریتمهای دورهای که به سادگی یک پاسخ به نشانههای دورهای خارجی نیستند، برای اکثر موجودات زنده از جمله باکتریها، قارچها، گیاهان و حیوانات ثبت شده است
Periodic rhythms, which are simply not a response to external periodic signs, have been recorded for most living things, including bacteria, fungi, plants, and animals.
ریتم‌های دوره‌ای که به سادگی یک پاسخ به نشانه‌های دوره‌ای خارجی نیستند برای اکثر موجودات زنده از جمله باکتری‌ها قارچ‌ها گیاهان و حیوانات ثبت شده است
ریتب های دوره ای که به سادگی یک پاسخ به نشانه های دوره ای خارجی نیستند، برای اکثر موجودات زنده از جمعه باکتری ها، گارچ ها، گیاهان و حیوانات سرد شده هست.
Rhythmic rhythms, which are not simply a response to external rhythmic

ساعت‌های بیولوژیکی نوسان‌سازهای خودپایداری هستند که دوره‌ای از یک سیکل آزاد‌گرد را در نبود نشانه‌های بیرونی ادامه می‌دهند.
FEMALE
ساعت‌های بیولوژیکی نوسان‌سازهای خودپایداری هستند که دوره‌ای از یک سیکل آزاد‌گرد را در نبود نشانه‌های بیرونی ادامه می‌دهند.
ساعت های بیولوژیکی نوسان سازهای خودپایدار هستند که دوره ای از یک چرخه آزادگرد را در نابود نشانه های بیرونی ادامه می دهند.
Biological clocks are self-sustaining oscillators that continue a cycle of free-flowing in the absence of external signals.
ساعت‌های بیولوژیکی نوسان‌سازهای خودپایداری هستند که دوره‌ای از یک سیکل آزاد‌گرد را در نبود نشانه‌های بیرونی ادامه می‌دهند
ساعت های بیولوژیکی نویسانساز های خودپاییداری هستند که دوره از یک سیکل آزادگرد را در نبود نشانه های بیرونی ادامه میدهند.
Biological clocks are self-reliant mechanisms that continue a cycle of freedom in the process of outside signs.


ساعت‌های بیولوژیکی نوسان‌سازهای خودپایداری هستند که دوره‌ای از یک سیکل آزاد‌گرد را در نبود نشانه‌های بیرونی ادامه می‌دهند.
FEMALE
ساعت‌های بیولوژیکی نوسان‌سازهای خودپایداری هستند که دوره‌ای از یک سیکل آزاد‌گرد را در نبود نشانه‌های بیرونی ادامه می‌دهند.
ساعت های بیولوژیکی نوسان سازهای خودپایداری هستند که دوره ای از یک چرخه آزادگرد را در نبود نشانه های خارجی ادامه می دهند.
Biological clocks are self-sustaining oscillators that continue a period of a free-flowing cycle in the absence of external signals.
ساعت‌های بیولوژیکی نوسان‌سازهای خودپایداری هستند که دوره‌ای از یک سیکل آزاد‌گرد را در نبود نشانه‌های بیرونی ادامه می‌دهند
ساعت های بیولوژیکی نوستانساز های خودپایداری هستند که دوره از یک سیکل آزادگرد را در نبود نشانه های بیرونی ادامه می دهند.
Biological clock are self-sufficient mechanisms that continue a cycle of liberation in the process of outside signs.


In [2]:
from datasets import load_dataset, Dataset
from tqdm import tqdm

flattened = []

# Flatten while preserving audio
for sample in tqdm(dataset["test"]):
    for item in sample["sentence_data"]:
        for i, audio in enumerate(item["audio"]):
            flattened.append({
                "sentence": item["sentence"],
                "gender": item["gender"][i],
                "raw_transcription": item["raw_transcription"],
                "seamlessm4t_asr": item["seamlessm4t_asr"][i],
                "seamlessm4t_asr_translation": item["seamlessm4t_asr_translation"][i],
                "transcription": item["transcription"],
                "whisper_asr": item["whisper_asr"][i],
                "whisper_asr_translation": item["whisper_asr_translation"][i],
                "audio": audio,  # preserve audio field with proper format
            })

100%|██████████| 673/673 [00:38<00:00, 17.34it/s]


In [9]:
flattened[0]

{'sentence': 'بسیاری، ریتم\u200cهای فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون\u200cزا و تولید آن\u200cها را به ساعت\u200cهای بیولوژیکی مرتبط می\u200cدانند.',
 'gender': 'FEMALE',
 'raw_transcription': 'بسیاری، ریتم\u200cهای فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون\u200cزا و تولید آن\u200cها را به ساعت\u200cهای بیولوژیکی مرتبط می\u200cدانند.',
 'seamlessm4t_asr': 'بسیاری از ریتم های فیزیولوژیکی و رفتار را غالبا به صورت جدی به صورت چرخه درونزا و تولید آنها را به ساعت های بیولوژیکی مرتبط می دانند.',
 'seamlessm4t_asr_translation': 'Many physiological and behavioral rhythms are often seriously associated with the internal cycle and their production in biological clocks.',
 'transcription': 'بسیاری ریتم\u200cهای فیزیولوژی و رفتار را غالباً به صورت جدی به وجود چرخه درون\u200cزا و تولید آن\u200cها را به ساعت\u200cهای بیولوژیکی مرتبط می\u200cدانند',
 'whisper_asr': 'بسیاری از ریزم های فیزیولوژی و رفتار را غالبا به صورت جدی به صورت چرخه درونزا و تولید آنها را به

In [4]:
from datasets import load_dataset, Dataset, DatasetInfo, Features, Value, Sequence, Audio
import os

# Define features schema to ensure correct typing
features = Features({
    "sentence": Value("string"),
    "gender": Value("string"),
    "raw_transcription": Value("string"),
    "seamlessm4t_asr": Value("string"),
    "seamlessm4t_asr_translation": Value("string"),
    "transcription": Value("string"),
    "whisper_asr": Value("string"),
    "whisper_asr_translation": Value("string"),
    "audio": Audio(),
})

# Output path
output_dir = "flattened_test_dataset"

# Use the Dataset builder to incrementally write to disk
from datasets import DatasetBuilder

if os.path.exists(output_dir):
    import shutil
    shutil.rmtree(output_dir)

builder = Dataset.builder(
    dataset_info=DatasetInfo(features=features),
    cache_dir=output_dir,
)

# Start writing
with builder.stream_writer(split="test") as writer:
    for sample in dataset["test"]:
        for item in sample["sentence_data"]:
            for i, audio in enumerate(item["audio"]):
                writer.write({
                    "sentence": item["sentence"],
                    "gender": item["gender"][i],
                    "raw_transcription": item["raw_transcription"],
                    "seamlessm4t_asr": item["seamlessm4t_asr"][i],
                    "seamlessm4t_asr_translation": item["seamlessm4t_asr_translation"][i],
                    "transcription": item["transcription"],
                    "whisper_asr": item["whisper_asr"][i],
                    "whisper_asr_translation": item["whisper_asr_translation"][i],
                    "audio": audio,
                })

# Load saved dataset
flattened_dataset = load_dataset(output_dir)

print(flattened_dataset["test"])


AttributeError: type object 'Dataset' has no attribute 'builder'

In [None]:
# Create a new Hugging Face Dataset from the flattened list
flattened_dataset = Dataset.from_list(flattened)

In [None]:
# Cast the "audio" column back to Audio type (required to keep it lazy-loaded)
from datasets import Audio
flattened_dataset = flattened_dataset.cast_column("audio", Audio())

# Optional: Save it as a new dataset
flattened_dataset.save_to_disk("flattened_test_dataset")

print(flattened_dataset)

In [4]:
from datasets import Dataset

def flatten_sample(batch):
    new_records = []
    
    for item in batch["sentence_data"]:
        sentence = item["sentence"]
        raw_transcription = item["raw_transcription"]
        transcription = item["transcription"]

        for i, audio in enumerate(item["audio"]):
            record = {
                "sentence": sentence,
                "gender": item["gender"][i],
                "raw_transcription": raw_transcription,
                "seamlessm4t_asr": item["seamlessm4t_asr"][i],
                "seamlessm4t_asr_translation": item["seamlessm4t_asr_translation"][i],
                "transcription": transcription,
                "whisper_asr": item["whisper_asr"][i],
                "whisper_asr_translation": item["whisper_asr_translation"][i],
                "audio_array": audio["array"],
                "sampling_rate": audio["sampling_rate"]
            }
            new_records.append(record)

    return new_records

In [7]:
# Apply the transformation using map
flattened_dataset = dataset["test"].map(flatten_sample, remove_columns=dataset["test"].column_names)

# Preview the new dataset
print(flattened_dataset[0])

Map:   0%|          | 0/673 [00:00<?, ? examples/s]

TypeError: Provided `function` which is applied to all elements of table returns a variable of type <class 'list'>. Make sure provided `function` returns a variable of type `dict` (or a pyarrow table) to update the dataset or `None` if you are only interested in side effects.

In [None]:
from datasets import Dataset

flattened_samples = []

for sample in dataset["test"]:
    for item in sample["sentence_data"]:
        sentence = item["sentence"]
        raw_transcription = item["raw_transcription"]
        transcription = item["transcription"]

        for i, audio in enumerate(item["audio"]):
            flattened_samples.append({
                "sentence": sentence,
                "gender": item["gender"][i],
                "raw_transcription": raw_transcription,
                "seamlessm4t_asr": item["seamlessm4t_asr"][i],
                "seamlessm4t_asr_translation": item["seamlessm4t_asr_translation"][i],
                "transcription": transcription,
                "whisper_asr": item["whisper_asr"][i],
                "whisper_asr_translation": item["whisper_asr_translation"][i],
                "audio_array": audio["array"],
                "sampling_rate": audio["sampling_rate"],
            })

# Convert to Hugging Face Dataset
new_dataset = Dataset.from_list(flattened_samples)

# Check the result
print(new_dataset[0])
