# Create Dataset on Huggingface


In [None]:
from google.colab import drive

# Mount Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install pydub datasets

Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Collecting datasets
  Downloading datasets-2.18.0-py3-none-any.whl (510 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.5/510.5 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
Installing collected package

In [None]:
import os
import pandas as pd
from pydub import AudioSegment
from datasets import Dataset,Audio

def load_audio_files(folder_path):
    audio_data = []

    for filename in os.listdir(folder_path):
        if filename.endswith(".wav"):
            file_path = os.path.join(folder_path,filename)
            audio_data.append({
                "file_path": file_path,
            })

    return audio_data

# Thay đổi đường dẫn đến thư mục của bạn
folder_path = "/content/drive/MyDrive/Data"

# Tải thông tin về các file âm thanh
audio_data = load_audio_files(folder_path)

# Đọc dữ liệu từ file Excel
excel_path = "/content/drive/MyDrive/Dataset Detail/data.xlsx"
transcription_df = pd.read_excel(excel_path)

# Kết hợp thông tin âm thanh và transcription
combined_data = []
for audio_info in audio_data:
    file_name = os.path.basename(audio_info["file_path"])
    transcription_row = transcription_df[transcription_df['File'] == file_name]

    if not transcription_row.empty:
        transcription = transcription_row.iloc[0]['Transcript']
        combined_data.append({
            "file_path": audio_info["file_path"],
            "transcription": transcription
        })

# Tạo dataset từ dữ liệu kết hợp
dataset = Dataset.from_dict({
    "audio": [item["file_path"] for item in combined_data],
    "transcription": [item["transcription"] for item in combined_data]
}).cast_column("audio", Audio())

# In một số thông tin cơ bản về dataset
print(dataset)


Dataset({
    features: ['audio', 'transcription'],
    num_rows: 2926
})


In [None]:
import numpy as np
import random

total_samples = len(dataset)

# Tính số lượng mẫu 8%
eight_percent = int(total_samples * 0.08)

# Tạo danh sách các chỉ số ngẫu nhiên
random_indices = random.sample(range(total_samples), eight_percent)

# Tạo danh sách chỉ số của phần tử không được chọn ngẫu nhiên
remaining_indices = [i for i in range(total_samples) if i not in random_indices]

# Tách tập dữ liệu thành hai phần
dataset_test = dataset.select(indices=random_indices)
dataset_train = dataset.select(indices=remaining_indices)


In [None]:
dataset_train[100]

{'audio': {'path': '/content/drive/MyDrive/Data/audio_s2065.wav',
  'array': array([ 0.        ,  0.        ,  0.        , ..., -0.01455688,
         -0.01422119, -0.01428223]),
  'sampling_rate': 48000},
 'transcription': 'Bà của Nam thường ở nhà trông nhà'}

In [None]:
dataset_test[100]

{'audio': {'path': '/content/drive/MyDrive/Data/audio_w512.wav',
  'array': array([ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00, ...,
         -1.52587891e-04, -1.52587891e-04,  3.05175781e-05]),
  'sampling_rate': 48000},
 'transcription': 'Ngủ'}

In [None]:
from datasets import DatasetDict
DatasetDict({'train':dataset_train,'test':dataset_test}).push_to_hub("legendary2910/MnongAudio",token="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")

Uploading the dataset shards:   0%|          | 0/2 [00:00<?, ?it/s]

Map:   0%|          | 0/1346 [00:00<?, ? examples/s]

Creating parquet from Arrow format:   0%|          | 0/14 [00:00<?, ?ba/s]

Map:   0%|          | 0/1346 [00:00<?, ? examples/s]

Creating parquet from Arrow format:   0%|          | 0/14 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Map:   0%|          | 0/234 [00:00<?, ? examples/s]

Creating parquet from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/431 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/legendary2910/MnongAudio/commit/5f9b8d36990f7cfa2573eb37ba44823065bd8794', commit_message='Upload dataset', commit_description='', oid='5f9b8d36990f7cfa2573eb37ba44823065bd8794', pr_url=None, pr_revision=None, pr_num=None)

# Training

In [None]:
!pip install --upgrade pip
!pip install --upgrade torch torchaudio torchdata torchtext accelerate transformers optimum torchvision evaluate jiwer soundfile librosa evaluate jiwer gradio kaleido cohere openai tiktoken

Collecting pip
  Downloading pip-24.0-py3-none-any.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m14.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.1.2
    Uninstalling pip-23.1.2:
      Successfully uninstalled pip-23.1.2
Successfully installed pip-24.0
Collecting accelerate
  Downloading accelerate-0.28.0-py3-none-any.whl.metadata (18 kB)
Collecting optimum
  Downloading optimum-1.17.1-py3-none-any.whl.metadata (18 kB)
Collecting evaluate
  Downloading evaluate-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting jiwer
  Downloading jiwer-3.0.3-py3-none-any.whl.metadata (2.6 kB)
Collecting gradio
  Downloading gradio-4.21.0-py3-none-any.whl.metadata (15 kB)
Collecting kaleido
  Downloading kaleido-0.2.1-py2.py3-none-manylinux1_x86_64.whl.metadata (15 kB)
Collecting cohere
  Downloading cohere-4.56-py3-none-any.whl.metadata (6.2 kB)
Collecting 

In [None]:
from huggingface_hub import login

login(token="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",add_to_git_credential=True)

Token is valid (permission: write).
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
from datasets import load_dataset, DatasetDict

dataset = DatasetDict()

dataset["train"] = load_dataset("legendary2910/MnongAudio", "default", split="train", use_auth_token=True)
dataset["test"] = load_dataset("legendary2910/MnongAudio", "default", split="test", use_auth_token=True)




The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/442 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/483M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/387M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/73.9M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/2692 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/234 [00:00<?, ? examples/s]

In [None]:
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['audio', 'transcription'],
        num_rows: 2692
    })
    test: Dataset({
        features: ['audio', 'transcription'],
        num_rows: 234
    })
})


In [None]:
##dataset = dataset.remove_columns(["id"])

In [None]:
from transformers import WhisperFeatureExtractor

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")


The cache for model files in Transformers v4.22.0 has been updated. Migrating your old cache. This is a one-time only operation. You can interrupt this and resume the migration later on by calling `transformers.utils.move_cache()`.


0it [00:00, ?it/s]

preprocessor_config.json:   0%|          | 0.00/185k [00:00<?, ?B/s]

In [None]:
from transformers import WhisperTokenizer

tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-small", language="Vietnamese", task="transcribe")


tokenizer_config.json:   0%|          | 0.00/283k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/836k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.48M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/34.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
print(dataset["train"][0])


{'audio': {'path': 'audio_s1952.wav', 'array': array([ 0.        ,  0.        ,  0.        , ..., -0.01504517,
       -0.01535034, -0.01480103]), 'sampling_rate': 48000}, 'transcription': 'Ngày nay, gia đình anh ấy không còn thiếu thốn như trước kia nữa'}


In [None]:
from datasets import Audio

dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))


In [None]:
print(dataset["train"][1141])

{'audio': {'path': 'audio_s1195.wav', 'array': array([ 0.00000000e+00, -9.09494702e-12, -3.63797881e-12, ...,
        0.00000000e+00,  0.00000000e+00,  0.00000000e+00]), 'sampling_rate': 16000}, 'transcription': 'Bạn bè tôi đều thân thiện.'}


In [None]:
from transformers import WhisperProcessor

processor = WhisperProcessor.from_pretrained("openai/whisper-small", language="Vietnamese", task="transcribe")


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
def prepare_dataset(batch):
    # load and resample audio data from 48 to 16kHz
    audio = batch["audio"]

    # compute log-Mel input features from input audio array
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # encode target text to label ids
    batch["labels"] = tokenizer(batch["transcription"]).input_ids
    return batch
dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names["train"], num_proc=4)

Map (num_proc=4):   0%|          | 0/2692 [00:00<?, ? examples/s]

Map (num_proc=4):   0%|          | 0/234 [00:00<?, ? examples/s]

In [None]:
import torch

from dataclasses import dataclass
from typing import Any, Dict, List, Union

@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lengths and need different padding methods
        # first treat the audio inputs by simply returning torch tensors
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # get the tokenized label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # pad the labels to max length
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # if bos token is appended in previous tokenization step,
        # cut bos token here as it's append later anyways
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch
data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)


In [None]:
import evaluate

metric = evaluate.load("wer")


Downloading builder script:   0%|          | 0.00/4.49k [00:00<?, ?B/s]

In [None]:
def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # replace -100 with the pad_token_id
    label_ids[label_ids == -100] = tokenizer.pad_token_id

    # we do not want to group tokens when computing the metrics
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    wer = 100 * metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}


In [None]:
from transformers import WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")


config.json:   0%|          | 0.00/1.97k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/3.87k [00:00<?, ?B/s]

In [None]:
from transformers import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
    output_dir="legendary2910/Mnong-ASR",  # change to a repo name of your choice
    per_device_train_batch_size=16,
    gradient_accumulation_steps=1,  # increase by 2x for every 2x decrease in batch size
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=4000,
    gradient_checkpointing=True,
    fp16=True,
    evaluation_strategy="steps",
    per_device_eval_batch_size=8,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=True
)


In [None]:
model.generation_config.language = "<|vi|>"
model.generation_config.task = "transcribe"

In [None]:
from transformers import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=processor.feature_extractor
)


dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [None]:
trainer.train()

`use_cache = True` is incompatible with gradient checkpointing. Setting `use_cache = False`...


Step,Training Loss,Validation Loss,Wer
1000,0.2715,1.136094,69.939183
2000,0.0052,1.220258,70.981755
3000,0.0005,1.234966,59.687228
4000,0.0004,1.246733,62.119896


Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [1, 2, 7, 8, 9, 10, 14, 25, 26, 27, 28, 29, 31, 58, 59, 60, 61, 62, 63, 90, 91, 92, 93, 359, 503, 522, 542, 873, 893, 902, 918, 922, 931, 1350, 1853, 1982, 2460, 2627, 3246, 3253, 3268, 3536, 3846, 3961, 4183, 4667, 6585, 6647, 7273, 9061, 9383, 10428, 10929, 11938, 12033, 12331, 12562, 13793, 14157, 14635, 15265, 15618, 16553, 16604, 18362, 18956, 20075, 21675, 22520, 26130, 26161, 26435, 28279, 29464, 31650, 32302, 32470, 36865, 42863, 47425, 49870, 50254, 50258, 50360, 50361, 50362], 'begin_suppress_tokens': [220, 50257]}
Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [1, 2, 7, 8, 9, 10, 14, 25, 26, 27, 28, 29, 31, 58, 59, 60, 61, 62, 63, 90, 91, 92, 93, 359, 503, 522, 542, 873, 893, 902, 918, 922, 931, 1350, 1853, 1982, 2460, 2627, 3246, 3253, 3268, 3536, 3846, 3961, 4183, 4667, 6585, 6647, 7273, 9061, 9383, 10428, 10929, 11938, 12033, 12331, 12562, 13793, 14157, 14635, 15265, 15618

TrainOutput(global_step=4000, training_loss=0.4573233670243062, metrics={'train_runtime': 10724.8436, 'train_samples_per_second': 5.967, 'train_steps_per_second': 0.373, 'total_flos': 1.838981604999168e+19, 'train_loss': 0.4573233670243062, 'epoch': 23.67})

In [None]:
kwargs = {
    #"dataset_tags": "legendary2910/MnongAudio",
    "dataset": "MnongAudio",  # a 'pretty' name for the training dataset
    "dataset_args": "config: vi, split: test",
    "language": "vi",
    "model_name": "Whisper Small Mnong",  # a 'pretty' name for your model
    "finetuned_from": "openai/whisper-small",
    "tasks": "automatic-speech-recognition",
    "tags": "hf-asr-leaderboard",
}
trainer.push_to_hub(**kwargs)


Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [1, 2, 7, 8, 9, 10, 14, 25, 26, 27, 28, 29, 31, 58, 59, 60, 61, 62, 63, 90, 91, 92, 93, 359, 503, 522, 542, 873, 893, 902, 918, 922, 931, 1350, 1853, 1982, 2460, 2627, 3246, 3253, 3268, 3536, 3846, 3961, 4183, 4667, 6585, 6647, 7273, 9061, 9383, 10428, 10929, 11938, 12033, 12331, 12562, 13793, 14157, 14635, 15265, 15618, 16553, 16604, 18362, 18956, 20075, 21675, 22520, 26130, 26161, 26435, 28279, 29464, 31650, 32302, 32470, 36865, 42863, 47425, 49870, 50254, 50258, 50360, 50361, 50362], 'begin_suppress_tokens': [220, 50257]}


events.out.tfevents.1710447262.fceda47ce2d3.2503.0:   0%|          | 0.00/41.7k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/legendary2910/Mnong-ASR/commit/c80911e4770773d2cda2d6fcb79542a257e0e7f4', commit_message='End of training', commit_description='', oid='c80911e4770773d2cda2d6fcb79542a257e0e7f4', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
import shutil

folder_name = "legendary2910"

try:
    shutil.rmtree(folder_name)
    print("Thư mục đã được xóa thành công.")
except FileNotFoundError:
    print("Không tìm thấy thư mục.")
except OSError as e:
    print(f"Lỗi: {e}")

Thư mục đã được xóa thành công.


In [None]:
tokenizer.push_to_hub(repo_id="legendary2910/Mnong-ASR")

README.md:   0%|          | 0.00/1.66k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/legendary2910/Mnong-ASR/commit/e140ac10dc993c3714bcab86fd63d2b4083113ad', commit_message='Upload tokenizer', commit_description='', oid='e140ac10dc993c3714bcab86fd63d2b4083113ad', pr_url=None, pr_revision=None, pr_num=None)

# Demo

In [None]:
!pip install transformers datasets accelerate

Collecting datasets
  Downloading datasets-2.18.0-py3-none-any.whl (510 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.5/510.5 kB[0m [31m7.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting accelerate
  Downloading accelerate-0.28.0-py3-none-any.whl (290 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m290.1/290.1 kB[0m [31m12.1 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m9.0 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl (134 kB)
[2K     [90

In [None]:
from transformers import WhisperForConditionalGeneration, WhisperProcessor

demo_model = WhisperForConditionalGeneration.from_pretrained("legendary2910/Mnong-ASR")
demo_processor = WhisperProcessor.from_pretrained("legendary2910/Mnong-ASR")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/2.25k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/3.91k [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/339 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/283k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/34.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
from datasets import load_dataset, DatasetDict

demo_dataset = DatasetDict()

demo_dataset = load_dataset("legendary2910/MnongAudio")['train']

demo_dataset1 = DatasetDict()

demo_dataset1 = load_dataset("legendary2910/MnongAudio")['test']

Downloading readme:   0%|          | 0.00/443 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/227M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/415M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/228M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/73.2M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/2692 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/233 [00:00<?, ? examples/s]

In [None]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "legendary2910/Mnong-ASR"

demo_model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
demo_model.to(device)

demo_processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=demo_model,
    tokenizer=demo_processor.tokenizer,
    feature_extractor=demo_processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)




Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
sample = demo_dataset[2510]

result = pipe(sample["audio"])
print("Transcription:",sample["transcription"])
print("Predict:",result["text"])

Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tai
Predict: Tai


In [None]:
for sample in demo_dataset1:
  result = pipe(sample["audio"])
  print("Transcription:",sample["transcription"])
  print("Predict:",result["text"],'\n')

Transcription: Quả nhiên
Predict: Nhà vệ sinh 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Theo
Predict: Hoi 

Transcription: Cuộc sống không ngừng đổi đến khi chúng ta thay đổi.
Predict: Sự hòa này không được gọi là niềm vui đến với sự hòa này. 

Transcription: Hơn
Predict: Hơn 

Transcription: Bằng lòng
Predict: Đồng ý 

Transcription: Những chú chim đang hót líu lo.
Predict: Những chú chim đang mua lá cây. 

Transcription: Anh Y Tua\t Niê đã áp dụng kỹ thuật trồng trọt và chăn nuôi
Predict: Anh Y Tươi nghỉ ngơi làm bài tập để chơi bài tập đến đâu? 

Transcription: Tôi muốn thử một môn thể thao mới.
Predict: Tôi muốn thử một môn thể thao mới. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy giữ lửa tình yêu luôn bùng cháy.
Predict: Hãy giữ cho tâm hồn bạn luôn tràn đầy. 

Transcription: Khác nữa
Predict: Lúa tặng 

Transcription: Mưa ngớt dần, trời quang mây tạnh.
Predict: Một bộ đội cụ. 

Transcription: Nghĩa quân
Predict: Thương binh 

Transcription: Gia đình là tế bào của xã hội.
Predict: Người đàn ông là nguồn gốc của Yang H. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Suy nghĩ
Predict: Mư 

Transcription: Xem
Predict: Hồ nhà 

Transcription: Đan gùi
Predict: Đâm cỏi 

Transcription: Phương pháp làm rượu
Predict: Hãy làm vào cuối tuần. 

Transcription: Hình thức
Predict: Đuổi tiếng 

Transcription: Bạn nghĩ gì về việc làm từ thiện?
Predict: Bạn nghĩ gì về việc làm từ thiện? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Thầy mo
Predict: Xưa 

Transcription: Lát nữa
Predict: Ngủ 

Transcription: Dòng họ
Predict: Chủ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Nơi cư trú
Predict: Địa khó 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đã bao đời nay, hình ảnh già làng luôn gắn bó với bà con đồng bào các dân tộc thiểu số Tây Nguyên
Predict: Bác sĩ tư vấn cho bệnh nhân, giáo dục dân tộc thiểu số mục tiêu như† 

Transcription: Ngày mai anh làm gì?
Predict: Ngày mai anh làm gì? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy chia sẻ niềm vui với người khác.
Predict: Hãy chia sẻ niềm vui với người khác. 

Transcription: Trẻ em phải nghe lời cha mẹ và thầy cô giáo
Predict: Con đường đi mấy giờ? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Khỏe
Predict: Chặt cây gỗ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cuộc sống không ngừng đổi, hãy thích nghi.
Predict: Cuộc sống không ngừng đổi, hãy thích nghi. 

Transcription: Xin lỗi
Predict: Nói riêng 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn thích chia sẻ kinh nghiệm không?
Predict: Bạn có thích chơi bóng đá không? 

Transcription: Người Tây Nguyên tự hào đã góp phần giải phóng dân tộc
Predict: Nhân dân ở phri dục thường tươi và tháo đọc sách của người. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Mỗi lần tổ chức, Festival cà phê Buôn Ma Thuột luôn được mọi người quan tâm, chào đón
Predict: Lễ hội tổ chức, Festival cà phê Buôn Ma Thuột luôn được mọi người biết đón chồn 

Transcription: Buôn
Predict: Làng hành 

Transcription: Những cây cỏ xanh mướt trải dài.
Predict: Những cây cỏ xanh mướt trải dài. 

Transcription: Lễ hội không chỉ trưng bày các sản phẩm của cây cà phê mà còn giới thiệu hình ảnh Buôn Ma Thuột bằng việc tổ chức nhiều hoạt động văn hóa khác.
Predict: Chúng ta không phải trân trọng bệnh, chúng ta phải tự hào thù cà phê mà còn ở tây Hơn, Buôn Ma Thuột, trả lời tận hưởng những điều quan trọng như thế nào? 

Transcription: Sự kiên nhẫn là chìa khóa của sự thành công.
Predict: Sự kiên nhẫn là chìa khóa của sự thành công. 

Transcription: Ruộng
Predict: Nấu 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn làm việc ở đâu?
Predict: Bạn làm việc ở đâu? 

Transcription: Đang
Predict: Thêm một 

Transcription: Nuôi giúp
Predict: Người đều 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hòa bình là trạng thái không có chiến tranh.
Predict: Có hóa đâm là nơi an toàn,óo bật hỏi. 

Transcription: Chặt cành
Predict: Ngủ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tình yêu là nguồn động viên lớn nhất trong cuộc sống.
Predict: Tình yêu là nguồn động viên lớn nhất trong cuộc sống. 

Transcription: Đặt mua
Predict: Chăn nuôi 

Transcription: Nat tán
Predict: Ngái 

Transcription: Sinh hoạt
Predict: Trẻ em gái. 

Transcription: Dễ dàng
Predict: Đơn giản 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đăng ký
Predict: Xanh tươi  

Transcription: Một thành phố lớn.
Predict: Một ngôi làng trơn trượt. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Thèm
Predict: Nhận 

Transcription: Bạn có biết tiếng Anh không?
Predict: Bạn biết tiếng Anh không? 

Transcription: Cô giáo dạy học rất nhiệt tình.
Predict: Cô giáo dạy học rất nhiệt tình. 

Transcription: Bà ngoại thường làm bánh ngon.
Predict: Bà thường làm bánh ngọt. 

Transcription: Hệ trung cấp
Predict: Đồng thời 

Transcription: Nước sâu
Predict: Chuyển đổi 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Buôn trưởng đón tiếp chị thế nào?
Predict: Họa sách yêu nhau từ bệnh thế này. 

Transcription: Ông
Predict: Anh 

Transcription: Đồng bào
Predict: Học sinh 

Transcription: Như
Predict: Ngổ 

Transcription: Tắm rửa
Predict: Vòng tay 

Transcription: Thú rừng
Predict: Sờ mói 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tôi thích hương thơm của hoa nhài.
Predict: Tôi thích mùa xuân hoa đẹp. 

Transcription: Đãi khách
Predict: Giảng kết 

Transcription: Cầm
Predict: C cần 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn hay tập thể dục không?
Predict: Bạn thường học tiếng Lúa. 

Transcription: Chặt
Predict: Chặt cây gỗ 

Transcription: Coi thường pháp luật
Predict: Những đám mây trắng như thế nào? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Các bức tranh nghệ thuật đều rất ấn tượng.
Predict: Hãy mất bức tranh nghệ thuật đẹp. 

Transcription: Bạn có muốn thử vẽ một bức tranh không?
Predict: Bạn có muốn thử vẽ một bức tranh không? 

Transcription: Một chiếc xe đạp mới có thể thay đổi cuộc sống của bạn.
Predict: Một tấm lòng mới có thể thay đổi cuộc sống. 

Transcription: Sức sống mới ở một buôn nghèo
Predict: Cuộc sống là mới vào cuối tuần. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Muốn bảo vệ nguồn nước sạch chúng ta phải làm gì?
Predict: Tình yêu như bông hoa, nữ dân tộc và gia đình hòa. 

Transcription: Đám cưới
Predict: Hộ 

Transcription: Biết
Predict: Khôn 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Ổn định
Predict: Chính tật 

Transcription: Sinh đẻ
Predict: Tạm biệt 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tôi muốn thử một công thức nấu ăn mới.
Predict: Tôi muốn thử một mua thuyền mới. 

Transcription: Có tội
Predict: Chim lợn 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Mặt trời mọc
Predict: Nhận lỗi 

Transcription: Sự hiểu biết là chìa khóa mở cánh cửa trái tim.
Predict: Sự hiểu biết là chìa khóa mở cửa trái tim. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Men
Predict: Món canh, món cao, món rượu, món cây, món bóng 

Transcription: Tên
Predict: Tôi... 

Transcription: Tôi thích mùa thu vì có lá cây rơi.
Predict: Tôi thích mùa xuân. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bên cạnh đó, chị ấy còn giúp đỡ các gia đình gặp khó khăn
Predict: Bên cạnh đó, em trai đang hỗ trợ mọi người gia đình 

Transcription: Bến nước
Predict: Ngày nắng 

Transcription: Nâng trên tay
Predict: Lào 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cha mẹ có trách nhiệm nuôi dạy con cái nên người
Predict: Bố mẹ chăm sóc bà góa thùa cô ấy là nếp. 

Transcription: Đảm bảo
Predict: Lặng 

Transcription: Há miệng
Predict: Lá 

Transcription: Cấp
Predict: Cho 

Transcription: Em đã xem bảng xếp hạng chưa?
Predict: Những người thân chia sách. 

Transcription: Mẹ nấu cơm ngon quá.
Predict: Mẹ nấu ăn ngon quá. 

Transcription: Dành riêng
Predict: Đánh mùa 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Một khát vọng cháy bỏng.
Predict: Một sự thích thức đạt. 

Transcription: Tai họa
Predict: Vui vẻ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn sống ở đâu?
Predict: Bạn sống ở đâu? 

Transcription: Nghèo nàn
Predict: Bác sỹ 

Transcription: Người thiểu số
Predict: Người đàn ông 

Transcription: Ngủ
Predict: Ngủ 

Transcription: Ngoài
Predict: Ngoài 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đắk Lắk là một tỉnh (có diện tích) rộng lớn
Predict: Đắk Lắk là một cơ hội lớn nhất. 

Transcription: Rộn ràng
Predict: Chặt cây nhỏ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Thiên nhiên
Predict: Tự có 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đã bao đời nay, hình ảnh già làng luôn gắn bó với bà con đồng bào các dân tộc thiểu số Tây Nguyên
Predict: Bác sỹ anh ấy có thể tham gia các hoạt động tình nguyện để tham gia các hoạt động tiệc dân tộc 

Transcription: Đấy
Predict: Kìa 

Transcription: Hươu
Predict: Phù hợp 

Transcription: Khách khứa
Predict: Khách khứa 

Transcription: Vận động
Predict: Vận động 

Transcription: Mẹ đã xem bảng xếp hạng chưa?
Predict: Bạn đã xem bảng xếp hạng chưa? 

Transcription: Ở tại
Predict: Nhím anh 

Transcription: Nước ngập
Predict: Nước nôi 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chỉ có vầng trăng chia đều cho cháu nhỏ
Predict: Chỉ có vầng trăng lúa cho cháu nhỏ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chúng ta phải giúp đỡ người già và người tàn tật
Predict: Chúng ta phải giúp đỡ người dân tộc và người dân tộc. 

Transcription: Cây nhuộm răng đen
Predict: Lại 

Transcription: Bạn nghĩ sao về thời tiết hôm nay?
Predict: Bạn nghĩ gì về bữa trưa ngày ngày nay? 

Transcription: Không cho
Predict: D ở gần đây 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Công việc 
Predict: Ngói xanh 

Transcription: Phong tục tập quán
Predict: Điều hòa 

Transcription: Ngủ
Predict: Ngủ 

Transcription: Chị Hương thích màu hồng.
Predict: Dòng sông thích giúp đỡ. 

Transcription: Ven
Predict: Băng kê 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Sự nhẫn nại là chìa khóa của sự thành công.
Predict: Sự hiểu biết là chìa khóa của sự thành công. 

Transcription: Trâu bò ăn cỏ
Predict: Trâu bò ăn cỏ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Khách sạn
Predict: Ngổ ngáo 

Transcription: Anh trai tôi mới mua một chiếc ô tô
Predict: Tôi thường mua một cơ hội 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cái nồi
Predict: Trúng 

Transcription: Nhỏ
Predict: Tất cả các ấnĐặc 

Transcription: Thế chấp
Predict: Tôi cần... 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cuộc sống đôi khi cần một chút thách thức.
Predict: Cuộc sống đôi khi cần một chút thách thức đợi. 

Transcription: Để giúp
Predict: Đón tiếp 

Transcription: Trẻ em cần phải tiêm phòng bệnh sởi
Predict: Trẻ em đang đọc sách gì? 

Transcription: Hãy đặt thời gian biểu cho bản thân mình mỗi ngày.
Predict: Bạn nghĩ gì về việc kết hôn từng ngày? 

Transcription: Bạn có bài hát yêu thích không?
Predict: Bạn có bài hát yêu thích không? 

Transcription: Bạn thích môn thể thao nào nhất?
Predict: Bạn thích môn thể thao nào nhất? 

Transcription: Tiếng chim hót vang vọng trong khu rừng xanh.
Predict: Những chú chim đang mua bùa trong khu rừng. 

Transcription: Hãy giữ cho đam mê của bạn luôn cháy bỏng.
Predict: Hãy giữ vững ước mơ của bạn làng trơn trượt. 

Transcription: Chẻ
Predict: Ngày 

Transcription: Bạn muốn xem phim gì hôm nay?
Predict: Bạn thích xem phim gì hôm nay? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy giữ cho trái tim bạn luôn tràn đầy tình yêu thương.
Predict: Hãy giữ cho tâm hồn bạn luôn, trẻ trung. 

Transcription: Chị bao nhiêu tuổi?
Predict: Ông bao nhiêu tuổi? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tôi thích mùa thu vì có lá cây rơi.
Predict: Tôi muốn mùa xuân màu và gió lúa. 

Transcription: Thành phố
Predict: Uống huyện 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy chăm sóc sức khỏe của con mỗi ngày.
Predict: Học sinh thường xuyên mỗi ngày. 

Transcription: Số
Predict: Giúp đỡ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Ốm
Predict: Đặt 

Transcription: Ngọt ngào
Predict: Hơn thịt  

Transcription: Tình yêu là nguồn động viên lớn nhất.
Predict: Tình yêu là nguồn động viên lớn nhất. 

Transcription: Một bữa ăn ngon lành.
Predict: Một hộ cánh đồng. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cậu bé đang nô đùa cùng bạn bè.
Predict: Bé trai đang chơi đùa cùng bạn bè. 

Transcription: Sôi động
Predict: Nói rộng 

Transcription: Những con sóng xô vào bờ cát trắng.
Predict: Những con sóng chóng chóng ở bờ cát. 

Transcription: Con vẹt
Predict: Vâng … 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đi vệ sinh
Predict: Điều 

Transcription: Bạn đến từ đâu?
Predict: Bạn đến từ đâu? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hơn
Predict: Hơn 

Transcription: Giáo viên
Predict: Cái thìa 

Transcription: Từ từ
Predict: Nghi ngọt 

Transcription: Cô bạn gái đang làm đẹp.
Predict: Bạn có kế hoạch gì? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy tự thưởng cho bản thân mỗi khi bạn đạt được một mục tiêu nhỏ.
Predict: Hãy viết hai câu có từ bệnh nhân. 

Transcription: Thêm
Predict: Vắng 

Transcription: Giờ
Predict: Đồng hồ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Lớp
Predict: Đốt 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Lầy lội
Predict: Hỏi kia 

Transcription: Cũng
Predict: Vẫn 

Transcription: Xót thương
Predict: Thần lượn 

Transcription: Nghèo
Predict: Hồ 

Transcription: Qua nhiều năm
Predict: Đã bao nhiêu tuổi? 

Transcription: Tôi thích mùa xuân vì có nhiều hoa khoe sắc.
Predict: Tôi thích mùa xuân vì có nhiều hoa khoe sắc. 

Transcription: Trang trí
Predict: Vận động 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Con đầu lòng
Predict: Con luôn nấu ăn 

Transcription: Trứng
Predict: Đâm 

Transcription: Bạn đã đi du lịch ở đâu chưa?
Predict: Bạn đã đi du lịch ở đâu chưa? 

Transcription: Một dòng sông đang chảy hiền hòa.
Predict: Một bông hoa đang chảy đuổi. 

Transcription: Cắt
Predict: Cắn 

Transcription: Tổ chức
Predict: Tổ chức 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn muốn thử một món ăn mới không?
Predict: Bạn có muốn thử một món ăn mới không? 

Transcription: Những đứa trẻ đang tắm sông.
Predict: Các cô gái đang múa hát. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Ép buộc
Predict: Từ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy nghỉ ngơi đủ giấc để tinh thần sảng khoái.
Predict: Một đám mây trắng từng cây cỏ xanh, không có vầm. 

Transcription: Kính trọng
Predict: Đầy kết 

Transcription: Mệt
Predict: Ngổ 

Transcription: Anh chàng đang ngủ say.
Predict: Anh chàng đang ngủ say. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Kiểu quần áo
Predict: Nhà cửa 

Transcription: Gốc (cây)
Predict: Nền tảng 

Transcription: Báo tin
Predict: Vận động 

Transcription: Nóc nhà
Predict: Hộ gia đình 

Transcription: Mỗi ngày đều là một cơ hội để thay đổi.
Predict: Mỗi ngày đều là một cơ hội để thay đổi. 

Transcription: Bạn đã thử đua thuyền chưa?
Predict: Bạn đã thử đua thuyền chưa? 

Transcription: Ở
Predict: Vợ 

Transcription: Cuộc sống là một chuyến đi đầy ý nghĩa.
Predict: Cuộc sống là một hành trình, hạnh phúc. 

Transcription: Ngày nay, có nhiều người bị đau dạ dày
Predict: Ngày nay, có nhiều người bị đau dạ dày 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Khá đặc biệt
Predict: Nhất là... 

Transcription: Biến động
Predict: Rất vui toàn 

Transcription: Đổ bỏ
Predict: Hỏi 

Transcription: Sắp
Predict: Hàng rào 

Transcription: Chống
Predict: Chuẩn bị 

Transcription: Ở Tây nguyên, mỗi buôn có một nhà cộng đồng
Predict: Ở Tây Nguyên, bạn phải có một ngôn ngữ cực cho bạn gái. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Gia đình tôi có 4 người: chồng tôi, hai con trai và tôi
Predict: Người gia đình tôi có 4 người, chồng tôi, hai con trai và tôi 

Transcription: Chú
Predict: Bố mẹ 

Transcription: Bạn đã thử một món ăn mới chưa?
Predict: Bạn đã thử một món ăn mới chưa? 

Transcription: Nếu có cơ hội, tôi muốn học nấu ăn.
Predict: Trong suốt tôi muốn học nấu ăn. 

Transcription: Bạn thích xem phim không?
Predict: Bạn có muốn xem phim không? 

Transcription: Con rùa
Predict: Chậm chạp 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Học sinh đang làm bài kiểm tra.
Predict: Học sinh đang làm bài kiểm tra. 

Transcription: Mỗi ngày đều mang lại cơ hội mới và thách thức mới.
Predict: Mỗi ngày đều cơ hội để thư giãn. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy chăm sóc sức khỏe của bạn mỗi ngày.
Predict: Bạn có thể giúp đỡ kịp thời không? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hàng trăm hecta lúa vừa gieo sạ bị ngập chìm trong nước
Predict: Hàng trăm hecta lúa bị ngập chìm trong nước 

Transcription: Đáy ché
Predict: Đỏ lợi 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Rác rưởi
Predict: Nhìn ngôi 

Transcription: Quầng
Predict: Vẽ đỏ 

Transcription: Vui
Predict: Ngóa 

Transcription: Phát triển
Predict: Ông mối 

Transcription: Chúng ta
Predict: Họp hóa 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Thị trấn
Predict: Thịt  

Transcription: Ao cá
Predict: Hồ cá 

Transcription: Thỏ
Predict: Tai 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn hay tập thể dục không?
Predict: Bạn thường học tiếng Việt. 

Transcription: Đủ
Predict: Người  



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bị nạn
Predict: Nghèo  

Transcription: Chiếu phim
Predict: Những lúa 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Của cải
Predict: Chính quyền 

Transcription: Mái tóc của em gái rất dài.
Predict: Ông bà rất dài. 

Transcription: Yếu
Predict: Xin chào! 

Transcription: Một gia đình đang quây quần bên nhau.
Predict: Một người gia đình đang chơi đùa cùng nhau. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đêm qua, tôi đã mơ một giấc mơ tuyệt vời.
Predict: Đêm qua, tôi đã mơ một giấc mơ tuyệt vời. 

Transcription: Một sự sẻ chia ngọt ngào.
Predict: Một sự giúp đỡ kịp thời. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tôi thích mùi hương của cây cỏ sau một trận mưa.
Predict: Tôi thích mùi hương của cây cỏ sau một mưa kết hôn. 

Transcription: Thời gian đã làm nên nhiều điều kỳ diệu
Predict: Thời gian đã làm nên nhiều điều kỳ diệu 

Transcription: Hãy luôn giữ tâm trạng tích cực.
Predict: Hãy luôn giữ tâm hồn trẻ trung trong tâm hồn. 

Transcription: Khỉ
Predict: Ngủ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn đã thử chơi guitar chưa?
Predict: Bạn đã thử đua thuyền chưa? 

Transcription: Hãy giữ lửa đam mê của mình.
Predict: Hãy giữ lửa nghị lực của mình. 

