# Create Dataset on Huggingface


In [None]:
from google.colab import drive

# Mount Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
!pip install pydub datasets

Collecting pydub
  Downloading pydub-0.25.1-py2.py3-none-any.whl (32 kB)
Collecting datasets
  Downloading datasets-2.18.0-py3-none-any.whl (510 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m510.5/510.5 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m
Collecting xxhash (from datasets)
  Downloading xxhash-3.4.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (194 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packa

In [None]:
import os
import pandas as pd
from pydub import AudioSegment
from datasets import Dataset,Audio

def load_audio_files(folder_path):
    audio_data = []

    for filename in os.listdir(folder_path):
        if filename.endswith(".wav"):
            file_path = os.path.join(folder_path,filename)
            audio_data.append({
                "file_path": file_path,
            })

    return audio_data

# Thay đổi đường dẫn đến thư mục của bạn
folder_path = "/content/drive/MyDrive/Data"

# Tải thông tin về các file âm thanh
audio_data = load_audio_files(folder_path)

# Đọc dữ liệu từ file Excel
excel_path = "/content/drive/MyDrive/Dataset Detail/data.xlsx"
transcription_df = pd.read_excel(excel_path)

# Kết hợp thông tin âm thanh và transcription
combined_data = []
for audio_info in audio_data:
    file_name = os.path.basename(audio_info["file_path"])
    transcription_row = transcription_df[transcription_df['File'] == file_name]

    if not transcription_row.empty:
        transcription = transcription_row.iloc[0]['Transcript']
        combined_data.append({
            "file_path": audio_info["file_path"],
            "transcription": transcription
        })

# Tạo dataset từ dữ liệu kết hợp
dataset = Dataset.from_dict({
    "audio": [item["file_path"] for item in combined_data],
    "transcription": [item["transcription"] for item in combined_data]
}).cast_column("audio", Audio())

# In một số thông tin cơ bản về dataset
print(dataset)


Dataset({
    features: ['audio', 'transcription'],
    num_rows: 2926
})


In [None]:
dataset[100]

{'audio': {'path': '/content/drive/MyDrive/Data/audio_s2051.wav',
  'array': array([ 0.        ,  0.        ,  0.        , ..., -0.01364136,
         -0.01391602, -0.01434326]),
  'sampling_rate': 48000},
 'transcription': 'Con trai anh đi học ở đâu?'}

In [None]:
import numpy as np
import random

total_samples = len(dataset)

# Tính số lượng mẫu 8%
eight_percent = int(total_samples * 0.08)

# Tạo danh sách các chỉ số ngẫu nhiên
random_indices = random.sample(range(total_samples), eight_percent)

# Tạo danh sách chỉ số của phần tử không được chọn ngẫu nhiên
remaining_indices = [i for i in range(total_samples) if i not in random_indices]

# Tách tập dữ liệu thành hai phần
dataset_test = dataset.select(indices=random_indices)
dataset_train = dataset.select(indices=remaining_indices)


In [None]:
print(random_indices)

[2002, 2920, 2589, 1282, 1923, 2447, 1488, 1682, 240, 643, 1460, 2389, 2185, 1066, 608, 2043, 1364, 2321, 1914, 1654, 135, 618, 1412, 163, 1910, 1838, 366, 2601, 1368, 956, 1149, 2304, 2645, 825, 2641, 1403, 901, 636, 1524, 394, 2160, 1658, 2623, 1647, 892, 2504, 1218, 1966, 1046, 331, 66, 1395, 188, 2293, 442, 2049, 1025, 425, 2233, 2062, 627, 2673, 857, 849, 1027, 2455, 484, 1469, 1862, 751, 835, 2425, 1010, 224, 1715, 1973, 1634, 1619, 1955, 626, 1733, 2896, 1545, 2912, 529, 2661, 2526, 2773, 2295, 1287, 2267, 2377, 2453, 615, 1592, 938, 947, 100, 714, 1818, 1969, 2119, 1842, 2352, 2286, 434, 917, 767, 1075, 936, 2567, 2123, 1095, 410, 2568, 763, 1542, 760, 2175, 68, 2638, 1885, 642, 717, 485, 1588, 2549, 2021, 2229, 10, 968, 2518, 141, 20, 1145, 1055, 1551, 891, 1672, 834, 1867, 1726, 907, 1255, 341, 2456, 2113, 2111, 2470, 1711, 2607, 1703, 2024, 1928, 1565, 886, 2580, 379, 540, 1873, 1776, 1723, 2903, 2336, 1537, 1092, 2239, 365, 2090, 2344, 1572, 2667, 2025, 202, 1880, 2847, 191

In [None]:
from datasets import DatasetDict
DatasetDict({'train':dataset_train,'test':dataset_test}).push_to_hub("legendary2910/MnongAudio",token="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")

Uploading the dataset shards:   0%|          | 0/2 [00:00<?, ?it/s]

Map:   0%|          | 0/1346 [00:00<?, ? examples/s]

Creating parquet from Arrow format:   0%|          | 0/14 [00:00<?, ?ba/s]

Map:   0%|          | 0/1346 [00:00<?, ? examples/s]

Creating parquet from Arrow format:   0%|          | 0/14 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Map:   0%|          | 0/234 [00:00<?, ? examples/s]

Creating parquet from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

README.md:   0%|          | 0.00/437 [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/datasets/legendary2910/MnongAudio/commit/7d4cddddeaedacb313143a1018502e4d8836a2ae', commit_message='Upload dataset', commit_description='', oid='7d4cddddeaedacb313143a1018502e4d8836a2ae', pr_url=None, pr_revision=None, pr_num=None)

# Training

In [None]:
!pip install --upgrade pip
!pip install --upgrade torch torchaudio torchdata torchtext accelerate transformers optimum torchvision evaluate jiwer soundfile librosa evaluate jiwer gradio kaleido cohere openai tiktoken

Collecting pip
  Downloading pip-24.0-py3-none-any.whl (2.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.1/2.1 MB[0m [31m15.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 23.1.2
    Uninstalling pip-23.1.2:
      Successfully uninstalled pip-23.1.2
Successfully installed pip-24.0
Collecting accelerate
  Downloading accelerate-0.28.0-py3-none-any.whl.metadata (18 kB)
Collecting optimum
  Downloading optimum-1.17.1-py3-none-any.whl.metadata (18 kB)
Collecting evaluate
  Downloading evaluate-0.4.1-py3-none-any.whl.metadata (9.4 kB)
Collecting jiwer
  Downloading jiwer-3.0.3-py3-none-any.whl.metadata (2.6 kB)
Collecting gradio
  Downloading gradio-4.21.0-py3-none-any.whl.metadata (15 kB)
Collecting kaleido
  Downloading kaleido-0.2.1-py2.py3-none-manylinux1_x86_64.whl.metadata (15 kB)
Collecting cohere
  Downloading cohere-4.55-py3-none-any.whl.metadata (6.2 kB)
Collecting 

In [None]:
from huggingface_hub import login

login(token="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",add_to_git_credential=True)

Token is valid (permission: write).
Your token has been saved in your configured git credential helpers (store).
Your token has been saved to /root/.cache/huggingface/token
Login successful


In [None]:
from datasets import load_dataset, DatasetDict

dataset = DatasetDict()

dataset["train"] = load_dataset("legendary2910/MnongAudio", "default", split="train", use_auth_token=True)
dataset["test"] = load_dataset("legendary2910/MnongAudio", "default", split="test", use_auth_token=True)




The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/439 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/484M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/387M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/73.4M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/2692 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/234 [00:00<?, ? examples/s]



In [None]:
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['audio', 'transcription'],
        num_rows: 2692
    })
    test: Dataset({
        features: ['audio', 'transcription'],
        num_rows: 234
    })
})


In [None]:
##dataset = dataset.remove_columns(["id"])

In [None]:
from transformers import WhisperFeatureExtractor

feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-small")


preprocessor_config.json:   0%|          | 0.00/185k [00:00<?, ?B/s]

In [None]:
from transformers import WhisperTokenizer

tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-small", language="Vietnamese", task="transcribe")


tokenizer_config.json:   0%|          | 0.00/283k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/836k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.48M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/34.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
print(dataset["train"][0])


{'audio': {'path': 'audio_s1952.wav', 'array': array([ 0.        ,  0.        ,  0.        , ..., -0.01504517,
       -0.01535034, -0.01480103]), 'sampling_rate': 48000}, 'transcription': 'Ngày nay, gia đình anh ấy không còn thiếu thốn như trước kia nữa'}


In [None]:
from datasets import Audio

dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))


In [None]:
print(dataset["train"][1141])

{'audio': {'path': 'audio_s1187.wav', 'array': array([-7.27595761e-12, -1.00044417e-11, -5.45696821e-12, ...,
        0.00000000e+00,  0.00000000e+00,  0.00000000e+00]), 'sampling_rate': 16000}, 'transcription': 'Bố mẹ tôi yêu nhau từ hơn 20 năm.'}


In [None]:
from transformers import WhisperProcessor

processor = WhisperProcessor.from_pretrained("openai/whisper-small", language="Vietnamese", task="transcribe")


Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
def prepare_dataset(batch):
    # load and resample audio data from 48 to 16kHz
    audio = batch["audio"]

    # compute log-Mel input features from input audio array
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # encode target text to label ids
    batch["labels"] = tokenizer(batch["transcription"]).input_ids
    return batch
dataset = dataset.map(prepare_dataset, remove_columns=dataset.column_names["train"], num_proc=4)

Map (num_proc=4):   0%|          | 0/2692 [00:00<?, ? examples/s]

Map (num_proc=4):   0%|          | 0/234 [00:00<?, ? examples/s]

In [None]:
import torch

from dataclasses import dataclass
from typing import Any, Dict, List, Union

@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lengths and need different padding methods
        # first treat the audio inputs by simply returning torch tensors
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # get the tokenized label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # pad the labels to max length
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # if bos token is appended in previous tokenization step,
        # cut bos token here as it's append later anyways
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch
data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)


In [None]:
import evaluate

metric = evaluate.load("wer")


Downloading builder script:   0%|          | 0.00/4.49k [00:00<?, ?B/s]

In [None]:
def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # replace -100 with the pad_token_id
    label_ids[label_ids == -100] = tokenizer.pad_token_id

    # we do not want to group tokens when computing the metrics
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    wer = 100 * metric.compute(predictions=pred_str, references=label_str)

    return {"wer": wer}


In [None]:
from transformers import WhisperForConditionalGeneration

model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")


config.json:   0%|          | 0.00/1.97k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/3.87k [00:00<?, ?B/s]

In [None]:
model.config.forced_decoder_ids = None
model.config.suppress_tokens = []


In [None]:
from transformers import Seq2SeqTrainingArguments

training_args = Seq2SeqTrainingArguments(
    output_dir="legendary2910/Mnong-ASR",  # change to a repo name of your choice
    per_device_train_batch_size=16,
    gradient_accumulation_steps=1,  # increase by 2x for every 2x decrease in batch size
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=4000,
    gradient_checkpointing=True,
    fp16=True,
    evaluation_strategy="steps",
    per_device_eval_batch_size=8,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=True
)


In [None]:
model.generation_config.language = "<|vi|>"
model.generation_config.task = "transcribe"
model.config.forced_decoder_ids = None
model.config.suppress_tokens = []

In [None]:
from transformers import Seq2SeqTrainer

trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=dataset["train"],
    eval_dataset=dataset["test"],
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=processor.feature_extractor
)


dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [None]:
trainer.train()

`use_cache = True` is incompatible with gradient checkpointing. Setting `use_cache = False`...


Step,Training Loss,Validation Loss,Wer
1000,0.293,1.003265,73.689052
2000,0.0091,1.049089,66.053358
3000,0.0005,1.066912,59.429623
4000,0.0004,1.074851,59.521619


Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}
Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}
Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}
Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}
There were missing keys in the checkpoint model loaded: ['proj_out.weight'].


TrainOutput(global_step=4000, training_loss=0.4583260249441955, metrics={'train_runtime': 10946.524, 'train_samples_per_second': 5.847, 'train_steps_per_second': 0.365, 'total_flos': 1.838981604999168e+19, 'train_loss': 0.4583260249441955, 'epoch': 23.67})

In [None]:
kwargs = {
    #"dataset_tags": "legendary2910/MnongAudio",
    "dataset": "MnongAudio",  # a 'pretty' name for the training dataset
    "dataset_args": "config: vi, split: test",
    "language": "vi",
    "model_name": "Whisper Small Mnong",  # a 'pretty' name for your model
    "finetuned_from": "openai/whisper-small",
    "tasks": "automatic-speech-recognition",
    "tags": "hf-asr-leaderboard",
}
trainer.push_to_hub(**kwargs)


Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


CommitInfo(commit_url='https://huggingface.co/legendary2910/Mnong-ASR/commit/b35677cfceb8730835009b8f7c85d0a650bbe63b', commit_message='End of training', commit_description='', oid='b35677cfceb8730835009b8f7c85d0a650bbe63b', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
import shutil

folder_name = "legendary2910"

try:
    shutil.rmtree(folder_name)
    print("Thư mục đã được xóa thành công.")
except FileNotFoundError:
    print("Không tìm thấy thư mục.")
except OSError as e:
    print(f"Lỗi: {e}")

Thư mục đã được xóa thành công.


In [None]:
tokenizer.push_to_hub(repo_id="legendary2910/Mnong-ASR")

README.md:   0%|          | 0.00/1.66k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/legendary2910/Mnong-ASR/commit/2d7bf65663c67a0fc83ca26674d7dd6c512132d8', commit_message='Upload tokenizer', commit_description='', oid='2d7bf65663c67a0fc83ca26674d7dd6c512132d8', pr_url=None, pr_revision=None, pr_num=None)

# Demo

In [None]:
!pip install transformers datasets accelerate

NotImplementedError: A UTF-8 locale is required. Got ANSI_X3.4-1968

In [None]:
from transformers import WhisperForConditionalGeneration, WhisperProcessor

demo_model = WhisperForConditionalGeneration.from_pretrained("legendary2910/Mnong-ASR")
demo_processor = WhisperProcessor.from_pretrained("legendary2910/Mnong-ASR")

config.json:   0%|          | 0.00/1.32k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/967M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/3.91k [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/339 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/283k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/34.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
from datasets import load_dataset, DatasetDict

demo_dataset = DatasetDict()

demo_dataset = load_dataset("legendary2910/MnongAudio")['train']

demo_dataset1 = DatasetDict()

demo_dataset1 = load_dataset("legendary2910/MnongAudio")['test']

In [None]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "legendary2910/Mnong-ASR"

demo_model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
demo_model.to(device)

demo_processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=demo_model,
    tokenizer=demo_processor.tokenizer,
    feature_extractor=demo_processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)




Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
sample = demo_dataset[1710]

result = pipe(sample["audio"])
print("Transcription:",sample["transcription"])
print("Predict:",result["text"])

Transcription: Những bông hoa đang khoe sắc dưới ánh nắng.
Predict: Những bông hoa đang khoe sắc dưới ánh nắng.


In [None]:
for sample in demo_dataset1:
  result = pipe(sample["audio"])
  print("Transcription:",sample["transcription"])
  print("Predict:",result["text"],'\n')

Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cảm ơn
Predict: Tạm trú 

Transcription: Cảnh đẹp nơi đây làm tôi say đắm.
Predict: Cơ hội đến với việc làm tôi rất giỏi. 

Transcription: ngủ ngon
Predict: Nước nôi 

Transcription: Bạn bao nhiêu tuổi?
Predict: Bạn bao nhiêu tuổi? 

Transcription: Mẹ muốn thử một món ăn mới không?
Predict: Mẹ muốn thử một món ăn mới không? 

Transcription: Khác nữa
Predict: Lúa bắn 

Transcription: Cuộc sống đôi khi cần một chút phiêu lưu.
Predict: Cuộc sống đôi khi cần một chút phiêu lưu. 

Transcription: Học sinh đang làm bài kiểm tra.
Predict: Học sinh đang làm bài hát. 

Transcription: Đang
Predict: Xin chào! 

Transcription: Số
Predict: Giữa 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Tôi thích ngắm hoàng hôn.
Predict: Tôi thích ngắm hoàng hôn. 

Transcription: Gói bánh
Predict: Tiếng 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Người ta nhận biết mùa xuân bởi mùa này cây cối đâm chồi, nảy lộc, gió thổi mát mẻ
Predict: Bác sỹ khám bệnh và phát triển bệnh, dân tộc thiểu bệnh, phát triển đệp, biểu hiện như thế nào? 

Transcription: Bà góa
Predict: Rắn hổ mây 

Transcription: Quyển sách
Predict: Chương trình 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đến nay, chưa có vắc xin và thuốc chữa bệnh HIV/AIDS
Predict: Trước khi nay, khách sức có vắc xin và giảm nghèo của HIV-AIDS 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn đã thử chơi guitar chưa?
Predict: Bạn đã thử đua thuyền chưa? 

Transcription: Đổ
Predict: Khoảng 

Transcription: Mẹ đã xem bảng xếp hạng chưa?
Predict: Mẹ đã xem bảng xếp hạng chưa? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Trường học có nhiều cây xanh.
Predict: Học sinh có nhiều bộ đội xuất ngập. 

Transcription: Con đi học từ lúc mấy giờ?
Predict: Nhiều người anh em họ học sinh 

Transcription: Có
Predict: Có... 

Transcription: Bầu trời cao xanh, trong veo.
Predict: Mặt trời xanh, trái tim, rừng rỡ. 

Transcription: Xem
Predict: Đồng bằng 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Trẻ con
Predict: Trẻ em 

Transcription: Những chú trâu đang gặm cỏ trong cánh đồng.
Predict: Những chú trâu đang tham gia. 

Transcription: Rảnh rỗi
Predict: Tiếng vang 

Transcription: Nhảy múa
Predict: Mặc bò 

Transcription: Đọc sách là một thói quen tuyệt vời để mở rộng tâm hồn.
Predict: Đọc sách là một thói quen của hạnh phúc để tận hưởng niềm vui. 

Transcription: Một hành động cao đẹp.
Predict: Một hành động kỳ diệu. 

Transcription: Bạn thích thể loại âm nhạc nào?
Predict: Bạn thích thể thao nào? 

Transcription: Dây leo
Predict: Diều hâu 

Transcription: Phải
Predict: Nhận 

Transcription: Liệt sỹ
Predict: Liệt sỹ 

Transcription: Ống tre
Predict: Ngớt ngào 

Transcription: Tôi muốn thăm một quốc gia mới và trải nghiệm văn hóa độc đáo của họ.
Predict: Tôi muốn thăm một quốc gia mới và trải nghiệm văn hóa của họ. 

Transcription: Ngà
Predict: Như 

Transcription: Đứng lên
Predict: Dòng 

Transcription: Bạn muốn thăm quốc gia nào trong kỳ nghỉ tới?
Predict: Bạn m

Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hai người con của cô ấy vẫn còn đi học
Predict: Nếu con đi đâu, tôi sẽ đi học bằng phương tiện 

Transcription: Cả gia đình đi du lịch mỗi năm.
Predict: Cô giáo dạy đi chơi hôm, lần cuối năm. 

Transcription: Nước
Predict: Ngủ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cô ấy mặc bộ váy đẹp quá.
Predict: Cô ấy mặc bộ váy đẹp quá. 

Transcription: Con rắn
Predict: Đất 

Transcription: Mặc quần áo
Predict: Mặt trời mọc 

Transcription: Nhà sách có nhiều sách hay.
Predict: Nhà rừng có nhiều rừng nguyên. 

Transcription: Thông báo nhanh
Predict: Bạn thường thường xuyên ngắm? 

Transcription: Hãy nghỉ ngơi đủ giấc để tinh thần sảng khoái.
Predict: Một giấc ngủ đang chảy hiền hòa. 

Transcription: Vì sao?
Predict: Vui vẻ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Trâu bò ăn cỏ
Predict: Trâu bò ăn cỏ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy giữ cho trái tim bạn luôn tràn đầy tình yêu thương.
Predict: Hãy giữ cho trái tim bạn luôn tràn đầy tình yêu thương. 

Transcription: Dưới
Predict: Nhà khẩu 

Transcription: Đào
Predict: Khôn 

Transcription: Trồng trọt
Predict: Nấm đắp 

Transcription: Hồ Tua Srah cách thành phố Buôn Ma Thuột khoảng 90km
Predict: Hồ Tua Srah nằm giáp ranh Trần Srah, từ thành phố Buôn Thuột, có thể đến từ khoảm 20km. 

Transcription: Tôi muốn đọc một cuốn sách hay.
Predict: Tôi muốn thử viết một cuốn sách. 

Transcription: Anh ta
Predict: Chúng nó 

Transcription: Con chồn
Predict: Chịt nấu 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Lễ hội không chỉ trưng bày các sản phẩm của cây cà phê mà còn giới thiệu hình ảnh Buôn Ma Thuột bằng việc tổ chức nhiều hoạt động văn hóa khác.
Predict: Một dân tộc thiểu số tình hình như cà phê, mà còn giới thiệu sống hình như bộ đội xã hội, mà còn giới thiệu sống hình như bộ đội xã hội, mà còn giới thiệu sống hình như bộ đội xã hội, mà còn giới thiệu sống hình như bộ đội xã hội, mà còn giới thiệu sống hình như bộ đội xã hội, mà còn giới thiệu sống 

Transcription: Giảng
Predict: Quả năng 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Quý hiếm
Predict: Tấm lòng 

Transcription: Nếp
Predict: Xem 

Transcription: Mệt
Predict: Ngạt 

Transcription: Mục tiêu của tôi là trở thành một người hạnh phúc.
Predict: Tiếng trôi tôi biết là chìa khóa của người nông dân. 

Transcription: Kho
Predict: Hơn 

Transcription: Sông suối
Predict: Trong đó 

Transcription: Tôi thích mùa xuân vì có nhiều hoa khoe sắc.
Predict: Tôi thích mùa xuân vì có nhiều hoa khoe sắc. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Mùa đông lạnh giá, băng giá.
Predict: Mùa đông, mùa đông, mùa vợ. 

Transcription: Xanh
Predict: Nhìn 

Transcription: Ung
Predict: Tấm lòng 

Transcription: Tiếng chim hót
Predict: Huối chìa 

Transcription: Bạn muốn thăm quốc gia nào trong kỳ nghỉ tới?
Predict: Trong tủ hồn chờ bệnh, bạn muốn thử thách thức. 

Transcription: Ra
Predict: Đánh bóng chuyền 

Transcription: Tôi muốn học tiếng Anh.
Predict: Tôi muốn học tiếng tôi. 

Transcription: Đừng bao giờ từ bỏ hy vọng.
Predict: Đừng quên những giấc mơm. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Cô bạn gái đang làm đẹp.
Predict: Cô bạn gái đang làm đẹp. 

Transcription: Trời đang mưa nhẹ.
Predict: Trong tủ hộ bệnh, 

Transcription: Đối tượng khai thác đất trái phép
Predict: Người chăm sóc bầu trời xanh. 

Transcription: Không yêu
Predict: Tình cảm 

Transcription: Bạn là người bạn tốt
Predict: Bạn là người bạn tốt. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đừng bao giờ ngần ngại theo đuổi ước mơ của mình.
Predict: Đừng bao giờ ngần ngại theo đuổi ước mơ của mình. 

Transcription: Bạn đã thử nấu một món ăn mới chưa?
Predict: Bạn đã thử nấu một món ăn mới chưa? 

Transcription: Bạn muốn tham gia một khóa học nghệ thuật không?
Predict: Bạn có muốn đi học một ngôn nghệ thuật không? 

Transcription: Mặt trời
Predict: Mặt trời 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Phụ trách
Predict: Phụ trách 

Transcription: Mộ
Predict: Tấm dẫn 

Transcription: Thú rừng
Predict: Ngủ ngữ 

Transcription: Đất
Predict: Dài 

Transcription: Tôi biết một chút
Predict: Tây Nguyên 

Transcription: Cuộc kháng chiến
Predict: Cuộc sống của gia đình 

Transcription: Gió
Predict: Lễ 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Khí hậu
Predict: Nhân nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên nguyên n 

Transcription: Nhìn
Predict: Đọc 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn thích chơi game không?
Predict: Bạn có thích chơi game không? 

Transcription: Ẩm ướt
Predict: Nước nôi 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Sống còn
Predict: Sống vui 

Transcription: Con trai anh đi học ở đâu?
Predict: Con đường dẫn đến với con trai đi học 

Transcription: Đăng ký
Predict: Xanh rừng 

Transcription: Mỗi ngày đều mang lại cơ hội mới và thách thức mới.
Predict: Mỗi ngày đều mang lại cơ hội mới và thách thức mới. 

Transcription: Người già có uy tín
Predict: Chị Hái đơn giản. 

Transcription: Bác sỹ làm công việc gì?
Predict: Bạn nghĩ gì về việc làm? 

Transcription: Những đứa trẻ đang nô đùa trên bãi biển.
Predict: Những đứa trẻ đang tham gia bờ biển. 

Transcription: Nước đục
Predict: Đánh 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Đánh
Predict: Đảm bảo 

Transcription: Về
Predict: Cây nhuộm 

Transcription: Cà pháo
Predict: Phần vỗ 

Transcription: Giàu
Predict: Thiếu nữ 

Transcription: Bằng lòng
Predict: Phát triển 

Transcription: Mơ
Predict: Rắn 

Transcription: Ngành
Predict: Phát triển 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Anh ấy bị bệnh gan
Predict: Chị gái đang rơi rượu 

Transcription: Bò lết
Predict: Ruộng 

Transcription: Con đầu lòng
Predict: Con lúa nếp 

Transcription: Ngân hàng
Predict: Nhà khẩu 

Transcription: Ngày càng
Predict: Học sống 

Transcription: Bạn đã thử học một ngôn ngữ mới chưa?
Predict: Bạn đã thử học một ngôn ngữ mới chưa? 

Transcription: Ích
Predict: Dòng 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Anh ấy đón tiếp chúng tôi rất niềm nở
Predict: Chúng ta đoàn kết chung cùng nhau 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Em có ăn được các loại cá không?
Predict: Em gái thường xuyên ngắm của em gái 

Transcription: Ở ngoài
Predict: Ngày mai 

Transcription: Một bông hoa đang nở rộ.
Predict: Một hành động hôn đều. 

Transcription: Kia
Predict: Mời 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Quản lý
Predict: Tiếng trầm 

Transcription: Bản địa
Predict: Giúp đỡ 

Transcription: Bạn có kế hoạch cho tương lai không?
Predict: Bạn có kế hoạch cho tương lai không? 

Transcription: Nai
Predict: Mơm đoàn 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chật
Predict: Cắt 

Transcription: Cọc
Predict: Chống 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Festival cà phê Buôn Ma Thuột là một lễ hội được tổ chức ở thành phố Buôn Ma Thuột tỉnh Dak Lak
Predict: Festival cà phê Buôn Ma Thuột là một lễ hội được tổ chức ở thành phố Buôn Ma Thuột tỉnh Rắn 

Transcription: Một thành công vang dội.
Predict: Một khát vọng là nguồn út. 

Transcription: Mặt trời lặn
Predict: Mặt trời mọc 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Thời gian đã làm nên nhiều điều kỳ diệu
Predict: Thời gian đã làm nên nhiều điều kỳ diệu 

Transcription: Cho nên bổn phận chúng ta phải biết ơn, phải yêu thương và giúp đỡ họ
Predict: Chủ trương và phát triển mình được mất, đón tiếp và phát triển mình được mất, đón tiếp mạng. 

Transcription: Bạn thích xem phim không?
Predict: Bạn có muốn xem phim không? 

Transcription: Mơ ước của bạn là gì?
Predict: Bạn thường xem các chương trình truyền hình nào? 

Transcription: Bạn tên là gì?
Predict: Bạn tên là gì? 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Ngủ
Predict: Rắn hổ mang, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn hổ giúp, rắn 

Transcription: Bạn trai tặng quà cho bạn gái.
Predict: Hãy chăm sóc sức khỏe của em. 

Transcription: Múi
Predict: Ngạt 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Những đứa trẻ đang chơi đùa trong tuyết.
Predict: Cô bé đang chơi đùa trong khu rừng. 

Transcription: Có
Predict: Tôi có 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Quả nhiên
Predict: Đồng bào 

Transcription: Bà đang nấu ăn cho cả gia đình.
Predict: Cô ấy nấu ăn cho cả gia đình. 

Transcription: Nơi chốn
Predict: Bàn ghế 

Transcription: Kho lúa
Predict: Lễ hội 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chúng ta không được vứt rác ra đường
Predict: Chúng ta không được vứt rác ra đường 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chúng ta có được vứt rác ra đường không?
Predict: Chúng ta phải tuyệt đối chấp hành luật giao thông 

Transcription: Kiểu quần áo
Predict: Mọc mầm 

Transcription: Bạn có điều gì cần giúp đỡ không?
Predict: Bạn có điều gì cần giúp đỡ không? 

Transcription: Nhớ
Predict: Thổi 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Rất vui được gặp bạn!
Predict: Rất vui được gặp bạn. 

Transcription: Chặt
Predict: Chặt cây 

Transcription: Con muốn thử một món ăn mới không?
Predict: Con muốn thử một món ăn mới không? 

Transcription: Bạn có thích ẩm thực nước ngoài không?
Predict: Bạn có muốn thử món ăn ngon không? 

Transcription: Ngủ
Predict: Ngủ  



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Ngó
Predict: Hưởng ứng, Hồ Tây Nguyên, Hồ Tây Nguyên 

Transcription: Kế hoạch
Predict: Phương pháp 

Transcription: Mù
Predict: Đất 

Transcription: Tiếng ve kêu râm ran.
Predict: Tiếng ve kêu râm ranh ra. 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Sự hiểu biết là nguồn gốc của sự hòa bình.
Predict: Sự hiểu biết là nguồn gốc của sự hòa bình. 

Transcription: Không
Predict: Nếu có 

Transcription: Tôi muốn học một ngôn ngữ mới.
Predict: Tôi muốn học một ngôn ngữ mới. 

Transcription: Đón tiếp
Predict: Đón tiếp 

Transcription: Bạn muốn tổ chức bữa tiệc nhỏ không?
Predict: Bạn có muốn tổ chức tiệc mục tiêu không? 

Transcription: Bỏ
Predict: Phát giác 

Transcription: Con hến
Predict: Chậm chạp 

Transcription: Không được
Predict: Nói chuyện 

Transcription: Việc chăm sóc cà phê là làm cỏ, đào bồn, tưới nước, bón phân, cắt cành…
Predict: Triệu chứng kèm cà phê là làm bố mẹ gái thêm trời xanh, chiêng, đọc, rừng, cưỡi, ghé, giết. 

Transcription: Động vật
Predict: Lễ vật 

Transcription: Bạn có bộ phim yêu thích không?
Predict: Bạn có bộ phim yêu thích không? 

Transcription: Quẳng
Predict: Trước rượu 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chặt cây gỗ
Predict: Chặt 

Transcription: Nửa
Predict: Chủ yếu 

Transcription: Một bà cụ đang ngồi hóng mát dưới gốc cây.
Predict: Một giáo dục ngắm ngủ trên cửa cây. 

Transcription: Vấp
Predict: Phát giác 

Transcription: Con đã xem bảng xếp hạng chưa?
Predict: Con đã xem bảng xếp hạng chưa? 

Transcription: Hãy tận hưởng mỗi khoảnh khắc trong cuộc sống.
Predict: Hãy tận hưởng mỗi khoảnh khắc trong cuộc sống. 

Transcription: Nhím
Predict: Nguồn suối 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Thầy mo
Predict: Không 

Transcription: Quan tâm
Predict: Tạm trú 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Nhà trường thường tổ chức họp phụ huynh học sinh vào đầu năm học
Predict: Nhà trường thường tổ chức họp phụ huynh học sinh vào cuối năm học 

Transcription: Không được
Predict: Nói rừng 

Transcription: Thích
Predict: Thích 

Transcription: Rưới
Predict: Ngủ 

Transcription: Nhóm
Predict: Nghèo 

Transcription: Nắm
Predict: Khó khăn 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Chúng tôi thường ăn cơm cùng nhau ở nhà
Predict: Chúng tôi thường ăn cơm cùng nhau ở nhà 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Vợ của anh trai gọi là chị dâu
Predict: Vợ của anh trai là anh rể 

Transcription: Đầm lầy
Predict: Đan ít 

Transcription: Vì vậy
Predict: Khơn 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Bạn đã thử một món ăn mới chưa?
Predict: Bạn đã thử một món ăn mới chưa? 

Transcription: Nắng chiếu xuống, làm cho không khí trở nên ấm áp.
Predict: Mặt trời mọc mầm. 

Transcription: Con kiến
Predict: Chim yểng 

Transcription: Một con chim đang đậu trên cành cây.
Predict: Một con đồng bằng dao thao. 

Transcription: Tự
Predict: Quên 

Transcription: Hôi thối
Predict: Những người, nè! 

Transcription: Sự nhẫn nại là chìa khóa của sự thành công.
Predict: Sự kiên nhẫn là chìa khóa sự thành công. 

Transcription: Cao
Predict: Chì kim loại 

Transcription: Mỗi ngày là một cơ hội để làm điều tốt cho người khác.
Predict: Mỗi ngày là một cơ hội để làm điều tốt cho người khác. 

Transcription: Trung thực
Predict: Nghe 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.
Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Khít
Predict: Giúp đỡ 

Transcription: Sao em chưa ngủ?
Predict: Chị Hòa em làm bếp 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Xin chào!
Predict: Những đám mây, 

Transcription: Góp phần
Predict: Giúp đỡ 

Transcription: Nguyên liệu
Predict: Vẫn vào nhau 

Transcription: Cách mạng tháng Tám năm 1945 là một mốc son chói lọi trong lịch sử dân tộc Việt Nam.
Predict: Bố mẹ chăm sóc tươi dân tộc 2005 là một ngày đẹp trong việc xóa dây của người Việt Nam. 

Transcription: Quen
Predict: Chủ yếu 

Transcription: Kiêng
Predict: Nhà 

Transcription: Hướng dẫn
Predict: Mỉm cười 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Mời
Predict: Nóng 

Transcription: Các anh
Predict: Cậu 

Transcription: Đèn đang sáng lên.
Predict: Tôi đang sáng lên. 

Transcription: Mẹ nấu cơm ngon quá.
Predict: Mẹ nấu ăn ngon quá. 

Transcription: Sức sống mới ở một buôn nghèo
Predict: Cuộc sống là mới và đều khó khăn. 

Transcription: Sức
Predict: Mệt 

Transcription: Đứa bé đang chơi trong công viên.
Predict: Học sinh đang thảo luận về bài. 

Transcription: Gặp
Predict: Giáo viên 

Transcription: Hãy lắng nghe âm nhạc mỗi ngày.
Predict: Hãy lắng nghe âm nhạc mỗi ngày. 

Transcription: Mùa đông ở đây rất lạnh.
Predict: Mùa đông ở đây rất lạnh. 

Transcription: Các bạn học sinh thường xuyên làm bài tập.
Predict: Những bông hoa học thường xuyên làm bài tập. 

Transcription: Lang thang
Predict: Ngày nghỉ 

Transcription: Hãy tin tưởng vào con đường của mình.
Predict: Điềm gở của mình. 

Transcription: Bạn muốn tham gia một lớp học mới không?
Predict: Bạn muốn tham gia học mới không? 

Transcription: Nhẹ
Predict: Nhì

Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Rừng thiêng
Predict: Không kỳ 

Transcription: Dép một đôi, áo quần một bộ
Predict: Một con đường đều. 

Transcription: Lượn sóng
Predict: Ngoài sách 



Whisper did not predict an ending timestamp, which can happen if audio is cut off in the middle of a word. Also make sure WhisperTimeStampLogitsProcessor was used during generation.


Transcription: Hãy tận hưởng mỗi khoảnh khắc của cuộc sống.
Predict: Hãy tận hưởng mỗi khoảnh khắc trong cuộc sống. 

Transcription: Lâu
Predict: Lại xạo 

Transcription: Kể
Predict: Thêm tiếng 

Transcription: Những bông hoa đua nhau khoe sắc.
Predict: Những bông hoa đua nhau khoe sắc. 

Transcription: Hãy nhìn vào mặt tích cực của mọi tình huống.
Predict: Hãy nhìn lên bầu trời của mọi tình huống. 

