In [1]:
import os
os.environ['TF_DEVICE_MIN_SYS_MEMORY_IN_MB'] = '128' 

os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'expandable_segments:True'

In [2]:
import os

import pandas as pd

import librosa
import librosa.display

import numpy as np

import IPython.display as ipd

import matplotlib.pyplot as plt

import random

from collections import Counter

from sklearn.model_selection import train_test_split

import torch
import torchaudio

from dataclasses import dataclass
from typing import Any, Dict, List, Union
from datasets import DatasetDict, IterableDatasetDict
from datasets import Dataset as DS
from datasets import IterableDataset as IDS

from transformers import (
    WhisperFeatureExtractor,
    WhisperTokenizer,
    WhisperProcessor,
    WhisperForConditionalGeneration,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer,
    TrainerCallback,
    TrainingArguments,
    TrainerState,
    TrainerControl,
    EarlyStoppingCallback,
    pipeline
)

from torchmetrics.text import WordErrorRate, CharErrorRate

In [3]:
BASE_DIR = "/media/ahanaf/media-1/Datasets/ben10/ben10/"
train_data_dir = f"{BASE_DIR}/16_kHz_train_audio/"
test_data_dir = f"{BASE_DIR}/16_kHz_valid_audio/"
data_path = f"{BASE_DIR}/train.csv"

In [4]:
split2path = {
    "train": train_data_dir,
    "test": test_data_dir,
}

In [5]:
data = pd.read_csv(data_path)
data.sample(10)

Unnamed: 0,file_name,transcripts
13339,train_tangail (787).wav,<> খবর দেহি দিন-রাইত চব্বিশ ঘণ্টা। দ্যাশের কোন...
9889,train_sylhet (282).wav,"<> ছাইছে লামি যাইতো, দাক্কা মারছে সামনে। আসসাল..."
9048,train_rangpur (497).wav,ফলান্তি। সবকিছু মনে করো এর মধ্যে <> এর খাওয়া এ...
11793,train_sylhet (2186).wav,যে বেশি এখবারে এখলা লাগতো৷ আস্তে আস্তে আলটিমেই...
8997,train_rangpur (446).wav,আমার নাম সাইদ। সাইদ? বয়স কত তোমার? এই ষোল। ষো...
453,train_sandwip (454).wav,"তোই, একারণে মুক্তি <> ইয়া মতি সাবের বৌ ক যাইবে..."
94,train_sandwip (95).wav,"গাইল দিলে তো মনে একটা জিদ চলি আইছে, মনে একটা জ..."
11594,train_sylhet (1987).wav,<> কিছু। আর আর অই যে নাবিদরে খইতাম আছলাম। কুনদ...
113,train_sandwip (114).wav,"রাজমিস্তুরির কাম কোইরবার হরে, তো আঁরে। টাইলসের..."
7092,train_narail (1153).wav,নাকি বিয়ে-শাদি অরবি? পড়া-লেহা কদ্দুর? পড়া-লেহা...


In [6]:
def extract_split(filename):
    filename_ = filename.split("_")
    split = filename_[0]
    return split

def extract_district(filename):
    filename_ = filename.split(" ")[0]
    district = filename_.split("_")[1]
    return district

def beautify_dataset(data):
    splits = []
    
    districts = []
    newpaths = []
    transcripts = []
    
    for i in range(len(data)):
        filename, transcript = data.iloc[i]
        split = extract_split(filename)
        district = extract_district(filename)
        dir_path = split2path[split]
        composed_path = f"{dir_path}{filename}"
        
        if os.path.exists(composed_path) == False:
            print(f"{composed_path} does not exist.")
            continue
        
        # replace any newline characters
        transcript = transcript.replace("\n", " ")
        transcript = " ".join(transcript.split())
        
        splits.append(split)
        districts.append(district)
        newpaths.append(composed_path)
        transcripts.append(transcript)
    
    data['file_path'] = newpaths
    data['district'] = districts
    data['split'] = splits
    data['transcripts'] = transcripts
    
#     data.drop(columns=['file_name'], inplace=True)
    
    return data

In [7]:
data = beautify_dataset(data)
data.sample(20)

Unnamed: 0,file_name,transcripts,file_path,district,split
10297,train_sylhet (690).wav,এর ফরে আরোখটা ওইলো গিয়া কুরবানির মাংস বিকালে ড...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,sylhet,train
4073,train_habiganj (750).wav,"উনিশ, আটারো, সতেরো, সতেরো ওইলে ষোলর লাস্টে দেল...",/media/ahanaf/media-1/Datasets/ben10/ben10//16...,habiganj,train
4894,train_kishoreganj (624).wav,তে কত ইয়াদু দিতাছে। ইবার তো সব সংবাদ এইতা হাছা...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,kishoreganj,train
3133,train_chittagong (1229).wav,"বেয়াকগুনে, খত আত্মীয়স্বজন আছিল। বেয়াকগুনে তো খ...",/media/ahanaf/media-1/Datasets/ben10/ben10//16...,chittagong,train
6355,train_narail (416).wav,তুই মানিস? সেকেন্ডবার তার ভোট চাওয়া লাগবে না। ...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,narail,train
122,train_sandwip (123).wav,আইচ্ছা তো কাম অ্যাক্কান আমনেরে কন্ট্যাক্ট দিতো...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,sandwip,train
8416,train_narsingdi (973).wav,চা খাওন লাগতো না। আইচ্ছা উডো সবাই উডো। সবাই উড...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,narsingdi,train
2654,train_chittagong (750).wav,"আঁর আম্মুর আন্টি আছে দে ইবা আইসসি, আঁরা ছুডো আ...",/media/ahanaf/media-1/Datasets/ben10/ben10//16...,chittagong,train
8231,train_narsingdi (788).wav,তর এই আইপিএলের মাইজে আরে এই দিল্লির মাইজে। দিল...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,narsingdi,train
2932,train_chittagong (1028).wav,তারফরে মাথা হঁরি উইট্টিতে এগিন মাথার মগজ ফাঁনি...,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,chittagong,train


In [8]:
data[data["transcripts"] == "<>"]

Unnamed: 0,file_name,transcripts,file_path,district,split
721,train_sandwip (722).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,sandwip,train
1296,train_barishal (242).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train
1298,train_barishal (244).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train
1299,train_barishal (245).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train
1301,train_barishal (247).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train
...,...,...,...,...,...
13330,train_tangail (778).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,tangail,train
13336,train_tangail (784).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,tangail,train
13356,train_tangail (804).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,tangail,train
13361,train_tangail (809).wav,<>,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,tangail,train


In [9]:
data[data["transcripts"] == ""]

Unnamed: 0,file_name,transcripts,file_path,district,split
3590,train_habiganj (267).wav,,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,habiganj,train
13505,train_tangail (953).wav,,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,tangail,train


In [10]:
data[data["transcripts"] == ".."]

Unnamed: 0,file_name,transcripts,file_path,district,split
1329,train_barishal (275).wav,..,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train
1331,train_barishal (277).wav,..,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train
1338,train_barishal (284).wav,..,/media/ahanaf/media-1/Datasets/ben10/ben10//16...,barishal,train


**NOTE:** Think of how you want use the existing models/your finetuned model to replace these examples.... For now let's just handle them.

In [11]:
# print(list(data[data['transcripts'] == ''].index))
data.drop(data[data['transcripts'] == ''].index, inplace=True)
      
# print(list(data[data['transcripts'] == '<>'].index))
data.drop(data[data['transcripts'] == "<>"].index, inplace=True)
      
# print(list(data[data['transcripts'] == '..'].index))
data.drop(data[data['transcripts'] == ".."].index, inplace=True)

In [12]:
data["transcripts"] = data["transcripts"].str.strip()

In [13]:
TASK = "transcribe"
MODEL_NAME = "openai/whisper-small"

In [14]:
feature_extractor = WhisperFeatureExtractor.from_pretrained(MODEL_NAME)
tokenizer = WhisperTokenizer.from_pretrained(MODEL_NAME, language='bn', task=TASK)
processor = WhisperProcessor.from_pretrained(MODEL_NAME, language='bn', task=TASK)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [15]:
ids = tokenizer.encode("")
ids

[50258, 50302, 50359, 50363, 50257]

In [16]:
tokenizer.decode(ids)

'<|startoftranscript|><|bn|><|transcribe|><|notimestamps|><|endoftext|>'

In [17]:
@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lengths and need different padding methods
        # first treat the audio inputs by simply returning torch tensors
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # get the tokenized label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # pad the labels to max length
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # if bos token is appended in previous tokenization step,
        # cut bos token here as it's append later anyways
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels
        
        torch.cuda.empty_cache()

        return batch

In [18]:
data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)

In [19]:
def prepare_dataset(example):
    audio_path = example["file_path"]
    
    # load the audio using librosa or torch audio (as you wish)
    audio, sr = librosa.load(audio_path, sr=16_000)
    
    example["input_features"] = feature_extractor(audio, sampling_rate=sr).input_features[0]
    
    example["labels"] = tokenizer(f"{example['transcripts']}", max_length=448, padding=True, truncation=True).input_ids
    
    return example


def filter_inputs(input_audio):
    """filter inputs with zero input length"""
    return 0 < len(input_audio)


def filter_labels(input_labels):
    """filter empty label sequences"""
    return 0 < len(input_labels)

In [20]:
train_df = data[data["split"] == "train"]

In [21]:
"""
    adjust test size accordingly.
"""
train_df, eval_df = train_test_split(train_df, test_size=0.02, shuffle=True)

In [22]:
len(train_df), len(eval_df)

(13212, 270)

In [23]:
ben_reg_voice_ds = IterableDatasetDict()

train_split = DS.from_pandas(train_df)
eval_split = DS.from_pandas(eval_df)

ds_splits = IterableDatasetDict({
    'train': train_split,
    'eval': eval_split
})

In [24]:
ds_splits = ds_splits.remove_columns(["split"])

In [25]:
print(ds_splits)

IterableDatasetDict({
    train: Dataset({
        features: ['file_name', 'transcripts', 'file_path', 'district', '__index_level_0__'],
        num_rows: 13212
    })
    eval: Dataset({
        features: ['file_name', 'transcripts', 'file_path', 'district', '__index_level_0__'],
        num_rows: 270
    })
})


In [26]:
np.object = object

In [27]:
ds_splits = ds_splits.map(prepare_dataset,# remove_columns=ds_splits.column_names["train"],
                          #num_proc=2 # open for multithreadding
)

Map:   0%|          | 0/13212 [00:00<?, ? examples/s]

Map:   0%|          | 0/270 [00:00<?, ? examples/s]

In [28]:
# ds_splits = ds_splits.filter(filter_inputs, input_columns=["input_features"])
# ds_splits = ds_splits.filter(filter_labels, input_columns=["labels"])

In [29]:
len(ds_splits["train"]), len(ds_splits["eval"])

(13212, 270)

In [30]:
cer = CharErrorRate()
wer = WordErrorRate()

In [31]:
def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    label_ids[label_ids == -100] = tokenizer.pad_token_id

    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    wer_res = wer(pred_str, label_str)
    cer_res = cer(pred_str, label_str)
    
    """
        uncomment the next 3 lines if you want to see how the examples look like during eval 
    """
    print("WER:",wer_res,"| CER:", cer_res) # to show up during running logs
    print("Pred:",pred_str[0])
    print("Label:",label_str[0])
    
    return {"wer": wer_res, "cer": cer_res}

In [56]:
MODEL_NAME = './whisper-small-reg-ben-test'

In [57]:
model = WhisperForConditionalGeneration.from_pretrained(MODEL_NAME, device_map="auto")

In [33]:
model_id = "whisper-small-reg-ben-test"

In [34]:
training_args = Seq2SeqTrainingArguments(
    output_dir=model_id,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=4,
    gradient_accumulation_steps=2,
    gradient_checkpointing=True,
    fp16=True,
    learning_rate=3e-4,
    weight_decay=1e-2,
    # warmup_steps=500,
    num_train_epochs=10,
    evaluation_strategy="steps", # or "epochs"
    predict_with_generate=True,
#     generation_max_length=448,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=50,
    save_total_limit=2,
    load_best_model_at_end=True,
    metric_for_best_model="wer",
    greater_is_better=False,
    push_to_hub=False,
    report_to="none",
    remove_unused_columns=False,
    dataloader_num_workers=4,
    dataloader_prefetch_factor=32,
)

In [35]:
# eeee

In [36]:
model.generation_config.language = "bn"
model.generation_config.task = "transcribe"

model.generation_config.forced_decoder_ids = None
model.config.suppress_tokens = [] # added later

In [37]:
trainer = Seq2SeqTrainer(
    args=training_args,
    model=model,
    train_dataset=ds_splits["train"],
    eval_dataset=ds_splits["eval"],
    data_collator=data_collator,
    tokenizer=processor.feature_extractor,
    compute_metrics=compute_metrics,
#     callbacks=[EarlyStoppingCallback(2, 1.0)]
)

dataloader_config = DataLoaderConfiguration(dispatch_batches=None, split_batches=False, even_batches=True, use_seedable_sampler=True)


In [38]:
trainer.train()

# to use the high-level pipeline, ensure both the processor outputs and model outputs exist in the same dir
trainer.save_model(training_args.output_dir)
processor.save_pretrained(training_args.output_dir)

  0%|          | 0/8260 [00:00<?, ?it/s]

`use_cache = True` is incompatible with gradient checkpointing. Setting `use_cache = False`...


{'loss': 1.3785, 'grad_norm': 11.469520568847656, 'learning_rate': 2.88e-05, 'epoch': 0.06}
{'loss': 0.6753, 'grad_norm': 6.941266059875488, 'learning_rate': 5.88e-05, 'epoch': 0.12}
{'loss': 0.5553, 'grad_norm': 5.633580684661865, 'learning_rate': 8.879999999999999e-05, 'epoch': 0.18}
{'loss': 0.5149, 'grad_norm': 4.341473579406738, 'learning_rate': 0.0001188, 'epoch': 0.24}
{'loss': 0.5073, 'grad_norm': 6.691446304321289, 'learning_rate': 0.00014879999999999998, 'epoch': 0.3}
{'loss': 0.4922, 'grad_norm': 7.590158462524414, 'learning_rate': 0.00017879999999999998, 'epoch': 0.36}
{'loss': 0.4825, 'grad_norm': 4.008153438568115, 'learning_rate': 0.00020879999999999998, 'epoch': 0.42}
{'loss': 0.4945, 'grad_norm': 3.2979111671447754, 'learning_rate': 0.0002388, 'epoch': 0.48}
{'loss': 0.4952, 'grad_norm': 5.612159729003906, 'learning_rate': 0.0002688, 'epoch': 0.54}
{'loss': 0.4975, 'grad_norm': 5.593199253082275, 'learning_rate': 0.0002988, 'epoch': 0.61}
{'loss': 0.4781, 'grad_norm': 

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.9252) | CER: tensor(0.5355)
Pred: আসলো কতা কইছে�। বিদিশ একটা কিপ্পিন ফাইলো? বিদিশ তো কিপ্পিনের মাঝে একটা আছে? মেতু আইডে তুই ইয়া তুই কি খেলে গুজরাটের মাঝে। আর এমনে তো ইয়া নাই ক হোতো। কিপ্পিনের মাঝে আর আছে কেডা। এচ্ছা বালার দিহি না। সিরম কত্তে একটা কিনতা লই? ডিভি ইয়া
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.4299727976322174, 'eval_wer': 0.9251918196678162, 'eval_cer': 0.535503089427948, 'eval_runtime': 370.242, 'eval_samples_per_second': 0.729, 'eval_steps_per_second': 0.184, 'epoch': 1.21}




{'loss': 0.4034, 'grad_norm': 2.695808172225952, 'learning_rate': 0.0002788144329896907, 'epoch': 1.27}
{'loss': 0.404, 'grad_norm': 3.435853958129883, 'learning_rate': 0.0002768814432989691, 'epoch': 1.33}
{'loss': 0.3927, 'grad_norm': 3.4740676879882812, 'learning_rate': 0.0002749484536082474, 'epoch': 1.39}
{'loss': 0.3936, 'grad_norm': 3.353254795074463, 'learning_rate': 0.00027301546391752575, 'epoch': 1.45}
{'loss': 0.3941, 'grad_norm': 2.4333150386810303, 'learning_rate': 0.0002710824742268041, 'epoch': 1.51}
{'loss': 0.3881, 'grad_norm': 3.4281582832336426, 'learning_rate': 0.0002691494845360825, 'epoch': 1.57}
{'loss': 0.3817, 'grad_norm': 3.462240695953369, 'learning_rate': 0.00026721649484536084, 'epoch': 1.63}
{'loss': 0.389, 'grad_norm': 2.79906964302063, 'learning_rate': 0.00026528350515463915, 'epoch': 1.69}
{'loss': 0.3828, 'grad_norm': 2.4054462909698486, 'learning_rate': 0.0002633505154639175, 'epoch': 1.76}
{'loss': 0.3841, 'grad_norm': 2.1577632427215576, 'learning_

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.8301) | CER: tensor(0.4996)
Pred: ফরে আসলে কতা কইছো। বিদিশে একটা কিপ্পিন খাইলো, বিদিশে তো কিপ্পিনের মাইজে কেডা আছিন। মেথও আইডে তো ইয়াত গি গুজরাডের মাইজে। আর এম্নে তো ইয়া নাইগাও তোর। কিপ্পিনের মাইজে আরাছে গেডা। আচ্ছা বালার দেহি না। সিরঙাতে একটা কিতা লইছে। ডিভি �
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.3681560456752777, 'eval_wer': 0.8301364183425903, 'eval_cer': 0.4996229410171509, 'eval_runtime': 389.3809, 'eval_samples_per_second': 0.693, 'eval_steps_per_second': 0.175, 'epoch': 2.42}




{'loss': 0.3096, 'grad_norm': 2.4944238662719727, 'learning_rate': 0.00024015463917525772, 'epoch': 2.48}
{'loss': 0.3155, 'grad_norm': 2.520142078399658, 'learning_rate': 0.00023822164948453605, 'epoch': 2.54}
{'loss': 0.3111, 'grad_norm': 2.0133590698242188, 'learning_rate': 0.00023628865979381442, 'epoch': 2.6}
{'loss': 0.31, 'grad_norm': 2.7965002059936523, 'learning_rate': 0.00023435567010309275, 'epoch': 2.66}
{'loss': 0.3095, 'grad_norm': 1.8071985244750977, 'learning_rate': 0.00023242268041237112, 'epoch': 2.72}
{'loss': 0.3142, 'grad_norm': 2.327089786529541, 'learning_rate': 0.00023048969072164948, 'epoch': 2.78}
{'loss': 0.311, 'grad_norm': 1.7619521617889404, 'learning_rate': 0.0002285567010309278, 'epoch': 2.85}
{'loss': 0.2972, 'grad_norm': 2.1359448432922363, 'learning_rate': 0.00022662371134020616, 'epoch': 2.91}
{'loss': 0.2943, 'grad_norm': 2.246955156326294, 'learning_rate': 0.00022469072164948452, 'epoch': 2.97}
{'loss': 0.2579, 'grad_norm': 1.8664233684539795, 'lea

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.8084) | CER: tensor(0.4456)
Pred: মানে আসলেও কতা কইছোইন। বিদেশি একটা কিপ্পিন ফাইলে অইছে। বিদেশি তো কিপ্পিনের মাইজে কেডা আছিন। ম্যাথো ওয়াইডে তো ইয়া তুই কি কেলে গুজরাডের মাইজে। আর এম্নে তো ইয়া না ইয়া অতো। কিপ্পিনের মাইজে আর আছে কেডা? আইচ্ছা বালা আর দেহি না। জীব
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.3375642001628876, 'eval_wer': 0.8083972930908203, 'eval_cer': 0.4456042945384979, 'eval_runtime': 388.9417, 'eval_samples_per_second': 0.694, 'eval_steps_per_second': 0.175, 'epoch': 3.63}




{'loss': 0.2503, 'grad_norm': 1.8746074438095093, 'learning_rate': 0.0002014948453608247, 'epoch': 3.69}
{'loss': 0.2466, 'grad_norm': 1.7282590866088867, 'learning_rate': 0.00019956185567010306, 'epoch': 3.75}
{'loss': 0.2531, 'grad_norm': 2.098757028579712, 'learning_rate': 0.00019762886597938142, 'epoch': 3.81}
{'loss': 0.2557, 'grad_norm': 1.4923897981643677, 'learning_rate': 0.0001956958762886598, 'epoch': 3.87}
{'loss': 0.2482, 'grad_norm': 1.6702884435653687, 'learning_rate': 0.00019376288659793815, 'epoch': 3.93}
{'loss': 0.2457, 'grad_norm': 1.6604679822921753, 'learning_rate': 0.00019182989690721646, 'epoch': 4.0}
{'loss': 0.1808, 'grad_norm': 1.7012803554534912, 'learning_rate': 0.00018989690721649483, 'epoch': 4.06}
{'loss': 0.1807, 'grad_norm': 1.385053038597107, 'learning_rate': 0.0001879639175257732, 'epoch': 4.12}
{'loss': 0.1824, 'grad_norm': 1.7874739170074463, 'learning_rate': 0.00018603092783505153, 'epoch': 4.18}
{'loss': 0.1919, 'grad_norm': 1.7314705848693848, 'l

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.7709) | CER: tensor(0.4277)
Pred: বাহে আসলেও কতা কইছো। বিদিশ একটা কিপ্পিন খাইলেও বিদিশই তো কিপ্পিনের মাইজে কেডা আছিন। ম্যাথ ওয়াইডে তো ইয়াত ওই গি খেলে গুজ রাডের মাইজে। আর এম্নে তো ইয়া না ইগা অতো। কিপ্পিনের মাইজে আর আছে কেডা? আইচ্ছা বালা আর দেহি না। চিরঙ্গাত্তে �
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.3268807828426361, 'eval_wer': 0.7708866000175476, 'eval_cer': 0.42772376537323, 'eval_runtime': 390.22, 'eval_samples_per_second': 0.692, 'eval_steps_per_second': 0.174, 'epoch': 4.84}




{'loss': 0.1926, 'grad_norm': 1.4861981868743896, 'learning_rate': 0.00016283505154639173, 'epoch': 4.9}
{'loss': 0.1925, 'grad_norm': 1.5034945011138916, 'learning_rate': 0.0001609020618556701, 'epoch': 4.96}
{'loss': 0.166, 'grad_norm': 1.2031258344650269, 'learning_rate': 0.00015896907216494843, 'epoch': 5.02}
{'loss': 0.1305, 'grad_norm': 1.3269774913787842, 'learning_rate': 0.0001570360824742268, 'epoch': 5.08}
{'loss': 0.1322, 'grad_norm': 1.0466681718826294, 'learning_rate': 0.00015510309278350516, 'epoch': 5.15}
{'loss': 0.1359, 'grad_norm': 1.1819208860397339, 'learning_rate': 0.00015317010309278347, 'epoch': 5.21}
{'loss': 0.1403, 'grad_norm': 1.2718393802642822, 'learning_rate': 0.00015123711340206183, 'epoch': 5.27}
{'loss': 0.1391, 'grad_norm': 1.0998841524124146, 'learning_rate': 0.0001493041237113402, 'epoch': 5.33}
{'loss': 0.1366, 'grad_norm': 1.0646637678146362, 'learning_rate': 0.00014737113402061853, 'epoch': 5.39}
{'loss': 0.1375, 'grad_norm': 1.0827040672302246, '

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.7709) | CER: tensor(0.4197)
Pred: আসলে কতা কইছে। বিদিশি একটা কিপ্পিন খাইলে অই বিদিশি তো কিপ্পিনের মাইজে কেডা আছিন। ম্যাথ ওয়াইডে তো ইয়াত ওই খেলে গুজরাটের মাইজে। আর এম্নে তো ইয়া নাই গা অতোর। কিপ্পিনের মাইজে আর আছে কেডা? এর চেয়ে বালা আর দেহি না। শীরঙ্গাত একটা কিনত
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.38997477293014526, 'eval_wer': 0.7708866000175476, 'eval_cer': 0.419666588306427, 'eval_runtime': 390.5369, 'eval_samples_per_second': 0.691, 'eval_steps_per_second': 0.174, 'epoch': 6.05}




{'loss': 0.0835, 'grad_norm': 0.9852769374847412, 'learning_rate': 0.00012417525773195874, 'epoch': 6.11}
{'loss': 0.0854, 'grad_norm': 1.0827863216400146, 'learning_rate': 0.0001222422680412371, 'epoch': 6.17}
{'loss': 0.0841, 'grad_norm': 1.0884374380111694, 'learning_rate': 0.00012030927835051546, 'epoch': 6.23}
{'loss': 0.0856, 'grad_norm': 1.0889627933502197, 'learning_rate': 0.0001183762886597938, 'epoch': 6.3}
{'loss': 0.0871, 'grad_norm': 0.9359115958213806, 'learning_rate': 0.00011644329896907215, 'epoch': 6.36}
{'loss': 0.0871, 'grad_norm': 0.9615691304206848, 'learning_rate': 0.0001145103092783505, 'epoch': 6.42}
{'loss': 0.0886, 'grad_norm': 0.9392865300178528, 'learning_rate': 0.00011257731958762885, 'epoch': 6.48}
{'loss': 0.0869, 'grad_norm': 0.9481935501098633, 'learning_rate': 0.00011064432989690722, 'epoch': 6.54}
{'loss': 0.0889, 'grad_norm': 1.0220634937286377, 'learning_rate': 0.00010871134020618555, 'epoch': 6.6}
{'loss': 0.0864, 'grad_norm': 1.1574198007583618, '

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.7575) | CER: tensor(0.4088)
Pred: ফরে আসলো কতা কইছে। বিদিশি একটা কিপ্পিন খাইলে ওই। বিদিশি তো কিপ্পিন এর মাঝে কেডা আছিন। ম্যাথো আইডে তো ইয়াত ওই খেলে গুজরাটের মাইজে। আর এম্নে তো ইয়া নাই গা ও তো। কিপ্পিন এর মাজে আর আছে কেডা? এচ্ছে বালা আর দিহি না। শ্রী-লঙ্কাত্তে এক�
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.4688456058502197, 'eval_wer': 0.7574595212936401, 'eval_cer': 0.4087517261505127, 'eval_runtime': 386.6976, 'eval_samples_per_second': 0.698, 'eval_steps_per_second': 0.176, 'epoch': 7.26}




{'loss': 0.0394, 'grad_norm': 0.5443329811096191, 'learning_rate': 8.551546391752576e-05, 'epoch': 7.32}
{'loss': 0.0389, 'grad_norm': 0.8353797793388367, 'learning_rate': 8.358247422680412e-05, 'epoch': 7.38}
{'loss': 0.0395, 'grad_norm': 0.6609759330749512, 'learning_rate': 8.164948453608246e-05, 'epoch': 7.45}
{'loss': 0.0391, 'grad_norm': 0.7023429274559021, 'learning_rate': 7.971649484536082e-05, 'epoch': 7.51}
{'loss': 0.0389, 'grad_norm': 0.6840725541114807, 'learning_rate': 7.778350515463917e-05, 'epoch': 7.57}
{'loss': 0.0413, 'grad_norm': 0.6156756281852722, 'learning_rate': 7.585051546391752e-05, 'epoch': 7.63}
{'loss': 0.0402, 'grad_norm': 0.8004628419876099, 'learning_rate': 7.391752577319587e-05, 'epoch': 7.69}
{'loss': 0.0409, 'grad_norm': 0.9297144412994385, 'learning_rate': 7.198453608247422e-05, 'epoch': 7.75}
{'loss': 0.0392, 'grad_norm': 0.8579136729240417, 'learning_rate': 7.005154639175257e-05, 'epoch': 7.81}
{'loss': 0.04, 'grad_norm': 0.9107919931411743, 'learni

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.7478) | CER: tensor(0.4070)
Pred: ফরে আসলেও কতা কইছে। বিদিশ একটা কিপ্পিন খাইলে অইছে। বিদিশই তো কিপ্পিনের মাঝে কেডা আছে। ম্যাথু আইডে তো ইয়াত অই গিয়া খেলে গুজরাডের মাইজে। আর এম্নে তো ইয়া নাই গা ও তো। কিপ্পিনের মাজে আর আছে কেডা? এর চে বালা আর দেহি না। শ্রী-লঙ্কারত
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.5811015963554382, 'eval_wer': 0.747762143611908, 'eval_cer': 0.4070053696632385, 'eval_runtime': 385.6948, 'eval_samples_per_second': 0.7, 'eval_steps_per_second': 0.176, 'epoch': 8.47}




{'loss': 0.0125, 'grad_norm': 0.4119362235069275, 'learning_rate': 4.685567010309278e-05, 'epoch': 8.54}
{'loss': 0.0129, 'grad_norm': 0.5221546292304993, 'learning_rate': 4.492268041237113e-05, 'epoch': 8.6}
{'loss': 0.0129, 'grad_norm': 0.40423768758773804, 'learning_rate': 4.298969072164948e-05, 'epoch': 8.66}
{'loss': 0.0133, 'grad_norm': 0.46771496534347534, 'learning_rate': 4.1056701030927835e-05, 'epoch': 8.72}
{'loss': 0.0125, 'grad_norm': 0.44781410694122314, 'learning_rate': 3.9123711340206185e-05, 'epoch': 8.78}
{'loss': 0.0123, 'grad_norm': 0.5221858024597168, 'learning_rate': 3.7190721649484535e-05, 'epoch': 8.84}
{'loss': 0.0127, 'grad_norm': 0.384267657995224, 'learning_rate': 3.5257731958762886e-05, 'epoch': 8.9}
{'loss': 0.0119, 'grad_norm': 0.5267454981803894, 'learning_rate': 3.332474226804123e-05, 'epoch': 8.96}
{'loss': 0.0097, 'grad_norm': 0.14819180965423584, 'learning_rate': 3.1391752577319586e-05, 'epoch': 9.02}
{'loss': 0.0036, 'grad_norm': 0.19056487083435059

  0%|          | 0/68 [00:00<?, ?it/s]

Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


WER: tensor(0.7363) | CER: tensor(0.3964)
Pred: ফরে আসলে কতা কইছে। বিদিশি একটা কিপ্পিন খাইলে অইছে। বিদিশি তো কিপ্পিনের মাঝে কেডা আছিন। ম্যাথু আইডে তো ইয়াত ওই খেলে গুজরাটের মাইজে। আর এম্নে তো ইয়া নাই গা ও তর। কিপ্পিনের মাজে আর আছে ওই কেডা? এর চেয়ে বালা আর দেহি না। শ্রী-লঙ্কাত�
Label: বহে আসলো কতা কইছো। বিদিশি একটা কিপ্পিং ফাইলেওই। বিদিশি তো কিপ্পিনের মাইজে কেডা আছেই! মেথুওয়েডে তো ইয়াতওই কি খেলে। গুজরাটের মাইজে। আর এম্মে তো ইয়া নাইগাও তো। কিপ্পিনের মাইজে আর আছেই কেডা! এরচে বালা আর দেহিই না। শ্রীলংকাত্তে �
{'eval_loss': 0.681022047996521, 'eval_wer': 0.7362532019615173, 'eval_cer': 0.3964080214500427, 'eval_runtime': 388.2398, 'eval_samples_per_second': 0.695, 'eval_steps_per_second': 0.175, 'epoch': 9.69}




{'loss': 0.0034, 'grad_norm': 0.1698063462972641, 'learning_rate': 8.195876288659794e-06, 'epoch': 9.75}
{'loss': 0.003, 'grad_norm': 0.37620311975479126, 'learning_rate': 6.262886597938143e-06, 'epoch': 9.81}
{'loss': 0.0032, 'grad_norm': 0.24798984825611115, 'learning_rate': 4.3298969072164946e-06, 'epoch': 9.87}
{'loss': 0.0031, 'grad_norm': 0.2017114758491516, 'learning_rate': 2.396907216494845e-06, 'epoch': 9.93}
{'loss': 0.0029, 'grad_norm': 0.14242912828922272, 'learning_rate': 4.639175257731958e-07, 'epoch': 9.99}


There were missing keys in the checkpoint model loaded: ['proj_out.weight'].
Non-default generation parameters: {'max_length': 448, 'suppress_tokens': [], 'begin_suppress_tokens': [220, 50257]}


{'train_runtime': 19059.0599, 'train_samples_per_second': 6.932, 'train_steps_per_second': 0.433, 'train_loss': 0.19729342210144887, 'epoch': 10.0}


[]

In [39]:
out_logs = pd.DataFrame(trainer.state.log_history)
out_logs.to_csv("logs.csv")

In [None]:
import gc

gc.collect()
del ds_splits

torch.cuda.empty_cache()

76

In [42]:
pipe = pipeline(
    "automatic-speech-recognition",
    model=model_id,
    chunk_length_s=30,
    device=0,
)

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [43]:
def pretty_sort(filename):
    name, number_str = filename.split(" (")
    number = int(number_str.split(")")[0])
    return name, number

In [51]:
ids = []

In [52]:
from tqdm import tqdm

for root, dirs, files in os.walk("/media/ahanaf/media-1/Datasets/ben10/ben10/16_kHz_valid_audio"):
    files = sorted(files, key=pretty_sort)
    
#     print(files.index("valid_sandwip (1).wav"))
#     print(files.index("valid_sandwip (132).wav"))
    
#     put swandip first
    shift = files[1070 : 1202]
    
    files = shift + files[:1070] + files[1202:]
    ids = files.copy()
    preds = []
    print(f'Total: {len(files)}')
    for i, file in tqdm(enumerate(files), total=len(files), ncols=70, colour='green'):
        composed_path = f"{test_data_dir}{file}"
        audio, sr = librosa.load(composed_path, sr=16_000)
        text = pipe(audio)["text"]
        preds.append(text)
        if i % 50 == 0:
            print(f'{i+1:4d}/{len(files):4d}', file,'\t', text)

Total: 1703


  0%|[32m                              [0m| 1/1703 [00:02<1:11:19,  2.51s/it][0m

   1/1703 valid_sandwip (1).wav 	 হরালেখা করি কি অইবো, আঁই তো ইতাত উইট্টি যান লাগে না, আঁই যা আন ফিছে ইতাত লাগে না। জীবনের আন্নের হরালেখা যদি টার্গেট যদি আন্নের মানি দই যদি লোউখ্যস থিন্ন কর তাইলে তো কেমনে হইরবা


  3%|[32m▊                            [0m| 51/1703 [02:37<1:33:14,  3.39s/it][0m

  51/1703 valid_sandwip (51).wav 	 আত্তে বেশি বিরাইত্তান লাগে হিয়ান বেডার লগে দুই বিশ্তিত ফোন চইল্লে এক সাপ্তাহ ঠিক কাই চলাই আইবো। হিয়ান আই বেডার লগে কথা কনাই ঠিক নাই ফোন কইল্লে কইবো, আই হারাদিন কথা কমু নে খালি। কইবো খাইতো বইলে অতো খাইতো বইছে বেডা ফোন কচ্চে এরি অ�


  6%|[32m█▊                            [0m| 101/1703 [04:45<50:26,  1.89s/it][0m

 101/1703 valid_sandwip (101).wav 	 হয়। কালকা আইয়ে? ওনু কয় দিস টাইনে চায়। ও ভাই আর নুসাই গেলাম আর কি।


  9%|[32m██▍                         [0m| 151/1703 [07:05<1:19:45,  3.08s/it][0m

 151/1703 valid_barishal (19).wav 	 ঈদের পোনারো জারদিন মাহিলারা গেছি, বেডা নিজ্জো দোকান বেডা, হেইয়ার একটা থ্রি পিছে আডারো শো দুই হাজার বাইশ্বোত পরিস্থান্ত করি, মেডামো নাইলে থাকে, হেইয়ার দুইডা থ্রি দুই বেন ডেইল দিয়া দুইডা থ্রি পিছে উডে। এডা অসুখ্যা আর, এডা থেয়া দ�


 12%|[32m███▎                        [0m| 201/1703 [09:37<1:18:30,  3.14s/it][0m

 201/1703 valid_barishal (69).wav 	 এ দুই কুদি কারল আছে গাছ? আছে না? এই ব্যাক বাইচ্চালো। আছে, এহন আর কাডা আছে এহেনে এই কহান আছে আর ওইডা দুই হাজারের ওহানে কিছু একদার আর ওই আমরারে কিনছি একদার, এই ওইডাক আর ওই দিক দুইদার, এই বাড়ি উডলে আর দুইদার কাছে, এই দুইদার কাডলে কাডা অইয়া গেল


 15%|[32m████▏                       [0m| 251/1703 [11:57<1:07:55,  2.81s/it][0m

 251/1703 valid_chittagong (13).wav 	 আঁরতে ডরে যাইতু, মনে গর। অনে জানেন দে না ব্যাথা ব্যাথা সুন্দর বউ খতায়? অ্যাঁ? ব্যাথা ব্যাথা সিটাগার্ড ইংসিশন দে এডে আছিল দে এডে এক্কান জিনিসহ জানোন জানোন জানো? অয়ো


 18%|[32m█████▎                        [0m| 301/1703 [13:42<38:36,  1.65s/it][0m

 301/1703 valid_chittagong (63).wav 	 স্কুলত? মেসেম্মের ভাঙলাইবে হই, তারপর জাতিয়াসন গিট লই, উহু। পিটিনা গরর?


 21%|[32m█████▊                      [0m| 351/1703 [15:36<1:02:59,  2.80s/it][0m

 351/1703 valid_chittagong (113).wav 	 খইলাম দে খোঁত খেদ�ার মান�য়া লইততারে। এই তো ব্রাইট ইউসেরে বলি তো আসলে এইল্লা খোনো ফিউজড নাই। এডে ফিউজারে বলি যেতো আমি ফিউজারে বলি তো আমারে রিটেনমেন্টরের ফতেদে ইয়্যান শুক মনা গরে। এতো তারা আসলে দুনিয়াক ফুতিক দুই বিরক্ত অই যাইগুই,


 24%|[32m██████▌                     [0m| 401/1703 [18:03<1:06:17,  3.06s/it][0m

 401/1703 valid_chittagong (163).wav 	 ইতে বারে জালি সাড়ে টেঁয়া লইতে বাইরগোদে, খইদে তুই টেঁয়া এনে আকসা খরি দি। না ইতের টেঁয়া উদাহরি দি খরবার বাইর বুক। ইতের তে এনে টেঁয়া দে যমা নদের খন্না দরে। ইতে সম্মানে ইতে ফরমা শুরু সামনি খরি দি। ইতে সুদ গরন না, টেঁয়া শুদ গরন না ইতে? 


 26%|[32m███████▍                    [0m| 451/1703 [20:07<1:04:42,  3.10s/it][0m

 451/1703 valid_habiganj (36).wav 	 অখন কিতা খরবায়, সূইজ্য খইরা ছলন লাগবো। অখন তে তাল দেখছি ইরম তাল তাখলে দেখছি ই তাখন ই তাখন আরকি বালো লাগবো আরকি দেখছিগা। বুচ্ছোনি? না না ওইতো বারি ছান�ে দেখান বা অখন রেলাইন ফুরা আনে। ইটা কিতা বা ইটার কিন্তু ইতিহাস বই জানো ইটা কিতা ফুরা আন


 29%|[32m████████▊                     [0m| 501/1703 [22:28<58:27,  2.92s/it][0m

 501/1703 valid_habiganj (86).wav 	 এরে বাইন্দা গা খুব কম মাইনষের কাছে। না, ইলা খইলাও ডাসটু, এরে বাইন্দা গা খুব কম মাইনষের কাছে। এরা দেখওনা খরে। লউ ডা কিতা লইতারলো? খইলাও গা, আমরা খইলাও আমরা দেখার মাইঝে আর গা খতা খওইবা। ডাসটারে জাগাইলাও। ওউ খোউরে বাবা, আমি দশ ফানি লইলো টেহা


 32%|[32m█████████▋                    [0m| 551/1703 [24:23<55:35,  2.90s/it][0m

 551/1703 valid_kishoreganj (17).wav 	 দেইক্যা কারেড্ডে দেইক্যা আয়া ফরে এইনো মহস্ত করে। ফুলাফানরে বুজাই তাহে না যে এইডার ফরে এইডা দুই আছিলো এক মাইনার ছইছে। কবর সিস্টামো তো এক সাত আছিলো এই যুগ দুই হিসেবে কত অইছে নয় দেইভাবে বুজাই তাহে না খালি দ্যাহে ভরতাছে। হেই ফরছো�


 35%|[32m██████████▌                   [0m| 601/1703 [26:09<32:51,  1.79s/it][0m

 601/1703 valid_kishoreganj (67).wav 	 খাদ। হ্যাঁ? খাইট্টাও না ছইর? খাইট্টা গুমাইছোছ না ছইর গুমাইছোছ? সবাই জিহানো। মুবাইন আজার। জেইনো ফুইত্তানো। হ হেই রুমের মইদ্দে আগে।


 38%|[32m███████████▍                  [0m| 651/1703 [27:52<45:01,  2.57s/it][0m

 651/1703 valid_kishoreganj (117).wav 	 তলর বাঙ্গে না অইছে? হ যুদি আব্বা তারফরে হেইনো বাত আছিন। হেনো কন ও? হ্যাঁডা আমরা বাইত। তর বাইত্বার নাইম্মা ফরছে। অহন আদিবারা ও বাইঙ্গালচে কেরে আমি যে আমরা যেন নাইগা আদিবা না আমারে গ্যাছে হেডতাছে। আদিবা তর লাইজ্ঞা ফেট তুলতাছে? হ


 41%|[32m████████████▎                 [0m| 701/1703 [29:57<45:49,  2.74s/it][0m

 701/1703 valid_kishoreganj (167).wav 	 একটা, একটা ছ্যাড়া নেয়া ফরে। আ বিল্লাল না কইলেও দালা ডাক্তারের বাড়ির কতা কইয়া দিলে, এও বাড়ির কতা কইলেই এইযে আরাফারি। যেন এই কইলেই দিলে এইডা বাড়ি কুনডা?


 44%|[32m█████████████▏                [0m| 751/1703 [31:45<26:24,  1.66s/it][0m

 751/1703 valid_narail (8).wav 	 না ওইযে মিশিব বাবু ছালের দারে দেছেলো। ও কয়ে দেছে আরি ���তাইয়ে দেবেনে। কালকে দেবেনে তাই কইছে।


 47%|[32m██████████████                [0m| 801/1703 [33:24<40:05,  2.67s/it][0m

 801/1703 valid_narail (58).wav 	 মাসিদ্মে এই ফিলিস্ট খাওয়াদো ফিলিস্ট খাইতি তো জামাই যে ছিল্লা-ফিল্লা আত্তিছে খাওয়ানির জন্নে। ওগে তো খাম অতে। খাপনার তো খাপনা। ও মিস্টি না খালি কি টেস্ট। আবার ও খাবার কে জানস ওয়াবের মানুষ দেহি যে লুডুস থাই রান্না করিন খাইয়্যা।


 50%|[32m██████████████▉               [0m| 851/1703 [35:25<36:12,  2.55s/it][0m

 851/1703 valid_narail (108).wav 	 আমাগে জোতমতে আমরা গরি আসি। সেডাই। ওই যে দেখার পরের লোক দেখা পরান্তি নেয়া আসপারে না। তোমার না কি অরে জানিস? রঘ্গুনার বইন? এহন আছে পেশাইম চেয়ার মানে ওই ওয়াইসতে লোক ওই গেলে আটে গেইয়ে পিটাইজে লোক যায়।


 53%|[32m███████████████▊              [0m| 901/1703 [37:34<40:49,  3.05s/it][0m

 901/1703 valid_narail (158).wav 	 তাইলে ভালো অইছে সুন্দর। তো চাইর লোক ই নিছি। মোটে তো ওইন্তে আর তোগো বারো কোফিনে আসছে মানে একশো টাহা দেয়। ভালো অইলে ভালো অবো না। আর চাইর আনা খালি সময় ভাইছে। হয়। এ আমার সাথেই ভাইছে গা। আমার সাথেই ভাইছে গা। আমার সাথেই ভাইছে।


 56%|[32m████████████████▊             [0m| 951/1703 [39:36<33:20,  2.66s/it][0m

 951/1703 valid_narsingdi (20).wav 	 যে বেগুনের ইলিশ এখন আমার মামি আছে, তো মামির কাছ থিকা শুনি অন্য কিছু। মামি আফনের নামডা আগে কল। হইসো মেক্তার। হচ্ছে মামি গৃহিনী। আচ্ছা মামি আফনের পছন্দের একটা খাবার কি? বিরিয়ানি। বিরিয়ানি। সে তাইলে মামির কাছ থিকা বিরিয়ানির ওইছি বিদায়


 59%|[32m█████████████████            [0m| 1001/1703 [41:55<32:49,  2.81s/it][0m

1001/1703 valid_narsingdi (70).wav 	 ওহ, সিমেরটা খুব ভাল্লাগে। অলা খুব ভাল্লাগে। সিমের বেচ্চি এডা আমার খুব পাছন্দে। এগুলা দিয়া ফরে ডাউল দিয়া। দেইক্কা আমি কইতাম না কি? ডাউল দিয়া। ডাউলহা, ডাউল দিয়া, ডাউলের উফরে সবজি দিয়া, ইয়ারফরে দালা কিছু কোন মোটলা দিয়া, আদা মোটলা আছা স�


 62%|[32m█████████████████▉           [0m| 1051/1703 [44:28<35:59,  3.31s/it][0m

1051/1703 valid_narsingdi (120).wav 	 এলিগার মায়া নাইগা দিয়া আয়বো কেডা? আস্তালিফিয়া কর কি কইলচে আরে ভাই আইয়া আমারে কইতাছে কয় তোমগো ঘর দোতালাত যাই গ্যাস এল্লা আইন্দা হেইডা নিস্তালত দিয়া লও কেলিগা? হেরা আইবো হ দেখ বাস কইরা অইছে না কি? মোগো মানুষ কম। এ দেখ বাস কইরা তুমি ম


 65%|[32m██████████████████▋          [0m| 1101/1703 [46:50<31:04,  3.10s/it][0m

1101/1703 valid_rangpur (31).wav 	 যে মুই বিরিজমের খাইছোং। ম্যাচ নাই বাউ। ম্যাচ যে ম্যাচ নাই, ম্যাচ ওই দোকানদার থাকি না ওবাল দিয়ে। তা সেটায় কবার ছালু যে এতসুন তো জায়গা খেন নাম খেন কিন্তু নাম খেনো কোনো উন্নতি কিছু নাই। রাস্তা খেন ওই এমন কাঁচার কাঁচা। মদি মানুষ টিক হইছ


 68%|[32m███████████████████▌         [0m| 1151/1703 [49:17<25:22,  2.76s/it][0m

1151/1703 valid_rangpur (81).wav 	 নামাজের পরাবর্কীর মোর সাথে হইলো দোকানের হইলো খরশত যে দোকানটা আছিল আর হ্যা। ওইটা আইজকা মিলাদ হইবে নামাজের পরায় দাওয়াত গেছে। কাহিনি চেলা। মোর সাথে দোকান দরবো ওডা।


 71%|[32m████████████████████▍        [0m| 1201/1703 [51:09<17:51,  2.13s/it][0m

1201/1703 valid_rangpur (131).wav 	 কোনো কিছু নিস না। না হোক। তো ভালো থাকিস। আর ধরো ভাই এর চলাছের পরে করিস, দিনকাল খুব খারাপ। এই সময় ভালোভাবে চলা করা করা লাগবে। বুজিস নাই? অঅ। তো আচ্ছা ঠিক আছে তাইলে হ্যাঁ? আচ্ছা। আমার থাকিস আইসুম কাইলে এহন।


 73%|[32m█████████████████████▎       [0m| 1251/1703 [53:53<22:19,  2.96s/it][0m

1251/1703 valid_sylhet (49).wav 	 উত্তো বেশি যেলা ভাবতাম উত্তো বেশি ফ্যাসিলিটিস নাই সবদিক দিয়া বাট তাউক অন্য বার্সিটির তলে নাই বালা আছিন। আমার বার্সিটির তো সবদিক আছিন না খয়জন আছোইন খুবই তেরা। তার লাগি উতচয়লি প্যারা লাগে। আর খয়জন টিচ্ারের লাগি আসলেউ বালা লাগে।


 76%|[32m██████████████████████▏      [0m| 1301/1703 [56:15<18:56,  2.83s/it][0m

1301/1703 valid_sylhet (99).wav 	 তুমি ইতান এক্সপেকটেশন লাইগগা লাব কিতা? আজাউ হতারারতা, এক্সপেকটেশন বেশি, এক্সপেকটেশন বেশি। আর নিজেইতে বুজি রান্নারে কিতা খরমু? আর তুমি আশা খরি বইয়া তাখছো আমারে ফ্রেম-ট্রেম কিতা খরমু? কি এখটা ফত আর ইলা হারস্থাত।


 79%|[32m███████████████████████      [0m| 1351/1703 [59:06<23:44,  4.05s/it][0m

1351/1703 valid_sylhet (149).wav 	 কিন্তু এখনকার ইন্টারগুলা মন্তু সব বিটিটিট ফ্রেন্ট। এখনকার ইন্টারগুলা কিতা জিসুক্তার একটা ওইয়া গেছে মনে মনে। যে মনে মনে খইছুক্তা আমরা ছ�িরি খরতাম ছাইরাম। বাট আসলে ইগু খতটুকু আমরা শেষ বেশি ওইতাম পারে ইটা আমি দিম না। আমরা সবারও লাইচিও ওয় না। টিক আছে তারফরেও বন্দু, দিছিস লাইফ। আজকু যে সময়টারে বাদ খইরাম, দশ বছর ফরেও সময়টারের লাগিও খ���স্তা ওইমো ইটাখান হামো লাইফ আরেকটাও বুচ্ছসনারে বন্দু।


 82%|[32m██████████████████████▏    [0m| 1401/1703 [1:02:00<21:17,  4.23s/it][0m

1401/1703 valid_sylhet (199).wav 	 মাইনষোর দেশো এম্নে, ইনো যে সরমা খাইনা নি একটু বিশ টেখা কিতা যে, ওমার খালি সবদিগ চুলতো না। ইনো একটা ফাইও দেয় না। আগে আছিল হিসেন্ট এম্নে খাইছি কিচ্চু ফাইছি না, মানুষ অংছে। আর রমপুরে আশি টেখা যাই তোমার ইয়ো তাইলাম। সরমা খাইছে স্টাব টেআমি খই যে হিসাব আমরার ইয়ো ফ্রেন্ড গেলো এখন মাইর া। এখন এ লাস্ট এর থেকে। লাস্ট এর ডিম নাই আমি খই জানি গা। টাম কিন্তু খম। অ�য় তুমার আরোক


 85%|[32m███████████████████████    [0m| 1451/1703 [1:04:18<13:15,  3.16s/it][0m

1451/1703 valid_sylhet (249).wav 	 ইনো আওয়ার বাদে মানে ফুরা বুজা গেছে যে স্টুডেন্ট আরজি টিচার মানে এক্সপিরেন্স মানে ফুরা অপজিল। আমরা যে আমরা স্টুডেন্ট টিচার অখলরে যাইলাম দেতাম। ইনো আওয়ার বাদে একটু ইজিটেশন ফির ওইছে। খারণ ওইলো গিয়া আমরার টিচার এখন আমরার কোয়েলিগে


 88%|[32m███████████████████████▊   [0m| 1501/1703 [1:06:50<10:55,  3.25s/it][0m

1501/1703 valid_sylhet (299).wav 	 ই কনসেপ্টো আছলো না, ফরিছয় কাইছতো আমার ফ্রাণেই ওত্তিকাশানা গিয়া খরতে। তে তোরে নিয়া গেছো মাইঝে কিতা বিত্রাগাছ্না আছেনি? কুন জিগাইতা খরবোনি? ওইতো ফারে। আমি মানুষ বালা অইলে, আমি তো ফয়লা বিত্রাগাছ্না খরতাম। আমার যুগ মানুষ খলা লাগে। ই


 91%|[32m████████████████████████▌  [0m| 1551/1703 [1:09:09<06:37,  2.62s/it][0m

1551/1703 valid_sylhet (349).wav 	 সাকিব আমার সাতে অইলোনে। হে আলামিলা বর্তি খইলাম তো বেশি বুজি যাই দেহিস। ওহ! নাইলি বাটি তো বয়স আছে। তারা যে বুল ইস্কুলো অইতো ফারে, না? হুম। আমার সাতে তার জন্মদ্য আমার সাতে নয়ই অফ দইয়া থায়। ওহ।


 94%|[32m█████████████████████████▍ [0m| 1601/1703 [1:11:36<05:08,  3.03s/it][0m

1601/1703 valid_tangail (30).wav 	 তারা থেকে আলুক খুঁইতাছি একটু লম্বা কারে। লেস্ট বিশিস্টো তারা হে আমার মনে ফরছে। হাদিস আছে একটা লেস্ট বিশিস্টো তারাও কতা খাইছে। এই তারা না। কিতা যেল্ লেস তো আমরা দেখি নাই তারার। না, না দালাই ইটাও তো অবশ্যই না। আমি খইলাম চাদিন যেনে কি�


 97%|[32m██████████████████████████▏[0m| 1651/1703 [1:14:10<02:33,  2.95s/it][0m

1651/1703 valid_tangail (80).wav 	 হ্যা, তো দিনে মনে করো যে মিনিমাম সাতটুক আদুস না করে টাইম দিতে অইয়া লাগবো, পথম কিনছে আমার, চিটাই অইয়া লাগবো। হ, টাইম তো দেহাই লাগবো। হ্যা, তো এইডাই অইলো নাই। তো আসার মইদ্যে থুইয়া শুরু কর।


100%|[32m██████████████████████████▉[0m| 1701/1703 [1:16:23<00:04,  2.28s/it][0m

1701/1703 valid_tangail (130).wav 	 কয়ডা বাজে? মেলা টাইম আছে। তরে কয়ডাই আমো? সমস্যা নাই। তুই কি করবি এহন? আমি দেহি একটু রুডির আনবার মন চাই। তাইলে যাইয়া রান্না করমু।


100%|[32m███████████████████████████[0m| 1703/1703 [1:16:27<00:00,  2.69s/it][0m


In [None]:
sub_df = pd.DataFrame()
sub_df["id"] = ids
sub_df["sentence"] = preds
sub_df.to_csv("submission.csv", index=False)
sub_df.head(20)