In [1]:
import re
import pandas as pd


colnames = ['file', 'phrase']
df = pd.read_csv('content/ne_np_female/line_index.tsv', sep='\t', header=None, names=colnames)
df['path'] = 'content/ne_np_female/wavs/' + df['file'].str.strip() + ".wav"

In [2]:
df

Unnamed: 0,file,phrase,path
0,nep_0258_0119737288,दीपा धामीको जन्म सुदूरपश्चिम नेपालको बझाङ जिल्...,content/ne_np_female/wavs/nep_0258_0119737288.wav
1,nep_0258_0461984530,डिग्रा देवीको जन्म सुदूरपश्चिम नेपालको बझाङ जि...,content/ne_np_female/wavs/nep_0258_0461984530.wav
2,nep_0258_0576399736,टेकबहादुर ऐरको जन्म सुदूरपश्चिम नेपालको डडेलधु...,content/ne_np_female/wavs/nep_0258_0576399736.wav
3,nep_0258_0707220145,सुमन शेखरमानन्धर नेपालको कृषि अर्थविद् तथा गाय...,content/ne_np_female/wavs/nep_0258_0707220145.wav
4,nep_0258_0838627393,आधिकारिक रूपमा पहिलो नेपाली चलचित्र नायक शिव श...,content/ne_np_female/wavs/nep_0258_0838627393.wav
...,...,...,...
2059,nep_9407_9451979543,यहाँका अधिकांश जनता कृषिमै आधारित छन्,content/ne_np_female/wavs/nep_9407_9451979543.wav
2060,nep_9407_9558473002,भीमसेनले किच्चकको बध गरे रगत पखाल्न उनले हानेक...,content/ne_np_female/wavs/nep_9407_9558473002.wav
2061,nep_9407_9632964143,यो पत्रिकाको प्रकाशक लालचन्द्र राजभण्डारी हो,content/ne_np_female/wavs/nep_9407_9632964143.wav
2062,nep_9407_9646005575,कालिङ्पोङमा धेरै राम्रा रेस्टुरेन्ट छन्,content/ne_np_female/wavs/nep_9407_9646005575.wav


In [3]:
from datasets import load_metric, Dataset

In [4]:
req_dataset = Dataset.from_pandas(df)

In [5]:
req_dataset

Dataset({
    features: ['file', 'phrase', 'path'],
    num_rows: 2064
})

In [6]:
import torchaudio

resampler = torchaudio.transforms.Resample(48_000, 16_000)

chars_to_ignore_regex = '[\,\?\.\!\-\;\:\"\।]'

def speech_file_to_array_fn(batch):
    batch["phrase"] = re.sub(chars_to_ignore_regex, '', batch["phrase"]).lower()
    speech_array, sampling_rate = torchaudio.load(batch["path"])
    batch["speech"] = resampler(speech_array).squeeze().numpy()

    return batch



In [7]:
req_dataset = req_dataset.map(speech_file_to_array_fn)

HBox(children=(FloatProgress(value=0.0, max=2064.0), HTML(value='')))




In [8]:
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor

model = Wav2Vec2ForCTC.from_pretrained("./models/wav2vec2-xlsr-nepali").to("cuda")
processor = Wav2Vec2Processor.from_pretrained("./models/wav2vec2-xlsr-nepali")

# model = Wav2Vec2ForCTC.from_pretrained("./content/audio-bee-trained-nepali").to("cuda")
# processor = Wav2Vec2Processor.from_pretrained("./content/audio-bee-trained-nepali")

# model = Wav2Vec2ForCTC.from_pretrained("./content/wav2vec2-nepali-openslr-54_10000").to("cuda")
# processor = Wav2Vec2Processor.from_pretrained("./content/wav2vec2-nepali-openslr-54_10000")

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [9]:
import torch
def evaluate(batch):
    inputs = processor(batch["speech"], sampling_rate=16_000, return_tensors="pt", padding=True)

    with torch.no_grad():
        logits = model(inputs.input_values.to("cuda"), attention_mask=inputs.attention_mask.to("cuda")).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_strings"] = processor.batch_decode(pred_ids)[0]
    return batch

In [10]:
import datasets

['accuracy',
 'bertscore',
 'bleu',
 'bleurt',
 'cer',
 'comet',
 'coval',
 'cuad',
 'f1',
 'gleu',
 'glue',
 'indic_glue',
 'matthews_correlation',
 'meteor',
 'pearsonr',
 'precision',
 'recall',
 'rouge',
 'sacrebleu',
 'sari',
 'seqeval',
 'spearmanr',
 'squad',
 'squad_v2',
 'super_glue',
 'wer',
 'xnli']

In [11]:
result = req_dataset.map(evaluate)

HBox(children=(FloatProgress(value=0.0, max=2064.0), HTML(value='')))




In [12]:
result = result.remove_columns(["speech"])

In [13]:
output_df = result.to_pandas()

In [14]:
output_df

Unnamed: 0,file,path,phrase,pred_strings
0,nep_0258_0119737288,content/ne_np_female/wavs/nep_0258_0119737288.wav,दीपा धामीको जन्म सुदूरपश्चिम नेपालको बझाङ जिल्...,दीपा धामीको जन्म सुदूरपश्चिम नेपालको बझाङ जिल्...
1,nep_0258_0461984530,content/ne_np_female/wavs/nep_0258_0461984530.wav,डिग्रा देवीको जन्म सुदूरपश्चिम नेपालको बझाङ जि...,डिग्रा देवीको जन्म सुदूरपश्चिम नेपालको बझाङ जि...
2,nep_0258_0576399736,content/ne_np_female/wavs/nep_0258_0576399736.wav,टेकबहादुर ऐरको जन्म सुदूरपश्चिम नेपालको डडेलधु...,टेकबहादुर आइरको जन्म सुदूरपश्चिम नेपालको डडेलध...
3,nep_0258_0707220145,content/ne_np_female/wavs/nep_0258_0707220145.wav,सुमन शेखरमानन्धर नेपालको कृषि अर्थविद् तथा गाय...,सुमन शेखरमानन्धर नेपालको कृषि अर्थविद् तथा गाय...
4,nep_0258_0838627393,content/ne_np_female/wavs/nep_0258_0838627393.wav,आधिकारिक रूपमा पहिलो नेपाली चलचित्र नायक शिव श...,आधिकारिक रूपमा पहिलो नेपाली चलचित्र नायक शिव श...
...,...,...,...,...
2059,nep_9407_9451979543,content/ne_np_female/wavs/nep_9407_9451979543.wav,यहाँका अधिकांश जनता कृषिमै आधारित छन्,यहाँका अधिकांश जनता कृषिमै आधारित छन्
2060,nep_9407_9558473002,content/ne_np_female/wavs/nep_9407_9558473002.wav,भीमसेनले किच्चकको बध गरे रगत पखाल्न उनले हानेक...,भिमसिनले किच्चकको बध गरे रगत पखालन उनले हानेको...
2061,nep_9407_9632964143,content/ne_np_female/wavs/nep_9407_9632964143.wav,यो पत्रिकाको प्रकाशक लालचन्द्र राजभण्डारी हो,यो पत्रिकाको प्रकाशक लालचन्द्र राजभण्डारी हो
2062,nep_9407_9646005575,content/ne_np_female/wavs/nep_9407_9646005575.wav,कालिङ्पोङमा धेरै राम्रा रेस्टुरेन्ट छन्,कालिङ्पोङमा धेरै राम्रा रेस्टुरेन्ट छन्


In [15]:
wer = load_metric('wer')
cer = load_metric('cer')

In [16]:
pred = result["pred_strings"]
labels = result["phrase"]

wer = wer.compute(predictions=pred, references=labels)
cer = cer.compute(predictions=pred, references=labels)

print({"wer": wer*100,"cer":cer*100})

{'wer': 0.04350272947267714, 'cer': 0.008396180235789964}
