In [4]:
import torch
import kenlm
import ctcdecode
import pickle
import numpy as np

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, Wav2Vec2CTCTokenizer, Wav2Vec2FeatureExtractor

from datasets import load_from_disk, load_dataset, load_metric, Dataset, concatenate_datasets

In [5]:
tokenizer = Wav2Vec2CTCTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
feature_extractor = Wav2Vec2FeatureExtractor(feature_size=1, sampling_rate=16000, padding_value=0.0, do_normalize=True, return_attention_mask=True)

processor = Wav2Vec2Processor(feature_extractor=feature_extractor, tokenizer=tokenizer)

model = Wav2Vec2ForCTC.from_pretrained("./wav2vec2-large-xlsr-ger-chris/checkpoint-51000")

In [None]:
vocab_dict = tokenizer.get_vocab()
sort_vocab = sorted((value, key) for (key,value) in vocab_dict.items())
vocab = [x[1].replace("|", " ") if x[1] not in tokenizer.all_special_tokens else "_" for x in sort_vocab]

In [5]:
alpha = 2.5 # LM Weight
beta = 0.0 # LM Usage Reward
word_lm_scorer = ctcdecode.WordKenLMScorer('train.arpa', alpha, beta) # use your own kenlm model

decoder = ctcdecode.BeamSearchDecoder(
    vocab,
    num_workers=4,
    beam_width=128,
    scorers=[word_lm_scorer],
    cutoff_prob=np.log(0.000001),
    cutoff_top_n=40
)

found 1gram
found 2gram


In [3]:
results51 = load_from_disk("res51_full_log")

NameError: name 'load_from_disk' is not defined

In [6]:
test_sampled = load_from_disk("/media/chris/TheFlash/Master/data/test_sampled")

In [6]:
select_index = []
for i in range(200):
    select_index.append(i)

In [7]:
results51_small = results51.select(select_index)

In [8]:
results51_small.shape

(200, 5)

In [15]:
def infer_lm(batch, word_lm_scorer, vocabulary):
    from ctcdecode.prefix import State
    import numpy as np

    def get_pruned_vocab_indices(log_probs):
        """ Return vocab indices of pruned probabilities of a time step. """

        index_to_prob = [(k, log_probs[k]) for k in range(log_probs.shape[0])]
        index_to_prob = sorted(index_to_prob, key=lambda x: x[1], reverse=True)

        if 40 < len(index_to_prob):
            index_to_prob = index_to_prob[:40]

        if np.log(0.000001) < 1.0:
            filtered = []
            for x in index_to_prob:
                if x[1] >= np.log(0.000001):
                    filtered.append(x)
            index_to_prob = filtered

        return [x[0] for x in index_to_prob]

    def decode(probs):
        # Num time steps
        nT = probs.shape[0]

        # Initialize prefixes
        prefixes = State(
            scorers=[word_lm_scorer],
            size=128
        )

        # Iterate over timesteps
        for t in range(nT):
            step_probs = probs[t]
            pruned_step_probs = get_pruned_vocab_indices(step_probs)

            # Iterate over symbols
            for v in pruned_step_probs:
                symbol = vocabulary[v]
                symbol_prob = step_probs[v]

                # Iterate over prefixes
                for prefix in prefixes:

                    # If there is a blank, we extend the existing prefix
                    if symbol == '_':
                        prefix.add_p_blank(symbol_prob + prefix.score)

                    else:

                        # If the last symbol is repeated
                        # update the existing prefix
                        if symbol == prefix.symbol:
                            p = symbol_prob + prefix.p_non_blank_prev
                            prefix.add_p_non_blank(p)

                        new_prefix = prefixes.get_prefix(prefix, symbol)

                        if new_prefix is not None:
                            p = -np.inf

                            if symbol == prefix.symbol and \
                                    prefix.p_blank_prev > -np.inf:
                                p = prefix.p_blank_prev + symbol_prob

                            elif prefix.symbol != symbol:
                                p = prefix.score + symbol_prob

                            new_prefix.add_p_non_blank(p)

            prefixes.step()

        prefixes.finalize()

        return prefixes.best()

    batch["lm_str"] = decode(np.asarray(batch["lm_raw"]))
    return batch

In [26]:
import time
start = time.time()
results51_small = results51_small.map(infer_lm, fn_kwargs=dict(word_lm_scorer=word_lm_scorer, vocabulary=vocab), num_proc=4)
end = time.time()
print(end - start)

412.7289090156555


In [32]:
print(len(results51))

15588


In [2]:
from datasets import Dataset
batch_size = 2000
dataset_length = len(results51)

for i in range(0, dataset_length, batch_size):
    chunk = Dataset.from_dict(results51[i:i+batch_size])
    chunk = chunk.map(infer_lm, fn_kwargs=dict(word_lm_scorer=word_lm_scorer, vocabulary=vocab), num_proc=4)
    chunk.save_to_disk("lm_res51/full_full_chunks/chunk" + str(i) + "_" + str(i+batch_size))

NameError: name 'results51' is not defined

In [13]:
import glob

res51 = load_from_disk("lm_data/chunk0_2000")

for file_name in glob.iglob("lm_data/chunk*"):
    if(file_name =="lm_data\chunk0_2000"):
        i= 0
        # do nothing
    else:
        print(file_name)
        res_chunk = load_from_disk(file_name)
        res51 = concatenate_datasets([res51, res_chunk])   

lm_data\chunk4000_6000
lm_data\chunk2000_4000


In [14]:
len(res51)

6000

In [15]:
from datasets import ClassLabel
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    display(HTML(df.to_html()))

In [16]:
show_random_elements(res51.remove_columns(["speech", "sampling_rate", "lm_raw"]))

Unnamed: 0,lm_str,pred_str,target_text
0,lass dich nudeln,lass dich knuddeln,lass dich knuddeln
1,vielen dank für dein interesse an unserer studie,vielen dank für dein interesse an unserer studie,vielen dank für dein interesse an unserer studie
2,im ergebnis war berwiegend die kandidatin der republikanischen partei erfolgreich,im ergebnis war eberwiegend die kandidatin der republikamischingpartei erfolgreich,im ergebnis waren überwiegend die kandidaten der republikanischen partei erfolgreich
3,eine weitere therapieoptionen die lebertransplantation ist möglich frühzeitig anzustreben,eine weitere therapieoption die lebertransplantation ist möglich frühzeitig anzustreben,eine weitere therapieoption die lebertransplantation ist möglichst frühzeitig anzustreben
4,sie lebt in der nähe von tel aviv,sie lebt in der nähe von tel avive,sie lebt in der nähe von tel aviv
5,nähere angaben zur todesursache gab es nicht,nähere angaren zur todesursere gab es nicht,nähere angaben zur todesursache gab es nicht
6,das sind die regel,das sind die regel,das sind die regeln
7,diese partei kann man nicht wählen weil sie durch und durch korrupt ist,diese partei kann man nicht wählen weil sie durch und durch korrupt ist,diese partei kann man nicht wählen weil sie durch und durch korrupt ist
8,damals war merz noch unter preußischer verwaltung,damals war mörs noch unter preußischer verwaltung,damals war moers noch unter preußischer verwaltung
9,neptun ist der gott des meeres,naptun ist der gott des mäeres,neptun ist der gott des meeres


In [18]:
wer_metric = load_metric("wer")

In [20]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=res51["lm_str"], references=res51["target_text"])))

Test WER: 0.148


In [19]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=res51["pred_str"], references=res51["target_text"])))

Test WER: 0.171


In [22]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51["pred_str"], references=results51["target_text"])))

Test WER: 0.148
