In [1]:
import torch
import kenlm
import ctcdecode
import pickle
import numpy as np

from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, Wav2Vec2CTCTokenizer, Wav2Vec2FeatureExtractor

from datasets import load_from_disk, load_dataset, load_metric

In [2]:
tokenizer = Wav2Vec2CTCTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
feature_extractor = Wav2Vec2FeatureExtractor(feature_size=1, sampling_rate=16000, padding_value=0.0, do_normalize=True, return_attention_mask=True)

processor = Wav2Vec2Processor(feature_extractor=feature_extractor, tokenizer=tokenizer)

model = Wav2Vec2ForCTC.from_pretrained("./wav2vec2-large-xlsr-ger-chris-cut/checkpoint-51000")

In [3]:
vocab_dict = tokenizer.get_vocab()
sort_vocab = sorted((value, key) for (key,value) in vocab_dict.items())
vocab = [x[1].replace("|", " ") if x[1] not in tokenizer.all_special_tokens else "_" for x in sort_vocab]

In [5]:
alpha = 2.5 # LM Weight
beta = 0.0 # LM Usage Reward
word_lm_scorer = ctcdecode.WordKenLMScorer('train.arpa', alpha, beta) # use your own kenlm model

decoder = ctcdecode.BeamSearchDecoder(
    vocab,
    num_workers=4,
    beam_width=128,
    scorers=[word_lm_scorer],
    cutoff_prob=np.log(0.000001),
    cutoff_top_n=40
)

found 1gram
found 2gram


In [5]:
results51 = load_from_disk("res51_full_log")

In [6]:
test_sampled = load_from_disk("/media/chris/TheFlash/Master/data/test_sampled")

In [6]:
select_index = []
for i in range(200):
    select_index.append(i)

In [7]:
results51_small = results51.select(select_index)

In [8]:
results51_small.shape

(200, 5)

In [15]:
def infer_lm(batch, word_lm_scorer, vocabulary):
    from ctcdecode.prefix import State
    import numpy as np

    def get_pruned_vocab_indices(log_probs):
        """ Return vocab indices of pruned probabilities of a time step. """

        index_to_prob = [(k, log_probs[k]) for k in range(log_probs.shape[0])]
        index_to_prob = sorted(index_to_prob, key=lambda x: x[1], reverse=True)

        if 40 < len(index_to_prob):
            index_to_prob = index_to_prob[:40]

        if np.log(0.000001) < 1.0:
            filtered = []
            for x in index_to_prob:
                if x[1] >= np.log(0.000001):
                    filtered.append(x)
            index_to_prob = filtered

        return [x[0] for x in index_to_prob]

    def decode(probs):
        # Num time steps
        nT = probs.shape[0]

        # Initialize prefixes
        prefixes = State(
            scorers=[word_lm_scorer],
            size=128
        )

        # Iterate over timesteps
        for t in range(nT):
            step_probs = probs[t]
            pruned_step_probs = get_pruned_vocab_indices(step_probs)

            # Iterate over symbols
            for v in pruned_step_probs:
                symbol = vocabulary[v]
                symbol_prob = step_probs[v]

                # Iterate over prefixes
                for prefix in prefixes:

                    # If there is a blank, we extend the existing prefix
                    if symbol == '_':
                        prefix.add_p_blank(symbol_prob + prefix.score)

                    else:

                        # If the last symbol is repeated
                        # update the existing prefix
                        if symbol == prefix.symbol:
                            p = symbol_prob + prefix.p_non_blank_prev
                            prefix.add_p_non_blank(p)

                        new_prefix = prefixes.get_prefix(prefix, symbol)

                        if new_prefix is not None:
                            p = -np.inf

                            if symbol == prefix.symbol and \
                                    prefix.p_blank_prev > -np.inf:
                                p = prefix.p_blank_prev + symbol_prob

                            elif prefix.symbol != symbol:
                                p = prefix.score + symbol_prob

                            new_prefix.add_p_non_blank(p)

            prefixes.step()

        prefixes.finalize()

        return prefixes.best()

    batch["lm_str"] = decode(np.asarray(batch["lm_raw"]))
    return batch

In [26]:
import time
start = time.time()
results51_small = results51_small.map(infer_lm, fn_kwargs=dict(word_lm_scorer=word_lm_scorer, vocabulary=vocab), num_proc=4)
end = time.time()
print(end - start)

412.7289090156555


In [32]:
print(len(results51))

15588


In [None]:
from datasets import Dataset
batch_size = 2000
dataset_length = len(results51)

for i in range(0, dataset_length, batch_size):
    chunk = Dataset.from_dict(results51[i:i+batch_size])
    chunk = chunk.map(infer_lm, fn_kwargs=dict(word_lm_scorer=word_lm_scorer, vocabulary=vocab), num_proc=4)
    chunk.save_to_disk("lm_data/chunk" + str(i) + "_" + str(i+batch_size))

In [None]:
import glob

cv_sampled_test = load_from_disk("lm_data/chunk0_2000")

for file_name in glob.iglob("cv_sampled/chunk*"):
    if(file_name =="cv_sampled/data_0_5000"):
        i= 0
        # do nothing
    else:
        print(file_name)
        cv_batch = load_from_disk(file_name)
        cv_sampled_test = concatenate_datasets([cv_sampled_test, cv_batch])   

In [18]:
from datasets import ClassLabel
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    display(HTML(df.to_html()))

In [27]:
show_random_elements(results51_small.remove_columns(["speech", "sampling_rate", "lm_raw"]))

Unnamed: 0,lm_str,pred_str,target_text
0,diese aneignung vollzieht sich vielfach auf der grundlage eingeführte esoterischer vorstellungen,diese aneignung vollzieht sieh vielfach auf der grundlage eingeführter esotherischer vorstellungen,diese aneignung vollzieht sich vielfach auf der grundlage eingeführter esoterischer vorstellungen
1,außerdem gibt es ein röhrenwerk und betriebe der bauwirtschaft,außerdem gibt es ein röhrenwerk und betriebe der bauwirtschaft,außerdem gibt es ein röhrenwerk und betriebe der bauwirtschaft
2,der empfänger erhält also ein möglicherweise verändertes wort,der empfänger erhält also ein möglicherweise verändertes wort,der empfänger erhält also ein möglicherweise verändertes wort
3,trank im laven,trankt im naven,rang im norden
4,die reaktion von weißem phosphor mit sauerstoff ist stark exotherm,die reaktion von weißem phosphuar mit sauerstoff ist stark exotern,die reaktion von weißem phosphor mit sauerstoff ist stark exotherm
5,der datenschutz ist gewährleistet,der datenschutz ist gewährleistet,der datenschutz ist gewährleistet
6,sinus folge leisten,simus folgeleistenst,sie muss folge leisten
7,platz besitzt einen bahnhof wanten bahnstrecken rostock neustrelitz und platz güstrow,plaz besitzt einen bahnhof wantenwahnstreckenrostock neustrelitz und plazgüstrow,plaaz besitzt einen bahnhof an den bahnstrecken rostockneustrelitz und plaazgüstrow
8,im ort gibt es zwei kirchen und ein herrenhaus,im ort gibt es zwei kirchen und ein herrenhaus,im ort gibt es zwei kirchen und ein herrenhaus
9,die unabhängige schiri kann sich dabei auch gegen die vergabe eines prädikats entscheiden,die unabhängige schwiri kann sich dabei auch gegen die vergabain ds prädikats entschalden,die unabhängige jury kann sich dabei auch gegen die vergabe eines prädikats entscheiden


In [28]:
wer_metric = load_metric("wer")

In [29]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51_small["lm_str"], references=results51_small["target_text"])))

Test WER: 0.204


In [30]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51_small["pred_str"], references=results51_small["target_text"])))

Test WER: 0.237
