In [1]:
import torch
import kenlm
import ctcdecode
import pickle
import numpy as np
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, Wav2Vec2CTCTokenizer, Wav2Vec2FeatureExtractor

In [2]:
tokenizer = Wav2Vec2CTCTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
feature_extractor = Wav2Vec2FeatureExtractor(feature_size=1, sampling_rate=16000, padding_value=0.0, do_normalize=True, return_attention_mask=True)

processor = Wav2Vec2Processor(feature_extractor=feature_extractor, tokenizer=tokenizer)

model = Wav2Vec2ForCTC.from_pretrained("./wav2vec2-large-xlsr-ger-chris/checkpoint-51000")

In [4]:
vocab_dict = tokenizer.get_vocab()
sort_vocab = sorted((value, key) for (key,value) in vocab_dict.items())
vocab = [x[1].replace("|", " ") if x[1] not in tokenizer.all_special_tokens else "_" for x in sort_vocab]

In [4]:
test_lm = kenlm.Model('lm_data/train.bin')

In [5]:
vocabulary = vocab
alpha = 2.5 # LM Weight
beta = 0.0 # LM Usage Reward
word_lm_scorer = ctcdecode.WordKenLMScorer('lm_data/train.arpa', alpha, beta) # use your own kenlm model

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe4 in position 504: invalid continuation byte

In [6]:
def map_to_result(batch):
    
    model.to("cuda")
    input_values = processor(
          batch["speech"], 
          sampling_rate=batch["sampling_rate"], 
          return_tensors="pt"
    ).input_values.to("cuda")

    with torch.no_grad():
        logits = model(input_values).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_str"] = processor.batch_decode(pred_ids)[0]
    
    batch["lm_raw"] = logits[0].cpu().numpy()
    
    #batch["lm_str"] = decode(logits[0].cpu().numpy())
    
    return batch

In [7]:
from datasets import load_from_disk, load_dataset

test_sampled = load_from_disk("E:/Master/data/test_sampled")

In [8]:
test_sampled.shape

(15588, 3)

In [9]:
results51 = test_sampled.map(map_to_result)

HBox(children=(FloatProgress(value=0.0, max=15588.0), HTML(value='')))




In [10]:
results51.save_to_disk("res51_full_log")

In [6]:
from datasets import load_from_disk, load_dataset

results51 = load_from_disk("res51_full_log")

In [26]:
def infer_lm(batch, word_lm_scorer, vocabulary):
    from ctcdecode.prefix import State
    import numpy as np

    def get_pruned_vocab_indices(log_probs):
        """ Return vocab indices of pruned probabilities of a time step. """

        index_to_prob = [(k, log_probs[k]) for k in range(log_probs.shape[0])]
        index_to_prob = sorted(index_to_prob, key=lambda x: x[1], reverse=True)

        if 40 < len(index_to_prob):
            index_to_prob = index_to_prob[:40]

        if np.log(0.000001) < 1.0:
            filtered = []
            for x in index_to_prob:
                if x[1] >= np.log(0.000001):
                    filtered.append(x)
            index_to_prob = filtered

        return [x[0] for x in index_to_prob]

    def decode(probs):
        # Num time steps
        nT = probs.shape[0]

        # Initialize prefixes
        prefixes = State(
            scorers=[word_lm_scorer],
            size=128
        )

        # Iterate over timesteps
        for t in range(nT):
            step_probs = probs[t]
            pruned_step_probs = get_pruned_vocab_indices(step_probs)

            # Iterate over symbols
            for v in pruned_step_probs:
                symbol = vocabulary[v]
                symbol_prob = step_probs[v]

                # Iterate over prefixes
                for prefix in prefixes:

                    # If there is a blank, we extend the existing prefix
                    if symbol == '_':
                        prefix.add_p_blank(symbol_prob + prefix.score)

                    else:

                        # If the last symbol is repeated
                        # update the existing prefix
                        if symbol == prefix.symbol:
                            p = symbol_prob + prefix.p_non_blank_prev
                            prefix.add_p_non_blank(p)

                        new_prefix = prefixes.get_prefix(prefix, symbol)

                        if new_prefix is not None:
                            p = -np.inf

                            if symbol == prefix.symbol and \
                                    prefix.p_blank_prev > -np.inf:
                                p = prefix.p_blank_prev + symbol_prob

                            elif prefix.symbol != symbol:
                                p = prefix.score + symbol_prob

                            new_prefix.add_p_non_blank(p)

            prefixes.step()

        prefixes.finalize()

        return prefixes.best()

    batch["lm_str"] = decode(np.asarray(batch["lm_raw"]))
    return batch

In [None]:
results51_lm = results51.map(infer_lm, fn_kwargs=dict(word_lm_scorer=word_lm_scorer, vocabulary=vocabulary), num_proc=8)

In [22]:
lm_str = decode(lm_str_raw[0][0])

In [24]:
print(lm_str)

zieht euch bitte draußen die schuhe aus 


In [36]:
from datasets import load_metric

wer_metric = load_metric("wer")

In [None]:
from datasets import load_from_disk, load_dataset

results51_full = load_from_disk("results51_test")
results51_cut = load_from_disk("results51_cut")
results51_full_log = load_from_disk("res51_full_log")

In [38]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51["lm_str"], references=results51["target_text"])))

Test WER: 0.175


In [37]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51["pred_str"], references=results51["target_text"])))
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51["pred_str"], references=results51["target_text"])))
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51["pred_str"], references=results51["target_text"])))

Test WER: 0.219


In [39]:
from datasets import ClassLabel
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    display(HTML(df.to_html()))

In [40]:
show_random_elements(results51.remove_columns(["speech", "sampling_rate"]))

Unnamed: 0,lm_str,pred_str,target_text
0,insgesamt ist der sound etwas zu basslastige,insgesamt ist der sound etwas zu basslastig,insgesamt ist der sound etwas zu basslastig
1,weshalb möchtest du nach bergheim,weshalb möchtest du nach bergheim,weshalb möchtest du nach bergheim
2,wir müssen zwei dinge ganz klar unterscheiden,wir müssen zwei dinge ganz klar unterscheiden,wir müssen zwei dinge ganz klar unterscheiden
3,auflage des wettbewerbs,aufflage des wettbewerbes,auflage des wettbewerbes
4,felipe hat eine auch für monarchen ungewöhnlich lange titelliste,velipe hat eine auch für monarchen ungewöhnlich lange titelliste,felipe hat eine auch für monarchen ungewöhnlich lange titelliste
5,seinen vornamen erhielt er in gedenken an seinem früh verstorbenen onkel,seinen vornamen erhielt er in gedenken an seinem früh verstorbenen onkel,seinen vornamen erhielt er in gedenken an seinen früh verstorbenen onkel
6,was solls ich bin bereit,was solls ich bin bereit,was solls ich bin bereit
7,er wurde zu ehren des reichskanzler otto von bismarck errichtet,er wurde zu ehren des reichskanzlers otto von bismark errichtet,er wurde zu ehren des reichskanzlers otto von bismarck errichtet
8,sie war die cousine von karl maria von weber,sie war die cousine von karlmaria von weber,sie war die cousine von carl maria von weber
9,der uranus ist der siebente planet in unserem sonnensystem,der uranus ist der siebentelplanet in unserem sonnensystem,der uranus ist der siebente planet in unserem sonnensystem
