In [11]:
import torch
from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor, Wav2Vec2CTCTokenizer, Wav2Vec2FeatureExtractor

tokenizer = Wav2Vec2CTCTokenizer("./vocab.json", unk_token="[UNK]", pad_token="[PAD]", word_delimiter_token="|")
feature_extractor = Wav2Vec2FeatureExtractor(feature_size=1, sampling_rate=16000, padding_value=0.0, do_normalize=True, return_attention_mask=True)

processor = Wav2Vec2Processor(feature_extractor=feature_extractor, tokenizer=tokenizer)

model = Wav2Vec2ForCTC.from_pretrained("./wav2vec2-large-xlsr-ger-chris/checkpoint-51000")

In [12]:
def map_to_result(batch):
    
    model.to("cuda")
    input_values = processor(
          batch["speech"], 
          sampling_rate=batch["sampling_rate"], 
          return_tensors="pt"
    ).input_values.to("cuda")

    with torch.no_grad():
        logits = model(input_values).logits

    pred_ids = torch.argmax(logits, dim=-1)
    batch["pred_str"] = processor.batch_decode(pred_ids)[0]

    return batch

In [13]:
from datasets import load_metric

wer_metric = load_metric("wer")

In [14]:
from datasets import load_from_disk, load_dataset

test_sampled = load_from_disk("E:/Master/data/val_sampled")

In [15]:
test_sampled.shape

(15588, 3)

In [16]:
results51 = test_sampled.map(map_to_result)

HBox(children=(FloatProgress(value=0.0, max=15588.0), HTML(value='')))




In [7]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results["pred_str"], references=results["target_text"])))

Test WER: 0.140


In [17]:
print("Test WER: {:.3f}".format(wer_metric.compute(predictions=results51["pred_str"], references=results51["target_text"])))

Test WER: 0.138


In [8]:
from datasets import ClassLabel
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)

    df = pd.DataFrame(dataset[picks])
    display(HTML(df.to_html()))

In [10]:
show_random_elements(results.remove_columns(["speech", "sampling_rate"]))

Unnamed: 0,pred_str,target_text
0,die aufgabe des helden ist es sowohl das buch als auch seinen vater wiederzufinden,die aufgabe des helden ist es sowohl das buch als auch seinen vater wiederzufinden
1,es muss festgestellt werden dass das vorsorgeprinzip hier vernachlässigt wurde,es muss festgestellt werden dass das vorsorgeprinzip hier vernachlässigt wurde
2,diese ermutigt ihn dazu sich wieder der malereizuwidmen,diese ermutigt ihn dazu sich wieder der malerei zu widmen
3,am nördlichen rand des viertels befindet sich das spital der gemeinde,am nördlichen rand des viertels befindet sich das spital der gemeinde
4,am befihl der weichnachtsfeierkragt sie kräftig zu was poba david sehr freut,am buffet der weihnachtsfeier greift sie kräftig zu was papa david sehr freut
5,north diente als experte beim kopenhagen consensus der copenhagan businas school,north diente als experte beim copenhagen consensus der copenhagen business school
6,sie finden in einem jeden jahr im herbst statt,sie finden in einem jeden jahr im herbst statt
7,in wirklichkeit wurde der name australia für den kontinent durch mathew flinders geprägt,in wirklichkeit wurde der name australia für den kontinent durch matthew flinders geprägt
8,zweifellos ist britta eine früh aufsteherin,zweifellos ist britta eine frühaufsteherin
9,david meier ist der zwillingsbur von toni meier,david meyer ist der zwillingsbruder von tony meyer


In [19]:
show_random_elements(results51.remove_columns(["speech", "sampling_rate"]))

Unnamed: 0,pred_str,target_text
0,das geht nicht,das geht nicht
1,die anschrifft hatte jedoch in gewöhnlicher schrift zu erfallen,die anschrift hatte jedoch in gewöhnlicher schrift zu erfolgen
2,eil für uns die frage der durchsetzung von minderheitenrechten außerordentlich wichigi,weil für uns die frage der durchsetzung von minderheitenrechten auerordentlich wichtig ist
3,sehen hören riechen schmecken und tastenfallen wohl jedem ein,sehen hören riechen schmecken und tasten fallen wohl jedem ein
4,der nator last for scottland ist eigentümer,der national trust for scotland ist eigentümer
5,daher habe ich die empfehlungen des berichts befürwortet,daher habe ich die empfehlungen des berichts befürwortet
6,wieso immer ich,wieso immer ich
7,ein seitenlinienorgan ist nicht vorhanden,ein seitenlinienorgan ist nicht vorhanden
8,unguine gibt es nur in der antarktis und im zoo,pinguine gibt es nur in der antarktis und im zoo
9,die tragödie war dorch vorhersehbar,die tragödie war doch vorhersehbar


In [1]:
!pip show transformers

Name: transformers
Version: 4.5.1
Summary: State-of-the-art Natural Language Processing for TensorFlow 2.0 and PyTorch
Home-page: https://github.com/huggingface/transformers
Author: Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Sam Shleifer, Patrick von Platen, Sylvain Gugger, Google AI Language Team Authors, Open AI team Authors, Facebook AI Authors, Carnegie Mellon University Authors
Author-email: thomas@huggingface.co
License: Apache
Location: c:\programdata\anaconda3\lib\site-packages
Requires: filelock, tqdm, regex, tokenizers, numpy, sacremoses, requests, packaging
Required-by: spacy-transformers
