In [2]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
from datasets import load_from_disk, Audio
import evaluate
import torch

In [3]:
dataset = load_from_disk("processed_dataset")
dataset = dataset.cast_column("audio", Audio())

In [6]:
processor = WhisperProcessor.from_pretrained("openai/whisper-tiny", language='pl')
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")

metric = evaluate.load("wer")

dataset = load_from_disk("processed_dataset")
dataset = dataset.cast_column("audio", Audio())

def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        input_features = example["input_features"]
        if input_features is None:
            continue
        
        reference_ids = example["labels"]
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        input_values = torch.tensor([input_features])
        
        # Use model.generate() for transcription
        pred_ids = model.generate(input_values)
        pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
        
        predictions.append(pred_str)
        references.append(reference_str)
    
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

predictions, references, wer = evaluate_model(dataset)

for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

print(f"Word Error Rate (WER): {wer:.2f}%")

# Word Error Rate (WER): 56.22% without mask

Prediction:  Kiedy studywają pału europejskie zakresu uprawnicy, zakresies w udecydowania, był z pełne inne niż ci.
Reference: Kiedy studiowałem prawo europejskie, zakres uprawnień w zakresie współdecydowania był zupełnie inny niż dziś

Prediction:  Nie umiałbym, w szczerze mówiąc, udzielić odpowiedzi, gdyby zadawą takie pytanie.
Reference: Nie umiałabym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadano mi takie pytanie

Prediction:  Nie rzadko, bo wiem, o wefun dłuższe publiczne znikają w kieszeniach grup przez temczy z koromowanych polityków oraz mafii.
Reference: Nierzadko bowiem owe fundusze publiczne znikają w kieszeniach grup przestępczych, skorumpowanych polityków oraz mafii

Prediction:  Reforma tego rodzaju jest zdecydowanie opóźniona.
Reference: Reforma tego rodzaju jest zdecydowanie opóźniona

Prediction:  Musimy pokazać, że potrafimy chronić zdrowia od wnatali i trwałość środowiska.
Reference: Musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska

P

In [None]:
# Word Error Rate (WER): 56.22% without mask and language specified

In [7]:
processor = WhisperProcessor.from_pretrained("openai/whisper-tiny", language='pl')
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")

metric = evaluate.load("wer")

dataset = load_from_disk("processed_dataset")
dataset = dataset.cast_column("audio", Audio())

def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        input_features = example["input_features"]
        if input_features is None:
            continue
        
        reference_ids = example["labels"]
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        input_values = torch.tensor([input_features])
        attention_mask = torch.ones(input_values.shape, dtype=torch.long)

        # Use model.generate() for transcription
        pred_ids = model.generate(input_values, attention_mask=attention_mask)
        pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
        
        predictions.append(pred_str)
        references.append(reference_str)
    
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

predictions, references, wer = evaluate_model(dataset)

for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

print(f"Word Error Rate (WER): {wer:.2f}%")

# Word Error Rate (WER): 56.22% without mask

Prediction:  Kiedy studywają pału europejskie zakresu uprawnicy, zakresies w udecydowania, był z pełne inne niż ci.
Reference: Kiedy studiowałem prawo europejskie, zakres uprawnień w zakresie współdecydowania był zupełnie inny niż dziś

Prediction:  Nie umiałbym, w szczerze mówiąc, udzielić odpowiedzi, gdyby zadawą takie pytanie.
Reference: Nie umiałabym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadano mi takie pytanie

Prediction:  Nie rzadko, bo wiem, o wefun dłuższe publiczne znikają w kieszeniach grup przez temczy z koromowanych polityków oraz mafii.
Reference: Nierzadko bowiem owe fundusze publiczne znikają w kieszeniach grup przestępczych, skorumpowanych polityków oraz mafii

Prediction:  Reforma tego rodzaju jest zdecydowanie opóźniona.
Reference: Reforma tego rodzaju jest zdecydowanie opóźniona

Prediction:  Musimy pokazać, że potrafimy chronić zdrowia od wnatali i trwałość środowiska.
Reference: Musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska

P

In [8]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch
import evaluate

processor = WhisperProcessor.from_pretrained("openai/whisper-tiny", language='pl')
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")

metric = evaluate.load("wer")


def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        input_features = example["input_features"]
        if input_features is None:
            continue
        
        reference_ids = example["labels"]
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        input_values = torch.tensor([input_features])
        attention_mask = torch.ones(input_values.shape, dtype=torch.long)

        # Use model.generate() for transcription
        pred_ids = model.generate(input_values, attention_mask=attention_mask)
        pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
        
        # Convert both prediction and reference to lowercase
        pred_str = pred_str.lower()
        reference_str = reference_str.lower()
        
        predictions.append(pred_str)
        references.append(reference_str)
    
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

predictions, references, wer = evaluate_model(dataset)

for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

print(f"Word Error Rate (WER): {wer:.2f}%")


Prediction:  kiedy studywają pału europejskie zakresu uprawnicy, zakresies w udecydowania, był z pełne inne niż ci.
Reference: kiedy studiowałem prawo europejskie, zakres uprawnień w zakresie współdecydowania był zupełnie inny niż dziś

Prediction:  nie umiałbym, w szczerze mówiąc, udzielić odpowiedzi, gdyby zadawą takie pytanie.
Reference: nie umiałabym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadano mi takie pytanie

Prediction:  nie rzadko, bo wiem, o wefun dłuższe publiczne znikają w kieszeniach grup przez temczy z koromowanych polityków oraz mafii.
Reference: nierzadko bowiem owe fundusze publiczne znikają w kieszeniach grup przestępczych, skorumpowanych polityków oraz mafii

Prediction:  reforma tego rodzaju jest zdecydowanie opóźniona.
Reference: reforma tego rodzaju jest zdecydowanie opóźniona

Prediction:  musimy pokazać, że potrafimy chronić zdrowia od wnatali i trwałość środowiska.
Reference: musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska

P

In [9]:
processor = WhisperProcessor.from_pretrained("openai/whisper-base", language='pl')
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")

metric = evaluate.load("wer")

def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        input_features = example["input_features"]
        if input_features is None:
            continue
        
        reference_ids = example["labels"]
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        input_values = torch.tensor([input_features])
        
        # Use model.generate() for transcription
        pred_ids = model.generate(input_values)
        pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
        
        predictions.append(pred_str)
        references.append(reference_str)
    
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

predictions, references, wer = evaluate_model(dataset)

for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

print(f"Word Error Rate (WER): {wer:.2f}%")

# Word Error Rate (WER): 56.22% without mask

Prediction:  Kiedy studiowałem prawa europejskie za kresu oprawnej zakresie współdecydowania był zupełnie inne niż dziś.
Reference: Kiedy studiowałem prawo europejskie, zakres uprawnień w zakresie współdecydowania był zupełnie inny niż dziś

Prediction:  Nie umiałbym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadaną mi takie pytanie.
Reference: Nie umiałabym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadano mi takie pytanie

Prediction:  Nierzadko powiem o we Fundusze publiczne znikają w kieszeniach grup przestępczych z korumpowanych polityków oraz mafi.
Reference: Nierzadko bowiem owe fundusze publiczne znikają w kieszeniach grup przestępczych, skorumpowanych polityków oraz mafii

Prediction:  Reformat tego rodzaju jest zdecydowanie okuśniona.
Reference: Reforma tego rodzaju jest zdecydowanie opóźniona

Prediction:  Musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska.
Reference: Musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska



In [10]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch
import evaluate

processor = WhisperProcessor.from_pretrained("openai/whisper-small", language='pl')
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")

metric = evaluate.load("wer")


def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        input_features = example["input_features"]
        if input_features is None:
            continue
        
        reference_ids = example["labels"]
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        input_values = torch.tensor([input_features])
        attention_mask = torch.ones(input_values.shape, dtype=torch.long)

        # Use model.generate() for transcription
        pred_ids = model.generate(input_values, attention_mask=attention_mask)
        pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
        
        # Convert both prediction and reference to lowercase
        pred_str = pred_str.lower()
        reference_str = reference_str.lower()
        
        predictions.append(pred_str)
        references.append(reference_str)
    
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

predictions, references, wer = evaluate_model(dataset)

for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

print(f"Word Error Rate (WER): {wer:.2f}%")


Prediction:  kiedy studiowałem prawa europejskie za kresu oprawnej zakresie współdecydowania był zupełnie inne niż dziś.
Reference: kiedy studiowałem prawo europejskie, zakres uprawnień w zakresie współdecydowania był zupełnie inny niż dziś

Prediction:  nie umiałbym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadaną mi takie pytanie.
Reference: nie umiałabym, szczerze mówiąc, udzielić odpowiedzi, gdyby zadano mi takie pytanie

Prediction:  nierzadko powiem o we fundusze publiczne znikają w kieszeniach grup przestępczych z korumpowanych polityków oraz mafi.
Reference: nierzadko bowiem owe fundusze publiczne znikają w kieszeniach grup przestępczych, skorumpowanych polityków oraz mafii

Prediction:  reformat tego rodzaju jest zdecydowanie okuśniona.
Reference: reforma tego rodzaju jest zdecydowanie opóźniona

Prediction:  musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska.
Reference: musimy pokazać, że potrafimy chronić zdrowie obywateli i trwałość środowiska



In [4]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch
import evaluate
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset

processor = WhisperProcessor.from_pretrained("openai/whisper-large-v3-turbo", language='pl')
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v3-turbo")

metric = evaluate.load("wer")


def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        input_features = example["input_features"]
        if input_features is None:
            continue
        
        reference_ids = example["labels"]
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        input_values = torch.tensor([input_features])
        attention_mask = torch.ones(input_values.shape, dtype=torch.long)

        # Use model.generate() for transcription
        pred_ids = model.generate(input_values, attention_mask=attention_mask)
        pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)[0]
        
        # Convert both prediction and reference to lowercase
        pred_str = pred_str.lower()
        reference_str = reference_str.lower()
        
        predictions.append(pred_str)
        references.append(reference_str)
    
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

predictions, references, wer = evaluate_model(dataset)

for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

print(f"Word Error Rate (WER): {wer:.2f}%")


Due to a bug fix in https://github.com/huggingface/transformers/pull/28687 transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English.This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`.


RuntimeError: Given groups=1, weight of size [1280, 128, 3], expected input[1, 80, 3000] to have 128 channels, but got 80 channels instead

In [5]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_from_disk, Audio
import evaluate

# Check device availability
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# Load model and processor
model_id = "openai/whisper-large-v3-turbo"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)

# Initialize pipeline
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)

# Load dataset
dataset = load_from_disk("processed_dataset")
dataset = dataset.cast_column("audio", Audio())

# Initialize evaluation metric
metric = evaluate.load("wer")

# Evaluation function
def evaluate_model(dataset):
    predictions = []
    references = []
    
    for example in dataset:
        # Extract audio and reference transcription
        audio = example["input_features"]
        reference_ids = example["labels"]
        
        # Decode the reference transcription
        reference_str = processor.tokenizer.decode(reference_ids, skip_special_tokens=True)
        
        # Run the audio through the pipeline
        result = pipe(audio["array"])
        pred_str = result["text"]
        
        # Normalize for WER calculation (e.g., convert to lowercase)
        pred_str = pred_str.lower().strip()
        reference_str = reference_str.lower().strip()
        
        # Append to lists for metric computation
        predictions.append(pred_str)
        references.append(reference_str)
    
    # Compute Word Error Rate
    wer = 100 * metric.compute(predictions=predictions, references=references)
    return predictions, references, wer

# Run evaluation
predictions, references, wer = evaluate_model(dataset)

# Print predictions and references
for pred, ref in zip(predictions, references):
    print(f"Prediction: {pred}")
    print(f"Reference: {ref}")
    print()

# Print final WER
print(f"Word Error Rate (WER): {wer:.2f}%")


KeyboardInterrupt: 

In [None]:
for example in dataset:
    audio = example["input_features"]
    print(audio)