## 2 Model Baseline

This notebook will get the baseline WER and CER scores for Romansh. For this the test set of the Sursilvan idiom will be decoded with both OpenAI's Whisper and Meta's Omnilingual. While Whisper is not trained on Romansh, Omnilingual is trained on Sursilvan.

In [None]:
import os
import torch
import whisper
import pandas as pd
import numpy as np
from omnilingual_asr.models.inference.pipeline import ASRInferencePipeline
from omnilingual_asr.models.wav2vec2_llama.lang_ids import supported_langs
from tqdm import tqdm
from jiwer import wer, cer

DATA_PATH = "romansh-data/sursilvan-mini/"
WHISPER_MODEL = "medium"
OMNILINGUAL_MODEL = "omniASR_CTC_1B_v2"
LANGUAGE_CODE = "roh_Latn_surs1244"
BATCH_SIZE = 8
NUM_TEST_SAMPLES = None

print("="*60)
print("Combined ASR Baseline: Whisper vs Omnilingual")
print("="*60)

Combined ASR Baseline: Whisper vs Omnilingual


In [None]:
def load_test_data(data_path, num_samples=None):
    """Load test data"""
    test_tsv = os.path.join(data_path, "test.tsv")
    clips_path = os.path.join(data_path, "clips")
    
    print(f"\nüìÇ Loading test data from: {test_tsv}")
    df = pd.read_csv(test_tsv, sep='\t')
    
    if num_samples:
        df = df.head(num_samples)
        print(f"   Using {num_samples} samples for quick test")

    audio_paths = []
    valid_indices = []
    
    for idx, row in df.iterrows():
        audio_path = os.path.join(clips_path, row['path'])
        if os.path.exists(audio_path):
            audio_paths.append(audio_path)
            valid_indices.append(idx)
    
    df = df.loc[valid_indices].reset_index(drop=True)
    
    print(f"   Total utterances: {len(df)}")
    print(f"   Audio files found: {len(audio_paths)}/{len(df)}")
    
    return df, audio_paths

df_test, audio_paths = load_test_data(DATA_PATH, NUM_TEST_SAMPLES)
references = df_test['sentence'].tolist()


üìÇ Loading test data from: romansh-data/sursilvan-mini/test.tsv
   Total utterances: 94
   Audio files found: 94/94


In [None]:
print("\n" + "="*60)
print("üéôÔ∏è Whisper Evaluation")
print("="*60)

device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Device: {device}")

print(f"\nüì• Loading Whisper {WHISPER_MODEL}...")
whisper_model = whisper.load_model(WHISPER_MODEL, device=device)
print("‚úÖ Whisper loaded")

print(f"\nüéôÔ∏è Transcribing {len(audio_paths)} files with Whisper...")
whisper_transcriptions = []
whisper_languages = []

for audio_path in tqdm(audio_paths, desc="Whisper"):
    try:
        result = whisper_model.transcribe(
            audio_path,
            task="transcribe",
            fp16=torch.cuda.is_available(),
            verbose=False
        )
        whisper_transcriptions.append(result['text'].strip())
        whisper_languages.append(result.get('language', 'unknown'))
    except Exception as e:
        whisper_transcriptions.append("")
        whisper_languages.append("error")
        print(f"‚ö†Ô∏è Error: {e}")


üéôÔ∏è Whisper Evaluation
Device: cuda

üì• Loading Whisper medium...
‚úÖ Whisper loaded

üéôÔ∏è Transcribing 94 files with Whisper...


Whisper:   0%|          | 0/94 [00:00<?, ?it/s]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2804/2804 [00:04<00:00, 667.42frames/s]
Whisper:   1%|          | 1/94 [00:05<08:25,  5.43s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1963/1963 [00:02<00:00, 781.46frames/s]
Whisper:   2%|‚ñè         | 2/94 [00:08<05:57,  3.88s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2094/2094 [00:02<00:00, 754.58frames/s]
Whisper:   3%|‚ñé         | 3/94 [00:11<05:18,  3.50s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1115/1115 [00:01<00:00, 853.77frames/s]
Whisper:   4%|‚ñç         | 4/94 [00:12<04:07,  2.75s/it]

Detected language: Italian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 906/906 [00:05<00:00, 153.07frames/s]
Whisper:   5%|‚ñå         | 5/94 [00:19<05:54,  3.99s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1952/1952 [00:02<00:00, 709.91frames/s]
Whisper:   6%|‚ñã         | 6/94 [00:22<05:21,  3.66s/it]

Detected language: Latin


  0%|          | 0/1478 [00:12<?, ?frames/s]
Whisper:   7%|‚ñã         | 7/94 [00:35<09:42,  6.69s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 822/822 [00:00<00:00, 1085.17frames/s]
Whisper:   9%|‚ñä         | 8/94 [00:36<07:01,  4.90s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2149/2149 [00:03<00:00, 595.03frames/s]
Whisper:  10%|‚ñâ         | 9/94 [00:39<06:29,  4.59s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2034/2034 [00:03<00:00, 628.87frames/s]
Whisper:  11%|‚ñà         | 10/94 [00:43<05:57,  4.25s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1314/1314 [00:06<00:00, 202.83frames/s]
Whisper:  12%|‚ñà‚ñè        | 11/94 [00:50<06:56,  5.02s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2014/2014 [00:02<00:00, 694.70frames/s]
Whisper:  13%|‚ñà‚ñé        | 12/94 [00:53<06:05,  4.46s/it]

Detected language: Breton


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2396/2396 [00:03<00:00, 609.58frames/s]
Whisper:  14%|‚ñà‚ñç        | 13/94 [00:57<05:54,  4.38s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1777/1777 [00:11<00:00, 155.32frames/s]
Whisper:  15%|‚ñà‚ñç        | 14/94 [01:09<08:48,  6.60s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1902/1902 [00:02<00:00, 811.97frames/s]
Whisper:  16%|‚ñà‚ñå        | 15/94 [01:11<07:07,  5.41s/it]

Detected language: Italian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1049/1049 [00:01<00:00, 837.44frames/s]
Whisper:  17%|‚ñà‚ñã        | 16/94 [01:13<05:31,  4.25s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1500/1500 [00:01<00:00, 772.73frames/s]
Whisper:  18%|‚ñà‚ñä        | 17/94 [01:15<04:40,  3.64s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 692/692 [00:01<00:00, 645.37frames/s]
Whisper:  19%|‚ñà‚ñâ        | 18/94 [01:17<03:44,  2.96s/it]

Detected language: Latin


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1502/1502 [00:02<00:00, 651.49frames/s]
Whisper:  20%|‚ñà‚ñà        | 19/94 [01:19<03:33,  2.85s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1023/1023 [00:01<00:00, 836.28frames/s]
Whisper:  21%|‚ñà‚ñà‚ñè       | 20/94 [01:21<03:00,  2.44s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2318/2318 [00:02<00:00, 773.05frames/s]
Whisper:  22%|‚ñà‚ñà‚ñè       | 21/94 [01:24<03:16,  2.69s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1447/1447 [00:02<00:00, 634.38frames/s]
Whisper:  23%|‚ñà‚ñà‚ñé       | 22/94 [01:27<03:11,  2.65s/it]

Detected language: Albanian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1734/1734 [00:03<00:00, 517.87frames/s]
Whisper:  24%|‚ñà‚ñà‚ñç       | 23/94 [01:30<03:29,  2.94s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1905/1905 [00:02<00:00, 877.10frames/s]
Whisper:  26%|‚ñà‚ñà‚ñå       | 24/94 [01:33<03:15,  2.80s/it]

Detected language: Hungarian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 225/225 [00:03<00:00, 71.01frames/s]
Whisper:  27%|‚ñà‚ñà‚ñã       | 25/94 [01:36<03:26,  3.00s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2060/2060 [00:02<00:00, 781.21frames/s]
Whisper:  28%|‚ñà‚ñà‚ñä       | 26/94 [01:39<03:22,  2.98s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3019/3019 [00:02<00:00, 1054.04frames/s]
Whisper:  29%|‚ñà‚ñà‚ñä       | 27/94 [01:42<03:24,  3.06s/it]

Detected language: Dutch


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1193/1193 [00:01<00:00, 631.29frames/s]
Whisper:  30%|‚ñà‚ñà‚ñâ       | 28/94 [01:45<03:08,  2.86s/it]

Detected language: Italian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1587/1587 [00:02<00:00, 775.58frames/s]
Whisper:  31%|‚ñà‚ñà‚ñà       | 29/94 [01:47<02:59,  2.76s/it]

Detected language: Italian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2053/2053 [00:02<00:00, 724.63frames/s]
Whisper:  32%|‚ñà‚ñà‚ñà‚ñè      | 30/94 [01:51<03:07,  2.93s/it]

Detected language: English


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1975/1975 [00:01<00:00, 1007.99frames/s]
Whisper:  33%|‚ñà‚ñà‚ñà‚ñé      | 31/94 [01:53<02:53,  2.75s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2961/2961 [00:03<00:00, 838.31frames/s]
Whisper:  34%|‚ñà‚ñà‚ñà‚ñç      | 32/94 [01:57<03:10,  3.07s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 835/835 [00:00<00:00, 976.18frames/s]
Whisper:  35%|‚ñà‚ñà‚ñà‚ñå      | 33/94 [01:58<02:31,  2.49s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2947/2947 [00:03<00:00, 819.59frames/s]
Whisper:  36%|‚ñà‚ñà‚ñà‚ñå      | 34/94 [02:02<02:54,  2.91s/it]

Detected language: Albanian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3071/3071 [00:04<00:00, 722.19frames/s]
Whisper:  37%|‚ñà‚ñà‚ñà‚ñã      | 35/94 [02:06<03:20,  3.40s/it]

Detected language: Dutch


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2086/2086 [00:15<00:00, 133.70frames/s]
Whisper:  38%|‚ñà‚ñà‚ñà‚ñä      | 36/94 [02:22<06:54,  7.14s/it]

Detected language: Welsh


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2880/2880 [00:05<00:00, 568.33frames/s]
Whisper:  39%|‚ñà‚ñà‚ñà‚ñâ      | 37/94 [02:27<06:17,  6.62s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2889/2889 [00:21<00:00, 136.46frames/s]
Whisper:  40%|‚ñà‚ñà‚ñà‚ñà      | 38/94 [02:49<10:19, 11.07s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2547/2547 [00:02<00:00, 865.47frames/s]
Whisper:  41%|‚ñà‚ñà‚ñà‚ñà‚ñè     | 39/94 [02:52<07:59,  8.72s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1903/1903 [00:16<00:00, 115.67frames/s]
Whisper:  43%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 40/94 [03:09<10:01, 11.14s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 934/934 [00:01<00:00, 665.50frames/s]
Whisper:  44%|‚ñà‚ñà‚ñà‚ñà‚ñé     | 41/94 [03:11<07:19,  8.30s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2593/2593 [00:03<00:00, 757.26frames/s]
Whisper:  45%|‚ñà‚ñà‚ñà‚ñà‚ñç     | 42/94 [03:14<06:00,  6.93s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 793/793 [00:00<00:00, 1052.70frames/s]
Whisper:  46%|‚ñà‚ñà‚ñà‚ñà‚ñå     | 43/94 [03:15<04:23,  5.17s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2290/2290 [00:03<00:00, 680.16frames/s]
Whisper:  47%|‚ñà‚ñà‚ñà‚ñà‚ñã     | 44/94 [03:19<03:55,  4.72s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1123/1123 [00:01<00:00, 1065.12frames/s]
Whisper:  48%|‚ñà‚ñà‚ñà‚ñà‚ñä     | 45/94 [03:20<03:01,  3.70s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2824/2824 [00:19<00:00, 146.77frames/s]
Whisper:  49%|‚ñà‚ñà‚ñà‚ñà‚ñâ     | 46/94 [03:40<06:45,  8.45s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 971/971 [00:07<00:00, 137.42frames/s]
Whisper:  50%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 47/94 [03:47<06:21,  8.12s/it]

Detected language: Portuguese


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1456/1456 [00:01<00:00, 1015.76frames/s]
Whisper:  51%|‚ñà‚ñà‚ñà‚ñà‚ñà     | 48/94 [03:49<04:44,  6.19s/it]

Detected language: Albanian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2385/2385 [00:03<00:00, 786.48frames/s]
Whisper:  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 49/94 [03:52<03:59,  5.33s/it]

Detected language: Italian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1436/1436 [00:01<00:00, 939.58frames/s]
Whisper:  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 50/94 [03:54<03:07,  4.27s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2157/2157 [00:02<00:00, 755.17frames/s]
Whisper:  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç    | 51/94 [03:57<02:49,  3.94s/it]

Detected language: Latin


  0%|          | 0/2592 [00:31<?, ?frames/s]
Whisper:  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 52/94 [04:29<08:35, 12.28s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2551/2551 [00:16<00:00, 156.52frames/s]
Whisper:  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 53/94 [04:46<09:16, 13.58s/it]

Detected language: Hebrew


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1386/1386 [00:02<00:00, 470.87frames/s]
Whisper:  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 54/94 [04:49<06:59, 10.48s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1575/1575 [00:21<00:00, 74.75frames/s]
Whisper:  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 55/94 [05:10<08:56, 13.74s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2520/2520 [00:03<00:00, 819.95frames/s]
Whisper:  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 56/94 [05:14<06:43, 10.63s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1110/1110 [00:01<00:00, 807.72frames/s]
Whisper:  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 57/94 [05:15<04:53,  7.94s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1679/1679 [00:01<00:00, 907.07frames/s]
Whisper:  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 58/94 [05:17<03:43,  6.20s/it]

Detected language: Dutch


  0%|          | 0/2634 [00:18<?, ?frames/s]
Whisper:  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 59/94 [05:36<05:49,  9.98s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1969/1969 [00:02<00:00, 832.59frames/s]
Whisper:  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 60/94 [05:39<04:24,  7.78s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2444/2444 [00:16<00:00, 151.44frames/s]
Whisper:  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 61/94 [05:55<05:42, 10.37s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2458/2458 [00:17<00:00, 140.80frames/s]
Whisper:  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 62/94 [06:13<06:42, 12.58s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 898/898 [00:06<00:00, 142.77frames/s]
Whisper:  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 63/94 [06:20<05:34, 10.79s/it]

Detected language: German


  0%|          | 0/1153 [00:01<?, ?frames/s]
Whisper:  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 64/94 [06:21<03:58,  7.96s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2672/2672 [00:15<00:00, 177.15frames/s]
Whisper:  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 65/94 [06:36<04:55, 10.19s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2272/2272 [00:02<00:00, 803.43frames/s]
Whisper:  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 66/94 [06:40<03:46,  8.07s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2244/2244 [00:02<00:00, 832.27frames/s]
Whisper:  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 67/94 [06:43<02:56,  6.55s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2985/2985 [00:03<00:00, 896.99frames/s]
Whisper:  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 68/94 [06:46<02:27,  5.68s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2656/2656 [00:04<00:00, 577.47frames/s]
Whisper:  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 69/94 [06:51<02:16,  5.44s/it]

Detected language: Yiddish


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2110/2110 [00:05<00:00, 408.72frames/s]
Whisper:  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 70/94 [06:57<02:10,  5.45s/it]

Detected language: Latin


 68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 1200/1764 [00:28<00:13, 41.46frames/s] 
Whisper:  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 71/94 [07:26<04:49, 12.58s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2730/2730 [00:04<00:00, 678.68frames/s]
Whisper:  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 72/94 [07:30<03:42, 10.10s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2432/2432 [00:02<00:00, 845.25frames/s]
Whisper:  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 73/94 [07:33<02:48,  8.02s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2317/2317 [00:03<00:00, 748.34frames/s]
Whisper:  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 74/94 [07:37<02:12,  6.63s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2073/2073 [00:02<00:00, 917.00frames/s]
Whisper:  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 75/94 [07:39<01:42,  5.41s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1437/1437 [00:01<00:00, 767.42frames/s]
Whisper:  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 76/94 [07:41<01:19,  4.44s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2162/2162 [00:02<00:00, 811.29frames/s]
Whisper:  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 77/94 [07:44<01:07,  4.00s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2542/2542 [00:18<00:00, 140.04frames/s]
Whisper:  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 78/94 [08:03<02:13,  8.33s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2264/2264 [00:03<00:00, 717.88frames/s]
Whisper:  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 79/94 [08:06<01:42,  6.87s/it]

Detected language: Lithuanian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2438/2438 [00:02<00:00, 850.78frames/s]
Whisper:  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 80/94 [08:09<01:20,  5.75s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1119/1119 [00:06<00:00, 185.10frames/s]
Whisper:  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 81/94 [08:16<01:17,  5.93s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1278/1278 [00:04<00:00, 283.20frames/s]
Whisper:  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 82/94 [08:20<01:07,  5.59s/it]

Detected language: Latin


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1863/1863 [00:44<00:00, 41.79frames/s]
Whisper:  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 83/94 [09:05<03:11, 17.37s/it]

Detected language: French


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1040/1040 [00:01<00:00, 774.67frames/s]
Whisper:  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 84/94 [09:07<02:06, 12.65s/it]

Detected language: Slovenian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2123/2123 [00:16<00:00, 131.53frames/s]
Whisper:  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 85/94 [09:23<02:04, 13.79s/it]

Detected language: Italian


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1857/1857 [00:04<00:00, 437.99frames/s]
Whisper:  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 86/94 [09:28<01:28, 11.01s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1735/1735 [00:02<00:00, 629.32frames/s]
Whisper:  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 87/94 [09:31<01:00,  8.62s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3031/3031 [00:13<00:00, 225.65frames/s]
Whisper:  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 88/94 [09:45<01:00, 10.15s/it]

Detected language: German


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 3125/3125 [00:13<00:00, 235.03frames/s]
Whisper:  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 89/94 [09:58<00:55, 11.18s/it]

Detected language: Welsh


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1066/1066 [00:02<00:00, 463.08frames/s]
Whisper:  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 90/94 [10:01<00:34,  8.60s/it]

Detected language: Occitan


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2783/2783 [00:04<00:00, 616.85frames/s]
Whisper:  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 91/94 [10:06<00:22,  7.46s/it]

Detected language: Welsh


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1505/1505 [00:03<00:00, 473.35frames/s]
Whisper:  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 92/94 [10:09<00:12,  6.26s/it]

Detected language: Yiddish


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 2330/2330 [00:02<00:00, 929.50frames/s]
Whisper:  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 93/94 [10:12<00:05,  5.22s/it]

Detected language: Yiddish


100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 1336/1336 [00:04<00:00, 306.25frames/s]
Whisper: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 94/94 [10:17<00:00,  6.57s/it]


In [None]:
print("\n" + "="*60)
print("üåê Omnilingual Evaluation")
print("="*60)

print(f"Language code: {LANGUAGE_CODE}")
if LANGUAGE_CODE in supported_langs:
    print(f"‚úÖ Romansh supported")
else:
    print(f"‚ö†Ô∏è Romansh not in supported list")

print(f"\nüì• Loading Omnilingual {OMNILINGUAL_MODEL}...")
omnilingual_pipeline = ASRInferencePipeline(model_card=OMNILINGUAL_MODEL)
print("‚úÖ Omnilingual loaded")

print(f"\nüéôÔ∏è Transcribing {len(audio_paths)} files with Omnilingual...")
omnilingual_transcriptions = []

for i in range(0, len(audio_paths), BATCH_SIZE):
    batch_paths = audio_paths[i:i+BATCH_SIZE]
    try:
        results = omnilingual_pipeline.transcribe(
            batch_paths,
            lang=[LANGUAGE_CODE] * len(batch_paths),
            batch_size=len(batch_paths)
        )
        omnilingual_transcriptions.extend(results)
    except Exception as e:
        print(f"‚ö†Ô∏è Batch error: {e}")
        omnilingual_transcriptions.extend([""] * len(batch_paths))
    
    print(f"   Processed {min(i+BATCH_SIZE, len(audio_paths))}/{len(audio_paths)} files")


üåê Omnilingual Evaluation
Language code: roh_Latn_surs1244
‚úÖ Romansh supported

üì• Loading Omnilingual omniASR_CTC_1B_v2...


Output()

‚úÖ Omnilingual loaded

üéôÔ∏è Transcribing 94 files with Omnilingual...
   Processed 8/94 files
   Processed 16/94 files
   Processed 24/94 files
   Processed 32/94 files
   Processed 40/94 files
   Processed 48/94 files
   Processed 56/94 files
   Processed 64/94 files
   Processed 72/94 files
   Processed 80/94 files
   Processed 88/94 files
   Processed 94/94 files


In [None]:
def calculate_metrics(references, hypotheses, model_name):
    """Calculate WER and CER"""
    valid_pairs = [(ref, hyp) for ref, hyp in zip(references, hypotheses) 
                   if ref and hyp]
    
    if not valid_pairs:
        return None, None, 0
    
    refs = [pair[0] for pair in valid_pairs]
    hyps = [pair[1] for pair in valid_pairs]
    
    wer_score = wer(refs, hyps)
    cer_score = cer(refs, hyps)
    
    return wer_score, cer_score, len(valid_pairs)

whisper_wer, whisper_cer, whisper_valid = calculate_metrics(
    references, whisper_transcriptions, "Whisper"
)

omnilingual_wer, omnilingual_cer, omnilingual_valid = calculate_metrics(
    references, omnilingual_transcriptions, "Omnilingual"
)

In [None]:
print("\n" + "="*60)
print("üìä FINAL RESULTS COMPARISON")
print("="*60)

print(f"\nTest set size: {len(df_test)} utterances")
print(f"Valid for Whisper: {whisper_valid}/{len(df_test)}")
print(f"Valid for Omnilingual: {omnilingual_valid}/{len(df_test)}")

print("\n" + "-"*40)
print("WHISPER (auto-detection)")
print("-"*40)
if whisper_wer is not None:
    print(f"WER: {whisper_wer:.4f} ({whisper_wer*100:.2f}%)")
    print(f"CER: {whisper_cer:.4f} ({whisper_cer*100:.2f}%)")
else:
    print("‚ùå No valid transcriptions")

print("\n" + "-"*40)
print("OMNILINGUAL (native Romansh)")
print("-"*40)
if omnilingual_wer is not None:
    print(f"WER: {omnilingual_wer:.4f} ({omnilingual_wer*100:.2f}%)")
    print(f"CER: {omnilingual_cer:.4f} ({omnilingual_cer*100:.2f}%)")
else:
    print("‚ùå No valid transcriptions")

if whisper_wer is not None and omnilingual_wer is not None:
    improvement = ((whisper_wer - omnilingual_wer) / whisper_wer) * 100
    print("\n" + "-"*40)
    print("COMPARISON")
    print("-"*40)
    if omnilingual_wer < whisper_wer:
        print(f"‚úÖ Omnilingual is {improvement:.1f}% better than Whisper")
    elif omnilingual_wer > whisper_wer:
        print(f"‚ùå Whisper is {abs(improvement):.1f}% better than Omnilingual")
    else:
        print("üìä Both models perform equally")


üìä FINAL RESULTS COMPARISON

Test set size: 94 utterances
Valid for Whisper: 90/94
Valid for Omnilingual: 94/94

----------------------------------------
WHISPER (auto-detection)
----------------------------------------
WER: 0.9851 (98.51%)
CER: 0.5879 (58.79%)

----------------------------------------
OMNILINGUAL (native Romansh)
----------------------------------------
WER: 0.7585 (75.85%)
CER: 0.2422 (24.22%)

----------------------------------------
COMPARISON
----------------------------------------
‚úÖ Omnilingual is 23.0% better than Whisper


In [None]:
print("\n" + "="*60)
print("üìù EXAMPLE TRANSCRIPTIONS (First 3 files)")
print("="*60)

for i in range(min(3, len(df_test))):
    print(f"\n--- Example {i+1} ---")
    print(f"Reference: {references[i][:200]}...")
    print(f"\nWhisper ({whisper_languages[i]}):")
    print(f"  {whisper_transcriptions[i][:200]}...")
    print(f"\nOmnilingual:")
    print(f"  {omnilingual_transcriptions[i][:200]}...")
    
    if references[i] and whisper_transcriptions[i] and omnilingual_transcriptions[i]:
        try:
            w_wer = wer(references[i], whisper_transcriptions[i])
            o_wer = wer(references[i], omnilingual_transcriptions[i])
            print(f"\n  WER: Whisper={w_wer:.3f}, Omnilingual={o_wer:.3f}")
        except:
            pass
    print("-"*40)


üìù EXAMPLE TRANSCRIPTIONS (First 3 files)

--- Example 1 ---
Reference: lgl agid svizzer per la muntogna sustegn ils purs grischuns. A Tartar sin la Muntogna han responsabels digl agid da muntogna surdau oz in schec da 3 100 1000 francs pils purs ch'han stuiu cumprar pave...

Whisper (de):
  Die J√§gide Schweizer Perla Montagne susteign il Spurs Grisuns. Tartar sind le Montagne an responsables de j√§gide Montagne sur d'Ao zinschekte 3.000 Fr. spils Spurs kann stu kumpra Pavel murt l'aschiti...

Omnilingual:
  l liegit svizer per la muntogna sustegn ils purs grijchuns a tartar sin la muntogna han responsabels di gliegit da muntogna sur dauots in scec da treic meli francs pils purs ch'an st√º cumpr√† pavel muo...

  WER: Whisper=0.934, Omnilingual=0.618
----------------------------------------

--- Example 2 ---
Reference: II possessur dalla Casa Demont a Vella sto pagar il castitg maximal per haver spazzau illegalmein quella casa. 30 1000 francs cuosta ei ad el d'haver destruiu la ca

In [None]:
print("\n" + "="*60)
print("üåç Whisper Language Detection")
print("="*60)

if whisper_languages:
    from collections import Counter
    lang_counts = Counter(whisper_languages)
    total = len(whisper_languages)
    
    for lang, count in lang_counts.most_common():
        print(f"  {lang}: {count} ({count/total*100:.1f}%)")


üåç Whisper Language Detection
  de: 33 (35.1%)
  sl: 22 (23.4%)
  oc: 9 (9.6%)
  it: 6 (6.4%)
  la: 5 (5.3%)
  sq: 3 (3.2%)
  nl: 3 (3.2%)
  cy: 3 (3.2%)
  yi: 3 (3.2%)
  br: 1 (1.1%)
  hu: 1 (1.1%)
  en: 1 (1.1%)
  pt: 1 (1.1%)
  he: 1 (1.1%)
  lt: 1 (1.1%)
  fr: 1 (1.1%)


: 