In [5]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset


device = "cpu"
torch_dtype = torch.float32

model_id = "whisper-large-v3-turbo"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)

processor = AutoProcessor.from_pretrained(model_id)

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    batch_size=1,
    device=device,
)


In [6]:
ds = load_dataset("mozilla-foundation/common_voice_16_1", "ko")

In [7]:
ds

DatasetDict({
    train: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 401
    })
    validation: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 235
    })
    test: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 282
    })
    other: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 1832
    })
    invalidated: Dataset({
        features: ['client_id', 'path', 'audio', 'sentence', 'up_votes', 'down_votes', 'age', 'gender', 'accent', 'locale', 'segment', 'variant'],
        num_rows: 2

In [9]:
results = pipe(ds["test"]['path'], generate_kwargs={"task": "transcribe", "language": "ko"})



In [35]:
import jiwer

hyp = [list(d.values())[0].strip() for d in results]
ref = ds["test"]['sentence']

In [37]:
hyp

['이거 놔놓으라고',
 '선비는 생각지 않은 이 말의 앞이 아득해지며 방안이 핑핑 돌았다',
 '마스크 잘 쓰고 다니고 조심해서 다녀와',
 '그런지라',
 '민수는 지갑 속에서 돈을 내어 덕후 앞으로 밀어 놓았다',
 '어리석은 자는 그 노를 다 드러내어도 지혜로운 자는 그 노를 억제하느니라',
 '그 말에 해운들은 손바닥이 뜨겁도록 박수를 한다.',
 '오 분 내로 끊어',
 '그는 놀라 자세히 보니 그가 찾아갔던 동무였다',
 '절대 어제를 후회하지 마라',
 '니 말은 니 행동이 된다',
 '그래서',
 '엘리베이터만 십년이에요',
 '벽에 맞아 떨어진 돈은 다시 술 끓이는 양푼에 떨어졌다',
 '창경원 앞까지 다다라서야 그는 턱에 닿은 숨을 돌리고 걸음도 늦추 잡았다',
 '크롬 대신 파이어폭스를 사용하여 프라이버시를 지키자.',
 '저리 안가',
 '신철이는 무슨 고리타분한 냄새를 후끈 맡으며 방으로 들어앉었다',
 '영신이의 저고리는 수세미가 되고 치마 주름까지 주르륵 투덜쪘다',
 '이 못은 언제 어떻게 생겼는지 아무도 아는 사람이 없을 것이다.',
 '그만 길 것이지 어이 이리 구지요 너',
 '이 조례의 시행에 필요한 사항은 규칙으로 정한다.',
 '신철이는 저 햇발을 바라보면서 지금 11시 반이나 되었을 것을 짐작하였다.',
 '신철이는 옥점에 이러한 대답을 듣기 위하여 물어물었던 것이다',
 '불이 맘 먹고 왜 성례 안해 줘',
 '내리실문은 오른쪽입니다',
 '오늘은 다행히 담배에 고투리 남아있으니 그것을 빨면서 발새를 우려내지 않았다',
 '내 뱃속으로 났어도 당체 그놈의 속을 들여다볼 수가 있어야지',
 '건달패와 논단이들이 어우러져서 약물이 아닌 누룩 곡물을 마시고 그 심부름을 하는 모양이다.',
 '돌아와 보니까 추누가 와서 자리를 깔고 잠에 홍고니 들어잔다',
 '싱 아떼는 이렇게 말하며 유서방을 곁눈질해 보았다',
 '아까 팽경창에게 욕을 보고 추운 겨울이 거리를 지향없이 돌아다닐 때',
 '추운 우는 생각하는 눈으로 옆을 

In [40]:
wer = jiwer.wer(ref, hyp)
cer = jiwer.cer(ref, hyp)

In [41]:
print(wer, cer)

0.2813953488372093 0.0881207400194742
