<a href="https://colab.research.google.com/github/YoungsikMoon/FORS/blob/main/%EC%A0%95%ED%98%B8%EC%84%9D/FORS_whisper_model%EB%B3%84_TEST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Whisper 모델 별 테스트

In [None]:
!pip install --upgrade pip
!pip install --upgrade git+https://github.com/huggingface/transformers.git accelerate datasets[audio]
!pip install datasets
!pip install evaluate
!pip install jiwer

In [None]:
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

#### 모델 선택

In [None]:
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset, DatasetDict
import evaluate
from transformers import WhisperForConditionalGeneration
from transformers import WhisperProcessor
from transformers import Seq2SeqTrainer

# 일반 모델 로딩
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "openai/whisper-large-v3"
# model_id = "openai/whisper-base"

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)



# 노인발화데이터 3GB로 파인튜닝한 모델
# "openai/whisper-base" fine_tuned moel
# model = WhisperForConditionalGeneration.from_pretrained("/content/model")
# model.to("cuda")
# processor = WhisperProcessor.from_pretrained("/content/model")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


#### 허깅 페이스 로그인
- common_voice 14부터는 로그인 및 권한 확인 필요

In [None]:
# 토큰 : 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
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

#### common_voice 로드 및 전처리

In [None]:
common_voice = DatasetDict()
test_version = "mozilla-foundation/common_voice_15_0"
common_voice["test"] = load_dataset(test_version, "ko", split="test", use_auth_token=True)

language_abbr = "ko"
task = "transcribe"

import torch

from dataclasses import dataclass
from typing import Any, Dict, List, Union


@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        label_features = [{"input_ids": feature["labels"]} for feature in features]
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch

data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)

You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this dataset from the next major release of `datasets`.


In [None]:
from datasets import Audio

common_voice = common_voice.cast_column("audio", Audio(sampling_rate=16000))

feature_extractor=processor.feature_extractor
tokenizer=processor.tokenizer

def prepare_dataset(batch):
    # load and resample audio data from 48 to 16kHz
    audio = batch["audio"]

    # compute log-Mel input features from input audio array
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # encode target text to label ids
    batch["labels"] = tokenizer(batch["sentence"]).input_ids
    return batch

common_voice = common_voice.map(prepare_dataset, remove_columns=common_voice.column_names["test"], num_proc=1)

Map:   0%|          | 0/228 [00:00<?, ? examples/s]

#### 평가진행
- test : common_voice15

In [None]:
import gc
import numpy as np
from tqdm import tqdm
from torch.utils.data import DataLoader
from transformers.models.whisper.english_normalizer import BasicTextNormalizer

metric = evaluate.load("cer")

eval_dataloader = DataLoader(common_voice["test"], batch_size=8, collate_fn=data_collator)
forced_decoder_ids = processor.get_decoder_prompt_ids(language=language_abbr, task=task)
normalizer = BasicTextNormalizer()

predictions = []
references = []
normalized_predictions = []
normalized_references = []

model.eval()
for step, batch in enumerate(tqdm(eval_dataloader)):
    with torch.cuda.amp.autocast():
        with torch.no_grad():
            generated_tokens = (
                model.generate(
                    input_features=batch["input_features"].to("cuda"),
                    forced_decoder_ids=forced_decoder_ids,
                    max_new_tokens=255,
                )
                .cpu()
                .numpy()
            )
            labels = batch["labels"].cpu().numpy()
            labels = np.where(labels != -100, labels, processor.tokenizer.pad_token_id)
            decoded_preds = processor.tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
            decoded_labels = processor.tokenizer.batch_decode(labels, skip_special_tokens=True)
            predictions.extend(decoded_preds)
            references.extend(decoded_labels)
            normalized_predictions.extend([normalizer(pred).strip() for pred in decoded_preds])
            normalized_references.extend([normalizer(label).strip() for label in decoded_labels])
        del generated_tokens, labels, batch
    gc.collect()
cer = 100 * metric.compute(predictions=predictions, references=references)
normalized_cer = 100 * metric.compute(predictions=normalized_predictions, references=normalized_references)
eval_metrics = {"eval/cer": cer, "eval/normalized_cer": normalized_cer}

print(f"{cer=}  and {normalized_cer=}  ")
print(eval_metrics)

100%|██████████| 29/29 [01:38<00:00,  3.40s/it]

cer=7.955063002884469  and normalized_cer=5.665988417592738  
{'eval/cer': 7.955063002884469, 'eval/normalized_cer': 5.665988417592738}





#### 모델 이용해서 오디오파일 전사

In [None]:
# 파이프라인 설정

pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
)

In [None]:
# 전처리 전 common_voice 15 오디오 파일 로딩
test = DatasetDict()
test_version = "mozilla-foundation/common_voice_15_0"
test["test"] = load_dataset(test_version, "ko", split="test", use_auth_token=True)

In [None]:
# 노인발화데이터 테스트(10개)
from glob import glob
import warnings
warnings.filterwarnings('ignore')

answer = [
"저 사람이 나한테 저렇게 행동을 하는구나",
"그러고 내가 더 그 사람한테 저 사람이 모자란 게 무엇이고",
"저 사람이 원하는 게 무엇인가를 내가 생각해봐야지",
"그렇게 사람한테 베풀어주면 싸울일이 없다고 생각해",
"아무리 극에 달해서 화가 났어도 내가 좀 참고",
"옛날에 장사를 했으니까 뭐",
"그런데 앞으로는 상가도 조금 조심해서 해야 되겠더라고 보니까",
"그러니까 요즘에는 온라인이 너무 그렇지",
"뭐 온라인 쇼핑이 너무 성대 하니까",
"오프라인이 처지지 어쩔 수 없는거야"]

for file, an in zip(sorted(glob("/content/노인발화TEST/*")), answer):
  print(pipe(file)["text"])
  print(an)


In [None]:
# 파이프라인에 있는 모델로 common_voice15 test 오디오파일 전사(10개)
for i in range(10):
  result = pipe(test["test"]["audio"][i]["path"])
  print(result["text"])
  print(test["test"]["sentence"][i])

Due to a bug fix in https://github.com/huggingface/transformers/pull/28687 transcription using a multilingual Whisper will default to language detection followed by transcription instead of translation to English.This might be a breaking change for your use case. If you want to instead always translate your audio to English, make sure to pass `language='en'`.


 마스크 잘 쓰고 다니고 길 조심해서 다녀와
마스크 잘 쓰고 다니고, 길 조심해서 다녀와.
 엘리베이터만 십 년이에요
엘리베이터만 십 년이에요
 저리 안가
저리 안 가?
 학부형 중에서 한 사람이 나서며 물었다.
학부형 중에서 한 사람이 나서며 물었다.
 민수는 지갑 속에서 돈을 내어 덕호 앞으로 밀어놓았다
민수는 지갑 속에서 돈을 내어 덕호 앞으로 밀어 놓았다.
 그만 갤 것이지 어이 일이 굳이 오노
그만 갤 것이지 어이 이리 굳이 오노.
 그는 놀라 자세히 보니 그가 찾아갔던 동무 였다
그는 놀라 자세히 보니 그가 찾아가던 동무였다.
 신철이는 무슨 고리타분한 냄새를 후끈 맡으며 방으로 들어앉았다
신철이는 무슨 고리타분한 냄새를 후끈 맡으며 방으로 들어앉았다.
 영신이의 저고리는 수세미가 되고 치마 주름까지 주르륵 투덜쩍다
영신의 저고리는 수세미가 되고 치마 주름까지 주루루 트더졌다.
 친정풀이나 듣는 것처럼 영수는 반가이 받아들인다.
친정붙이나 되는 것처럼 영신을 반가이 맞아들인다.


In [None]:
!pip install faster_whisper

#### Fast Whisper로 테스트

In [None]:
# Fast Whisper 기본 버전 테스트
from faster_whisper import WhisperModel
from faster_whisper.feature_extractor import FeatureExtractor
from faster_whisper.tokenizer import Tokenizer
import tokenizers

model = WhisperModel("large-v3")
feature_extractor = FeatureExtractor()
tokenizer = Tokenizer(tokenizers.Tokenizer, False)

In [None]:
# 노인발화데이터 10개 테스트
from glob import glob
import warnings
warnings.filterwarnings('ignore')

answer = [
"저 사람이 나한테 저렇게 행동을 하는구나",
"그러고 내가 더 그 사람한테 저 사람이 모자란 게 무엇이고",
"저 사람이 원하는 게 무엇인가를 내가 생각해봐야지",
"그렇게 사람한테 베풀어주면 싸울일이 없다고 생각해",
"아무리 극에 달해서 화가 났어도 내가 좀 참고",
"옛날에 장사를 했으니까 뭐",
"그런데 앞으로는 상가도 조금 조심해서 해야 되겠더라고 보니까",
"그러니까 요즘에는 온라인이 너무 그렇지",
"뭐 온라인 쇼핑이 너무 성대 하니까",
"오프라인이 처지지 어쩔 수 없는거야"]

for file, an in zip(sorted(glob("/content/노인발화TEST/*")), answer):
  segments, info = model.transcribe(file)
  for segment in segments:
    print(segment.text)
  print(an)

In [None]:
# 파이프라인에 있는 모델로 common_voice15 test 오디오파일 전사(10개)
for i in range(10):
  segments, info = model.transcribe(test["test"]["audio"][i]["path"])
  for segment in segments:
    print(segment.text)
  print(test["test"]["sentence"][i])

#### 다른 테스트셋으로 추가 평가
- test : 노인발화["test"]로 추가 테스트

In [None]:
!pip install datasets

In [None]:
# 노인발화 전처리된 testset 불러오기
#로드
from datasets import load_from_disk
from datasets import Dataset, DatasetDict
from transformers import WhisperProcessor

noin_test = load_from_disk("/content/test")
noin_test

Dataset({
    features: ['input_features', 'labels'],
    num_rows: 1741
})

In [None]:
# 노인발화["test"]
import gc
import numpy as np
from tqdm import tqdm
from torch.utils.data import DataLoader
from transformers.models.whisper.english_normalizer import BasicTextNormalizer

metric = evaluate.load("cer")

eval_dataloader = DataLoader(noin_test, batch_size=8, collate_fn=data_collator)
forced_decoder_ids = processor.get_decoder_prompt_ids(language=language_abbr, task=task)
normalizer = BasicTextNormalizer()

predictions = []
references = []
normalized_predictions = []
normalized_references = []

model.eval()
for step, batch in enumerate(tqdm(eval_dataloader)):
    with torch.cuda.amp.autocast():
        with torch.no_grad():
            generated_tokens = (
                model.generate(
                    input_features=batch["input_features"].to("cuda"),
                    forced_decoder_ids=forced_decoder_ids,
                    max_new_tokens=255,
                )
                .cpu()
                .numpy()
            )
            labels = batch["labels"].cpu().numpy()
            labels = np.where(labels != -100, labels, processor.tokenizer.pad_token_id)
            decoded_preds = processor.tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
            decoded_labels = processor.tokenizer.batch_decode(labels, skip_special_tokens=True)
            predictions.extend(decoded_preds)
            references.extend(decoded_labels)
            normalized_predictions.extend([normalizer(pred).strip() for pred in decoded_preds])
            normalized_references.extend([normalizer(label).strip() for label in decoded_labels])
        del generated_tokens, labels, batch
    gc.collect()
cer = 100 * metric.compute(predictions=predictions, references=references)
normalized_cer = 100 * metric.compute(predictions=normalized_predictions, references=normalized_references)
eval_metrics = {"eval/cer": cer, "eval/normalized_cer": normalized_cer}

print(f"{cer=}  and {normalized_cer=}  ")
print(eval_metrics)