<a href="https://colab.research.google.com/github/maxseats/2023_data_public/blob/main/(colab)Finetuning_Test_Pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 모델 파인튜닝, 테스트까지의 파이프라인
- 3개의 파트로 이루어져요.
    1. 구글 드라이브 마운트 및 라이브러리 설치
    2. 모델 파인튜닝 및 허깅페이스 업로드
    3. 모델 테스트 및 성능 기록

사용법 참고 : https://pss2947.atlassian.net/issues/SCRUM-40?filter=10007

# 1. 구글 드라이브 마운트 및 라이브러리 설치

In [1]:
from google.colab import drive

# 구글 드라이브 마운트
drive.mount('/content/drive')

!pip install -U accelerate
!pip install -U transformers
!pip install datasets
!pip install evaluate
!pip install mlflow
!pip install transformers[torch]
!pip install jiwer
!pip install nlptutti

Mounted at /content/drive
Collecting accelerate
  Downloading accelerate-0.30.1-py3-none-any.whl (302 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m302.6/302.6 kB[0m [31m5.7 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch>=1.10.0->accelerate)
  Using cached nvidia_cublas_cu12-12.1.3.1-py

# 2. 모델 파인튜닝 및 허깅페이스 업로드

In [6]:
from datasets import load_dataset
import torch
from dataclasses import dataclass
from typing import Any, Dict, List, Union
import evaluate
from transformers import WhisperTokenizer, WhisperFeatureExtractor, WhisperProcessor, WhisperForConditionalGeneration, Seq2SeqTrainingArguments, Seq2SeqTrainer
import mlflow
from mlflow.tracking.client import MlflowClient
import subprocess
from huggingface_hub import create_repo, Repository
import os
import shutil
import math # 임시 테스트용
model_dir = "./tmp" # 수정 X


#########################################################################################################################################
################################################### 사용자 설정 변수 #####################################################################
#########################################################################################################################################

model_description = '''
직접 작성해주세요.

파인튜닝한 데이터셋에 대해 최대한 자세히 설명해주세요.

(데이터셋 종류, 각 용량, 관련 링크 등)
'''

# model_name = "openai/whisper-base"
model_name = "SungBeom/whisper-base-ko" # 대안 : "SungBeom/whisper-small-ko"

dataset_name = "maxseats/meeting_valid_preprocessed"    # 불러올 데이터셋(허깅페이스 기준)


is_test = True # True: 소량의 샘플 데이터로 테스트, False: 실제 파인튜닝


data_num = 75   # 테스트 데이터 개수
test_log_path = "/content/drive/MyDrive/STT_test/test_log"    # 테스트 결과 및 로그 저장위치
data_directory = "discord_dataset"                            # 데이터셋 폴더 지정



training_args = Seq2SeqTrainingArguments(
    output_dir=model_dir,  # 원하는 리포지토리 이름을 입력한다.
    per_device_train_batch_size=16,
    gradient_accumulation_steps=1,  # 배치 크기가 2배 감소할 때마다 2배씩 증가
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=2,  # epoch 대신 설정
    #num_train_epochs=1,     # epoch 수 설정 / max_steps와 이것 중 하나만 설정
    gradient_checkpointing=True,
    fp16=True,
    evaluation_strategy="steps",
    per_device_eval_batch_size=8,
    predict_with_generate=True,
    generation_max_length=225,
    save_steps=1000,
    eval_steps=1000,
    logging_steps=25,
    report_to=["tensorboard"],
    load_best_model_at_end=True,
    metric_for_best_model="cer",  # 한국어의 경우 'wer'보다는 'cer'이 더 적합할 것
    greater_is_better=False,
    push_to_hub=True,
)

#########################################################################################################################################
################################################### 사용자 설정 변수 #####################################################################
#########################################################################################################################################


@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # 인풋 데이터와 라벨 데이터의 길이가 다르며, 따라서 서로 다른 패딩 방법이 적용되어야 한다. 그러므로 두 데이터를 분리해야 한다.
        # 먼저 오디오 인풋 데이터를 간단히 토치 텐서로 반환하는 작업을 수행한다.
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # Tokenize된 레이블 시퀀스를 가져온다.
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # 레이블 시퀀스에 대해 최대 길이만큼 패딩 작업을 실시한다.
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # 패딩 토큰을 -100으로 치환하여 loss 계산 과정에서 무시되도록 한다.
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # 이전 토크나이즈 과정에서 bos 토큰이 추가되었다면 bos 토큰을 잘라낸다.
        # 해당 토큰은 이후 언제든 추가할 수 있다.
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch


def compute_metrics(pred):
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # pad_token을 -100으로 치환
    label_ids[label_ids == -100] = tokenizer.pad_token_id

    # metrics 계산 시 special token들을 빼고 계산하도록 설정
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    cer = 100 * metric.compute(predictions=pred_str, references=label_str)

    return {"cer": cer}


# model_dir, ./repo 초기화
if os.path.exists(model_dir):
    shutil.rmtree(model_dir)
    os.makedirs(model_dir)

if os.path.exists('./repo'):
    shutil.rmtree('./repo')
    os.makedirs('./repo')


# 파인튜닝을 진행하고자 하는 모델의 processor, tokenizer, feature extractor, model 로드
processor = WhisperProcessor.from_pretrained(model_name, language="Korean", task="transcribe")
tokenizer = WhisperTokenizer.from_pretrained(model_name, language="Korean", task="transcribe")
feature_extractor = WhisperFeatureExtractor.from_pretrained(model_name)
model = WhisperForConditionalGeneration.from_pretrained(model_name)

data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)
metric = evaluate.load('cer')
model.config.forced_decoder_ids = None
model.config.suppress_tokens = []


# Hub로부터 "16khz 전처리가 완료된" 데이터셋을 로드(이게 진짜 오래걸려요.)
preprocessed_dataset = load_dataset(dataset_name)

# 30%까지의 valid 데이터셋 선택(코드 작동 테스트를 위함)
if is_test:
    preprocessed_dataset["valid"] = preprocessed_dataset["valid"].select(range(math.ceil(len(preprocessed_dataset) * 0.3)))

# training_args 객체를 JSON 형식으로 변환
training_args_dict = training_args.to_dict()

# MLflow UI 관리 폴더 지정
mlflow.set_tracking_uri("sqlite:////content/drive/MyDrive/STT_test/mlflow.db")


# MLflow 실험 이름을 모델 이름으로 설정
experiment_name = model_name
existing_experiment = mlflow.get_experiment_by_name(experiment_name)

if existing_experiment is not None:
    experiment_id = existing_experiment.experiment_id
else:
    experiment_id = mlflow.create_experiment(experiment_name)


# 허깅페이스 토큰 입력 - maxseats 토큰으로 고정
token = "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"
subprocess.run(["huggingface-cli", "login", "--token", token])


model_version = 1  # 로깅 하려는 모델 버전(이미 존재하면, 자동 할당)

# MLflow 로깅
with mlflow.start_run(experiment_id=experiment_id):
    # training_args 로깅
    for key, value in training_args_dict.items():
        mlflow.log_param(key, value)


    mlflow.set_tag("Dataset", dataset_name) # 데이터셋 로깅

    trainer = Seq2SeqTrainer(
        args=training_args,
        model=model,
        train_dataset=preprocessed_dataset["train"],
        eval_dataset=preprocessed_dataset["valid"],  # or "test"
        data_collator=data_collator,
        compute_metrics=compute_metrics,
        tokenizer=processor.feature_extractor,
    )

    trainer.train()

    # Metric 로깅
    metrics = trainer.evaluate()
    for metric_name, metric_value in metrics.items():
        mlflow.log_metric(metric_name, metric_value)

    # MLflow 모델 레지스터
    model_uri = "runs:/{run_id}/{artifact_path}".format(run_id=mlflow.active_run().info.run_id, artifact_path=model_dir)

    # 이 값 이용해서 허깅페이스 모델 이름 설정 예정
    model_details = mlflow.register_model(model_uri=model_uri, name=model_name.replace('/', '-'))   # 모델 이름에 '/'를 '-'로 대체

    # 모델 Description
    client = MlflowClient()
    client.update_model_version(name=model_details.name, version=model_details.version, description=model_description)
    model_version = model_details.version   # 버전 정보 허깅페이스 업로드 시 사용



## 허깅페이스 모델 업로드

# 리포지토리 이름 설정
repo_name = "maxseats/" + model_name.replace('/', '-') + '-' + str(model_version)  # 허깅페이스 레포지토리 이름 설정

# 리포지토리 생성
create_repo(repo_name, exist_ok=True)



# 리포지토리 클론
repo = Repository(local_dir='./repo', clone_from=f"{repo_name}")


# model_dir 필요한 파일 복사
max_depth = 1  # 순회할 최대 깊이

for root, dirs, files in os.walk(model_dir):
    depth = root.count(os.sep) - model_dir.count(os.sep)
    if depth < max_depth:
        for file in files:
            # 파일 경로 생성
            source_file = os.path.join(root, file)
            # 대상 폴더에 복사
            shutil.copy(source_file, './repo')


# 토크나이저 다운로드 및 로컬 디렉토리에 저장
tokenizer.save_pretrained('./repo')


readme = """
---
language: ko
tags:
- whisper
- speech-recognition
datasets:
- ai_hub
metrics:
- cer
---
# Model Name : """ + model_name + '\n' + "# Description\n"


# 모델 카드 및 기타 메타데이터 파일 작성
with open("./repo/README.md", "w") as f:
    f.write( readme + model_description)

# 파일 커밋 푸시
repo.push_to_hub(commit_message="Initial commit")

# 폴더와 하위 내용 삭제
shutil.rmtree(model_dir)
shutil.rmtree('./repo')

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Resolving data files:   0%|          | 0/25 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/25 [00:00<?, ?it/s]

Loading dataset shards:   0%|          | 0/25 [00:00<?, ?it/s]

max_steps is given, it will override any value given in num_train_epochs


Step,Training Loss,Validation Loss


Registered model 'SungBeom-whisper-base-ko' already exists. Creating a new version of this model...
Created version '4' of model 'SungBeom-whisper-base-ko'.
For more details, please read https://huggingface.co/docs/huggingface_hub/concepts/git_vs_http.
Cloning https://huggingface.co/maxseats/SungBeom-whisper-base-ko-4 into local empty directory.


Download file model.safetensors:   0%|          | 6.25k/277M [00:00<?, ?B/s]

Download file training_args.bin: 100%|##########| 5.18k/5.18k [00:00<?, ?B/s]

Clean file training_args.bin:  19%|#9        | 1.00k/5.18k [00:00<?, ?B/s]

Clean file model.safetensors:   0%|          | 1.00k/277M [00:00<?, ?B/s]

To https://huggingface.co/maxseats/SungBeom-whisper-base-ko-4
   537bcf1..6465eff  main -> main

   537bcf1..6465eff  main -> main



# 3. 모델 테스트 및 성능 기록

In [9]:
import nlptutti as metrics
from transformers import pipeline
import json
import os
import time
import gdown
import gc
import torch
from transformers import WhisperTokenizer

'''
모든 모델은 모델명과 버전으로 구분해요.

ex)
    model_name = "openai/whisper-base"
    model_version = 3

결과는 test_log_path에 저장되어요.

사용법 참고: https://pss2947.atlassian.net/issues/SCRUM-40?filter=10007
'''

#########################################################################################################################################
################################################### 사용자 설정 변수 #####################################################################
#########################################################################################################################################

model_names = [model_name]
model_version = model_version   # 위에서 설정했음 이미


#########################################################################################################################################
################################################### 사용자 설정 변수 #####################################################################
#########################################################################################################################################


# 모델 이름 및 버전 설정
model_names = ['maxseats/' + name.replace('/', '-') + '-' + str(model_version) for name in model_names]

# 폴더가 없을 경우에만 실행
if not os.path.exists(data_directory):
    gdown.download(id="12xNoD53zFqnkYYyeKm_box2gFR0WRCjb", output="dataset.zip", quiet=False)   # 데이터셋 다운로드

    # unzip
    os.system("unzip dataset.zip")
    os.system("rm dataset.zip")


# 모델 별 테스트 파이프라인 실행
for model_name in model_names:
    model_name = 'maxseats/SungBeom-whisper-base-ko-4'
    tokenizer = WhisperTokenizer.from_pretrained(model_name, language="Korean", task="transcribe")  # 토크나이저 불러오기

    start_time = time.time()    # 시작 시간 기록

    # 평균 계산용
    CER_total = 0.0
    WER_total = 0.0

    # 모델 폴더 생성 및 로그파일 폴더 지정
    model_log_dir = os.path.join(test_log_path, model_name)
    os.makedirs(model_log_dir, exist_ok=True)
    log_file_path = os.path.join(model_log_dir, "log.txt")


    with open(log_file_path, 'w', encoding='utf-8') as log_file:


        # GPU 사용을 위해 device=0 설정
        device = 0 if torch.cuda.is_available() else -1
        pipe = pipeline("automatic-speech-recognition", model=model_name, tokenizer=tokenizer, device=device)   # STT 파이프라인

        for i in range(1, data_num+1):

            print(i, "번째 데이터:")
            log_file.write(f"{i} 번째 데이터:\n")

            sample = data_directory + "/" + "{:03d}".format(i) + ".mp3"    # 음성파일 경로

            result = pipe(sample, return_timestamps=False)

            preds = result["text"]  # STT 예측 문자열
            target_path = data_directory + "/" + "{:03d}".format(i) + ".txt" # 텍스트파일 경로


            # 파일 열기
            with open(target_path, 'r', encoding='utf-8') as file:
                # 파일 내용 읽기
                target = file.read()

            print("예측 : ", result["text"])
            print("정답 : ", target)
            log_file.write(f"예측 : {preds}\n")
            log_file.write(f"정답 : {target}\n")

            # CER 출력
            cer_result = metrics.get_cer(target, preds)

            cer_substitutions = cer_result['substitutions']
            cer_deletions = cer_result['deletions']
            cer_insertions = cer_result['insertions']
            # prints: [cer, substitutions, deletions, insertions] -> [CER = 0 / 34, S = 0, D = 0, I = 0]
            CER_total += cer_result['cer']
            print("CER, S, D, I : ", cer_result['cer'], cer_substitutions, cer_deletions, cer_insertions)
            log_file.write(f"CER, S, D, I : {cer_result['cer']}, {cer_substitutions}, {cer_deletions}, {cer_insertions}\n")


            # WER 출력
            wer_result = metrics.get_wer(target, preds)

            wer_substitutions = wer_result['substitutions']
            wer_deletions = wer_result['deletions']
            wer_insertions = wer_result['insertions']
            # prints: [wer, substitutions, deletions, insertions] -> [WER =  2 / 4, S = 1, D = 1, I = 0]
            WER_total += wer_result['wer']
            print("WER, S, D, I : ", wer_result['wer'], wer_substitutions, wer_deletions, wer_insertions)
            print()
            log_file.write(f"WER, S, D, I : {wer_result['wer']}, {wer_substitutions}, {wer_deletions}, {wer_insertions}\n\n")

            # 로그 버퍼에서 파일로 flush(중간 저장)
            log_file.flush()
            os.fsync(log_file.fileno())

    end_time = time.time()  # 종료 시간 기록
    elapsed_time = end_time - start_time    # 실행 시간

    # 시간, 분, 초 단위로 변환
    hours = int(elapsed_time // 3600)
    minutes = int((elapsed_time % 3600) // 60)
    seconds = int(elapsed_time % 60)


    print("현재 모델 : ", model_name)
    print("CER 평균 : ", CER_total / data_num)
    print("WER 평균 : ", WER_total / data_num)
    print("실행시간 : ", "{:02d}시간 {:02d}분 {:02d}초".format(hours, minutes, seconds))

    # 데이터 딕셔너리 생성
    data = {
        "model_name": model_name,
        "CER_mean": CER_total / data_num,
        "WER_mean": WER_total / data_num,
        "running_time" : "{:02d}:{:02d}:{:02d}".format(hours, minutes, seconds)
    }


    # 기존 데이터 읽기(없으면 빈 리스트)
    try:
        with open(test_log_path + "/total_result.json", "r", encoding="utf-8") as file:
            data_list = json.load(file)
    except FileNotFoundError:
        data_list = []

    # 새 데이터 추가
    data_list.append(data)

    # CER_mean, WER_mean을 기준으로 오름차순 정렬
    sorted_data = sorted(data_list, key=lambda x: (x['CER_mean'], x['WER_mean']))

    # 정렬된 데이터를 파일로 저장
    with open(test_log_path + "/total_result.json", "w", encoding="utf-8") as file:
        json.dump(sorted_data, file, ensure_ascii=False, indent=4)

    # 파이프라인 사용 후 메모리 해제
    del pipe
    gc.collect()


tokenizer_config.json:   0%|          | 0.00/20.5k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/2.08k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


config.json:   0%|          | 0.00/1.32k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/290M [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/339 [00:00<?, ?B/s]

1 번째 데이터:
예측 :  세탁 로금은 하고 있거든요?
정답 :  일단 녹음은 하고 있거든요?
CER, S, D, I :  0.36363636363636365 4 0 0
WER, S, D, I :  0.5 2 0 0

2 번째 데이터:
예측 :  핸드폰은 제가 핸드폰이 네 내 노트북보다 용량이 많아
정답 :  핸드폰은 제가 핸드폰이 내 내 노트북보다 용량이 많아.
CER, S, D, I :  0.045454545454545456 1 0 0
WER, S, D, I :  0.125 1 0 0

3 번째 데이터:
예측 :  그래서 일단은 일단 지금부터 클럽에도 1번 보고 어.
정답 :  그래서 일단은 일단 지금부터 클로바 노트 한번 보고 어
CER, S, D, I :  0.22727272727272727 4 1 0
WER, S, D, I :  0.3333333333333333 2 1 0

4 번째 데이터:
예측 :  클럽은 노트를 썼을 때 불편함을 그냥 뭐 고염 염색 같은 거 잘 못 알아 먹고 그런 거 빼고는 못 느꼈거든요. 그리고 바라서 구분도 아마 클럽은 어떻게 해 줄 거야?
정답 :  클로바 노트를 썼을 때 불편함을 그냥 뭐 고유명사 같은 거 잘 못 알아먹고 그런 거 빼고는 못 느꼈거든요? 그리고 발화자 구분도 아마 클로바 노트가 해줄 거야.
CER, S, D, I :  0.20967741935483872 13 0 0
WER, S, D, I :  0.3448275862068966 7 0 3

5 번째 데이터:
예측 :  딸아정으로 자리 신어요?
정답 :  발화자 구분 잘해주더라.
CER, S, D, I :  1.0 10 0 0
WER, S, D, I :  1.0 3 0 0

6 번째 데이터:
예측 :  어 그러면은 저희 AI 허브 가서 그건 봐야겠다.
정답 :  어 아 그러면은 저희 AI 허브 가서 그거 한번 봐야겠다.
CER, S, D, I :  0.18181818181818182 1 3 0
WER, S, D, I :  0.3 1 2 0

7 번째 데이터:

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


예측 :  패드 데이터가 있어? 어우, 아이스.
정답 :  회의 데이터가 있어? 오 나이스!
CER, S, D, I :  0.38461538461538464 4 0 1
WER, S, D, I :  0.6 3 0 0

11 번째 데이터:
예측 :  제 용량도 어마어묻을 하자 240개 가요?
정답 :  그 용량도 어마무시하다. 240기가야
CER, S, D, I :  0.4117647058823529 6 0 1
WER, S, D, I :  0.8333333333333334 3 0 2

12 번째 데이터:
예측 :  이게 가입기라여?
정답 :  240기가요?
CER, S, D, I :  0.8571428571428571 5 0 1
WER, S, D, I :  1.0 1 0 1

13 번째 데이터:
예측 :  이게 영양별로 단화나져 있구나.
정답 :  이게 영역 별로 다 나눠져 있구나.
CER, S, D, I :  0.3076923076923077 4 0 0
WER, S, D, I :  0.6666666666666666 2 2 0

14 번째 데이터:
예측 :  회의가 있다고요?
정답 :  회의가 있다고요?
CER, S, D, I :  0.0 0 0 0
WER, S, D, I :  0.0 0 0 0

15 번째 데이터:
예측 :  예, 하
정답 :  예~
CER, S, D, I :  0.5 1 0 0
WER, S, D, I :  1.0 1 0 1

16 번째 데이터:
예측 :  어 나이스 하시대. 500ml 나.
정답 :  오~ 어~ 오~ 나이스 아 씨 여긴 500기가네?
CER, S, D, I :  0.631578947368421 6 6 0
WER, S, D, I :  0.875 4 3 0

17 번째 데이터:
예측 :  샘플레이터 바나보겠어요?
정답 :  샘플 데이터 받아보겠음.
CER, S, D, I :  0.45454545454545453 4 0 1
WER, S, D, I :  1.0 2 1 0

18 번째 데이터:
예측 :  샘플 에이드 바보겠습니다.
정답 