# 환경 설정


구글 드라이브와 Colab을 연동

In [None]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive



Gpu 확인

In [None]:
!nvidia-smi -L

GPU 0: Tesla T4 (UUID: GPU-e9bf7d83-8b53-15e3-152e-8b3b462174cd)


whisper ai 사용에 필요한 python 패키지

In [None]:
# 데이터셋과 transformers 설치
!pip install datasets>=2.6.1
!pip install git+https://github.com/huggingface/transformers

# 오디오 처리를 위한 librosa 설치
!pip install librosa

# 성능 측정을 위한 evaluate와 jiwer 설치
!pip install evaluate>=0.30
!pip install jiwer

# 인터랙티브 인터페이스를 위한 gradio 설치
!pip install gradio

# Transformers와 PyTorch를 함께 사용하기 위한 accelerate 설치
!pip install transformers[torch]
!pip install accelerate>=0.20.1

modules 과 packges import

In [None]:
from dataclasses import dataclass
from typing import Any, Dict, List, Union
import torch

# import the relavant libraries for loggin in
from huggingface_hub import HfApi, HfFolder

# 함수 정의

In [None]:
def login_hugging_face(token):
    """
    Hugging Face API 토큰을 사용하여 Hugging Face에 로그인합니다.
    """
    folder = HfFolder()
    folder.save_token(token)

모델에 입력으로 사용될 데이터와 라벨 데이터가 준비

In [None]:
def prepare_dataset(batch):
    """
    Prepare audio data to be suitable for Whisper AI model.
    """
    # 오디오 데이터를 48kHz에서 16kHz로 변환하여 로드
    audio = batch["audio"]

    # 입력 오디오 배열로부터 log-Mel 입력 특성을 계산
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # 대상 텍스트를 토큰화하고 라벨 ID로 인코딩
    batch["labels"] = tokenizer(batch["sentence"]).input_ids
    return batch

데이터 콜레이터 클래스는 ASR 모델의 훈련 및 평가 과정에서 데이터의 전처리와 패딩을 처리하는 역할을 수행

In [None]:
@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    """
    Use Data Collator to perform Speech Seq2Seq with padding
    """
    processor: Any

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        # split inputs and labels since they have to be of different lengths and need different padding methods
        # first treat the audio inputs by simply returning torch tensors
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # get the tokenized label sequences
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # pad the labels to max length
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # replace padding with -100 to ignore loss correctly
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # if bos token is appended in previous tokenization step,
        # cut bos token here as it's append later anyways
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        batch["labels"] = labels

        return batch

평기지표: CER

In [None]:
from datasets import load_metric

cer_metric = load_metric("cer")

  cer_metric = load_metric("cer")


Downloading builder script:   0%|          | 0.00/2.16k [00:00<?, ?B/s]

In [None]:
def compute_metrics(pred):
    labels_ids = pred.label_ids
    pred_ids = pred.predictions

    pred_str = processor.batch_decode(pred_ids, skip_special_tokens=True)
    labels_ids[labels_ids == -100] = processor.tokenizer.pad_token_id
    label_str = processor.batch_decode(labels_ids, skip_special_tokens=True)

    cer = cer_metric.compute(predictions=pred_str, references=label_str)

    return {"cer": cer}

# STEP 0. Hugging Face 로그인

In [None]:
# get your account token from https://huggingface.co/settings/tokens
token = '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'
login_hugging_face(token)
print('We are logged in to Hugging Face now!')

We are logged in to Hugging Face now!


# STEP 1. 데이터 불러오기

In [None]:
import os
import shutil
import zipfile

def extract_zip_files(zip_file_path, extracted_folder_path):
    with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
        zip_ref.extractall(extracted_folder_path)

def change_folder_structure(extracted_folder_path):
    audio_target_dir = os.path.join(extracted_folder_path, "audio")
    label_target_dir = os.path.join(extracted_folder_path, "labels")

    # 폴더 생성
    os.makedirs(audio_target_dir, exist_ok=True)
    os.makedirs(label_target_dir, exist_ok=True)

    for root, _, files in os.walk(extracted_folder_path):
        for file in files:
            if file.endswith(".wav"):
                audio_file_path = os.path.join(root, file)
                new_audio_file_path = os.path.join(audio_target_dir, file)
                shutil.move(audio_file_path, new_audio_file_path)

            elif file.endswith(".json"):
                label_file_path = os.path.join(root, file)
                audio_id = file.split(".")[0]
                new_label_file_path = os.path.join(label_target_dir, f"{audio_id}.txt")
                shutil.move(label_file_path, new_label_file_path)

    # 빈 폴더 제거 (오직 audio_target_dir와 label_target_dir만 남아있을 것)
    for root, dirs, _ in os.walk(extracted_folder_path, topdown=False):
        for dir in dirs:
            if dir not in [os.path.basename(audio_target_dir), os.path.basename(label_target_dir)]:
                dir_path = os.path.join(root, dir)
                os.rmdir(dir_path)

# 1. 데이터 파일이 저장된 경로를 지정합니다.
zip_file_path_audio = '/content/drive/MyDrive/data_file/sample_15000_ko_child/audio_sample.zip'
zip_file_path_label = '/content/drive/MyDrive/data_file/sample_15000_ko_child/label_sample.zip'
extracted_folder_path = '/content/data/'  # 압축 해제된 데이터가 저장될 폴더 경로

# 폴더 초기화
if os.path.exists(extracted_folder_path):
    shutil.rmtree(extracted_folder_path)

# 2. zip 파일을 압축 해제합니다.
extract_zip_files(zip_file_path_audio, extracted_folder_path)
extract_zip_files(zip_file_path_label, extracted_folder_path)

# 3. 폴더 구조 변경
change_folder_structure(extracted_folder_path)

# 4. 구조 확인
# 데이터 폴더 경로 설정
data_folder = '/content/data/'

# audio 폴더 내 파일 목록 확인
audio_files = os.listdir(os.path.join(data_folder, 'audio'))
print("Audio Files:")
print(audio_files)

# labels 폴더 내 파일 목록 확인
label_files = os.listdir(os.path.join(data_folder, 'labels'))
print("\nLabel Files:")
print(label_files)

# 이제 "/content/data/" 폴더 내에 "audio" 폴더와 "labels" 폴더가 생성되며,
# 해당 폴더에 원천데이터인 wav 파일과 라벨링데이터인 txt 파일이 저장됩니다.
# 이후에는 해당 경로에서 데이터를 불러와서 학습을 진행하시면 됩니다.

audio data 개수와 label data 개수 같은지 확인

In [None]:
import os

data_folder = "/content/data"
audio_folder = os.path.join(data_folder, "audio")
label_folder = os.path.join(data_folder, "labels")

# audio 폴더 내의 파일 개수 확인
audio_files = [file for file in os.listdir(audio_folder) if file.endswith(".wav")]
print(f"오디오 파일 개수: {len(audio_files)}")

# labels 폴더 내의 파일 개수 확인
label_files = [file for file in os.listdir(label_folder) if file.endswith(".txt")]
print(f"JSON 파일 개수: {len(label_files)}")


오디오 파일 개수: 15953
JSON 파일 개수: 15953


train과 test 데이터로 나누기 및 모델 학습을 위한 구조 변경

In [None]:
from datasets import DatasetDict, Dataset, load_dataset
import os
import random
import json

In [None]:
def create_dataset(data_folder):
    audio_folder = os.path.join(data_folder, "audio")
    label_folder = os.path.join(data_folder, "labels")

    # audio 폴더 내의 WAV 파일 리스트를 가져옴
    audio_files = [file for file in os.listdir(audio_folder) if file.endswith(".wav")]

    # 데이터셋 생성
    dataset_dict = DatasetDict()
    dataset = {"audio": [], "sentence": []}

    # 라벨 파일의 "FileName"을 기준으로 오디오 파일 찾아서 연결
    for label_file in os.listdir(label_folder):
        label_path = os.path.join(label_folder, label_file)

        with open(label_path, "r", encoding="utf-8") as f:
            label_data = json.load(f)
            audio_filename = label_data["File"]["FileName"]
            sentence = label_data["Transcription"]["LabelText"]

            # "FileName"과 일치하는 오디오 파일 찾아서 연결
            matching_audio = [audio_file for audio_file in audio_files if audio_filename in audio_file]
            if matching_audio:
                audio_path = os.path.join(audio_folder, matching_audio[0])
                dataset["audio"].append(audio_path)
                dataset["sentence"].append(sentence)

    # 데이터를 무작위로 섞어서 train과 test로 나누기
    data_size = len(dataset["audio"])
    random_indices = list(range(data_size))
    random.shuffle(random_indices)
    train_size = int(data_size * 0.9)

    train_data = {"audio": [], "sentence": []}
    test_data = {"audio": [], "sentence": []}

    for i in random_indices[:train_size]:
        train_data["audio"].append(dataset["audio"][i])
        train_data["sentence"].append(dataset["sentence"][i])

    for i in random_indices[train_size:]:
        test_data["audio"].append(dataset["audio"][i])
        test_data["sentence"].append(dataset["sentence"][i])

    # 데이터셋에 추가
    dataset_dict["train"] = Dataset.from_dict(train_data)
    dataset_dict["test"] = Dataset.from_dict(test_data)

    return dataset_dict

# 데이터 폴더 경로 지정
data_folder = "/content/data"

# 데이터셋 생성
custom_dataset = create_dataset(data_folder)

# "sentence" 필드만 출력
print(custom_dataset)


DatasetDict({
    train: Dataset({
        features: ['audio', 'sentence'],
        num_rows: 14357
    })
    test: Dataset({
        features: ['audio', 'sentence'],
        num_rows: 1596
    })
})


audio data 와 text data 일부 출력

In [None]:
# 오디오 데이터 일부 출력
print("오디오 데이터 일부 출력:")
print(custom_dataset["train"]["audio"][2])
print()

# 텍스트 문장 데이터 일부 출력
print("텍스트 문장 데이터 일부 출력:")
print(custom_dataset["train"]["sentence"][2])

오디오 데이터 일부 출력:
/content/data/audio/K00017766-BFG20-L1N2D4-E-K0KK-04561630.wav

텍스트 문장 데이터 일부 출력:
아빠가 기름을 떠왔다.


# STEP 2. Prepare: Feature Extractor, Tokenizer and Data

In [None]:
from transformers import WhisperFeatureExtractor
from transformers import WhisperTokenizer

# - Load Feature extractor: WhisperFeatureExtractor
feature_extractor = WhisperFeatureExtractor.from_pretrained("openai/whisper-base")

# - Load Tokenizer: WhisperTokenizer
tokenizer = WhisperTokenizer.from_pretrained("openai/whisper-base", language="korean", task="transcribe")

# STEP 3. Combine elements with WhisperProcessor

In [None]:
from transformers import WhisperProcessor
processor = WhisperProcessor.from_pretrained("openai/whisper-base", language="korean", task="transcribe")

# STEP 4. 데이터 준비

In [None]:
print('| Check the audio example')
print(f'{custom_dataset["train"][0]}\n')

# Downsample from 48kHZ to 16kHZ
# Whisper AI 모델이 16kHz의 샘플링 속도에서 훈련되어서
# 입력 데이터를 16kHz로 다운샘플링하는 것이 필요
from datasets import Audio
custom_dataset = custom_dataset.cast_column("audio", Audio(sampling_rate=16000))

print('| Check the effect of downsampling:')
print(f'{custom_dataset["train"][0]}\n')

# Prepare and use function to prepare our data ready for the Whisper AI model
custom_dataset = custom_dataset.map(
    prepare_dataset,
    remove_columns=custom_dataset.column_names["train"],
    num_proc=1 # num_proc > 1 will enable multiprocessing / num_proc = 2 -> 1로 변경함
    )

| Check the audio example
{'audio': '/content/data/audio/K00017867-BFG23-L1N2D2-E-K0KK-04553718.wav', 'sentence': '많이 뛰어놀고 친구집에 가니까 친구엄마가 저녁에 짜장면까지 먹고 가라고 했다.'}

| Check the effect of downsampling:
{'audio': {'path': '/content/data/audio/K00017867-BFG23-L1N2D2-E-K0KK-04553718.wav', 'array': array([ 0.00000000e+00,  0.00000000e+00,  0.00000000e+00, ...,
       -6.10351562e-05,  3.05175781e-05,  3.05175781e-05]), 'sampling_rate': 16000}, 'sentence': '많이 뛰어놀고 친구집에 가니까 친구엄마가 저녁에 짜장면까지 먹고 가라고 했다.'}



Map:   0%|          | 0/14357 [00:00<?, ? examples/s]

Map:   0%|          | 0/1596 [00:00<?, ? examples/s]

# STEP 5. Training and evaluation

In [None]:
# STEP 5.1. Initialize the Data collator
data_collator = DataCollatorSpeechSeq2SeqWithPadding(processor=processor)

# STEP 5.1. Define evaluation metric
import evaluate
metric = evaluate.load("cer")

# STEP 5.3. Load a pre-trained Checkpoint
from transformers import WhisperForConditionalGeneration
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-base")

"""
Overide generation arguments:
- no tokens are forced as decoder outputs: https://huggingface.co/docs/transformers/main_classes/text_generation#transformers.generation_utils.GenerationMixin.generate.forced_decoder_ids
- no tokens are suppressed during generation: https://huggingface.co/docs/transformers/main_classes/text_generation#transformers.generation_utils.GenerationMixin.generate.suppress_tokens
"""
model.config.forced_decoder_ids = None
model.config.suppress_tokens = []

In [None]:
# STEP 5.4. Define the training configuration
"""
Check for Seq2SeqTrainingArguments here:
https://huggingface.co/docs/transformers/main_classes/trainer#transformers.Seq2SeqTrainingArguments
"""
from transformers import Seq2SeqTrainingArguments, Seq2SeqTrainer

training_args = Seq2SeqTrainingArguments(
    output_dir="./whisper_base_0815_ver1",  # 저장된 모델 및 결과물의 디렉토리 경로
    per_device_train_batch_size=32,  # 한 번에 처리되는 훈련 배치 크기
    gradient_accumulation_steps=1,  # 배치 크기 감소시 그래디언트 누적을 통한 학습 안정화
    learning_rate=1e-5,  # 학습률
    warmup_steps=200,  # 초기 학습률 조정을 위한 웜업 스텝 수 / 일반적으로는 10% ~ 20%의 전체 학습 스텝 수에 해당하는 값을 시도
    max_steps=1800,  # 전체 훈련 스텝 수
    gradient_checkpointing=True,  # 그래디언트 체크포인팅을 통한 메모리 절약
    fp16=True,  # FP16 형식으로 훈련 수행 (반정밀도 부동소수점)( cpu 가동시 안씀)
    evaluation_strategy="steps",  # 검증 수행 전략 설정
    per_device_eval_batch_size=32,  # 한 번에 처리되는 검증 배치 크기
    predict_with_generate=True,  # 생성된 토큰을 통해 예측 수행
    generation_max_length=225,  # 생성된 토큰의 최대 길이 (225유지)
    eval_steps=300,  # 검증 수행 스텝 수
    logging_steps=300,  # 로그 기록 스텝 수
    load_best_model_at_end=False,  # 훈련 종료 시 최적 모델 로드 여부
    metric_for_best_model="cer",  # 최적 모델 선정을 위한 평가 지표 wer -> cer로 변경
    greater_is_better=False,  # 평가 지표 값이 높을수록 좋은지 여부
    save_steps=300  # 변경된 save_steps 값
)



# Initialize a trainer.
"""
Forward the training arguments to the Hugging Face trainer along with our model,
dataset, data collator and compute_metrics function.
"""
# 지정된 인자 및 구성요소로 트레이너를 초기화합니다
trainer = Seq2SeqTrainer(
    args=training_args,                   # 이전에 정의한 훈련 인자
    model=model,                          # 훈련할 ASR 모델
    train_dataset=custom_dataset["train"],# 훈련 데이터셋
    eval_dataset=custom_dataset["test"],  # 평가 데이터셋
    data_collator=data_collator,           # 데이터 전처리를 위한 데이터 콜레이터
    compute_metrics=compute_metrics,          # CER 메트릭을 계산하는 함수
    tokenizer=processor.feature_extractor # 입력 오디오 데이터를 처리하기 위한 토크나이저
)

# Save processor object before starting training
processor.save_pretrained(training_args.output_dir)

# STEP 5.5. Training
"""
Training will take appr. 5-10 hours depending on your GPU.
"""
print('Training 시작')
trainer.train()  # <-- training 시작
print('Training 완료')

#"Step": 모델의 훈련 과정에서 진행되는 각 스텝을 나타내는 숫자입니다.
#스텝은 주로 배치(batch) 단위로 모델이 업데이트되는 지점을 의미합니다.

# "Training Loss": 훈련 데이터를 사용하여 모델을 학습할 때 나타나는 손실 값입니다.
#이 값은 모델이 예측한 결과와 실제 정답과의 차이를 나타냅니다.


# "Validation Loss": 훈련 중에 일정 주기마다 검증 데이터를 사용하여 모델의 성능을
# 평가한 후 나타나는 손실 값입니다.
# 이 값도 마찬가지로 모델의 예측 결과와 실제 정답과의 차이를 나타냅니다.
# 검증 손실이 감소하는 것은 모델이 일반화되는 표시입니다.

# "CER" (Character Error Rate): 훈련 중에 일정 주기마다 검증 데이터를 사용하여
#모델의 문자 에러 비율(CER)을 평가한 값입니다.
#CER은 텍스트 분야에서 자주 사용되는 평가 지표 중 하나로,
#모델이 생성한 텍스트와 실제 텍스트 사이의 문자 수준 오류 비율을 나타냅니다.
#CER이 낮을수록 모델의 성능이 좋다고 판단됩니다.


Training 시작


`use_cache = True` is incompatible with gradient checkpointing. Setting `use_cache = False`...


Step,Training Loss,Validation Loss,Cer
300,0.8242,0.477118,0.165863
600,0.4032,0.426391,0.150861
900,0.336,0.402121,0.141663
1200,0.2493,0.399214,0.156385
1500,0.2261,0.397724,0.135719
1800,0.199,0.395261,0.134709


Training 완료


학습된 모델 평가

In [None]:
trainer.evaluate()

{'eval_loss': 0.39526107907295227,
 'eval_cer': 0.13470921428972016,
 'eval_runtime': 377.6881,
 'eval_samples_per_second': 4.226,
 'eval_steps_per_second': 0.132,
 'epoch': 4.01}

학습된 모델 저장

In [49]:
trainer.save_model("/content/drive/MyDrive/model/whisper_base_0815")

모델에 토크나이저 저장

In [50]:
from transformers import AutoTokenizer

# Load the trained tokenizer
tokenizer = AutoTokenizer.from_pretrained("/content/whisper_base_0815_ver1")

# Specify the directory where you want to save the tokenizer
save_directory = "/content/drive/MyDrive/model/whisper_base_0815"

# Save the tokenizer to the specified directory
tokenizer.save_pretrained(save_directory)


('/content/drive/MyDrive/model/whisper_base_0815/tokenizer_config.json',
 '/content/drive/MyDrive/model/whisper_base_0815/special_tokens_map.json',
 '/content/drive/MyDrive/model/whisper_base_0815/vocab.json',
 '/content/drive/MyDrive/model/whisper_base_0815/merges.txt',
 '/content/drive/MyDrive/model/whisper_base_0815/normalizer.json',
 '/content/drive/MyDrive/model/whisper_base_0815/added_tokens.json',
 '/content/drive/MyDrive/model/whisper_base_0815/tokenizer.json')

모델 파일내용 확인

In [51]:
import os
model_path = "/content/drive/MyDrive/model/whisper_base_0815"
files_in_model_path = os.listdir(model_path)
print(files_in_model_path)


['config.json', 'generation_config.json', 'pytorch_model.bin', 'preprocessor_config.json', 'training_args.bin', 'tokenizer_config.json', 'special_tokens_map.json', 'added_tokens.json', 'vocab.json', 'merges.txt', 'normalizer.json', 'tokenizer.json']


모델 실행코드

In [52]:
from transformers import pipeline

model_name_or_path = "/content/drive/MyDrive/model/whisper_base_0815"
asr = pipeline(model=model_name_or_path, task="automatic-speech-recognition")

def transcribe_audio(audio_path):
    transcription = asr(audio_path)
    return transcription['text']

In [53]:
audio_file_paths = [
    "/content/drive/MyDrive/data_file/whisper 테스트 음원/K00018057-BFG23-L1N2D1-E-K0KK-03989824.wav",
    "/content/drive/MyDrive/data_file/whisper 테스트 음원/K00018057-BFG23-L1N2D1-E-K0KK-03989881.wav",
    "/content/drive/MyDrive/data_file/whisper 테스트 음원/K00018057-BFG23-L1N2D1-E-K0KK-03989970.wav",
    "/content/drive/MyDrive/data_file/테스트 음원/K00013596-BMG23-L1N2D1-E-K0KK-02164576.wav",
    "/content/drive/MyDrive/data_file/테스트 음원/K00013596-BMG23-L1N2D1-E-K0KK-02164794.wav",
    "/content/drive/MyDrive/data_file/테스트 음원/K00013596-BMG23-L1N2D1-E-K0KK-02165323.wav"

    # 추가 음성 파일 경로
]

for audio_file_path in audio_file_paths:
    transcription_text = transcribe_audio(audio_file_path)
    print(transcription_text)
    print("=" * 50)




 강강을 체크해서 너무 좋았다.




 다음에도 또 하고 싶다.




 몸모계가 많이 나올까봐 걱정이 됐다.




 텀벅지에 붙은 팀은 전갈팀이 왔다.




친구들과 같이 가서 너무 설레었다.




 메미오충은 칠년 동안 땅에 있다가 나온 거라고 했다.


In [54]:
audio_file_paths = [
    "/content/drive/MyDrive/data_file/테스트 음원2/K0001A082-BMG20-L1N2D1-E-K0KK-05545875.wav",
    "/content/drive/MyDrive/data_file/테스트 음원2/K0001A082-BMG20-L1N2D1-E-K0KK-05545878.wav",
    "/content/drive/MyDrive/data_file/테스트 음원2/K0001A082-BMG20-L1N2D1-E-K0KK-05545884.wav",
    # 추가 음성 파일 경로
]

for audio_file_path in audio_file_paths:
    transcription_text = transcribe_audio(audio_file_path)
    print(transcription_text)
    print("=" * 50)



 저거 내가 타던 자동차야




 저거 어디다 놔




나도 이제 이겼으면 좋겠다.
