# 주요 영역별 회의 음성인식 데이터 구축
- AI hub의 해당 데이터셋을 준비하는 과정이에요.
- 파인튜닝 직전 단계의 전처리 데이터셋을 구축해서
- 허깅페이스에 업로드 하는 것 까지가 목표에요.

    1. 오디오(mp3), 텍스트(txt) 파일 매핑
    2. 괄호 전처리
    3. 16khz 전처리
    4. 허깅페이스 업로드

In [22]:
import os
import json
from pydub import AudioSegment
from tqdm import tqdm


# 사용자 지정 변수를 설정해요.

DATA_DIR = '/mnt/a/maxseats-git/New_Sample' # 데이터셋이 저장된 폴더

# 원천, 라벨링 데이터 폴더 지정
json_base_dir = os.path.join(DATA_DIR, '라벨링데이터')
audio_base_dir = os.path.join(DATA_DIR, '원천데이터')

output_dir = '/mnt/a/maxseats-git/주요 영역별 회의 음성인식 데이터'   # 가공된 데이터셋이 저장될 폴더

token = "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"                     # 허깅페이스 토큰

CACHE_DIR = '/mnt/a/maxseats/.cache'                                # 허깅페이스 캐시 저장소 지정

dataset_name = "maxseats/aihub-test-dataset-tmp"                    # 허깅페이스에 올라갈 데이터셋 이름

model_name = "SungBeom/whisper-small-ko"                            # 대상 모델 / "openai/whisper-base"


In [23]:
'''
데이터셋 경로를 지정해서
하나의 폴더에 mp3, txt 파일로 추출해요.
추출 과정에서 원본 파일은 자동으로 삭제돼요. (저장공간 절약을 위해)
'''


def process_audio_and_subtitle(json_path, audio_base_dir, output_dir):
    # JSON 파일 읽기
    with open(json_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    # 메타데이터에서 오디오 파일 이름 추출
    title = data['metadata']['title']
    
    # 각 TS, VS 폴더에서 해당 오디오 파일을 찾기
    audio_file = None
    for root, _, files in os.walk(audio_base_dir):
        for file in files:
            if file == title + '.wav':
                audio_file = os.path.join(root, file)
                break
        if audio_file:
            break
    
    # 오디오 파일 로드
    if not audio_file or not os.path.exists(audio_file):
        print(f"Audio file {audio_file} does not exist.")
        return
    
    audio = AudioSegment.from_wav(audio_file)
    
    # 발화 데이터 처리
    for utterance in data['utterance']:
        start_time = float(utterance['start']) * 1000  # 밀리초로 변환
        end_time = float(utterance['end']) * 1000      # 밀리초로 변환
        text = utterance['form']
        
        # 오디오 클립 추출
        audio_clip = audio[start_time:end_time]
        
        # 파일 이름 설정
        clip_id = utterance['id']
        audio_output_path = os.path.join(output_dir, clip_id + '.mp3')
        text_output_path = os.path.join(output_dir, clip_id + '.txt')
        
        # 오디오 클립 저장
        audio_clip.export(audio_output_path, format='mp3')
        
        # 텍스트 파일 저장
        with open(text_output_path, 'w', encoding='utf-8') as f:
            f.write(text)

    # 오디오 파일 삭제
    os.remove(audio_file)
    os.remove(audio_file.replace('.wav', '.txt'))
    print(f"Deleted audio file: {audio_file}")

def process_all_files(json_base_dir, audio_base_dir, output_dir):
    json_files = []
    
    # JSON 파일 목록 생성
    for root, dirs, files in os.walk(json_base_dir):
        for file in files:
            if file.endswith('.json'):
                json_files.append(os.path.join(root, file))
    
    # JSON 파일 처리
    for json_file in tqdm(json_files, desc="Processing JSON files"):
        process_audio_and_subtitle(json_file, audio_base_dir, output_dir)
        
        # 완료 후 JSON 파일 삭제
        os.remove(json_file)
        print(f"Deleted JSON file: {json_file}")

# 디렉토리 생성
os.makedirs(output_dir, exist_ok=True)

# 프로세스 실행
process_all_files(json_base_dir, audio_base_dir, output_dir)


Processing JSON files:   0%|          | 0/2 [00:00<?, ?it/s]

In [None]:
'''
가공된 mp3, txt 데이터를 학습 가능한 허깅페이스 데이터셋 형태로 변환해요.
'''

import os
import subprocess
import re

from datasets import Audio, Dataset, DatasetDict, config
from transformers import WhisperFeatureExtractor, WhisperTokenizer
from tqdm import tqdm
import pandas as pd


# 캐시 디렉토리 설정
os.environ['HF_HOME'] = CACHE_DIR
os.environ["HF_DATASETS_CACHE"] = CACHE_DIR
feature_extractor = WhisperFeatureExtractor.from_pretrained(model_name, cache_dir=CACHE_DIR)
tokenizer = WhisperTokenizer.from_pretrained(model_name, language="Korean", task="transcribe", cache_dir=CACHE_DIR)

def exclude_json_files(file_names: list) -> list:
    # .json으로 끝나는 원소 제거
    return [file_name for file_name in file_names if not file_name.endswith('.json')]


def get_label_list(directory):
    # 빈 리스트 생성
    label_files = []

    # 디렉토리 내 파일 목록 불러오기
    for filename in os.listdir(directory):
        # 파일 이름이 '.txt'로 끝나는지 확인
        if filename.endswith('.txt'):
            label_files.append(os.path.join(DATA_DIR, filename))

    return label_files


def get_audio_list(directory):
    # 빈 리스트 생성
    audio_files = []

    # 디렉토리 내 파일 목록 불러오기
    for filename in os.listdir(directory):
        # 파일 이름이 '.wav'나 '.mp3'로 끝나는지 확인
        if filename.endswith('.wav') or filename.endswith('mp3'):
            audio_files.append(os.path.join(DATA_DIR, filename))

    return audio_files

def bracket_preprocess(text):
    
    # 1단계: o/ n/ 글자/ 과 같이. 앞 뒤에 ) ( 가 오지않는 /슬래쉬 는 모두 제거합니다. o,n 이 붙은 경우 해당 글자도 함께 제거합니다.
    text = re.sub(r'\b[o|n]/', '', text)
    text = re.sub(r'[^()]/', '', text)
    
    # 2단계: (70)/(칠십) 과 같은 경우, /슬래쉬 의 앞쪽 괄호의 내용만 남기고 삭제합니다.
    text = re.sub(r'\(([^)]*)\)/\([^)]*\)', r'\1', text)
    
    return text

def prepare_dataset(batch):
    # 오디오 파일을 16kHz로 로드
    audio = batch["audio"]

    # input audio array로부터 log-Mel spectrogram 변환
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # 괄호 전처리
    batch["transcripts"] = bracket_preprocess(batch["transcripts"])

    # target text를 label ids로 변환
    batch["labels"] = tokenizer(batch["transcripts"]).input_ids
    
    # 'input_features'와 'labels'만 포함한 새로운 딕셔너리 생성
    return {"input_features": batch["input_features"], "labels": batch["labels"]}


label_data = get_label_list(DATA_DIR)
audio_data = get_audio_list(DATA_DIR)

transcript_list = []
for label in tqdm(label_data):
    with open(label, 'r', encoding='UTF8') as f:
        line = f.readline()
        transcript_list.append(line)

df = pd.DataFrame(data=transcript_list, columns = ["transcript"]) # 정답 label
df['audio_data'] = audio_data # 오디오 파일 경로

# 오디오 파일 경로를 dict의 "audio" 키의 value로 넣고 이를 데이터셋으로 변환
# 이때, Whisper가 요구하는 사양대로 Sampling rate는 16,000으로 설정한다.
ds = Dataset.from_dict(
    {"audio": [path for path in df["audio_data"]],
     "transcripts": [transcript for transcript in df["transcript"]]}
).cast_column("audio", Audio(sampling_rate=16000))

# 데이터셋을 훈련 데이터와 테스트 데이터, 밸리데이션 데이터로 분할
train_testvalid = ds.train_test_split(test_size=0.2)
test_valid = train_testvalid["test"].train_test_split(test_size=0.5)
datasets = DatasetDict(
    {"train": train_testvalid["train"],
     "test": test_valid["test"],
     "valid": test_valid["train"]}
)

datasets = datasets.map(prepare_dataset, num_proc=None, batch_size=10000)
datasets = datasets.remove_columns(['audio', 'transcripts']) # 불필요한 부분 제거
print('-'*48)
print(type(datasets))
print(datasets)
print('-'*48)

In [None]:
!huggingface-cli login --token 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

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /mnt/a/maxseats/.cache/token
Login successful


In [None]:
'''
허깅페이스 로그인 후, 최종 데이터셋을 업로드해요.
'''

# token = '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'
os.environ['HF_HOME'] = CACHE_DIR
os.environ["HF_DATASETS_CACHE"] = CACHE_DIR

subprocess.run(["huggingface-cli", "login", "--token", token])

# 전처리 완료된 데이터셋을 Hubdataset_name에 저장
datasets.push_to_hub(dataset_name)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to /mnt/a/maxseats/.cache/token
Login successful


Uploading the dataset shards:   0%|          | 0/4 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

CommitInfo(commit_url='https://huggingface.co/datasets/maxseats/aihub-test-dataset-tmp/commit/97b70aadb2afc78c3cf0c96587c770756d6ea7f7', commit_message='Upload dataset', commit_description='', oid='97b70aadb2afc78c3cf0c96587c770756d6ea7f7', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
'''
프롬프트


C:.
│  New_Sample.zip
│
└─New_Sample
    ├─라벨링데이터
    │  └─TL1
    │      └─공중파방송
    │          └─의료
    │                  DGBAH21000190.json
    │                  DGBAH21000195.json
    │                  DGBAH21000196.json
    │                  DGBAH21000201.json
    │
    └─원천데이터
        └─TS1
            └─공중파방송
                └─의료
                        DGBAH21000190.txt
                        DGBAH21000190.wav
                        DGBAH21000195.txt
                        DGBAH21000195.wav
                        DGBAH21000196.txt
                        DGBAH21000196.wav
                        DGBAH21000201.txt
                        DGBAH21000201.wav

파일 구조가 위와 같아. 그리고 json 파일 하나의 예시는 다음과 같아.

{
	"metadata": {
		"title": "DGBAH21000190",
		"creator": "솔트룩스",
		"distributor": "솔트룩스",
		"year": 2021,
		"category": "구어 > 공적 > 회의",
		"date": "20020406",
		"media": "공중파방송",
		"communication": "대면",
		"type": "토론",
		"domain": "의료",
		"topic": "마약의 심각성과 폐해",
		"speaker_num": 17,
		"organization": "",
		"annotation_level": "원시",
		"sampling": "본문 전체"
	},
	"speaker": [
		{
			"id": "DG0001",
			"name": "DG0001",
			"age": "30대",
			"occupation": "성우",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0002",
			"name": "DG0002",
			"age": "30대",
			"occupation": "성우",
			"role": "토론자",
			"sex": "여"
		},
		{
			"id": "DG0003",
			"name": "DG0003",
			"age": "40대",
			"occupation": "성우",
			"role": "사회자",
			"sex": "남"
		},
		{
			"id": "DG0004",
			"name": "DG0004",
			"age": "30대",
			"occupation": "성우",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0005",
			"name": "DG0005",
			"age": "30대",
			"occupation": "성우",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0006",
			"name": "DG0006",
			"age": "40대",
			"occupation": "교수",
			"role": "사회자",
			"sex": "남"
		},
		{
			"id": "DG0007",
			"name": "DG0007",
			"age": "30대",
			"occupation": "아나운서",
			"role": "토론자",
			"sex": "여"
		},
		{
			"id": "DG0008",
			"name": "DG0008",
			"age": "40대",
			"occupation": "아나운서",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0009",
			"name": "DG0009",
			"age": "40대",
			"occupation": "시민",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0010",
			"name": "DG0010",
			"age": "40대",
			"occupation": "의료부장",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0011",
			"name": "DG0011",
			"age": "50대",
			"occupation": "의료전문 변호사",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0012",
			"name": "DG0012",
			"age": "50대",
			"occupation": "교수",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0013",
			"name": "DG0013",
			"age": "50대",
			"occupation": "박사",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0014",
			"name": "DG0014",
			"age": "40대",
			"occupation": "지역 실무회 회장",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0015",
			"name": "DG0015",
			"age": "50대",
			"occupation": "전도사",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0016",
			"name": "DG0016",
			"age": "50대",
			"occupation": "회사원",
			"role": "토론자",
			"sex": "남"
		},
		{
			"id": "DG0017",
			"name": "DG0017",
			"age": "50대",
			"occupation": "시민",
			"role": "토론자",
			"sex": "남"
		}
	],
	"setting": {
		"relation": "사회자 1인 외 토론자"
	},
	"utterance": [
		{
			"id": "DGBAH21000190.1.1.1",
			"start": "0.000",
			"end": "70.699",
			"speaker_id": "DG0001",
			"speaker_role": "토론자",
			"form": "(())",
			"original_form": "(())",
			"environment": "",
			"isIdiom": false,
			"hangeulToEnglish": null,
			"hangeulToNumber": null,
			"term": null
		},
		{
			"id": "DGBAH21000190.1.1.2",
			"start": "70.699",
			"end": "76.904",
			"speaker_id": "DG0001",
			"speaker_role": "토론자",
			"form": "멀티펜으로 바꿨습니다 동호회 아이콘으로 되니까 단번에 갑니다.",
			"original_form": "멀티펜으로 바꿨습니다 동호회 아이콘으로 되니까 단번에 갑니다.",
			"environment": "",
			"isIdiom": false,
			"hangeulToEnglish": null,
			"hangeulToNumber": null,
			"term": null
		},
		{
			"id": "DGBAH21000190.1.1.3",
			"start": "76.904",
			"end": "78.877",
			"speaker_id": "DG0002",
			"speaker_role": "토론자",
			"form": "멀티펜 아이콘으로 단번에",
			"original_form": "멀티펜 아이콘으로 단번에",
			"environment": "",
			"isIdiom": false,
			"hangeulToEnglish": null,
			"hangeulToNumber": null,
			"term": null
		}, ...

이렇게 쭉 이어지는데, 여기서 title로 오디오 파일에 접근해. 그리고 start, end를 통해  해당 시간대를 잘라서 오디오 파일을 mp3 파일로 만들어줘. 또한, form을 참고해서 해당 오디오의 자막을 txt 파일로 만들어줘. 그 두 파일은 확장자만 다르고 이름은 같아야 해.

'''