In [1]:
import os
import json
from pydub import AudioSegment
from tqdm import tqdm
import re
from datasets import Audio, Dataset, DatasetDict
from transformers import WhisperFeatureExtractor, WhisperTokenizer
import pandas as pd

# 사용자 지정 변수를 설정해요.

DATA_DIR = '/mnt/a/maxseats-git/New_Sample' # 데이터셋이 저장된 폴더

# 원천, 라벨링 데이터 폴더 지정
json_base_dir = os.path.join(DATA_DIR, '라벨링데이터')
audio_base_dir = os.path.join(DATA_DIR, '원천데이터')

output_dir = '/mnt/a/maxseats-git/clips'   # 가공된 데이터셋이 저장될 폴더

token = "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"                     # 허깅페이스 토큰

CACHE_DIR = '/mnt/a/maxseats/.cache'                                # 허깅페이스 캐시 저장소 지정

dataset_name = "maxeats/asihub-tensor-test-dataset--tmp"                    # 허깅페이스에 올라갈 데이터셋 이름

model_name = "SungBeom/whisper-small-ko"                            # 대상 모델 / "openai/whisper-base"



'''
데이터셋 경로를 지정해서
하나의 폴더에 mp3, txt 파일로 추출해요.
추출 과정에서 원본 파일은 자동으로 삭제돼요. (저장공간 절약을 위해)
'''

def bracket_preprocess(text):
    
    # 1단계: o/ n/ 글자/ 과 같이. 앞 뒤에 ) ( 가 오지않는 /슬래쉬 는 모두 제거합니다. o,n 이 붙은 경우 해당 글자도 함께 제거합니다.
    text = re.sub(r'\b[o|n]/', '', text)
    text = re.sub(r'[^()]/', '', text)
    
    # 2단계: (70)/(칠십) 과 같은 경우, /슬래쉬 의 앞쪽 괄호의 내용만 남기고 삭제합니다.
    text = re.sub(r'\(([^)]*)\)/\([^)]*\)', r'\1', text)
    
    return text

def process_audio_and_subtitle(json_path, audio_base_dir, output_dir):
    # JSON 파일 읽기
    with open(json_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    
    # 메타데이터에서 오디오 파일 이름 추출
    title = data['metadata']['title']
    
    # 각 TS, VS 폴더에서 해당 오디오 파일을 찾기
    audio_file = None
    for root, _, files in os.walk(audio_base_dir):
        for file in files:
            if file == title + '.wav':
                audio_file = os.path.join(root, file)
                break
        if audio_file:
            break
    
    # 오디오 파일 로드
    if not audio_file or not os.path.exists(audio_file):
        print(f"Audio file {audio_file} does not exist.")
        return
    
    # audio = AudioSegment.from_wav(audio_file)
    audio = AudioSegment.from_mp3(audio_file)
    
    # 발화 데이터 처리
    for utterance in data['utterance']:
        start_time = float(utterance['start']) * 1000  # 밀리초로 변환
        end_time = float(utterance['end']) * 1000      # 밀리초로 변환
        text = utterance['form']
        
        # 오디오 클립 추출
        audio_clip = audio[start_time:end_time]
        
        # 파일 이름 설정
        clip_id = utterance['id']
        audio_output_path = os.path.join(output_dir, clip_id + '.mp3')
        text_output_path = os.path.join(output_dir, clip_id + '.txt')
        
        # 오디오 클립 저장
        audio_clip.export(audio_output_path, format='mp3')
        
        # 괄호 전처리 텍스트 파일 저장
        with open(text_output_path, 'w', encoding='utf-8') as f:
            f.write(bracket_preprocess(text))

    # 오디오 파일 삭제
    os.remove(audio_file)
    os.remove(audio_file.replace('.wav', '.txt'))
    print(f"Deleted audio file: {audio_file}")

def process_all_files(json_base_dir, audio_base_dir, output_dir):
    json_files = []
    
    # JSON 파일 목록 생성
    for root, dirs, files in os.walk(json_base_dir):
        for file in files:
            if file.endswith('.json'):
                json_files.append(os.path.join(root, file))
    
    # JSON 파일 처리
    for json_file in tqdm(json_files, desc="Processing JSON files"):
        process_audio_and_subtitle(json_file, audio_base_dir, output_dir)
        
        # 완료 후 JSON 파일 삭제
        os.remove(json_file)
        print(f"Deleted JSON file: {json_file}")

# 디렉토리 생성
os.makedirs(output_dir, exist_ok=True)

# 프로세스 실행
process_all_files(json_base_dir, audio_base_dir, output_dir)



'''
가공된 mp3, txt 데이터를 학습 가능한 허깅페이스 데이터셋 형태로 변환해요.
'''

# 캐시 디렉토리 설정
os.environ['HF_HOME'] = CACHE_DIR
os.environ["HF_DATASETS_CACHE"] = CACHE_DIR
feature_extractor = WhisperFeatureExtractor.from_pretrained(model_name, cache_dir=CACHE_DIR)
tokenizer = WhisperTokenizer.from_pretrained(model_name, language="Korean", task="transcribe", cache_dir=CACHE_DIR)

def exclude_json_files(file_names: list) -> list:
    # .json으로 끝나는 원소 제거
    return [file_name for file_name in file_names if not file_name.endswith('.json')]


def get_label_list(directory):
    # 빈 리스트 생성
    label_files = []

    # 디렉토리 내 파일 목록 불러오기
    for filename in os.listdir(directory):
        # 파일 이름이 '.txt'로 끝나는지 확인
        if filename.endswith('.txt'):
            label_files.append(os.path.join(directory, filename))

    return label_files


def get_audio_list(directory):
    # 빈 리스트 생성
    audio_files = []

    # 디렉토리 내 파일 목록 불러오기
    for filename in os.listdir(directory):
        # 파일 이름이 '.wav'나 '.mp3'로 끝나는지 확인
        if filename.endswith('.wav') or filename.endswith('mp3'):
            audio_files.append(os.path.join(directory, filename))

    return audio_files

def prepare_dataset(batch):
    # 오디오 파일을 16kHz로 로드
    audio = batch["audio"]

    # input audio array로부터 log-Mel spectrogram 변환
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # target text를 label ids로 변환
    batch["labels"] = tokenizer(batch["transcripts"]).input_ids
    
    # 'input_features'와 'labels'만 포함한 새로운 딕셔너리 생성
    return {"input_features": batch["input_features"], "labels": batch["labels"]}


label_data = get_label_list(output_dir)
audio_data = get_audio_list(output_dir)

transcript_list = []
for label in tqdm(label_data):
    with open(label, 'r', encoding='UTF8') as f:
        line = f.readline()
        transcript_list.append(line)

df = pd.DataFrame(data=transcript_list, columns = ["transcript"]) # 정답 label
df['audio_data'] = audio_data # 오디오 파일 경로

# 오디오 파일 경로를 dict의 "audio" 키의 value로 넣고 이를 데이터셋으로 변환
# 이때, Whisper가 요구하는 사양대로 Sampling rate는 16,000으로 설정한다.


ds = Dataset.from_dict(
    {"audio": [path for path in df["audio_data"]],
     "transcripts": [transcript for transcript in df["transcript"]]}
).cast_column("audio", Audio(sampling_rate=16000))



Processing JSON files: 0it [00:00, ?it/s]
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
100%|██████████| 1660/1660 [00:00<00:00, 24996.57it/s]


In [2]:
# 데이터셋을 훈련 데이터와 테스트 데이터, 밸리데이션 데이터로 분할
train_testvalid = ds.train_test_split(test_size=0.2)
test_valid = train_testvalid["test"].train_test_split(test_size=0.5)
datasets = DatasetDict(
    {"train": train_testvalid["train"],
     "test": test_valid["test"],
     "valid": test_valid["train"]}
)

In [23]:
datasets

DatasetDict({
    train: Dataset({
        features: ['audio', 'transcripts'],
        num_rows: 1328
    })
    test: Dataset({
        features: ['audio', 'transcripts'],
        num_rows: 166
    })
    valid: Dataset({
        features: ['audio', 'transcripts'],
        num_rows: 166
    })
})

In [24]:
datasets['train']['audio'][0]

{'path': '/mnt/a/maxseats-git/clips/DGBAH21000195.1.1.602.mp3',
 'array': array([ 2.94935511e-04,  3.68657988e-04,  4.58460767e-04, ...,
        -6.29809801e-05, -1.90640858e-05, -1.02568520e-04]),
 'sampling_rate': 16000}

In [25]:
datasets['train']['audio'][0]['array']

array([ 2.94935511e-04,  3.68657988e-04,  4.58460767e-04, ...,
       -6.29809801e-05, -1.90640858e-05, -1.02568520e-04])

In [26]:
datasets['train']['transcripts'][:5]

['지금 당신은 어떻습니까 위까지 생각한 발효 (())',
 '이와같은 거는 특히 청소년층에 대해서 미치는 영향이 상당히 크기 때문에 어~ 청소년 층이 아직 자아가 형성되지 않은 단계에서',
 '예 우선순위 설정하는 데가 좀 고민이',
 '그래서 이 만료된 특별법에 있는 내용 중에 우선 급한 대로 한 두 가지를 이 지금 말씀하신 그~ 법에따',
 '의료 인력에서도 짐 양극화 현상이 심화되구 있거든요 까 고런 것도 이 수가와 연결돼서']

In [17]:
prepare_dataset(datasets['train'][:2])['train']['transcripts'][:5]

TypeError: list indices must be integers or slices, not str

In [7]:
# mp3 파일 별로 array변환 후의 크기를 측정하는 코드에요.

import sys

for i in range(3):
    
    audio = datasets['train']['audio'][i]
    
    # 경로
    mp3_file_path = audio['path']
    
    # 실제 파일 크기
    mp3_size = os.path.getsize(mp3_file_path) / (1024.0)
    
    # 전처리 후 데이터셋의 array 크기
    array_size_mb = audio['array'].nbytes / (1024.0)
    
    
    input_features = feature_extractor(audio['array'], sampling_rate=audio["sampling_rate"]).input_features[0]
    labels = tokenizer(datasets['train']['transcripts'][i]).input_ids
    
    input_featuers_size = sys.getsizeof(input_features) / (1024.0)
    labels_size = sys.getsizeof(labels) / (1024.0)
   
    
    # print(f"{i}번째 데이터: {mp3_file_path}\nMP3 size: {mp3_size:.4f} MB\nArray size: {array_size_mb:.4f} MB\ninput_features size: {input_featuers_size:.4f} MB\nlabels size: {labels_size:.4f} MB\n 전처리 데이터 크기 : {input_featuers_size + labels_size:.4f} MB\n")
    print(f"{i}번째 데이터: {mp3_file_path}\nMP3 size: {mp3_size:.4f} KB\nArray size: {array_size_mb:.4f} KB\ninput_features size: {input_featuers_size:.4f} KB\nlabels size: {labels_size:.4f} KB\n -> 전처리 데이터 크기 : {input_featuers_size + labels_size:.4f} KB\n")


0번째 데이터: /mnt/a/maxseats-git/clips/DGBAH21000195.1.1.276.mp3
MP3 size: 11.7158 KB
Array size: 479.2500 KB
input_features size: 0.1250 KB
labels size: 0.3516 KB
 전처리 데이터 크기 : 0.4766 KB

1번째 데이터: /mnt/a/maxseats-git/clips/DGBAH21000190.1.1.617.mp3
MP3 size: 27.3252 KB
Array size: 1146.6250 KB
input_features size: 0.1250 KB
labels size: 0.2891 KB
 전처리 데이터 크기 : 0.4141 KB

2번째 데이터: /mnt/a/maxseats-git/clips/DGBAH21000195.1.1.433.mp3
MP3 size: 17.8330 KB
Array size: 739.1250 KB
input_features size: 0.1250 KB
labels size: 0.3438 KB
 전처리 데이터 크기 : 0.4688 KB



In [6]:
# mp3
datasets['train']['audio'][0]['array'].shape

(155936,)

In [21]:
# wav
datasets['train']['audio'][0]['array'].shape

(172352,)

In [None]:


datasets = datasets.map(prepare_dataset, num_proc=2)
datasets = datasets.remove_columns(['audio', 'transcripts']) # 불필요한 부분 제거
print('-'*48)
print(type(datasets))
print(datasets)
print('-'*48)


'''
허깅페이스 로그인 후, 최종 데이터셋을 업로드해요.
'''
# datasets.save_to_disk('./preprocessed_cache.arrow')
# datasets.push_to_hub(dataset_name, token=token)

In [4]:
# 허깅페이스 토큰이 만료되었을 때, 키보드입력으로 받게끔 하는 코드 테스트에요.

from datasets import Dataset, DatasetDict, Audio, load_from_disk
from transformers import Wav2Vec2FeatureExtractor, Wav2Vec2Tokenizer
import pandas as pd

# 데이터셋 및 모델 준비
df = pd.DataFrame({
    "audio_data": ["path/to/audio1.mp3", "path/to/audio2.mp3"],  # 실제 MP3 파일 경로로 대체
    "transcript": ["This is a transcript.", "This is another transcript."]
})

# 데이터셋 생성
ds = Dataset.from_dict(
    {"audio": df["audio_data"],
     "transcripts": df["transcript"]}
)


# 데이터셋을 Hugging Face Hub에 업로드
dataset_name = "push-test-tmp"
token = "your_huggingface_api_token"

while True:
    
    if token =="exit":
        break
    
    try:
        ds.push_to_hub(dataset_name, token=token)
        print(f"Dataset {dataset_name} pushed to hub successfully.")
        break
    except Exception as e:
        print(f"Failed to push dataset: {e}")
        token = input("Please enter your Hugging Face API token: ")


Failed to push dataset: 401 Client Error: Unauthorized for url: https://huggingface.co/api/repos/create (Request ID: Root=1-66695a42-57db274943700d166ba22610;074dce0c-0c47-4dd3-90e2-df3905ac33b0)

Invalid username or password.
Failed to push dataset: 401 Client Error: Unauthorized for url: https://huggingface.co/api/repos/create (Request ID: Root=1-66695a43-160a70001c38b3e54f94abeb;917c8465-0d74-48fe-b290-86e758b66d1e)

Invalid username or password.
Failed to push dataset: 401 Client Error: Unauthorized for url: https://huggingface.co/api/repos/create (Request ID: Root=1-66695a44-43e581c15e05f437039d0162;61914a57-873c-419b-96b4-a21a641ea962)

Invalid username or password.
Failed to push dataset: 401 Client Error: Unauthorized for url: https://huggingface.co/api/repos/create (Request ID: Root=1-66695a46-31d8b1b6531c48b435292b6b;73ed924e-503c-4dd9-bed0-2707f2d1d07e)

Invalid username or password.


In [11]:
# 무작위 10개의 JSON 파일을 선택하고, 'form' 값을 출력하는 코드에요.

import os
import json
import random

# JSON 파일들이 저장된 기본 디렉토리
base_dir = "/mnt/a/maxseats/(주의-원본)주요 영역별 회의 음성인식 데이터"

# 모든 JSON 파일 경로를 리스트에 저장
json_files = []
for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith(".json"):
            json_files.append(os.path.join(root, file))

# 무작위로 10개의 JSON 파일 선택
random_files = random.sample(json_files, 10)

# 선택된 JSON 파일들에서 'form' 값을 출력
for json_file in random_files:
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
        print(f"File: {json_file}\n")
        for utterance in data.get('utterance', []):
            print(utterance.get('form', ''))
        print('-' * 40)


File: /mnt/a/maxseats/(주의-원본)주요 영역별 회의 음성인식 데이터/002.주요_영역별_회의_음성인식_데이터/01.데이터/unzipped_files/DGBAD21000120.json

학생인권조례가 기로에 섰습니다. /(bgm)
서울시 교육청이 학생인권조례 개정안을 입법예고했기 때문인데요. /(bgm)
개정 이유는 학생인권조례가 학생지도를 불가능하게 할 정도로 교권을 침해하고 있다는 것입니다. /(bgm)
하지만 아직도 학생 인권보호는 갈길이 먼데 다시 과거로 돌아가는 개악 행위라며 배정이 불가하다는 주장도 거셉니다. /(bgm)
생방송 (이비에스)/(EBS) 교육 대토론 오늘은 입법예고된 학생인권조례 개정안의 긍정적 부정적 측면을 따져보고 앞으로 나아갈 방향을 논의해 보겠습니다. /(bgm)
서울시 교육청이 학생인권조례 개정안을 입법예고하면서 교육계에 보혁 갈등이 일고 있습니다. /(bgm)
개정안의 핵심 내용은 전임 교육감 시절 만든 규정 중 학생 동의 없이 복장과 두발을 규제하거나 /(bgm)
소지품 검사를 할 수 없게 돼 있던 조항을 학칙으로 규제할수 있도록 바꾼 것. /(bgm)
개정을 찬성하는 측에서는 교권침해 사례가 하루 평균 (마흔 건이나)/(40건이나) 되는 현실에서 올바른 학생 생활지도가 불가능하며 /(bgm)
나아가 교권침해를 방지하기 위한 목적이라고 설명합니다. /(bgm)
그러나 반대하는 측에서는 구체적인 판단 기준이 없어 학생 인권을 제한할 우려가 있다며 조례 개악 시도를 중단하라고 비판합니다. /(bgm)
시행 (삼 년째를)/(3년째를) 맞은 학생인권조례 과연 어디로 갈 것인지 함께 논의해 봅니다. /(bgm)
네 오늘 함께 말씀 나눠주실 분들 소개하겠습니다.
공교육 살리기 학부모연합에
네 안녕하세요.
네 @상호명1
안녕하세요.
네 경희고등학교
안녕하세요.
아주대 법학전문대학원에 네 방청석에도 많은 분들이 함께하고 계십니다 토론 지켜보시면서 (좋은 의견 부탁드리겠습니다.)/(idiom)
생방송 도중에 전화 열어놓겠습

In [37]:
# 정규 표현식을 사용하여 패턴을 제거하는 코드에요. 전처리를 위한 테스트에요
# (()), /(), /(...), 개별적으로 등장하는 (, ) 패턴을 제거해요.
import os
import json
import random
import re

# JSON 파일들이 저장된 기본 디렉토리
base_dir = "/mnt/a/maxseats/(주의-원본)주요 영역별 회의 음성인식 데이터"


# 정규 표현식을 사용하여 패턴 제거
def remove_patterns(text):
    text = re.sub(r'/\([^\)]+\)', '', text)  # /( *) 패턴 제거, /(...) 형식 제거
    text = re.sub(r'[()]', '', text)         # 개별적으로 등장하는 ( 및 ) 제거
    return text.strip()


# 모든 JSON 파일 경로를 리스트에 저장
json_files = []
for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith(".json"):
            json_files.append(os.path.join(root, file))

# 무작위로 10개의 JSON 파일 선택
random_files = random.sample(json_files, 10)

# 선택된 JSON 파일들에서 'form' 값을 출력
for json_file in random_files:
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)
        print(f"File: {json_file}\n")
        for utterance in data.get('utterance', []):
            target = utterance.get('form', '')
            print(target)
            print("-> ", remove_patterns(target), "\n")
            if not remove_patterns(target):
                print("비어 있습니다~")
        print('-' * 40)


File: /mnt/a/maxseats/(주의-원본)주요 영역별 회의 음성인식 데이터/002.주요_영역별_회의_음성인식_데이터/01.데이터/unzipped_files/DGBDF21000184.json

산책하듯이 가볍게 역사를 걷는 시간
->  산책하듯이 가볍게 역사를 걷는 시간 

네 번째 시간인가요
->  네 번째 시간인가요 

네 네 번째 파트입니다 네에
->  네 네 번째 파트입니다 네에 

댓글 다음 댓글 가볼게요 이제 제 차례죠
->  댓글 다음 댓글 가볼게요 이제 제 차례죠 

네
->  네 

자 출발 비디오라면님 무 무슨 뜻이죠 뭐 출발 비디오 여행이랑 라면 좋아하시는 분인가봐요 자 읽어드릴 오잇 두 분 케미가 넘나 좋네요 남자 분이 오히려 차분하시고 여자분 드립이 빵빵 터집니다
->  자 출발 비디오라면님 무 무슨 뜻이죠 뭐 출발 비디오 여행이랑 라면 좋아하시는 분인가봐요 자 읽어드릴 오잇 두 분 케미가 넘나 좋네요 남자 분이 오히려 차분하시고 여자분 드립이 빵빵 터집니다 

근데 두 분 무슨 사이신지
->  근데 두 분 무슨 사이신지 

이거 약간 변강쇠 느낌이에요
->  이거 약간 변강쇠 느낌이에요 

다 알잖아요
->  다 알잖아요 

네
->  네 

네 사실은 뭐 점이다
->  네 사실은 뭐 점이다 

네
->  네 

제가 다 듣고 있는데
->  제가 다 듣고 있는데 

전 몰랐거든요 네 아까 뒤에뀨님이
->  전 몰랐거든요 네 아까 뒤에뀨님이 

네
->  네 

어 찍었어요 아 출발비디오라면 @이름5이다
->  어 찍었어요 아 출발비디오라면 @이름5이다 

음 어떤 근거로 이렇게
->  음 어떤 근거로 이렇게 

성향이 출발 비디오 여행 좋아하고 라면도 좋아한다고 얘기했다
->  성향이 출발 비디오 여행 좋아하고 라면도 좋아한다고 얘기했다 

어떻게 그렇게 속속들이 아는 거죠 무슨 사생활을
->  어떻게 그렇게 속속들이 아는 거죠 무슨 사생활을 

무슨 사 사이인지 두 분 무슨 사이신지
->  무슨 사 사이인지 두 분 무슨 사이

In [39]:
# 데이터셋 폴더를 10GB 단위로 쪼개서 저장하는 코드에요.

import os
import shutil
from tqdm import tqdm

# 기본 디렉토리 설정
base_dir = "/mnt/a/maxseats/(주의-원본-680GB)주요 영역별 회의 음성인식 데이터"
output_base_dir = "/mnt/a/maxseats/split_files"  # 나눌 폴더의 기본 디렉토리

# 최대 폴더 크기 (10GB)
max_folder_size = 10 * 1024 * 1024 * 1024  # 10GB in bytes

# 파일 목록 수집
file_sets = {}
for root, dirs, files in os.walk(base_dir):
    for file in files:
        if file.endswith(".json") or file.endswith(".txt") or file.endswith(".wav"):
            base_name = os.path.splitext(file)[0]
            if base_name not in file_sets:
                file_sets[base_name] = []
            file_sets[base_name].append(os.path.join(root, file))

# 파일을 10GB씩 나누어 저장
folder_index = 0
current_folder_size = 0
current_folder_files = []

file_sets_items = list(file_sets.items())
total_files = sum(len(files) for files in file_sets.values())

with tqdm(total=total_files, desc="Processing files") as pbar:
    for base_name, files in file_sets_items:
        set_size = sum(os.path.getsize(f) for f in files)
        
        if current_folder_size + set_size > max_folder_size:
            folder_path = os.path.join(output_base_dir, f"set_{folder_index}")
            os.makedirs(folder_path, exist_ok=True)
            
            for f in current_folder_files:
                shutil.copy(f, folder_path)
                pbar.update(1)
            
            folder_index += 1
            current_folder_size = 0
            current_folder_files = []
        
        current_folder_files.extend(files)
        current_folder_size += set_size

    # 마지막 폴더 저장
    if current_folder_files:
        folder_path = os.path.join(output_base_dir, f"set_{folder_index}")
        os.makedirs(folder_path, exist_ok=True)
        
        for f in current_folder_files:
            shutil.copy(f, folder_path)
            pbar.update(1)

print("Files have been split into folders.")


Processing files:  36%|███▋      | 9762/26826 [44:25<1:29:57,  3.16it/s]