## 데이터 전처리 코드

## 라벨 내 데이터 정제

In [None]:
import json
import re
import pandas as pd
from pathlib import Path

def load_label_data(label_dir):
    """
    label_dir 안의 모든 .json을 읽어 DataFrame 생성.
    - (NO:...) 는 무조건 삭제(묵음 표현, 노이즈 등)
    - 나머지 괄호는 안의 한글만 남김(한글이 없으면 괄호 통째로 제거)
    """
    data_list = []
    for json_file in Path(label_dir).glob('*.json'):
        with open(json_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
            text = data['발화정보']['stt']

            # 1) (NO: ...) 는 무조건 삭제
            text = re.sub(r'\(NO:[^)]*\)', '', text)

            # 2) 괄호 안에 한글이 있는 경우 → 한글만 남기기
            #    (SN: 안녕하세요123!) -> 안녕하세요
            text = re.sub(r'\([^)]*?([가-힣]+(?:\s+[가-힣]+)*)[^)]*?\)', r'\1', text)

            # 3) 여전히 남아있는 괄호(한글이 전혀 없던 경우) 통째로 제거
            text = re.sub(r'\([^)]*\)', '', text)

            # 4) 공백/탭/줄바꿈 정리
            text = re.sub(r'\s+', ' ', text).strip()

            data_list.append({
                'audio_path': data['발화정보']['fileNm'],
                'text': text
            })

    return pd.DataFrame(data_list)


In [1]:
pip install -r requirements.txt

Collecting transformers==4.45.1 (from -r requirements.txt (line 2))
  Using cached transformers-4.45.1-py3-none-any.whl.metadata (44 kB)
Collecting datasets==3.0.1 (from -r requirements.txt (line 3))
  Using cached datasets-3.0.1-py3-none-any.whl.metadata (20 kB)
Collecting torchaudio (from -r requirements.txt (line 4))
  Using cached torchaudio-2.9.0-cp310-cp310-win_amd64.whl.metadata (6.9 kB)
Collecting librosa==0.10.2 (from -r requirements.txt (line 10))
  Using cached librosa-0.10.2-py3-none-any.whl.metadata (8.6 kB)
Collecting huggingface-hub<1.0,>=0.23.2 (from transformers==4.45.1->-r requirements.txt (line 2))
  Using cached huggingface_hub-0.35.3-py3-none-any.whl.metadata (14 kB)
Collecting tokenizers<0.21,>=0.20 (from transformers==4.45.1->-r requirements.txt (line 2))
  Using cached tokenizers-0.20.3-cp310-none-win_amd64.whl.metadata (6.9 kB)
Collecting multiprocess (from datasets==3.0.1->-r requirements.txt (line 3))
  Using cached multiprocess-0.70.18-py310-none-any.whl.met



In [None]:
import pandas as pd

train_df = pd.read_csv('your/train_label.csv')
test_df = pd.read_csv('your/test_label.csv')

In [2]:
test_df

Unnamed: 0.1,Unnamed: 0,audio_path,text
0,0,노인남여_노인대화08_M_1527659796_62_수도권_실내_09849.wav,말 끝마다 꼬치꼬치 대꾸하고 아빠한테 엉길라고 하고
1,1,노인남여_노인대화07_F_1520511716_63_수도권_실내_07286.wav,저번에 이야기 했듯이 애가 지금 삼 학년이랑 일 학년이잖아
2,2,노인남여_노인대화08_M_1527659796_62_수도권_실내_09630.wav,주전부리는 거 좋아하는데
3,3,노인남여_노인대화08_M_1528799473_66_강원_실내_09307.wav,날짜가 하루 딱 넘어가잖아요
4,4,노인남여_노인대화07_F_1527804469_64_강원_실내_08086.wav,수찬이는 동의보감이야 맨날 한방에 대해서 들어와서
...,...,...,...
8409,8450,노인남여_노인대화07_F_1528705879_62_충청_실내_07281.wav,공휴일도 쉬니까 쉬는 날이 너무 많아
8410,8451,노인남여_노인대화08_M_1528799473_66_강원_실내_10222.wav,이제 그림으로만 보고 사진으로만 봤는데
8411,8452,노인남여_노인대화07_M_1527639004_76_강원_실내_08508.wav,어릴 때 주로 내 손으로 해 줬었는데 크고 나니까
8412,8453,노인남여_노인대화08_M_1527525156_60_강원_실내_08812.wav,목욕탕을 하면 또 가족들이 전신에 목욕탕 하고


In [3]:
train_df

Unnamed: 0.1,Unnamed: 0,audio_path,text
0,0,노인남여_노인대화07_M_1527672611_76_수도권_실내_07336.wav,이제 성당에 데리고 가잖아 근데 그것도 사실은
1,1,노인남여_노인대화07_F_1528838253_60_강원_실내_07687.wav,요즘은 그러니까 뭐 먹지 하면서도 내가 하기
2,2,노인남여_노인대화08_M_1529907003_68_강원_실내_08967.wav,참 우리나라 사람들이 캐나다에 가면
3,3,노인남여_노인대화07_F_1528838253_60_강원_실내_07356.wav,평일에 바쁘다가 토요일 일요일 되되면은 너무 힘들어요
4,4,노인남여_노인대화08_M_1521481375_64_강원_실내_09181.wav,그렇게 해서 봉지를 묶어 가지고 이렇게 흔들어주면
...,...,...,...
33689,33815,노인남여_노인대화14_F_1528705879_62_충청_실내_18704.wav,잠바 정도는 항상 갖고 다녀야 하고 바람막이도요
33690,33816,노인남여_노인대화07_F_1520511716_63_수도권_실내_08708.wav,그럼 몇 살까지 였습니까 우리가 육십 네살에 타면은
33691,33817,노인남여_노인대화07_M_1527864598_70_강원_실내_07343.wav,불안하고 긴장되는 마음 알지
33692,33818,노인남여_노인대화07_M_1527639004_76_강원_실내_08242.wav,어머님 세대는 건강과 뭐 음식 같은 거 신경을 안 쓴 세대예요


In [3]:
test_df.isnull().sum()

Unnamed: 0    0
audio_path    0
text          0
dtype: int64

In [11]:
test_df = test_df.dropna()

In [2]:
import soundfile as sf
from pathlib import Path

audio_folder = Path("/workspace/test/data")
wrong_sr_files = []

for audio_file in audio_folder.rglob("*.wav"):
    try:
        info = sf.info(audio_file)
        sr = info.samplerate
        if sr != 16000:
            wrong_sr_files.append(str(audio_file))
    except Exception as e:
        print(f"오류 발생: {audio_file}, {e}")

print(f"샘플링 레이트가 16000이 아닌 파일 개수: {len(wrong_sr_files)}")
print("파일 경로:")
for f in wrong_sr_files:
    print(f)


샘플링 레이트가 16000이 아닌 파일 개수: 0
파일 경로:


In [4]:
import torch
import librosa
from datasets import Dataset
from transformers import WhisperProcessor

#whisper processor
processor = WhisperProcessor.from_pretrained(
    "openai/whisper-small",
    language="Korean",
    task="transcribe"
)

feature_extractor = processor.feature_extractor
tokenizer = processor.tokenizer

  from .autonotebook import tqdm as notebook_tqdm
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
import numpy as np

def preprocess_function(batch):
    base_path = "your/data_preprocessing"
    audio_path = f"{base_path}/test/data/{batch['audio_path']}"
    
    try:
        speech, sr = librosa.load(audio_path, sr=16000)
        
        # NumPy float32 배열로 변환
        if not isinstance(speech, np.ndarray):
            speech = np.array(speech)
        speech = speech.astype(np.float32)
        
        # 음성 데이터 30초로 고정
        target_length = 30 * 16000 
        
        if len(speech) > target_length:
            # 30초보다 길면 → 앞에서 30초만 자르기
            speech = speech[:target_length]
        else:
            # 30초보다 짧으면 → 0으로 패딩
            padding = target_length - len(speech)
            speech = np.pad(speech, (0, padding), mode='constant', constant_values=0)
        
        # Feature Extractor 적용
        inputs = feature_extractor(
            speech,
            sampling_rate=16000,
            return_tensors="pt"
        )

        # Tokenizer 적용
        labels = tokenizer(
            text_target=[batch["text"]],
            padding="longest",
            return_tensors="pt"
        )

        return {
            "input_features": inputs.input_features[0],
            "labels": labels.input_ids[0]
        }
    
    except Exception as e:
        print(f"Error processing {batch['audio_path']}: {e}")
        raise e

In [6]:
# pandas DataFrame → HuggingFace Dataset 변환
train_dataset = Dataset.from_pandas(train_df)
test_dataset = Dataset.from_pandas(test_df)

In [7]:
train_dataset

Dataset({
    features: ['Unnamed: 0', 'audio_path', 'text'],
    num_rows: 33694
})

### 전처리 적용해서 데이터셋 만들기

#### train

In [None]:

# test_dataset = Dataset.from_pandas(test_df)

# 데이터셋에 전처리 적용
train_dataset = train_dataset.map(
    preprocess_function,
    remove_columns=train_dataset.column_names,
    batched=False
)


Map: 100%|██████████| 33694/33694 [27:36<00:00, 20.34 examples/s]   


#### test

In [11]:
test_dataset = test_dataset.map(preprocess_function,
                                remove_columns=test_dataset.column_names,
                                batched=False)

Map: 100%|██████████| 8414/8414 [04:07<00:00, 33.97 examples/s]
