# 데이터 리스트 분할: 학습 / 개발 / 평가 데이터셋

이 Notebook은 전체 데이터 리스트를 읽어 아래와 같이 분할합니다:

- **BASIC5000_0001 ~ BASIC5000_0250**: 평가 데이터
- **BASIC5000_0251 ~ BASIC5000_0500**: 개발 데이터
- **BASIC5000_0501 ~ BASIC5000_1500**: 학습 데이터(소)
- **BASIC5000_0501 ~ BASIC5000_5000**: 학습 데이터(대)

In [1]:
# os 모듈 임포트
import os

## 디렉토리 설정 및 생성

전체 데이터 리스트가 기록된 디렉토리와, 분할된 데이터셋의 출력 디렉토리를 설정합니다.

In [2]:
# 전체 데이터 리스트가 기록된 디렉토리
all_dir = '../data/label/all'

# 평가 데이터 리스트의 출력 디렉토리
out_eval_dir = '../data/label/test'

# 개발 데이터 리스트의 출력 디렉토리Z
out_dev_dir = '../data/label/dev'

# 학습 데이터(소) 리스트의 출력 디렉토리
out_train_small_dir = '../data/label/train_small'

# 학습 데이터(대) 리스트의 출력 디렉토리
out_train_large_dir = '../data/label/train_large'

# 각 출력 디렉토리가 존재하지 않으면 생성
for out_dir in [out_eval_dir, out_dev_dir, out_train_small_dir, out_train_large_dir]:
    os.makedirs(out_dir, exist_ok=True)

## 데이터 리스트 분할

전체 데이터 리스트 파일(`wav.scp`, `text_char`, `text_kana`, `text_phone`)을 읽어 각 데이터셋에 맞게 분할하여 출력 디렉토리에 기록합니다.

In [3]:
# 분할할 파일 목록
filenames = ['wav.scp', 'text_char', 'text_kana', 'text_phone']

# 각 파일에 대해 분할 작업 수행
for filename in filenames:
    # 전체 데이터를 읽기 모드로, 평가/개발/학습 데이터 리스트를 쓰기 모드로 열기
    with open(os.path.join(all_dir, filename), mode='r') as all_file, \
         open(os.path.join(out_eval_dir, filename), mode='w') as eval_file, \
         open(os.path.join(out_dev_dir, filename), mode='w') as dev_file, \
         open(os.path.join(out_train_small_dir, filename), mode='w') as train_small_file, \
         open(os.path.join(out_train_large_dir, filename), mode='w') as train_large_file:
        
        # 전체 데이터 파일의 각 줄에 대해
        for i, line in enumerate(all_file):
            if i < 250:
                # 1 ~ 250: 평가 데이터
                eval_file.write(line)
            elif i < 500:
                # 251 ~ 500: 개발 데이터
                dev_file.write(line)
            else:
                # 501 ~ 5000: 학습 데이터(대)
                train_large_file.write(line)
                if i < 1500:
                    # 501 ~ 1500: 학습 데이터(소)
                    train_small_file.write(line)