# 라벨 데이터 생성 및 파일 작성

라벨 데이터를 읽어, 문자(한자 혼용 문자) 단위, 가나 단위, 음소 단위로 정의된 라벨 파일을 생성합니다.

In [1]:
import yaml  # YAML 파일을 읽기 위한 모듈
import os    # 파일 및 디렉토리 조작을 위한 모듈

In [2]:
# 원본 YAML 파일 경로
original_label = '../data/original/jsut-label-master/text_kana/basic5000.yaml'

# 가공된 라벨을 저장할 디렉토리 경로
out_label_dir = '../data/label/all'

# 출력 디렉토리가 없으면 생성
os.makedirs(out_label_dir, exist_ok=True)

In [3]:
# YAML 데이터 읽기
with open(original_label, mode='r') as yamlfile:
    label_info = yaml.safe_load(yamlfile)

In [4]:
# 파일 열기와 반복문을 하나의 셀에서 처리
with open(os.path.join(out_label_dir, 'text_char'), mode='w') as label_char, \
     open(os.path.join(out_label_dir, 'text_kana'), mode='w') as label_kana, \
     open(os.path.join(out_label_dir, 'text_phone'), mode='w') as label_phone:
    
    for i in range(5000):
        # 발화 ID 생성
        filename = 'BASIC5000_%04d' % (i+1)
        
        # 발화 ID가 label_info에 없으면 오류 메시지 출력 후 종료
        if filename not in label_info:
            print('Error: %s is not in %s' % (filename, original_label))
            exit()
        
        # 문자 라벨 정보 가져오기
        chars = label_info[filename]['text_level2']
        # 일본어 쉼표(、) 및 마침표(。) 제거
        chars = chars.replace('、', '').replace('。', '')
        
        # 가나 라벨 정보 가져오기
        kanas = label_info[filename]['kana_level3']
        # 일본어 쉼표(、) 제거
        kanas = kanas.replace('、', '')
        
        # 음소 라벨 정보 가져오기
        phones = label_info[filename]['phone_level3']
        
        # 각 라벨 파일에 결과 기록
        label_char.write('%s %s\n' % (filename, ' '.join(chars)))
        label_kana.write('%s %s\n' % (filename, ' '.join(kanas)))
        label_phone.write('%s %s\n' % (filename, phones.replace('-', ' ')))

### 요약

1. **모듈 임포트 및 경로 설정**: `yaml`과 `os` 모듈을 이용해 YAML 파일을 읽고, 출력 디렉토리를 생성합니다.
2. **YAML 파일 읽기**: 지정된 경로에서 YAML 파일을 읽어 `label_info`에 저장합니다.
3. **파일 작성**: 하나의 `with open` 구문 내부에서 5000개의 발화 데이터를 순회하며,
   - 문자 라벨은 불필요한 기호를 제거 후 각 글자 사이에 공백을 추가하여 저장
   - 가나 라벨은 불필요한 기호를 제거 후 각 글자 사이에 공백을 추가하여 저장
   - 음소 라벨은 '-'를 공백으로 대체하여 저장
   하는 방식으로 결과 파일을 생성합니다.