# 라벨 데이터 생성 및 파일 작성

이 Notebook은 다운로드한 라벨 데이터를 읽어, 문자(한자 혼용 문자) 단위, 가나 단위, 음소 단위로 정의된 라벨 파일을 생성합니다.

In [1]:
# -*- coding: utf-8 -*-

## 다운로드한 라벨 데이터를 읽어 문자(한자 혼용 문자), 가나, 음소 단위의 라벨 파일을 생성하는 코드

# yaml 데이터를 읽기 위한 모듈 임포트
import yaml

# os 모듈 임포트
import os

## 메인 함수
if __name__ == "__main__":
    
    # 다운로드한 라벨 데이터 (yaml 형식)의 경로
    original_label = '../data/original/jsut-label-master/text_kana/basic5000.yaml'

    # 라벨 리스트를 저장할 디렉토리 경로
    out_label_dir = '../data/label/all'

    # 출력 디렉토리가 존재하지 않으면 생성
    os.makedirs(out_label_dir, exist_ok=True)

    # 라벨 데이터 읽기
    with open(original_label, mode='r') as yamlfile:
        label_info = yaml.safe_load(yamlfile)

    # 문자, 가나, 음소 라벨 파일을 쓰기 모드로 열기
    with open(os.path.join(out_label_dir, 'text_char'), mode='w') as label_char, \
         open(os.path.join(out_label_dir, 'text_kana'), mode='w') as label_kana, \
         open(os.path.join(out_label_dir, 'text_phone'), mode='w') as label_phone:
        
        # BASIC5000_0001 부터 BASIC5000_5000 까지 반복 처리
        for i in range(5000):
            # 발화 ID 생성
            filename = 'BASIC5000_%04d' % (i+1)
            
            # 발화 ID가 label_info에 없으면 에러 출력 후 종료
            if filename not in label_info:
                print('Error: %s is not in %s' % (filename, original_label))
                exit()

            # 문자 라벨 정보 가져오기
            chars = label_info[filename]['text_level2']
            # '、'와 '。' 제거
            chars = chars.replace('、', '')
            chars = chars.replace('。', '')

            # 가나 라벨 정보 가져오기
            kanas = label_info[filename]['kana_level3']
            # '、' 제거
            kanas = kanas.replace('、', '')

            # 음소 라벨 정보 가져오기
            phones = label_info[filename]['phone_level3']

            # 문자 라벨 파일에, 각 글자 사이에 공백을 넣어 기록 (' '.join(list)는 리스트의 각 요소 사이에 공백을 넣어 한 문장으로 만듦)
            label_char.write('%s %s\n' % (filename, ' '.join(chars)))

            # 가나 라벨 파일에, 각 글자 사이에 공백을 넣어 기록
            label_kana.write('%s %s\n' % (filename, ' '.join(kanas)))

            # 음소 라벨은 '-'를 공백으로 대체하여 기록
            label_phone.write('%s %s\n' % (filename, phones.replace('-', ' ')))
