In [1]:
#-*- coding: utf-8 -*-
from pathlib import Path
import json
import re
import wave
from tqdm.notebook import tqdm

from jamo import h2j, j2hcj
from jamotools import join_jamos

In [2]:
base = Path("./KsponSpeech_scripts")

In [3]:
ROOT = "/root/develop/data/KsponSpeech_wav/"

dev_path = base/"dev.trn"
eval_clean_path =base/"eval_clean.trn"
eval_other_path =base/"eval_other.trn"
train_path =  base/"train.trn"

In [4]:
def bracket_filter(sentence):
    new_sentence = str()

  
    flag = False

    for ch in sentence:
        if ch == '(' and flag is False:
            flag = True
            continue
        if ch == '(' and flag is True:
            flag = False
            continue
        if ch != ')' and flag is False:
            new_sentence += ch

    return new_sentence

def special_filter(sentence, replace="퍼센트"):
    SENTENCE_MARK = ['?', '!', '.']
    NOISE = ['o', 'n', 'u', 'b', 'l']
    EXCEPT = ['/', '+', '*', '-', '@', '$', '^', '&', '[', ']', '=', ':', ';', ',']

    new_sentence = str()
    for idx, ch in enumerate(sentence):
        if ch not in SENTENCE_MARK:
            if idx + 1 < len(sentence) and ch in NOISE and sentence[idx + 1] == '/':
                continue

        if ch == '#':
            new_sentence += '샾'

        elif ch == '%':
            new_sentence += replace
            

        elif ch not in EXCEPT:
            new_sentence += ch

    pattern = re.compile(r'\s\s+')
    new_sentence = re.sub(pattern, ' ', new_sentence.strip())
    return new_sentence


def jamo_decode(sentence):
    jamo_sentence = j2hcj(h2j(sentence))
    return jamo_sentence


In [5]:
sample= "b/ 데모를 준비해서 (4월)/(사 월)까지 데모를 준비하고 n/ 내가 (8곡)/(여덟 곡) 정도를 데모로 내고 그 데모를 (CD)/(씨 디)로 만들어서 b/ 회사에 돌릴 거야. 근데 그게* 밴드 b/ 셋이 될지 아니면 나 저+ 지금에 하는 솔로 셋이 될지는 가늠이 잘 안 가."
sample = bracket_filter(sample)
sample = special_filter(sample)
sample

'데모를 준비해서 사 월까지 데모를 준비하고 내가 여덟 곡 정도를 데모로 내고 그 데모를 씨 디로 만들어서 회사에 돌릴 거야. 근데 그게 밴드 셋이 될지 아니면 나 저 지금에 하는 솔로 셋이 될지는 가늠이 잘 안 가.'

In [6]:
jamo_sample = jamo_decode(sample)
jamo_sample

'ㄷㅔㅁㅗㄹㅡㄹ ㅈㅜㄴㅂㅣㅎㅐㅅㅓ ㅅㅏ ㅇㅝㄹㄲㅏㅈㅣ ㄷㅔㅁㅗㄹㅡㄹ ㅈㅜㄴㅂㅣㅎㅏㄱㅗ ㄴㅐㄱㅏ ㅇㅕㄷㅓㄼ ㄱㅗㄱ ㅈㅓㅇㄷㅗㄹㅡㄹ ㄷㅔㅁㅗㄹㅗ ㄴㅐㄱㅗ ㄱㅡ ㄷㅔㅁㅗㄹㅡㄹ ㅆㅣ ㄷㅣㄹㅗ ㅁㅏㄴㄷㅡㄹㅇㅓㅅㅓ ㅎㅚㅅㅏㅇㅔ ㄷㅗㄹㄹㅣㄹ ㄱㅓㅇㅑ. ㄱㅡㄴㄷㅔ ㄱㅡㄱㅔ ㅂㅐㄴㄷㅡ ㅅㅔㅅㅇㅣ ㄷㅚㄹㅈㅣ ㅇㅏㄴㅣㅁㅕㄴ ㄴㅏ ㅈㅓ ㅈㅣㄱㅡㅁㅇㅔ ㅎㅏㄴㅡㄴ ㅅㅗㄹㄹㅗ ㅅㅔㅅㅇㅣ ㄷㅚㄹㅈㅣㄴㅡㄴ ㄱㅏㄴㅡㅁㅇㅣ ㅈㅏㄹ ㅇㅏㄴ ㄱㅏ.'

In [7]:
join_jamos(jamo_sample)

'데모를 준비해서 사 월까지 데모를 준비하고 내가 여덟 곡 정도를 데모로 내고 그 데모를 씨 디로 만들어서 회사에 돌릴 거야. 근데 그게 밴드 셋이 될지 아니면 나 저 지금에 하는 솔로 셋이 될지는 가늠이 잘 안 가.'

In [8]:
def preprocessing(text):
    text = bracket_filter(text)
    text = special_filter(text)
    text = jamo_decode(text)
    return text

In [9]:
a = "b/ 데모를 준비해서 (4월)/(사 월)까지 데모를 준비하고 n/ 내가 (8곡)/(여덟 곡) 정도를 데모로 내고 그 데모를 (CD)/(씨 디)로 만들어서 b/ 회사에 돌릴 거야. 근데 그게* 밴드 b/ 셋이 될지 아니면 나 저+ 지금에 하는 솔로 셋이 될지는 가늠이 잘 안 가."
preprocessing(a)

'ㄷㅔㅁㅗㄹㅡㄹ ㅈㅜㄴㅂㅣㅎㅐㅅㅓ ㅅㅏ ㅇㅝㄹㄲㅏㅈㅣ ㄷㅔㅁㅗㄹㅡㄹ ㅈㅜㄴㅂㅣㅎㅏㄱㅗ ㄴㅐㄱㅏ ㅇㅕㄷㅓㄼ ㄱㅗㄱ ㅈㅓㅇㄷㅗㄹㅡㄹ ㄷㅔㅁㅗㄹㅗ ㄴㅐㄱㅗ ㄱㅡ ㄷㅔㅁㅗㄹㅡㄹ ㅆㅣ ㄷㅣㄹㅗ ㅁㅏㄴㄷㅡㄹㅇㅓㅅㅓ ㅎㅚㅅㅏㅇㅔ ㄷㅗㄹㄹㅣㄹ ㄱㅓㅇㅑ. ㄱㅡㄴㄷㅔ ㄱㅡㄱㅔ ㅂㅐㄴㄷㅡ ㅅㅔㅅㅇㅣ ㄷㅚㄹㅈㅣ ㅇㅏㄴㅣㅁㅕㄴ ㄴㅏ ㅈㅓ ㅈㅣㄱㅡㅁㅇㅔ ㅎㅏㄴㅡㄴ ㅅㅗㄹㄹㅗ ㅅㅔㅅㅇㅣ ㄷㅚㄹㅈㅣㄴㅡㄴ ㄱㅏㄴㅡㅁㅇㅣ ㅈㅏㄹ ㅇㅏㄴ ㄱㅏ.'

In [10]:
# TODO: Tokenizing 추가하기

def trn2json(trn_path, json_path):
    with open(trn_path, "r", encoding="utf-8") as f:
        trn = f.readlines()
    jsons=[]
    for raw in trn:
        path, text = raw.split("::")
        # change ext
        path = path.split(".")[0]
        path = path + ".wav"
        # Absolute path
        path = ROOT + path
        
        # preprocess text (jamo decode)
        text = preprocessing(text)
        
        j = {"file": path,
             "text": text}
        jsons.append(j)
    
    data = {"data": jsons}
    with open(json_path, "w") as jsonfile:
        json.dump(data, jsonfile)

In [11]:
# trn2json(dev_path, "KsponSpeech_dev.json")
# trn2json(eval_clean_path, "KsponSpeech_eval_clean.json")
# trn2json(eval_other_path, "KsponSpeech_eval_other.json")
# trn2json(train_path, "KsponSpeech_train.json")

## For Sample

In [12]:

def trn2json_sample(trn_path, json_path):
    
    cnt = 0
    durations =[]
    
    with open(trn_path, "r", encoding="utf-8") as f:
        trn = f.readlines()
    jsons=[]
    for i, raw in tqdm(enumerate(trn)):
        ### Sample 개수 설정
        if i >= 50000:
            break
            
            
        path, text = raw.split("::")
        # change ext
        path = path.split(".")[0]
        path = path + ".wav"
        # Absolute path
        path = ROOT + path
        
        
        with wave.open(path) as f:
            duration = f.getnframes() / float(f.getframerate())
            # print(duration)
            
        durations.append(duration)
        
        if duration > 12.0:
            print(duration)
            continue
        
        # file_size = Path(path).stat().st_size
        # print(file_size)
        
        
        # preprocess text (jamo decode)
        text = preprocessing(text)
        
        j = {"file": path,
             "text": text}
        jsons.append(j)
        cnt +=1
    
    data = {"data": jsons}
    with open(json_path, "w") as jsonfile:
        json.dump(data, jsonfile)
    
    return cnt

In [13]:
# trn2json_sample(train_path, "KsponSpeech_train_sample_shorter_50000.json")

In [14]:
# trn2json_sample(dev_path, "KsponSpeech_dev_sample_shorter.json")

## ROMAN

In [15]:
from korean_romanizer.romanizer import Romanizer

r = Romanizer("안녕하세요")
r.romanize() 

'annyeonghaseyo'

In [36]:
def preprocessing_roman(text):
    text = bracket_filter(text)
    text = special_filter(text)
    try:
        r = Romanizer(text)
        text = r.romanize()
    except AttributeError:
        print(text)
        return None
    except KeyError:
        print(text)
        return None
    # print(text)
    return text

In [40]:
def trn2json_sample_roman(trn_path, json_path):
    
    cnt = 0
    durations =[]
    
    with open(trn_path, "r", encoding="utf-8") as f:
        trn = f.readlines()
    jsons=[]
    for i, raw in tqdm(enumerate(trn)):
        ### Sample 개수 설정
        if i >= 50000:
            break
            
            
        path, text = raw.split("::")
        # change ext
        path = path.split(".")[0]
        path = path + ".wav"
        # Absolute path
        path = ROOT + path
        
        
        with wave.open(path) as f:
            duration = f.getnframes() / float(f.getframerate())
            # print(duration)
            
        durations.append(duration)
        
        if duration > 12.0:
            # print(duration)
            continue
        
        # file_size = Path(path).stat().st_size
        # print(file_size)
        
        
        # preprocess text (jamo decode)
        text = preprocessing_roman(text)
        
        if text is None:
            continue
        
        text = text.upper()
        
        j = {"file": path,
             "text": text}
        jsons.append(j)
        cnt +=1
    
    data = {"data": jsons}
    with open(json_path, "w") as jsonfile:
        json.dump(data, jsonfile)
    
    return cnt

In [41]:
trn2json_sample_roman(train_path, "KsponSpeech_train_roman_short_50000.json")

HBox(children=(FloatProgress(value=1.0, bar_style='info', layout=Layout(width='20px'), max=1.0), HTML(value=''…

아니 바다면 그 끝에 다 횟집이잖아. 바다 바로 앞에 다 횟집이잖
그러 맛도 없잖아 요즘에는 모르겠다 맛있는 거 많
그 아무꺼나 뚝 뚫어봤거든 근데 앞면은 뚫리더라고 그래서 뒷면을 찾는데 못 찾겠는 거야 나 진짜 그때 살 찢어지는 줄 알았어 아파가지구.
가서 아 여기서 이러이러한 문제가 있어서 이러 이렇게 뚫린 거다.
응. 아니면은 진짜 엄청 일찍 다니 아 나 보통 나 열 시 반 수업이었어가지고 그거 뚫리고 나서는.
너 말한 것처럼 그 구멍 뚫린 그거 있고 그냥 거기 밑에 기름이 있고 다 다 똑같을걸?
아 돈이 많지 오히려. 그까 병사는 싫 그까 병사가 싫다는 이유 중에 하나 그런 거지. 솔직히 돈도 안 되고
나는 근데 다른 사람들이 다 좋아하는데 나는 오뚜기라도 오뚜기라도 해도 카레가 좀 싫 카레를 싫어하거든.
축농증 아 축농증 먹어도 그 다 뚫릴걸? 그냥 고냥 확 나아버릴걸? 이야 부럽다. 왜 맨날 맺혀있냐?
모래 그 머드 모래사장에 구멍이 뽕뽕 뚫려있으면 소금만 느면 걔네를 쏙 올라오잖아.
나는 그런류에 영화 되게 싫 싫거든요. 독전도 나 김 김주혁이 연기는 잘했지만
어떻게 어떻게 알았어? 구멍 뚫린 건
근데 재수 일 년은 좀 빠른 거 같애. 뭔가 허무하지 않
그 샀는데 금방 뚫리드라.
아니 근데 차라리 그냥 귀 뚫 내일 그러면은 걍 영화 주 영화 뭐 볼지 완벽한 타인 볼지 아니면 보헤미안 랩소디 그 노래랑 같이 할 수 있는 데를 갈지. 고민하자 차라리.
뻥 뚫리잖아. 어. 완전 그러니까



45515

In [42]:
trn2json_sample_roman(dev_path, "KsponSpeech_dev_roman_short_50000.json")

HBox(children=(FloatProgress(value=1.0, bar_style='info', layout=Layout(width='20px'), max=1.0), HTML(value=''…




2309