In [2]:
import time
import matplotlib.pyplot as plt
import numpy as np
import math as mt
import seaborn as sns
from tqdm import tqdm
import pandas as pd
from konlpy.tag import Hannanum, Mecab
from hangul_utils import split_syllables, join_jamos
from tqdm.auto import tqdm
from kiwipiepy import Kiwi
import re
from pykospacing import Spacing
#from eunjeon import Mecab
han = Hannanum()
mec = Mecab()

number = 100

# 초성 리스트. 00 ~ 18
CHOSUNG_LIST = ['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']
# 중성 리스트. 00 ~ 20
JUNGSUNG_LIST = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ']
# 종성 리스트. 00 ~ 27 + 1(1개 없음)
JONGSUNG_LIST = ['_', 'ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ', 'ㄹ', 'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 'ㅁ', 'ㅂ', 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

EP = [
    [['ㅈ','ㅓ','_','ㄴ','ㅡ','ㄴ'],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [[' ','ㅈ','ㅓ','ㄴ',' '],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [['ㅇ','ㅓ','_','ㅇ','ㅛ','_'],['ㄷ','ㅏ','_']]
    ,[['ㅅ','ㅔ'],['ㅝ'],['ㅘ'],['ㅐ']]
]

#종결 어미
EF = [
    [['ㅅ','ㅡ','ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ']],
    [[' ','ㅈ','ㅓ','ㄴ',' '],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [['ㅇ','ㅓ','_','ㅇ','ㅛ','_'],['ㄷ','ㅏ','_']],
    [['ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄴ','ㄷ','ㅏ']],
    [['ㅇ','ㅔ','ㅇ','ㅛ'],['ㅇ','ㅑ']],
    [['ㅇ','ㅛ'],['']]
    #,[['ㅅ','ㅔ'],['ㅝ'],['ㅘ']]
]

NP = [
    
    [['ㅈ','ㅓ','ㄴ'],['ㄴ','ㅏ','ㄴ']],
    [['ㅈ','ㅓ'],['ㄴ','ㅏ']]
    
]

# 보조사
JX = [
   [['ㅇ','ㅣ','ㅇ','ㅛ'],['ㅇ','ㅣ','ㅇ','ㅑ']] 
]

VX = [
    
    [['ㅈ','ㅜ'],['ㅈ']]
    
]

VV = [
    
    [['ㅇ','ㅗ'],['ㅇ']],
    [['ㅈ','ㅜ'],['ㅈ']],
    [['ㅎ','ㅏ'],['ㅎ']]
    
]


EXC = [
    
    ['ㅜ',1],
    ['ㅗ',2],
    ['ㅏ',3]
    
]

EXC_tags = [
    
    'VX',
    'VV'
    
]

class Jamodealer:
    jamo = []
    pp = ''
    def __init__(self,lis_word):
        
        #print('the jamo starts!')
        self.jamo = []
        for i in lis_word:
            self.jamo.append(split_syllables(i))
        
    def make_one(self):
        self.pp = ''
        for i in self.jamo:
             self.pp= self.pp+i
                
        chars = list(set(self.pp))
        char_to_ix = { ch:i for i,ch in enumerate(chars) }
        ix_to_char = { i:ch for i,ch in enumerate(chars) }
        
        jamo_numbers = [char_to_ix[x] for x in self.pp]
        restored_jamo = ''.join([ix_to_char[x] for x in jamo_numbers])
        restored_text = join_jamos(restored_jamo)
        return restored_text

def tojamo(korean_word):
    r_lst = []
    for w in list(korean_word.strip()):
        ## 영어인 경우 구분해서 작성함. 
        if '가'<=w<='힣':
            ## 588개 마다 초성이 바뀜. 
            ch1 = (ord(w) - ord('가'))//588
            ## 중성은 총 28가지 종류
            ch2 = ((ord(w) - ord('가')) - (588*ch1)) // 28
            ch3 = (ord(w) - ord('가')) - (588*ch1) - 28*ch2
            r_lst.append([CHOSUNG_LIST[ch1], JUNGSUNG_LIST[ch2], JONGSUNG_LIST[ch3]])
        else:
            r_lst.append([w])
    return r_lst

def toword(arr):
    print('wow')
    

def to1dim(input):
    result=[]
    for i in input:
        for j in i:
            result.append(j)
    return result

def to2dim(input):
    result = []
    li = []
    for i in input:
        if i == ' ':
            result.append([' '])
        else:
            li.append(i)
        if len(li)==3:
            result.append(li)
            li = []
    return result

def makeone(input):
    result = ''
    li = ''
    for i in input:
        if i[0]==' ':
            result = result+' '
        else:
            ind = ord('가')
            ind +=CHOSUNG_LIST.index(i[0])*588
            ind +=JUNGSUNG_LIST.index(i[1])*28
            ind +=JONGSUNG_LIST.index(i[2])
            result = result+chr(ind)
    return result
        
def li2str(input):
    st = ""
    for i in input:
        st = st+i
    return st

def str2li(input):
    li = []
    for i in range(len(input)):
        li.append(input[i])
    return li

def makejamodict(input):
    result = []
    for i in input:
        bullet = []
        one = []
        two = []
        gre1 = tojamo(i[0])
        for j in gre1:
            for k in j:
                one.append(k)
        bullet.append(one)
        gre2 = tojamo(i[1])
        for j in gre2:
            for k in j:
                two.append(k)
        bullet.append(two)
        result.append(bullet)
    return result

def makestrdict(input):
    result = []
    for i in input:
        bullet = []
        for j in range(len(i)):
            gre = li2str(i[j])
            bullet.append(gre)
        #gre1 = li2str(i[0])
        #gre2 = li2str(i[1])
        #bullet.append(gre1)
        #bullet.append(gre2)
        result.append(bullet)
    return result

#strlis = makestrdict(lis)

#strlis = makejamodict(lili)
#strlis = makestrdict(strlis)

#추가한 사전에 대한 str 사전을 생성, mapping 시키는 부분

EP_dict = makestrdict(EP)
EF_dict = makestrdict(EF)
NP_dict = makestrdict(NP)
JX_dict = makestrdict(JX)
VX_dict = makestrdict(VX)
VV_dict = makestrdict(VV)

Dict_list=['EP','EF','NP','JX','VX','VV']

Dict_map = [EP_dict, EF_dict,NP_dict,JX_dict,VX_dict, VV_dict]



#여기까지

def to2lists(input):
    lis_word = []
    lis_tag = []
    #data = han.pos(input,ntags=22,flatten=True, join=False)
    data = mec.pos(input)
    for i in data:
        lis_word.append(i[0])
        lis_tag.append(i[1])
    return lis_word, lis_tag
    

    

class Changer(object):
    #def __init__(self):
        #print('the changer starts!')
        
    def high_low(self, stc):
        result = stc
        lis_word, lis_tag = to2lists(result)
        jam = Jamodealer(lis_word)
        lis = []
        for i in range(len(lis_tag)):
            res = jam.jamo[i]
            for k in range(len(Dict_list)):
                if Dict_list[k] in lis_tag[i]:
                    dic = Dict_map[Dict_list.index(Dict_list[k])]
                    #res = jam.jamo[i]
                    for j in range(len(dic)):
                        #print(dic[j])
                        if self.isExcept(dic[j])==1:
                            #print('ee')
                            ind = self.indicator(i,jam.jamo,lis_tag,EXC, EXC_tags)
                            res = re.sub(dic[j][0],dic[j][ind],res)
                        else:
                            res = re.sub(dic[j][0],dic[j][1],res)
                            
                    #jam.jamo[i] = res
            lis.append(res)
            #print(jam.jamo[i])
        for i in range(len(lis_tag)):
            jam.jamo[i] = lis[i]
            #print(lis[i])
        
        return jam.make_one()
        
    def isExcept(self, input):
        if len(input)>=3:
            return 1
        else:
            return 0
        
    def indicator(self, ind, lis, tag, excdict, exc_tags):
        re = 1
        if tag[ind-1] in exc_tags:
            for i in range(len(excdict)):
                if excdict[i][0] in lis[ind-1]:
                    #print('tt')
                    re = excdict[i][1]
                    break
                #else:
                    #print('ㅗㅗ')
                    #print(lis[ind-1])
        return re
        
    
    def processText(self,stc):
        result = stc
        res = self.high_low(result)
        spacing = Spacing()
        res = spacing(res)
        return res
    



In [3]:
txt = '어서하세요.'
tx = '저한테 주세요.'
ch = Changer()
tt = ch.processText(txt)
ttt = ch.processText(tx)
print(tt)
print(ttt)

어서해.
나한테 줘.


In [5]:
texts = pd.read_table('./data/hgu_clean.kr', sep ='\n')[:number]
texts = texts['26일이요?']

for i in range(0,number):
    tt = ch.processText(texts[i])
    print(i)
    print(tt)

0
27일은 괜찮나?
1
중단시켜서 죄송해.
2
중단시켜서 죄송해.
3
아, 이런 !도저히 생각이 안 나는 걸.
4
Joe 'sCaf é라는 레스토랑에 가고 싶은데, 알고 계세?
5
보다 나은 건강과 생활회사의 글렌토마스인다.
6
스타워즈는 어때?
7
데이터 코디네이터나 데이터 매니저가 어떨까요?
8
화성에 성ㄴ로봇이 ! 좋아! 특수효과가 대단하대.
9
팩스를 보내줘서 감사한다.
10
11월 30일 날짜로 팩스를 보내줘서 감사한다.
11
자격을 취득하기 위해 공부 중 이야.
12
간호사 자격을 취득하기 위해 공부 중 이야.
13
국가시험을 향해 공부 중 이야.
14
공무원에 되기 윟ㄴ 국가시험을 향해 공부 중 이야.
15
잘됐어. 그럼 이제 집에 가도 되나?
16
죄송한다. 그녀는 안에 없네. 메모 남겨드릴까?
17
내렺ㄹ래.
18
ㅇㄹ렺ㄹ래.
19
작은 목소리
20
스미스 선생님.저화장실에 가야겠는데.
21
화장실이 정말 급해!
22
그럼 총수입의 얼마나 되는 거죠?
23
0136521798 이야.
24
1, 199달러 예?
25
100그램에 비타민C의 함유량은 레몬보다 높다.
26
100미터더가서 좌회전해.
27
105번이그 근처에서는 것 같은데, 확실하진 않아.
28
낸 시에게 물어보ㅘ.낸 시는 나보다 더 자주 그 버스를 이용하거든.
29
105편의 탑승 게이트는 변경되었습니까?
30
10분 정도 후에 다시 걸어줘.
31
10분 후에 다시 걸죠.
32
10분 후에와.
33
10분 정도 기다리 실 수 있습니까?
34
10세 여자아이의 선물로는 무엇이 좋을 것 같습니까?
35
10시 정각이야.
36
10시 정각이야.
37
10시쯤에 목욕해.
38
10일에는 바쁘십니까?
39
11번가와 브로드웨이가 만나는 모퉁이로 가는 버스가 있나?
40
123호실 좀 대줘?
41
123호실이오.
42
125쪽인다.
43
12시부터 1시까지 예.
44
12시쯤에 자요.
45
12일 월요일에 뉴욕에서 필라델피아로 가는 표를 궇려고 하는데.
46
12페이지 밖에 안 돼.인쇄하는데