In [73]:
import time
import matplotlib.pyplot as plt
import numpy as np
import math as mt
import seaborn as sns
from tqdm import tqdm
import pandas as pd
from konlpy.tag import Hannanum, Mecab
from hangul_utils import split_syllables, join_jamos
from tqdm.auto import tqdm
from kiwipiepy import Kiwi
from pykospacing import Spacing
import re

han = Hannanum()
mec = Mecab()

# 초성 리스트. 00 ~ 18
CHOSUNG_LIST = ['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']
# 중성 리스트. 00 ~ 20
JUNGSUNG_LIST = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ']
# 종성 리스트. 00 ~ 27 + 1(1개 없음)
JONGSUNG_LIST = ['_', 'ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ', 'ㄹ', 'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 'ㅁ', 'ㅂ', 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

#선어말어미 dictionary
EP = [
    [['ㅈ','ㅓ','_','ㄴ','ㅡ','ㄴ'],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [[' ','ㅈ','ㅓ','ㄴ',' '],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [['ㅇ','ㅓ','_','ㅇ','ㅛ','_'],['ㄷ','ㅏ','_']]
]

#종결 어미 dictionary
EF = [
    [['ㅅ','ㅡ','ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ',]],
    [[' ','ㅈ','ㅓ','ㄴ',' '],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [['ㅇ','ㅓ','_','ㅇ','ㅛ','_'],['ㄷ','ㅏ','_']],
    [['ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄴ','ㄷ','ㅏ']],
    [['ㅇ','ㅛ'],['']]
    
]

#고유명사 dictionary
NB = [
    
    [['ㅈ','ㅓ'],['ㄴ','ㅏ']],
    [['ㅈ','ㅓ','ㄴ','ㅡ','ㄴ'],['ㄴ','ㅏ','ㄴ','ㅡ','ㄴ']]
    
]
# 보조사
JX = [
   [['ㅇ','ㅣ','ㅇ','ㅛ'],['ㅇ','ㅣ','ㅇ','ㅑ']] 
]
#New function
class JamoDealer:
    jamo = []
    pp = ''
    def __init__(self,lis_word):
        #각 단어들을 받아와서 자모단위로 나눈다.
        print('the jamo starts!')
        self.jamo = []
        for i in lis_word:
            self.jamo.append(split_syllables(i))
        
    def make_one(self):
        #list 형태로 저장된 자모들의 집합을 하나의 string pp에 저장한다. 
        self.pp = ''
        for i in self.jamo:
             self.pp= self.pp+i
        #자모 단위의 string에서 자모 단위로 사전을 만들고 거기에 index를 부여한다.          
        chars = list(set(self.pp))
        char_to_ix = { ch:i for i,ch in enumerate(chars) }
        ix_to_char = { i:ch for i,ch in enumerate(chars) }
        
        #자모 단위로 분리되었던 문장을 다시 하나로 합친다. 
        jamo_numbers = [char_to_ix[x] for x in self.pp]
        restored_jamo = ''.join([ix_to_char[x] for x in jamo_numbers])
        restored_text = join_jamos(restored_jamo)
        #합쳐진 문장을 return 한다. 
        return restored_text

#list to string         
def li2str(input):
    st = ""
    for i in input:
        st = st+i
    return st

#string to list
def str2li(input):
    li = []
    for i in range(len(input)):
        li.append(input[i])
    return li

#To make Jamo Dictionary
#Dictionary의 요소를 jamo로 바꾸는 함수이다. 
def makejamodict(input):
    result = []
    for i in input:
        bullet = []
        one = []
        two = []
        gre1 = tojamo(i[0])
        for j in gre1:
            for k in j:
                one.append(k)
        bullet.append(one)
        gre2 = tojamo(i[1])
        for j in gre2:
            for k in j:
                two.append(k)
        bullet.append(two)
        result.append(bullet)
    return result

#To make String dictionary
#Convert List element to String
#각 tag 사전의 key와 value가 string단위로 합쳐지게 해서 re.sub() 사용이 가능해진다. 
def makestrdict(input):
    result = []
    for i in input:
        bullet = []
        key = li2str(i[0])
        value = li2str(i[1])
        bullet.append(key)
        bullet.append(value)
        result.append(bullet)
    return result

#strlis = makestrdict(lis)
#strlis = makejamodict(lili)
#strlis = makestrdict(strlis)

#
EP_dict = makestrdict(EP)
EF_dict = makestrdict(EF)
NB_dict = makestrdict(NB)
JX_dict = makestrdict(JX)

Dict_list=['EP','EF','NB', 'JX']
Dict_map = [EP_dict, EF_dict, NB_dict, JX_dict]

#divide by morpheme
#형태소로 변환 후 tag와 word를 따로 저장한다. 이때 각각의 index는 일치한다. 
def to2lists(input):
    lis_word = []
    lis_tag = []
    #data = han.pos(input,ntags=22,flatten=True, join=False)
    data= mec.pos(input,flatten=True, join=False)
    for i in data:
        lis_word.append(i[0])
        lis_tag.append(i[1])
    return lis_word, lis_tag
    

class Changer(object):
    def __init__(self):
        print('the changer starts!')
        
    def high_low(self, stc):
        result = stc
        lis_word, lis_tag = to2lists(result)
        jam = JamoDealer(lis_word)
        for i in range(len(lis_tag)):
            for k in range(len(Dict_list)):
                print(lis_tag[i])
                if Dict_list[k] in lis_tag[i]:
                    dic = Dict_map[Dict_list.index(Dict_list[k])]

                    res = jam.jamo[i]

                    for j in range(len(dic)):
                        res = re.sub(dic[j][0],dic[j][1],res)
                    jam.jamo[i] = res
                
        return jam.make_one()
        
    
    def processText(self,stc):
        result = stc
        res = self.high_low(result)
        spacing = Spacing()
        res = spacing(res)
        return res
    



In [74]:
txt = '그가 좋아합니다. 밥을 먹었습니다.'
spacing = Spacing()
ch = Changer()
tt = ch.processText(txt)
print(tt)

the changer starts!
the jamo starts!
NP
NP
NP
NP
JKS
JKS
JKS
JKS
VA
VA
VA
VA
EC
EC
EC
EC
VX+EF
VX+EF
VX+EF
VX+EF
SF
SF
SF
SF
NNG
NNG
NNG
NNG
JKO
JKO
JKO
JKO
VV
VV
VV
VV
EP
EP
EP
EP
EF
EF
EF
EF
SF
SF
SF
SF
그가 좋아한다.밥을 먹었다.


In [75]:
tt

'그가 좋아한다.밥을 먹었다.'

In [76]:
txt = '26일이요?'
ch = Changer()
tt = ch.processText(txt)

print(tt)

the changer starts!
the jamo starts!
SN
SN
SN
SN
NNBC
NNBC
NNBC
NNBC
JX
JX
JX
JX
SF
SF
SF
SF
26일 이야?


In [77]:
EP_dict

[['ㅈㅓ_ㄴㅡㄴ', 'ㄴㅏ_ㄴㅡㄴ'], [' ㅈㅓㄴ ', 'ㄴㅏ_ㄴㅡㄴ'], ['ㅇㅓ_ㅇㅛ_', 'ㄷㅏ_']]