In [49]:
import time
import matplotlib.pyplot as plt
import numpy as np
import math as mt
import seaborn as sns
from tqdm import tqdm
import pandas as pd
from konlpy.tag import Hannanum, Mecab
from hangul_utils import split_syllables, join_jamos
from tqdm.auto import tqdm
from kiwipiepy import Kiwi
import re
from pykospacing import Spacing
#from eunjeon import Mecab
han = Hannanum()
mec = Mecab()

number = 100

# 초성 리스트. 00 ~ 18
CHOSUNG_LIST = ['ㄱ', 'ㄲ', 'ㄴ', 'ㄷ', 'ㄸ', 'ㄹ', 'ㅁ', 'ㅂ', 'ㅃ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅉ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']
# 중성 리스트. 00 ~ 20
JUNGSUNG_LIST = ['ㅏ', 'ㅐ', 'ㅑ', 'ㅒ', 'ㅓ', 'ㅔ', 'ㅕ', 'ㅖ', 'ㅗ', 'ㅘ', 'ㅙ', 'ㅚ', 'ㅛ', 'ㅜ', 'ㅝ', 'ㅞ', 'ㅟ', 'ㅠ', 'ㅡ', 'ㅢ', 'ㅣ']
# 종성 리스트. 00 ~ 27 + 1(1개 없음)
JONGSUNG_LIST = ['_', 'ㄱ', 'ㄲ', 'ㄳ', 'ㄴ', 'ㄵ', 'ㄶ', 'ㄷ', 'ㄹ', 'ㄺ', 'ㄻ', 'ㄼ', 'ㄽ', 'ㄾ', 'ㄿ', 'ㅀ', 'ㅁ', 'ㅂ', 'ㅄ', 'ㅅ', 'ㅆ', 'ㅇ', 'ㅈ', 'ㅊ', 'ㅋ', 'ㅌ', 'ㅍ', 'ㅎ']

H_LIST = ['니다', '니까', '요', '시오', '죠']


EF_ONLY = [
    
    [['ㅅ','ㅡ','ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ']],
    [['ㄴ','ㅏ','ㅇ','ㅛ'],['ㄴ','ㅏ']],
    [['ㄷ','ㅐ','ㅇ','ㅛ'],['ㄷ','ㅐ']],
    [['ㅇ','ㅔ','ㅇ','ㅛ'],['ㅇ','ㅑ']],
    [['ㄴ','ㅔ','ㅇ','ㅛ'],['ㄷ','ㅏ']],
    [['ㄴ','ㅡ','ㄴ','ㄷ','ㅔ','ㅇ','ㅛ'],['ㄴ','ㅡ','ㄴ','ㄷ','ㅔ']],
    [['ㅈ','ㅛ'],['ㅈ','ㅣ']],
    [['ㅇ','ㅏ','ㅇ','ㅛ'],['ㅇ','ㅏ']],
    [['ㅇ','ㅓ','ㅇ','ㅛ'],['ㅇ','ㅓ']],
    [['ㅇ','ㅡ','ㅅ','ㅔ','ㅇ','ㅛ'],['ㅇ','ㅓ']],
    [['ㄱ','ㅓ','ㄷ','ㅡ','ㄴ','ㅇ','ㅛ'],['ㄱ','ㅓ','ㄷ','ㅡ','ㄴ']],
    #[['ㅎ','ㅅ','ㅡ','ㅂ','ㄴ','ㅣ','ㄲ','ㅏ'],['ㅎ','ㅇ','ㅏ']],
    [['ㅅ','ㅡ','ㅂ','ㄴ','ㅣ','ㄲ','ㅏ'],['ㅇ','ㅓ']],
    [['ㄴ','ㅡ','ㄴ','ㄷ','ㅔ','ㅇ','ㅛ'],['ㄴ','ㅡ','ㄴ','ㄷ','ㅔ']],
    [['ㅇ','ㅛ'],['']],
    
]

EP_EF = [
    
    [['ㅅ','ㅔ','ㅇ','ㅛ'],['ㄴ', 'ㅏ']]
    #-시오 family
    ,[['ㅡ','ㅅ','ㅣ','ㅂ','ㅅ','ㅣ','ㅇ','ㅗ'],['ㅓ']]
    ,[['ㅅ','ㅣ','ㅂ','ㅅ','ㅣ','ㅇ','ㅗ'],['ㄹ', 'ㅏ']],
    [['ㅅ','ㅣ','ㅂ','ㄴ','ㅣ','ㄲ','ㅏ'],['ㄴ','ㅣ']],
    [['ㅅ','ㅣ','ㄹ','ㄹ','ㅐ','ㅇ','ㅛ'],['ㄹ','ㄹ','ㅐ']],
]

#VCP+EF
VCP_EF = [
    
    [['ㅇ','ㅣ','ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㅇ','ㅣ','ㄷ','ㅏ']],
    [['ㅇ','ㅣ','ㅂ','ㄴ','ㅣ','ㄲ','ㅏ'],['ㅇ','ㅣ','ㅇ','ㅑ']],
    [['ㅈ','ㅛ'],['ㅇ','ㅑ']],
    [['ㅇ','ㅣ','ㅇ','ㅔ','ㅇ','ㅛ'],['ㅇ','ㅣ','ㅇ','ㅑ']],
    [['ㅇ','ㅖ','ㅇ','ㅛ'],['ㅇ','ㅑ']],
    [['ㄱ','ㅓ','ㅇ','ㅛ'],['ㅇ','ㅑ']],
    [['ㄹ','ㅏ','ㄷ','ㅓ','ㄴ','ㄷ','ㅔ','ㅇ','ㅛ'],['ㄹ','ㅏ','ㄷ','ㅓ','ㄴ','ㄷ','ㅔ']],
    [['ㄱ','ㅓ','ㅇ','ㅔ','ㅇ','ㅛ'],['ㄱ','ㅓ','ㅇ','ㅔ','ㅇ','ㅛ']],
    
]

XSA_EF = [
    [['ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ']],
    [['ㅇ','ㅛ'],['']]
]
XSV_EF = [
    [['ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ']],
    [['ㅎ','ㅐ','ㅇ','ㅛ'],['ㅎ','ㅏ','ㅈ','ㅏ']],
]
A_EF = [
    [['ㄱ','ㅓ','ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ']],
    [['ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄴ','ㄷ','ㅏ']],
    [['ㄱ','ㅖ','ㅅ','ㅔ','ㅇ','ㅛ'],['ㅇ','ㅣ','ㅆ','ㅇ','ㅓ']],
    [['ㅂ','ㄴ','ㅣ','ㄲ','ㅏ'],['ㄴ','ㅏ']],
    [['ㅇ','ㅛ'],['']]
    
    
]
EP=[
    [['ㅅ','ㅣ'],['ㄹ']],
    [['ㄱ','ㅔ','ㅆ'],['']]
]
#종결 어미
EF = [
    [['ㅅ','ㅡ','ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄷ','ㅏ']],
    [[' ','ㅈ','ㅓ','ㄴ',' '],['ㄴ','ㅏ','_','ㄴ','ㅡ','ㄴ']],
    [['ㅇ','ㅓ','_','ㅇ','ㅛ','_'],['ㄷ','ㅏ','_']],
    [['ㅂ','ㄴ','ㅣ','ㄷ','ㅏ'],['ㄴ','ㄷ','ㅏ']],
    [['ㅇ','ㅔ','ㅇ','ㅛ'],['ㅇ','ㅑ']],
    [['ㅇ','ㅛ'],['']]
    #,[['ㅅ','ㅔ'],['ㅝ'],['ㅘ']]
]

NP = [
    
    [['ㅈ','ㅓ','ㄴ'],['ㄴ','ㅏ','ㄴ']],
    [['ㅈ','ㅓ'],['ㄴ','ㅏ']]
    
]

# 보조사
JX = [
    [['ㅇ','ㅣ','ㅇ','ㅛ'],['ㅇ','ㅣ','ㅇ','ㅑ']],
    [['ㅇ','ㅛ'],['']]
]

VX = [
    
    [['ㅈ','ㅜ'],['ㅈ','ㅜ'],['ㅈ','ㅝ']]
    
]

VV = [
    
    [['ㅇ','ㅗ'],['ㅇ','ㅗ'],['ㅇ','ㅘ']],
    [['ㅈ','ㅜ'],['ㅈ','ㅜ'],['ㅈ','ㅝ']],
    [['ㅎ','ㅏ'],['ㅎ','ㅏ'],['ㅎ','ㅐ']]
    
]

XR = [
    [['ㅈ','ㅚ','ㅅ','ㅗ','ㅇ'],['ㅁ','ㅣ','ㅇ','ㅏ','ㄴ'] ]
]
NNG = [
    [['ㅈ','ㅏ','ㅇ','ㅛ'],['ㅈ','ㅏ']]
]

#이거 이제 안쓴다
EXC = [
    
    ['ㅜ',1],
    ['ㅗ',2],
    ['ㅏ',3]
    
]

EXC_word = [
    
    ['ㅅㅔ',2]
    ,['ㅅㅣㅂ',2]
    
]

EXC_tags = [
    
    'EP',
    'EF'
    
]

class Jamodealer:
    jamo = []
    pp = ''
    def __init__(self,lis_word):
        
        self.jamo = []
        for i in lis_word:
            self.jamo.append(split_syllables(i))
        
    def make_one(self):
        self.pp = ''
        for i in self.jamo:
             self.pp= self.pp+i
                
        chars = list(set(self.pp))
        char_to_ix = { ch:i for i,ch in enumerate(chars) }
        ix_to_char = { i:ch for i,ch in enumerate(chars) }
        
        jamo_numbers = [char_to_ix[x] for x in self.pp]
        restored_jamo = ''.join([ix_to_char[x] for x in jamo_numbers])
        restored_text = join_jamos(restored_jamo)
        return restored_text

def tojamo(korean_word):
    r_lst = []
    for w in list(korean_word.strip()):
        ## 영어인 경우 구분해서 작성함. 
        if '가'<=w<='힣':
            ## 588개 마다 초성이 바뀜. 
            ch1 = (ord(w) - ord('가'))//588
            ## 중성은 총 28가지 종류
            ch2 = ((ord(w) - ord('가')) - (588*ch1)) // 28
            ch3 = (ord(w) - ord('가')) - (588*ch1) - 28*ch2
            r_lst.append([CHOSUNG_LIST[ch1], JUNGSUNG_LIST[ch2], JONGSUNG_LIST[ch3]])
        else:
            r_lst.append([w])
    return r_lst
    

def to1dim(input):
    result=[]
    for i in input:
        for j in i:
            result.append(j)
    return result

def to2dim(input):
    result = []
    li = []
    for i in input:
        if i == ' ':
            result.append([' '])
        else:
            li.append(i)
        if len(li)==3:
            result.append(li)
            li = []
    return result

def makeone(input):
    result = ''
    li = ''
    for i in input:
        if i[0]==' ':
            result = result+' '
        else:
            ind = ord('가')
            ind +=CHOSUNG_LIST.index(i[0])*588
            ind +=JUNGSUNG_LIST.index(i[1])*28
            ind +=JONGSUNG_LIST.index(i[2])
            result = result+chr(ind)
    return result
        
def li2str(input):
    st = ""
    for i in input:
        st = st+i
    return st

def str2li(input):
    li = []
    for i in range(len(input)):
        li.append(input[i])
    return li

def makejamodict(input):
    result = []
    for i in input:
        bullet = []
        one = []
        two = []
        gre1 = tojamo(i[0])
        for j in gre1:
            for k in j:
                one.append(k)
        bullet.append(one)
        gre2 = tojamo(i[1])
        for j in gre2:
            for k in j:
                two.append(k)
        bullet.append(two)
        result.append(bullet)
    return result

def makestrdict(input):
    result = []
    for i in input:
        bullet = []
        for j in range(len(i)):
            gre = li2str(i[j])
            bullet.append(gre)
        result.append(bullet)
    return result

#추가한 사전에 대한 str 사전을 생성, mapping 시키는 부분
EP_dict = makestrdict(EP)
EF_dict = makestrdict(EF)
NP_dict = makestrdict(NP)
JX_dict = makestrdict(JX)
VX_dict = makestrdict(VX)
VV_dict = makestrdict(VV)
XR_dict = makestrdict(XR)
NNG_dict = makestrdict(NNG)

Dict_list=['EP','EF','NP','JX','VX','VV','XR','NNG']

Dict_map = [EP_dict, EF_dict,NP_dict,JX_dict,VX_dict, VV_dict, XR_dict, NNG_dict]

EF_ONLY_dict = makestrdict(EF_ONLY)
EP_EF_dict = makestrdict(EP_EF)
VCP_EF_dict = makestrdict(VCP_EF)
A_EF_dict = makestrdict(A_EF)
XSA_EF_dict = makestrdict(XSA_EF)
XSV_EF_dict = makestrdict(XSV_EF)
#End of Mapping 

def to2lists(input):
    lis_word = []
    lis_tag = []
    #data = han.pos(input,ntags=22,flatten=True, join=False)
    data = mec.pos(input)
    for i in data:
        lis_word.append(i[0])
        lis_tag.append(i[1])
    return lis_word, lis_tag

#add in 2021.09.26
#To restore the space of sentence
def indee(lis, input):
    
    rlis = []
    
    for i in range(len(lis)):
        if lis[i]==input:
            rlis.append(i)
            
    for i in range(len(rlis)):
        rlis[i] = rlis[i]-i
            
    return rlis

def ind_lili(lis_space,lis_lis):
    
    rlis = []
    k=0
    for i in range(len(lis_lis)):
        
        if k in lis_space:
            rlis.append(i)
            
        k = k+len(lis_lis[i])
        
    
    return rlis

def union(lis, lis_lis):
    
    k = 0
    for i in lis:
        lis_lis.insert(i+k,' ')
        k = k+1
    
    

class Changer(object):
        
    def high_low(self, stc):
        result = stc
        
        space_list = indee(stc,' ')
        
        lis_word, lis_tag = to2lists(result)
        space_location = ind_lili(space_list, lis_word)
        
        key = -1
        for i in H_LIST:
            if i in lis_word[-2]:
                key = 1
        lis = []
        jam = Jamodealer(lis_word)       
        if key>0:
            
            
            for i in range(len(lis_tag)):
                res = jam.jamo[i]
                for k in range(len(Dict_list)):
                    dic = []
                    if 'EF' in lis_tag[i]:
                        if 'EF' == lis_tag[i]:
                            dic = EF_ONLY_dict
                        elif 'EP' in lis_tag[i]:
                            dic = EP_EF_dict
                        elif 'VCP' in lis_tag[i]:
                            dic = VCP_EF_dict
                        elif 'XSA' in lis_tag[i]:
                            dic = XSA_EF_dict
                        elif 'XSV' in lis_tag[i]:
                            dic = XSV_EF_dict
                        else:
                            dic = A_EF_dict
                        
                    elif Dict_list[k] in lis_tag[i]:
                        dic = Dict_map[Dict_list.index(Dict_list[k])]
                    for j in range(len(dic)):
                        if self.isExcept(dic[j])==1:
                            ind = self.indicator(i,jam.jamo,lis_tag,EXC_word, EXC_tags)
                            res = re.sub(dic[j][0],dic[j][ind],res)
                        else:
                            res = re.sub(dic[j][0],dic[j][1],res)
                lis.append(res)
            
            
            #print(jam.jamo[i])
        #print(lis)
        union(space_location, lis)
        jam.jamo = []
        for i in range(len(lis)):
            jam.jamo.append(lis[i])
        
        
        
        return jam.make_one()
    
    def low_high(self, stc):
        result = stc
        
        space_list = indee(stc, ' ')
        
        lis_word, lis_tag = to2lists(result)
        space_location = ind_lili(space_list, lis_word)
        
        key = -1
        
        for i in H_LIST:
            if i in lis_word[-2]:
                key = H_LIST.index(i)
                
        if key==-1:
            jam = Jamodealer(lis_word)
            
        
        
        
    def isExcept(self, input):
        if len(input)>=3:
            return 1
        else:
            return 0
        
    def indicator(self, ind, lis, tag, ex_word, exc_tags):
        re = 1
        for j in range(len(ex_word)):
            if exc_tags[j] in tag[ind+1]:
                for i in range(len(ex_word)):
                    if ex_word[i][0] in lis[ind+1]:
                        re = ex_word[i][1]
                        break
                        print(lis[ind-1])
        return re
        
    
    def processText(self,stc):
        result = stc
        res = self.high_low(result)
        #spacing = Spacing()
        #res = spacing(res)
        return res
    

In [50]:
#txt = '전 그것이 맞다고 생각합니다.'
tx = '그것을 먹어.'
ch = Changer()
ttt = ch.processText(tx)
#print(tt)
print(ttt)

 


In [51]:
import pandas as pd
number = 200
texts = pd.read_table('./data/hgu_clean.kr', sep ='\n')[:number]
texts = texts['26일이요?']

for i in range(0, number):
    tt = mec.pos(texts[i], flatten=True, join=True) 
    print(tt)

['27/SN', '일/NNBC', '은/JX', '괜찮/VA', '나요/EF', '?/SF']
['중단/NNG', '시켜서/XSV+EC', '죄송/XR', '해요/XSA+EF', './SF']
['중단/NNG', '시켜서/XSV+EC', '죄송/XR', '해요/XSA+EF', './SF']
['아/IC', ',/SC', '이런/MM', '!/SF', '도저히/MAG', '생각/NNG', '이/JKS', '안/MAG', '나/VV', '는/ETM', '걸/NNB+JKO', './SF']
['Joe/SL', "'/SY", 's/SL', 'Café/SL', '라는/VCP+ETM', '레스토랑/NNG', '에/JKB', '가/VV', '고/EC', '싶/VX', '은데/EC', ',/SC', '알/VV', '고/EC', '계세요/VX+EF', '?/SF']
['보다/MAG', '나/VA', '은/ETM', '건강/NNG', '과/JC', '생활/NNG', '회사/NNG', '의/JKG', '글렌/NNP', '토마스/NNP', '입니다/VCP+EF', './SF']
['스타워즈/NNP', '는/JX', '어때/VA+EF', '?/SF']
['데이터/NNG', '코디네이터/NNG', '나/JC', '데이터/NNG', '매니저/NNG', '가/JKS', '어떨까/VA+EC', '요/JX', '?/SF']
['화성/NNG', '에서/JKB', '온/VV+ETM', '로봇/NNG', '이/VCP', '요/EF', '!/SF', '좋/VA', '아요/EF', '!/SF', '특수/NNG', '효과/NNG', '가/JKS', '대단/XR', '하/XSA', '대요/EF', './SF']
['팩스/NNG', '를/JKO', '보내/VV+EC', '줘서/VX+EC', '감사/NNG', '합니다/XSV+EF', './SF']
['11/SN', '월/NNBC', '30/SN', '일/NNBC', '날짜/NNG', '로/JKB', '팩스/NNG', '를/JKO', '보내/VV+EC', 

['2/SN', '층/NNG', '이/VCP', '니까/EC', '에스컬레이터/NNG', '로/JKB', '가/VV', '도/EC', '되/VV', '잖아/EF', './SF']
['30/SN', '분/NNBC', '내/NNB', '로/JKB', '될/VV+ETM', '거/NNB', '요/VCP+EF', './SF', '식탁/NNG', '이나/JX', '차리/VV', '지/EC', '그래요/VV+EF', '?/SF']
['30/SN', '분/NNBC', '정도/NNG', '예요/VCP+EF', './SF']
['30/SN', '분/NNBC', '정도/NNG', '입니다/VCP+EF', './SF']
['30/SN', '분/NNBC', '쯤/NNB', '이/VCP', '요/EF', './SF', '출발/NNG', '합니다/XSV+EF', './SF', '안전벨트/NNG', '매/VV', '세요/EP+EF', './SF']
['30/SN', '세/NNBC', '의/JKG', '생일/NNG', '축하/NNG', '해/XSV+EF', '!/SF']
['30/SN', '일/NNBC', '은/JX', '괜찮/VA', '아요/EF', './SF']
['32/SN', '달러/NNBC', '78/SN', '센트/NNBC', '입니다/VCP+EF', './SF']
['38/SN', '도/NNBC', '정도/NNG', '의/JKG', '열/NNG', '이/JKS', '있/VA', '어요/EF', './SF']
['3/SN', '교대/NNG', '로/JKB', '운영/NNG', '하/XSV', '는/ETM', '건/NNB+JX', '어떨까/VA+EC', '요/JX', '?/SF']
['3/SN', '년/NNBC', '전/NNG', '에/JKB', '재혼/NNG', '했/XSV+EP', '어요/EF', './SF']
['3/SN', '년/NNBC', '전이/NNG', '야/VCP+EF', './SF']
['3/SN', '년/NNBC', '만/NNB', '인가요/VCP+EF', '?/

In [52]:
import pandas as pd
number = 200
texts = pd.read_table('./data/hgu_clean.kr', sep ='\n')[:number]
texts = texts['26일이요?']

ch = Changer()

for i in range(0, number):
    tt = ch.processText(texts[i])
    print(tt)

27일은 괜찮나?
중단시켜서 미안해.
중단시켜서 미안해.
     
Joe's Café 라는 레스토랑에 가고 싶은데, 알고 있어?
보다 나은 건강과 생활 회사의 글렌 토마스이다.
 
데이터 코디네이터나 데이터 매니저가 어떨까?
화성에서 온 로봇이! 좋아! 특수 효과가 대단하대.
팩스를 보내줘서 감사하다.
11월30일 날짜로 팩스를 보내줘서 감사하다.
자격을 취득하기 위해 공부 중이야.
간호사 자격을 취득하기 위해 공부 중이야.
국가시험을 향해 공부 중이야.
공무원에 되기 위한 국가시험을 향해 공부 중이야.
잘 됐어. 그럼 이제 집에 가도 되나?
미안하다. 그녀는 안에 없다. 메모 남겨 드릴까?
내려 줄래.
올려 줄래.
 
스미스 선생님. 저 화장실에 가야는데.
화장실이 정말 급해!
그럼 총수입의 얼마나 되는 거야?
0136521798이야.
1,199달러야?
100그램에 비타민C의 함유량은 레몬보다 높다.
   
105번이 그 근처에 서는 것 같은데, 확실하진 않아.
낸시에게 물어 보나. 낸시는 나보다 더 자주 그 버스를 이용하거든.
105편의 탑승게이트는 변경되었어?
10분 정도 후에 다시 걸어줘나.
10분 후에 다시 걸지.
10분 후에 와.
10분정도 기다릴ㄹ 수 있어?
10세 여자 아이의 선물로는 무엇이 좋을 것 같어?
10시 정각이야.
10시 정각이야.
10시쯤에 목욕하자.
10일에는 바쁘니?
11번가와 브로드웨이가 만나는 모퉁이로 가는 버스가 있나?
123호실 좀 대 줘나?

125쪽이다.
12시부터 1시까지야.
12시쯤에 자.
12일 월요일에 뉴욕에서 필라델피아로 가는 표를 구하려고 하는데.
12페이지 밖에 안 돼. 인쇄하는데 오래 걸리지 않을 거야.
14달러 47센트이다. 정말 미안하다.
15분 쯤 뒤에 내 방으로 와 줄래?
15세이기때문에 술은 마실 수 없다.
15일이야.
17일은 몇 요일이야?
1981년에 태어났어.
1990년에 동화대학에 입학을 했어.
1995년에 고등학교를 졸업했어.
1개월 있을 예정이다.
1달러 50센트에요.
1달러25센트야

In [58]:
import pandas as pd
number = 700
texts = pd.read_table('./data/hgu_clean.kr', sep ='\n')[:number]
texts = texts['26일이요?']

for i in range(200, number):
    tt = mec.pos(texts[i], flatten=True, join=True) 
    print(tt)

['Boyz/SL', 'Ⅱ/SN', 'Men/SL', '콘서트/NNG', '표/NNG', '가/JKS', '두/MM', '장/NNBC', '있/VV', '어/EF', './SF']
['나/NP', '하고/JKB', '갈래/VV+EF', '?/SF']
['CD/SL', '가/JKS', '테이프/NNG', '보다/JKB', '더/MAG', '비싸/VA', '죠/EF', '?/SF']
['CD/SL', '가게/NNG', '로/JKB', '갈/VV+ETM', '거/NNB', '예요/VCP+EF', './SF']
['CD/SL', '가게/NNG', '에서/JKB', '남부/NNG', '올/VV+ETM', '스타즈/NNP', '의/JKG', '앨범/NNG', '을/JKO', '샀/VV+EP', '어요/EF', './SF']
['CD/SL', '는/JX', '어디/NP', '에/JKB', '있/VV', '어/EF', './SF']
['DVD/SL', '는/JX', '화질/NNG', '이/JKS', '좋/VA', '아서/EC', '좋/VA', '습니다/EF', '?/SF']
['DVD/SL', '를/JKO', '사/VV', '는/ETM', '것/NNB', '은/JX', '영원히/MAG', '소장/NNG', '할/XSV+ETM', '수/NNB', '있/VV', '기/ETN', '때문/NNB', '입니다/VCP+EF', './SF']
['DVD/SL', '플레이어/NNG', '를/JKO', '갖/VV', '고/EC', '싶/VX', '어요/EF', './SF']
['E/SL', '-/SY', '메일/NNG', '을/JKO', '보내/VV+EC', '줘서/VX+EC', '고마워요/VA+EC', './SF']
['EPA/SL', '는/JX', '나쁜/VA+ETM', '콜레스테롤/NNG', '을/JKO', '줄여/VV+EC', '줍니다/VX+EF', './SF']
['E/SL', '메일/NNG', '의/JKG', '주고받/VV', '기/ETN', '와/JC', '인터넷/NNG', '

['계속/MAG', '연락/NNG', '하/XSV', '자/EF', './SF']
['계속/NNG', '적/XSN', '으로/JKB', '아파요/VA+EF', './SF']
['계속/NNG', '해서/XSV+EC', '30/SN', '도/NNBC', '넘/VV', '고/EC', '있/VX', '어/EF', './SF']
['계약서/NNG', '에/JKB', '서명/NNG', '했/VV+EP', '어요/EF', '?/SF']
['계약/NNG', '하/XSV', '겠/EP', '습니다/EF', './SF']
['계절/NNG', '음식/NNG', '은/JX', '맛있/VA', '어요/EF', './SF']
['계절/NNG', '이/JKS', '바뀔/VV+ETM', '때/NNG', '컨디션/NNG', '을/JKO', '망치/VV', '기/ETN', '쉬/VV', '어요/EF', './SF']
['계좌/NNG', '를/JKO', '확인/NNG', '해/XSV+EC', '드릴게요/VX+EF', './SF']
['당신/NP', '의/JKG', '수표/NNG', '가/JKS', '저희/NP', '은행/NNG', '으로/JKB', '왔/VV+EP', '을/ETM', '때/NNG', '손님/NNG', '의/JKG', '통장/NNG', '잔액/NNG', '은/JX', '345/SN', '달러/NNBC', '였/VCP+EP', '습니다/EF', './SF']
['이/MM', '수표/NNG', '는/JX', '490/SN', '달러/NNBC', '짜리/XSN', '잖/VCP+UNA', '아요/EF', './SF']
['고객/NNG', '임대/NNG', '번호/NNG', '가/JKS', 'Y/SL', '-/SY', '97623/SN', '입니다/VCP+EF', './SF']
['고객/NNG', '들/XSN', '이/JKS', '그런/MM', '태도/NNG', '에/JKB', '질리/VV', '지/EC', '않/VX', '았/EP', '을까요/EF', '?/SF']
['고객/NNG', 

In [54]:
import pandas as pd
number = 400
texts = pd.read_table('./data/hgu_clean.kr', sep ='\n')[:number]
texts = texts['26일이요?']

ch = Changer()

for i in range(200, number):
    tt = ch.processText(texts[i])
    print(tt)

       
 
CD가 테이프보다 더 비싸지?
CD가게로 갈 거야.
CD가게에서 남부 올스타즈의 앨범을 샀어.
  
DVD는 화질이 좋아서 좋다?
DVD를 사는 것은 영원히 소장할 수 있기 때문이다.
DVD플레이어를 갖고 싶어.
E-메일을 보내줘서 고마워요.
EPA 는 나쁜 콜레스테롤을 줄여준다.
E메일의 주고받기와 인터넷을 할 줄 몰라.
HP사에서 곧 면접을 봐. 그 회사의 복장 규정은 비즈니스 캐주얼인데, 어떤 옷을 입는 게 좋을까?
나는 존이라고 한다.
IT에 대해 어떻게 생각해?
Joe's에 잘 오셨다!
John이야. 나에게 전화하셨다면서.
KIM전기와 교섭 중이야.
   
 
LA에 출장 갔어.
LD01332이다.
L라면 너무 커.
MD플레이어를 갖고 싶어.
MTV에서 재미있는 프로그램을 보고 있어.
M을 입어볼게.
    
TV 연속극 애인 본 적 있어?
   
  
  
TV로 스포츠를 봐.
TV를 꺼줄래?
TV를 별로 보지 않아.
TV를 별로 좋아하지 않아.
TV를 보고 있어.
TV를 보지 않을 때는 꺼줘나.
TV를 볼 거야.
 
TV를 켜줄래?
TV시청을 좋아해.
 
     
T셔츠를 찾고 있어.
UCLA까지는 어느 정도 걸리나?
UCLA에서 1개월정도 어학연수를 받을 겁니다.
VAMC의 쉐논 잭슨이라고 한다.
V넥 스웨터는 있어?
    
YBM의 잭 심슨 씨야.
  
화성탐험이라는 SF영화이다.
travelers의 체크카드는 사용 가능하나?
  
참치의 뱃살은 일본인이 가장 좋아하는 부분이다.
   
가게 안의 느낌이 좋지 않았어.
가게 안이 멋졌어.
가게에 가서 프랑스산 포도주 좀 사올래?
가게에서 접대를 한다.
가격 때문이라면 망설이지 마나. 대량 주문 할면 싸게 해드릴 수 있어. 가령 5천개 주문하면 20% 할인해 드릴게.
가격에 따라 결정이 되.
가격은 세금포함이야?
가격은 어땠어?
가격을 낮추면 매출을 늘릴 수 있을 거야.
가격을 확인 중이야.
가격이 아주 저렴하다.
가격이 양심적이었어.
   
가구점을 여러 곳 돌아다녀 봤는데

In [55]:
####Convert to Aihub_low.kr

In [56]:
number = 1935515
texts = pd.read_table('./data/hgu_clean.kr', sep ='\n')[:number]
texts = texts['26일이요?']
# el_list = []
# for sentence in tqdm(texts):
#    try:
#        el_list.append(mec.pos(sentence))
#    except:
#        pass
# ch = Changer()
# f = open('./Aihub_low.kr', 'w')
# for i in range(0, number):
#     tt = ch.processText(texts[i])
#     f.write(tt)
#     f.write('\n')
# f.close()

In [57]:
# fr = open('./data/hgu_clean.kr', mode ='r', encoding ='utf-8')
# line = fr.readline()
# print(texts[0])
# #line = re.sub("\n","",line)
# line = fr.readline()
# print(line)

# for i in range(0, number):
#     file = open("./Aihub_low.kr", "a")
#     tt = ch.processText(texts[i])
#     file.write(tt)
#     file.write('\n')
#     file.close()

In [81]:
fr = open('./data/hgu_clean_all.kr', mode ='r', encoding ='utf-8')
while True:
    file = open("./Aihub_low.kr", "a")
    line = fr.readline()
    #맨 끝에 마침표가 없으면 마침표를찍기
    if line[-2] == ' ':
        line = line + '.'
    line = re.sub("\n","",line)
    converted_sent = ch.processText(line)
    file.write(converted_sent)
    file.write('\n')
    file.close()
    if not line: break
fr.close()

IndexError: list index out of range

In [80]:
fr = open('./data/hgu_clean_all.kr', mode ='r', encoding ='utf-8')
line = fr.readline()
print(line[-2])
if line[-2] == ' ':
    print("yees!")
fr.close()

?


In [93]:
fr = open('./data/hgu_clean_all.kr', mode ='r', encoding ='utf-8')
count =0
while True:
    line == fr.readline()
    if line == '제가 참고하고 싶은 책이 도서관에 없어요':break
    else: count = count+1
fr.close()

KeyboardInterrupt: 

In [92]:
print(count)

0
