In [1]:
import pandas as pd
import numpy as np

In [2]:
raw = pd.read_csv('../data/10_thousand.csv')

In [3]:
raw.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99999 entries, 0 to 99998
Data columns (total 2 columns):
original       99996 non-null object
translation    99996 non-null object
dtypes: object(2)
memory usage: 1.5+ MB


In [4]:
raw.dropna(inplace=True)

In [5]:
origin = raw.original.copy()

In [6]:
origin  = origin.str.strip() # 앞뒤 공백 제거

In [7]:
origin.head()

0    ○丙申/十七日丙申, 太祖卽位于壽昌宮。 先是, 是月十二日辛卯, 恭讓將幸太祖第, 置酒與...
1    ○上在潛邸, 夢有神人執金尺自天而降, 授之曰: "慶侍中 復興, 淸矣而已老; 崔都統 瑩...
2                       ○丁酉/雨。 前此久旱, 及上卽位, 霈然下雨, 人心大悅。
3    竊謂小邦, 至恭愍王薨無嗣, 逆臣辛旽子禑爲權臣李仁任等所立。 禑乃昏暴狂恣, 多殺無辜, ...
4                                  ○立義興親軍衛, 罷都摠中外諸軍事府。
Name: original, dtype: object

## 한자 전처리
1. 특수문자와 한자별로 토큰화한다.
2. 특수문자도 의미가 있으니 없애지 않는다. 
3. 띄어쓰기 제거해준다.

In [8]:
def origin_tokenize(string):
    return np.array([ch for ch in string if ch !=' '])

In [9]:
origin_tokenized = origin.apply(origin_tokenize)

In [10]:
origin_tokenized

0        [○, 丙, 申, /, 十, 七, 日, 丙, 申, ,, 太, 祖, 卽, 位, 于, ...
1        [○, 上, 在, 潛, 邸, ,, 夢, 有, 神, 人, 執, 金, 尺, 自, 天, ...
2        [○, 丁, 酉, /, 雨, 。, 前, 此, 久, 旱, ,, 及, 上, 卽, 位, ...
3        [竊, 謂, 小, 邦, ,, 至, 恭, 愍, 王, 薨, 無, 嗣, ,, 逆, 臣, ...
4        [○, 立, 義, 興, 親, 軍, 衛, ,, 罷, 都, 摠, 中, 外, 諸, 軍, ...
5        [○, 敎, 百, 官, ,, 前, 朝, 政, 令, 法, 制, 得, 失, 、, 沿, ...
6               [○, 命, 宗, 親, 及, 大, 臣, ,, 分, 領, 諸, 道, 兵, 。]
7        [○, 己, 亥, /, 命, 前, 政, 堂, 文, 學, 鄭, 道, 傳, ,, 參, ...
8        [○, 司, 憲, 府, 大, 司, 憲, 閔, 開, 等, 請, 置, 前, 朝, 王, ...
9        [上, 曰, :, ", 宦, 官, 、, 僧, 尼, 斥, 汰, 之, 事, ,, 開, ...
10                                      [上, 只, 令, 罷, 職, 。]
11       [○, 司, 憲, 府, 劾, 王, 康, 嘗, 體, 察, 三, 道, ,, 擾, 民, ...
12        [○, 丁, 未, /, 上, 移, 于, 門, 下, 贊, 成, 事, 尹, 虎, 第, 。]
13       [○, 追, 上, 四, 代, 尊, 號, :, 高, 祖, 考, 曰, 穆, 王, ,, ...
14       [敎, 書, ,, 鄭, 道, 傳, 所, 製, 。, 道, 傳, 與, 禹, 玄, 寶, ...
15       [義, 興, 親, 軍, 左, 衛, ㆍ, 右, 衛, 、, 鷹, 揚, 衛, 、, 金, ...
16       [以, 洪, 永, 通, 判, 門, 下, 府, 事, ,, 安, 宗, 源, 領, 三, .

## 한글 전처리
1. 괄호 속 한자, 형태소분석 불가능한 특수문자 삭제한다
2. 한글 형태소 분석기로 형태소 토큰화한다.

In [11]:
trans = raw.translation.copy()

In [12]:
trans = trans.str.strip()

In [13]:
import re
import string

In [14]:
def remove_chn(trans_string):
    return re.sub(r'[^ㄱ-ㅎ|ㅏ-ㅣ|가-힣|0-9|\.\,\·\"\'\s\!\?]', '', trans_string)

In [15]:
trans = trans.apply(remove_chn)

In [16]:
trans[0][:1000]

'태조가 수창궁에서 왕위에 올랐다. 이보다 먼저 이달 12일에 공양왕이 장차 태조의 사제로 거둥하여 술자리를 베풀고 태조와 더불어 동맹하려고 하여 의장이 이미 늘어섰는데, 시중        배극렴 등이 왕대비에게 아뢰었다."지금 왕이 혼암하여 임금의 도리를 이미 잃고 인심도 이미 떠나갔으므로, 사직과 백성의 주재자가 될 수 없으니 이를 폐하기를 청합니다."마침내 왕대비의 교지를 받들어 공양왕을 폐하기로 일이 이미 결정되었는데, 남은이 드디어 문하 평리 정희계와 함께 교지를 가지고 북천동의 시좌궁001                  에 이르러 교지를 선포하니, 공양왕이 부복하고 명령을 듣고 말하기를,"내가 본디 임금이 되고 싶지 않았는데 여러 신하들이 나를 강제로 왕으로 세웠습니다. 내가 성품이 불민하여 사기를 알지 못하니 어찌 신하의 심정을 거스린 일이 없겠습니까?"하면서, 이내 울어 눈물이 두서너 줄기 흘러내리었다. 마침내 왕위를 물려주고 원주로 가니, 백관이 국새를 받들어 왕대비전에 두고 모든 정무를 나아가 품명하여 재결하였다. 13일임진에 대비가 교지를 선포하여 태조를 감록국사로 삼았다. 16일을미에 배극렴과 조준이 정도전·김사형·이제·이화·정희계·이지란·남은·장사길·정총·김인찬·조인옥·남재·조박·오몽을·정탁·윤호·이민도·조견·박포·조영규·조반·조온·조기·홍길민·유경·정용수·장담·안경공·김균·유원정·이직·이근·오사충·이서·조영무·이백유·이부·김로·손흥종·심효생·고여·장지화·함부림·한상경·황거정·임언충·장사정·민여익 등 대소신료와 한량기로 등이 국새를 받들고 태조의 저택에 나아가니 사람들이 마을의 골목에 꽉 메어 있었다. 대사헌        민개가 홀로 기뻐하지 않으면서 얼굴빛에 나타내고, 머리를 기울이고 말하지 않으므로 남은이 이를 쳐서 죽이고자 하니, 전하가 말하기를,"의리상 죽일 수 없다."하면서 힘써 이를 말리었다. 이날 마침 족친의 여러 부인들이 태조와 강비를 알현하고, 물에 만 밥을 먹는데, 여러 부인들이 모두 놀라 두려워하여 북문으로 흩어져 가

In [17]:
from konlpy.tag import Komoran 

In [18]:
tagger = Komoran()

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


In [19]:
def trans_tokenize(string):
    try:
        return tagger.pos(string, join=True)
    except Exception as e:
        print(e)
        print(string)

In [20]:
trans_tokenized = trans.apply(trans_tokenize)

In [21]:
trans_tokenized

0        [태조/NNP, 가/JKS, 수창/NNP, 궁/NNG, 에서/JKB, 왕위/NNP,...
1        [임금/NNG, 이/JKS, 잠/NNG, 저/NNG, 에/JKB, 있/VV, 을/E...
2        [비/NNG, 가/JKS, 내리/VV, 었/EP, 다/EF, ./SF, 이/NP, ...
3        [도평의사사/NNP, 및/MAJ, 대소/NNG, 신료와/NA, 한량/NNP, ·/S...
4        [의/NNG, 흥/NNG, 친군위/NNG, 를/JKO, 설치/NNG, 하/XSV, ...
5        [백관/NNG, 에게/JKB, 명/NNB, 하/XSA, 아/EC, 고려/NNP, 왕...
6        [종친과/NNG, 대신/NNG, 에게/JKB, 명/NNB, 하/XSA, 아/EC, ...
7        [전/MM, 정당/NNG, 문학/NNG, 정도전/NNP, 을/JKO, 명/NNB, ...
8        [사헌부/NNP, 대사헌/NNP, 민개/NNP, 등/NNB, 이/JKS, 고려/NN...
9        [사헌부/NNP, 에서/JKB, 또/MAJ, 상소/NNG, 하/XSV, 았/EP, ...
10       [사헌부/NNP, 에서/JKB, 상소/NNG, 하/XSV, 았/EP, 다/EF, ....
11       [사헌부/NNP, 에서/JKB, 왕강/NNP, 이/JKS, 일찍이/MAG, 삼도/N...
12       [임금/NNG, 이/JKS, 문하/NNG, 차/VV, ㄴ/ETM, 성사/NNP, 윤...
13       [사대/NNG, 의/JKG, 존호/NNP, 를/JKO, 사후/NNG, 에/JKB, ...
14       [중외/NNG, 의/JKG, 대소/NNG, 신료와/NA, 한량/NNP, ·/SP, ...
15       [문무/NNG, 백/NR, 관의/NNP, 관제/NNG, 를/JKO, 정하/VV, 았...
16       [문/NNG, 하부/NNG, 에/JKB, 교지/NNP, 를/JKO, 내리/VV, 어.

## csv로 저장하기

In [46]:
result = origin_tokenized.to_frame().merge(trans_tokenized, left_index=True, right_index=True,how='outer')

In [47]:
result.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 99996 entries, 0 to 99998
Data columns (total 2 columns):
original       99996 non-null object
translation    99996 non-null object
dtypes: object(2)
memory usage: 4.8+ MB


In [54]:
result.reset_index(drop=True, inplace=True)

In [55]:
result

Unnamed: 0,original,translation
0,"[○, 丙, 申, /, 十, 七, 日, 丙, 申, ,, 太, 祖, 卽, 位, 于, ...","[태조/NNP, 가/JKS, 수창/NNP, 궁/NNG, 에서/JKB, 왕위/NNP,..."
1,"[○, 上, 在, 潛, 邸, ,, 夢, 有, 神, 人, 執, 金, 尺, 自, 天, ...","[임금/NNG, 이/JKS, 잠/NNG, 저/NNG, 에/JKB, 있/VV, 을/E..."
2,"[○, 丁, 酉, /, 雨, 。, 前, 此, 久, 旱, ,, 及, 上, 卽, 位, ...","[비/NNG, 가/JKS, 내리/VV, 었/EP, 다/EF, ./SF, 이/NP, ..."
3,"[竊, 謂, 小, 邦, ,, 至, 恭, 愍, 王, 薨, 無, 嗣, ,, 逆, 臣, ...","[도평의사사/NNP, 및/MAJ, 대소/NNG, 신료와/NA, 한량/NNP, ·/S..."
4,"[○, 立, 義, 興, 親, 軍, 衛, ,, 罷, 都, 摠, 中, 外, 諸, 軍, ...","[의/NNG, 흥/NNG, 친군위/NNG, 를/JKO, 설치/NNG, 하/XSV, ..."
5,"[○, 敎, 百, 官, ,, 前, 朝, 政, 令, 法, 制, 得, 失, 、, 沿, ...","[백관/NNG, 에게/JKB, 명/NNB, 하/XSA, 아/EC, 고려/NNP, 왕..."
6,"[○, 命, 宗, 親, 及, 大, 臣, ,, 分, 領, 諸, 道, 兵, 。]","[종친과/NNG, 대신/NNG, 에게/JKB, 명/NNB, 하/XSA, 아/EC, ..."
7,"[○, 己, 亥, /, 命, 前, 政, 堂, 文, 學, 鄭, 道, 傳, ,, 參, ...","[전/MM, 정당/NNG, 문학/NNG, 정도전/NNP, 을/JKO, 명/NNB, ..."
8,"[○, 司, 憲, 府, 大, 司, 憲, 閔, 開, 等, 請, 置, 前, 朝, 王, ...","[사헌부/NNP, 대사헌/NNP, 민개/NNP, 등/NNB, 이/JKS, 고려/NN..."
9,"[上, 曰, :, "", 宦, 官, 、, 僧, 尼, 斥, 汰, 之, 事, ,, 開, ...","[사헌부/NNP, 에서/JKB, 또/MAJ, 상소/NNG, 하/XSV, 았/EP, ..."


In [57]:
result.to_hdf('../data/tokenized_10thousand.hdf','df')