In [1]:
from PyKomoran import *

import pandas as pd

In [2]:
josa_df = pd.read_csv("./data/josa96.txt", encoding = 'cp949')
eomi_df = pd.read_csv("./data/eomi152.txt", encoding = 'cp949')

In [3]:
jkb = pd.DataFrame({"josa_JKB": ("JKB " * len(josa_df)).split(' ')})
jko = pd.DataFrame({"eomi_JKO": ("JKO " * len(eomi_df)).split(' ')})

In [4]:
jkb_df = jkb.drop(jkb.tail(1).index)
jko_df = jko.drop(jko.tail(1).index)

In [5]:
josa = pd.concat([josa_df, jkb_df], axis = 1)
josa.columns = ['word', 'type']

eomi = pd.concat([eomi_df, jko_df], axis = 1)
eomi.columns = ['word', 'type']

josa_eomi = pd.concat([josa, eomi], ignore_index = True)
josa_eomi.columns = ['word', 'type']

In [6]:
josa.to_csv('./data/josa.dic', sep = '\t', index = False)
eomi.to_csv('./data/eomi.dic', sep = '\t', index = False)
josa_eomi.to_csv('./data/josa_eomi.dic', sep = '\t', index = False)

In [7]:
def read_data(path):
    data = []
    with open(path, 'r') as file:
        document = file.readlines()
        for sentence in document:
            sentence = sentence.strip('\n').strip()
            sentence = normalizeString(sentence)
            if len(sentence) > 1:
                try:
                    data.append(sentence)
                except:
                    del sentence
    return data

def normalizeString(s):
    #hangul = re.compile('[^ ㄱ-ㅣ가-힣 ^☆; ^a-zA-Z.!?;0-9]+')
    hangul = re.compile('[^ ㄱ-ㅣ가-힣 ^☆; .!?;0-9]+')
    result = hangul.sub('', s)
    return result

In [8]:
path = './data/test.txt'
data = read_data(path)

In [9]:
data

['1928년 놈 촘스키 출생  미국의 반체제 지성',
 '그는 20대에 언어학에서 혁명을 일으켰다. 30대에는 사히에 혁명을 일으키기 위해 노력했다.',
 '그리고 40대가 되자 그가 변화시켜야 할 세상은 거의 남아 있지 않았다.',
 '현존하는 가장 중요한 지식인뉴욕타임즈 놈 촘스키.',
 '27세가 되던 955년 그는 미국 언어학계에 변형생성문법이라는 새 연구 방향을 제시해 언어학의 혁신을 일으켰다.',
 '이때 이미 그는 불멸의 업적을 쌓았다.',
 '그가 쓴 책은 베스트셀러가 되었고 그에 대해 쓴 책도 베스트셀러 목록에 올랐다.',
 '사회과학 분야에서 그의 인용 빈도는 지크문트 프로이트를 넘어선다.',
 '전기 작가인 로버트 바스키는 이 세계는 촘스키에 동의하는 사람과 그렇지 않은 두 부류로 나뉜다고까지 말한다.',
 '도덕적 분노가 살아 숨쉬는 그의 글은 에두름이 없다.',
 '그의 글의 명료성이야말로 그 자체가 선명한 그의 정치적 입장이기도 하다.',
 '신자유주의에 대해 이렇게 질타한다.',
 '세계는 지금 극소수만이 번영을 구가하고 나머지는 가난한 잉여인간으로 살고 있다.',
 '이 극도의 빈부격차는 결코 우연한 결과가 아니다.',
 '그것은 신자유주의라는 정치적 결정ㅇ 의해 고안된 것이다.',
 '그들은 세계화라는 단어마저 훔쳤다!',
 '이 무정부적 자유주의자에게 미국은 불량 국가다.',
 '1980년 18민주화운동 때 미국의 침묵을 비난했던 그는 조지  부시 행정부가 북한을 악의 축에 포함시킨에 것에 대해 지극히 냉소적이다.',
 '이슬람권의 반발을 우려해 북한을 끼워 넣었을 뿐이다. 북한은 미국에 저렴하고 편리한 적이다!',
 '그의 언어학 연구와 정치적 이상의 기묘한 결합 그 과도한? 현실참여는 게으름과 남용의 기묘한 혼합이라거나 걱정스러울 정도로 분열된 학자라는 비판을 부르기도 했다.',
 '미국의 언론은 그에게 결코 우호적이지 않다.',
 '촘스키는 2004년 미국 대선을 앞두고는 부시의 패퇴가 가능하다는 지식인 네트워크를 만들었

In [10]:
komoran = Komoran("STABLE")
komoran.set_user_dic('./data/josa_eomi.dic')

In [11]:
token_list = [normalizeString(komoran.get_plain_text(data[index])) for index, value in enumerate(data)]

In [12]:
token_list

['1928 년 놈 촘스키 출생 미국 의 반체제 지성',
 '그 는 20 대 에 언어학 에서 혁명 을 일으키 었 다 . 30 대 에 는 사히에 혁명 을 일으키 기 위하 아 노력 하 았 다 .',
 '그리고 40 대 가 되 자 그 가 변화 시키 어야 하 ㄹ 세상 은 거의 남 아 있 지 않 았 다 .',
 '현존 하 는 가장 중요 하 ㄴ 지식인 뉴욕타임즈 놈 촘스키 .',
 '27 세 가 되 던 955 년 그 는 미국 언어학 계 에 변형 생성 문법 이 라는 새 연구 방향 을 제시 하 아 언어학 의 혁신 을 일으키 었 다 .',
 '이때 이미 그 는 불멸 의 업적 을 쌓 았 다 .',
 '그 가 쓰 ㄴ 책 은 베스트셀러 가 되 었 고 그 에 대하 아 쓰 ㄴ 책 도 베스트셀러 목록 에 오르 았 다 .',
 '사회 과학 분야 에서 그 의 인용 빈도 는 지크문트 프로이트 를 넘어서 ㄴ다 .',
 '전기 작가 이 ㄴ 로버트 바 스키 는 이 세계 는 촘스키 에 동의 하 는 사람 과 그렇 지 않 은 두 부류 로 나뉘 ㄴ다고 까지 말 하 ㄴ다 .',
 '도덕 적 분노 가 살 아 숨 쉬 는 그 의 글 은 에두르 ㅁ 이 없 다 .',
 '그 의 글 의 명료 성 이야말로 그 자체 가 선명 하 ㄴ 그 의 정치 적 입장 이 기 도 하 다 .',
 '신 자유주의 에 대하 아 이렇 게 질타 하 ㄴ다 .',
 '세계 는 지금 극소수 만 이 번영 을 구가 하 고 나머지 는 가난 하 ㄴ 잉여 인간 으로 살 고 있 다 .',
 '이 극도 의 빈부 격차 는 결코 우연 하 ㄴ 결과 가 아니 다 .',
 '그것 은 신 자유주의 이 라는 정치 적 결정ㅇ 의하 아 고안 되 ㄴ 것 이 다 .',
 '그 들 은 세계 화 이 라는 단어 마저 훔치 었 다 !',
 '이 무 정부 적 자유 주의자 에게 미국 은 불량 국 가 다 .',
 '1980 년 18 민주 화 운동 때 미국 의 침묵 을 비난 하 았 던 그 는 조지 부시 행정부 가 북한 을 악 의 축 에 포함 시키 ㄴ 에 것 에 대하 아 지극히 냉소 적 이 다 .