In [3]:
# -*- coding: utf-8 -*-
"""
word2vec embeddings start with a line with the number of lines (tokens?) and 
the number of dimensions of the file. This allows gensim to allocate memory 
accordingly for querying the model. Larger dimensions mean larger memory is 
held captive. Accordingly, this line has to be inserted into the GloVe 
embeddings file.
"""

import os
import shutil
import smart_open
from sys import platform

import gensim


def prepend_line(infile, outfile, line):
	""" 
	Function use to prepend lines using bash utilities in Linux. 
	(source: http://stackoverflow.com/a/10850588/610569)
	"""
	with open(infile, 'r') as old:
		with open(outfile, 'w') as new:
			new.write(str(line) + "\n")
			shutil.copyfileobj(old, new)

def prepend_slow(infile, outfile, line):
	"""
	Slower way to prepend the line by re-creating the inputfile.
	"""
	with open(infile, 'r') as fin:
		with open(outfile, 'w') as fout:
			fout.write(line + "\n")
			for line in fin:
				fout.write(line)

def get_lines(glove_file_name):
    """Return the number of vectors and dimensions in a file in GloVe format."""
    with smart_open.smart_open(glove_file_name, 'r') as f:
        num_lines = sum(1 for line in f)
    with smart_open.smart_open(glove_file_name, 'r') as f:
        num_dims = len(f.readline().split()) - 1
    return num_lines, num_dims
	



In [5]:
# Input: GloVe Model File
# More models can be downloaded from http://nlp.stanford.edu/projects/glove/
glove_file="glove.txt"

num_lines, dims = get_lines(glove_file)

# Output: Gensim Model text format.
gensim_file='kor-glove.txt'
gensim_first_line = "{} {}".format(num_lines, dims)

# Prepends the line.
if platform == "linux" or platform == "linux2":
	prepend_line(glove_file, gensim_file, gensim_first_line)
else:
	prepend_slow(glove_file, gensim_file, gensim_first_line)


In [7]:
import os
import json
import re

path = "./book-json/"

In [19]:
def preprocessing(input_path):
    with open(path + input_path, encoding='utf-8') as json_file:
        json_data = json.load(json_file)
    
    # 본문
    title = json_data["title"]
    texts = json_data["texts"]

    # 문장별로 잘려서 들어가있는 본문
    splitted_text = list()

 

    split = False
    split_sentence = ""
    for i in range(len(texts)):
        page = int(texts[i]["page"])
        text = texts[i]["text"]
        if text[-2] not in ["?", ".", "!", "\n"]: # 문장이 끊겨 있으면
            split_n = True
            end = -1
        else :
            split_n = False
            end = 0
            
        text = re.sub("[^ ㄱ-ㅣ가-힣0-9a-zA-Z\.|\?|\!|\n]+", "", text)
        sents = re.split(r"[\?|\.|\!|\n]", text)
        
        if split :
            splitted_text.append(split_sentence + sents[0])
            start = 1
            split = False
        else : start = 0
        
        if split_n :
            split_sentence = sents[-1]
            
        split = split_n
        
      
        for i in range(start, len(sents) + end):
            if sents[i] == "f ":
                pass
            elif sents[i] == None:
                pass
            elif sents[i] == "\n":
                pass
            elif sents[i] == "":
                pass
            elif sents[i] == " ":
                pass
            else:
                splitted_text.append(sents[i])

    for i in range(len(splitted_text)):
        if splitted_text[i][0] == " ":
            splitted_text[i] = splitted_text[i][1:]

    print(splitted_text)

    return title, splitted_text

In [21]:
title, text = preprocessing("오헨리_마지막잎새.json")

['워싱턴 광장 서쪽 좁은 구역에는 여러 갈래의 골목길이 난잡하게 뻗 어 있으며 플레이스라 부르는 조그만 부분으로 나누어져 있었다', '그 플레이스는 모두 기묘한 모퉁이나 곡선을 형성하고 있었다', '하나의 길 이 나아가다가 그 자신과 한두 번 교차하는 경우도 있었다', '전에 어 떤 그림장이가 이 거리에서 하나의 귀중한 가능성을 발견하였다', '가령 물감이나 종이나 캔버스 대금을 받으러 온 사람이 이 길에 들어서면 아직 한푼도 받아내기 전에 자신이 왔던 길로 되돌아 나가고 있다는 사실을 알게 되리란 것이다', '그래서 얼마 후 이 이상스럽고 낡은 그리니지 마을에 잡다한 예술 가들이 찾아와서 북쪽으로 향한 창과 18세기식 박풍과 네덜란드식 지 붕 밑 다락방과 세가 헐한 방을 구하여 서성거리기 시작했다', '그들은 6번가에서 백랍으로 만든 컵이나 간편한 풍로 따위를 두세 개 사 가 지고 왔다', '그리하여 이곳에 예술인 마을이 형성되었다', '수우와 죤시는 뭉툭한 3층 벽돌 건물 꼭대기에 화실을 가지고 있었 다', '죤시란 죠안나의 애칭이다', '수우는 메인 주 출신이고 죤시는 캘리 포니아 주 출신이다', '두 사람은 8번가에 있는 델모니코 정식 식당에 서 만났으며 예술과 샐러드와 신부 두루마기 같은 소매가 달린 복장에 대해서 취미가 일치하다는 것을 알았으므로 공동의 아틀리에 가 탄생한 것이었다', '그것은 지난 5월이었다', '11월이 되자 의사가 폐렴이라고 부르는 눈 에 보이지 않는 냉혹한 외래자가 마을을 휩쓸어 그 얼음 같은 손으로 여기저기 쓰다듬고 다녔다', '사나운 파괴자는 빈민가를 대담하게 활보 하여 많은 희생자를 다발로 묶어서 쓰러뜨리더니 이 비좁고 이끼 낀 플레이스의 미로를 걸음걸이도 조용하게 침범하였다', '폐렴씨는 아무리 생각해도 기사도를 아는 노신사라고는 할 수 없었 다', '캘리포니아의 부드러운 바람 속에 자란 연약한 여성은 피투성이 의 주먹을 쳐들고 숨을 헐떡거리면서 달려오는 늙은 병마에게 맡길 대상이 아니었다', '그런데도 병마는 죤시를

In [22]:
whole_text = ""
for i in text:
    whole_text = whole_text + " " + i

In [26]:
f = open("./kor+last+leaf.txt", "w")
f.write(str(text))

7440