In [1]:
from bs4 import BeautifulSoup
from konlpy.tag import Twitter
from gensim.models import word2vec

## 1. Load & Parse(Preprocess) text data

In [2]:
with open('konlpy/BEXX0014.txt', encoding='utf16') as fp:
    soup = BeautifulSoup(fp, features='html.parser')
    pass

body = soup.select_one('text > body')
text = body.get_text()

text[:100]

'\n제5편 빛 속으로!\n1장 대결(對決)\n상의와 상근이가 차부에 도착했을 때 모자를 삐딱하게 쓴 천일이가 차표를 끊어놓고 기다리는 참이었다. 그는 표를 건네주면서 "짐 이리 주라."'

In [3]:
lines = text.split('\n')
print(f'>>> total no of lines : {len(lines)}\n')

twitter = Twitter()

parsed_lines = []
for idx, line in enumerate(lines):
    tmp_pos_list = twitter.pos(line, norm=True, stem=True)
    
    r_line = []
    for word in tmp_pos_list:
        if word[1] not in ['Josa', 'Punctuation', 'Eomi']:
            r_line.append(word[0])
        pass
    
    r_string = ' '.join(r_line).strip()
    parsed_lines.append( r_string )
    
    if idx%1000==0:
        print( f'>>> parsed result - line {idx+1} : {r_string}' )
    pass

parsed_lines[:3]

>>> total no of lines : 5831



  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


>>> parsed result - line 1 : 
>>> parsed result - line 1001 : 석 이 단 하다 번 상현 앞 기화 얘기 하다 적 없다 그것 물론 상현 위 하다 아니다 석 이 자기 자신 위해 말 싶다 않다 일 이다 아니다 덧 없다 자기 사랑 위 하다 말 싶다 않다 것
>>> parsed result - line 2001 : 그런데 어떻다 사람 이 것 쟁 받다 얘기 큰일 하나 끝내다 나다 설움 왈칵 솟다 하다 왜 그렇다 요
>>> parsed result - line 3001 : 형님 서울 한번 다녀가다 벌써 세 번 편지 오다
>>> parsed result - line 4001 : 쓸데없다 말 선생 질 만족하다 아니다 재취 댁 시집가다 궁리 하든
>>> parsed result - line 5001 : 그야 당연하다


['', '제 5 편 빛 속', '1 장 대결 對決']

## 2. Save the parsed data

In [4]:
# save result into a wakati file
f_name = '200204_toji.wakati'
with open(f_name, 'w', encoding='utf8') as fp:
    fp.write( '\n'.join(parsed_lines) )
    pass

## 3. Generate & save word-vector matrix using word2vec

In [5]:
data = word2vec.LineSentence(f_name)
model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1)
model.save("200204_toji.model")
print("ok")

ok


## 4. Check similar word pair using generated word-vector matrix

In [6]:
model = word2vec.Word2Vec.load("200204_toji.model")
model.most_similar(positive=["땅"])

  


[('둘', 0.8884906768798828),
 ('천도', 0.8749135136604309),
 ('높다', 0.8740280866622925),
 ('저승', 0.8483615517616272),
 ('농사', 0.847848653793335),
 ('얼다', 0.8475387096405029),
 ('보태', 0.8426076769828796),
 ('세상만사', 0.841936469078064),
 ('지지리', 0.8410280346870422),
 ('뫼셔', 0.8404742479324341)]