# Word2Vec으로 문장을 벡터로 변환하기

* Word2Vec 문장 내부의 단어를 Vector로 변환하는 도구
    * 단어 임베딩(Word Embedding: 텍스트를 구성하는 하나의 단어를 수치화하는 방법
    * 단어와 단어의 유사도를 확인
* Gensim 설치
    * 자연어 처리를 위한 라이브러리

In [3]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Twitter
from gensim.models import word2vec

In [4]:
# utf-16 인코딩/파일 열기
fp = codecs.open("BEXX0003_short.txt", "r", encoding="utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
text = body.getText()

In [5]:
twitter = Twitter()
results = []
lines = text.split("\n")
for line in lines:
    # 형태소 분석
    malist = twitter.pos(line, norm=True, stem=True) # 동사/형용사는 기본형으로 변환
    r = []
    for word in malist:
        # 조사, 어미, 구두점은 제외
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])
    rl = (" ".join(r)).strip()
    results.append(rl)
    print(rl)


제 1 편 어둠 발 소리
서다 序
1897 년 한가위
까치 들 울타리 안 감나무 와 아침 인사 하다 전 무색 옷 댕기 꼬리 늘 아이 들 송편 입 물 마을 길 쏘다 기쁘다 날뛰다 어른 들 해 중천 좀 기울다 무렵 이 래야 차례 치르다 하다 성묘 하다 하다 이웃 끼리 음식 나누다 보다 한나절 넘다 이 때 타작 마당 사람 들 모이다 시작 하다 들다 뜨다 시작 하다 남정 노인 들 아낙 들 채비 아무래도 더 디어 데 그렇다 수 없다 것 식구 들 시중 음식 간수 끝내다 제 자신 치장 남아 있다 이 바람 고개 무겁다 벼 이삭 황금 빛 물결 이루다 들판 마음 놓다 새떼 들 모여들다 풍 성 향연 벌이다
후우 이이 이 놈 새떼 들 극성 새 쫓다 할망구 와삭 와삭 풀발 선 출입 옷 갈아입다 타작 마당 굿 보고 있다 것 추석 마을 남녀 노유 사람 들 뿐 아니다 강아지 돼지 소나 말 새 들 시궁창 드나드 쥐 새끼 포식 날인 보다
빠르다 장단 꽹과리 소리 느리다 장단 두다 중 여음 울리다 징 소리 타작 마당 거리 멀다 최 참판 댁 사랑 흐느낌 슬프다 들려오다 농부 들 지금 꽃 달리다 고깔 흔들다 신명 내다 괴롭다 하다 일상 日常 잊다 굿 놀이 열중 하다 있다 것 최 참판 댁 섭섭찮 전곡 錢穀 이 나가다 풍년 미치다 못 하다 실 평작 임 틀림 없다 것 모처럼 허리 끈 풀다 쌀밥 식구 들 배 두드리다 테 하루 근심 잊다 만 하다 것
이 날 수수 개비 꺾다 아이 들 매 맞다 않다 여러 달 솟다 증 素症 풀다 느 긋다 하다 늙은이 들 뒷간 출입 잦다 힘 좋다 젊은이 들 벌써 읍내 가다 없다 황소 하다 마리 끌 돌아오다 꿈 꾸미다 읍내 씨름판 몰다 간 것
최 참판 댁 사랑 무인 지경 적막 하다 햇빛 맑다 뜰 비치다 사람 들 모두 어디 가다 버리다 새롭다 바르다 방문 장지 낯설다
한동안 타작 마당 굿 놀이 멎다 것 같다 별안간 경 풍 들리다 것 꽹과리 악 쓸다 빠르다 드높 꽹과리 따르다 징 소리 빨르다 깨깽 깨애깽 덥다 응응 음 깨깽 깨애깽 덥다 응응 음 장구 북 사이사이 끼 들려오다 신다 타

In [6]:
# File
wakati_file = 'toji.wakati'
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))

In [7]:
# Word2Vec 모델 만들기
data = word2vec.LineSentence(wakati_file) # 텍스트 읽기
model = word2vec.Word2Vec(data, size=200, window=10, hs=1, min_count=2, sg=1)
model.save("toji.model")
print("ok")

ok


In [8]:
model2 = word2vec.Word2Vec.load("toji.model")
# most_similar() 유사한 단어 확인 method
model2.most_similar(positive=["땅"])

  This is separate from the ipykernel package so we can avoid doing imports until


[('번', 0.9992644786834717),
 ('켜다', 0.99924236536026),
 ('붉다', 0.9992011189460754),
 ('아이', 0.9991986751556396),
 ('가지', 0.9991936683654785),
 ('않다', 0.9991858005523682),
 ('아직', 0.9991702437400818),
 ('들려오다', 0.9991583824157715),
 ('질', 0.9991562962532043),
 ('소리', 0.9991493225097656)]

In [9]:
model2.most_similar(positive=["집"])

  """Entry point for launching an IPython kernel.


[('펴다', 0.9993793964385986),
 ('가다', 0.9993119239807129),
 ('손', 0.999287486076355),
 ('좀', 0.9992727041244507),
 ('책', 0.9992713928222656),
 ('그러나', 0.999232292175293),
 ('넘기다', 0.9991901516914368),
 ('들', 0.9991891384124756),
 ('이다', 0.9991840720176697),
 ('치다', 0.9991788864135742)]