4-1 원-핫 인코딩

In [1]:
from konlpy.tag import Komoran
import numpy as np

komoran = Komoran()
text = "오늘 날씨는 구름이 많아요."

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

# 단어 사전 구축 및 단어별 인덱스 부여
dics = {}
for word in nouns:
    if word not in dics.keys():
        dics[word] = len(dics)
print(dics)

# 원-핫 인코딩
nb_classes = len(dics)
targets = list(dics.values())
one_hot_targets = np.eye(nb_classes)[targets]
print(one_hot_targets)

['오늘', '날씨', '구름']
{'오늘': 0, '날씨': 1, '구름': 2}
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


4-2 Word2Vec 학습모델

In [9]:
from gensim.models import Word2Vec
from konlpy.tag import Komoran
import time


# 네이버 영화 리뷰 데이터 읽어옴
def read_review_data(filename):
    with open(filename, 'r', encoding = 'UTF8') as f:
        data = [line.split('\t') for line in f.read().splitlines()]
        data = data[1:] # header 제거
    return data


# 측정 시작
start = time.time()

# 리뷰 파일 읽어오기
print('1) 말뭉치 데이터 읽기 시작')
review_data = read_review_data('./ratings.txt')
print(len(review_data)) # 리뷰 데이터 전체 개수
print('1) 말뭉치 데이터 읽기 완료: ', time.time() - start)

# 문장단위로 명사만 추출해 학습 입력 데이터로 만듬
print('2) 형태소에서 명사만 추출 시작')
komoran = Komoran()
docs = [komoran.nouns(sentence[1]) for sentence in review_data]
print('2) 형태소에서 명사만 추출 완료: ', time.time() - start)

# word2vec 모델 학습
print('3) word2vec 모델 학습 시작')
model = Word2Vec(sentences=docs, size=200, window=4, min_count=2, sg=1)
print('3) word2vec 모델 학습 완료: ', time.time() - start)

# 모델 저장
print('4) 학습된 모델 저장 시작')
model.save('nvmc.model')
print('4) 학습된 모델 저장 완료: ', time.time() - start)

# 학습된 말뭉치 개수, 코퍼스 내 전체 단어 개수
print("corpus_count : ", model.corpus_count)
print("corpus_total_words : ", model.corpus_total_words)

SyntaxError: invalid syntax (Temp/ipykernel_7892/1216142524.py, line 31)

4-3 Word2Vec 활용

In [8]:
from gensim.models import Word2Vec

# 모델 로딩
model = Word2Vec.load('nvmc.model')
print("corpus_total_words : ", model.corpus_total_words)

# '사랑'이란 단어로 생성한 단어 임베딩 벡터
print('사랑 : ', model.wv['사랑'])

# 단어 유사도 계산
print("일요일 = 월요일\t", model.wv.similarity(w1='일요일', w2='월요일'))
print("안성기 = 배우\t", model.wv.similarity(w1='안성기', w2='배우'))
print("대기업 = 삼성\t", model.wv.similarity(w1='대기업', w2='삼성'))
print("일요일 != 삼성\t", model.wv.similarity(w1='일요일', w2='삼성'))
print("히어로 != 삼성\t", model.wv.similarity(w1='히어로', w2='삼성'))

# 가장 유사한 단어 추출
print(model.wv.most_similar("안성기", topn=5))
print(model.wv.most_similar("시리즈", topn=5))

corpus_total_words :  1076896
사랑 :  [ 0.55591935  0.20802027 -0.2404478  -0.08020083  0.33584836 -0.24869469
  0.20194878  0.10318743  0.22266906  0.7268033   0.270661   -0.6004836
  0.26637745  0.25696832  0.1396551  -0.34268272  0.15042138 -0.8355876
 -0.08944182 -0.36118886 -0.03175942  0.09133366  0.44221464  0.28532457
 -0.30608383  0.13368827 -0.47381234 -0.27895153 -0.4172484  -0.1568992
  0.3319278  -0.24301818 -0.49157646 -0.4691974  -0.16458206 -0.00778689
 -0.04531144 -0.5863499   0.02460621  0.1460653   0.17599744  0.08662443
 -0.45552844 -0.209542    0.04505873  0.18495797 -0.5578932   0.4228453
  0.07391065  0.11045886 -0.05394607 -0.21229541 -0.01312047  0.17942236
  0.07353786  0.19517013  0.31990793  0.10794846 -0.36820138  0.50659555
 -0.2064346  -0.13113195  0.35114396 -0.04026754 -0.37991446 -0.35008144
 -0.06562484  0.1794316  -0.25310126  0.5408739  -0.05522789  0.1356547
  0.07548014 -0.2945663  -0.32500526 -0.32973394  0.35406196 -0.7712693
 -0.2471614  -0.38939