In [1]:
from gensim.models import Word2Vec
from konlpy.tag import Komoran
import time
import pandas as pd

In [4]:
df = pd.read_csv("./data/nsmc/ratings.txt", sep = "\t")

In [5]:
df.head()

Unnamed: 0,id,document,label
0,8112052,어릴때보고 지금다시봐도 재밌어요ㅋㅋ,1
1,8132799,"디자인을 배우는 학생으로, 외국디자이너와 그들이 일군 전통을 통해 발전해가는 문화산...",1
2,4655635,폴리스스토리 시리즈는 1부터 뉴까지 버릴께 하나도 없음.. 최고.,1
3,9251303,와.. 연기가 진짜 개쩔구나.. 지루할거라고 생각했는데 몰입해서 봤다.. 그래 이런...,1
4,10067386,안개 자욱한 밤하늘에 떠 있는 초승달 같은 영화.,1


In [6]:
df.shape

(200000, 3)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200000 entries, 0 to 199999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        200000 non-null  int64 
 1   document  199992 non-null  object
 2   label     200000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 4.6+ MB


In [8]:
df = df.dropna()

In [15]:
df.tail()

Unnamed: 0,id,document,label
199995,8963373,포켓 몬스터 짜가 ㅡㅡ;;,0
199996,3302770,쓰.레.기,0
199997,5458175,완전 사이코영화. 마지막은 더욱더 이 영화의질을 떨어트린다.,0
199998,6908648,왜난 재미없었지 ㅠㅠ 라따뚜이 보고나서 스머프 봐서 그런가 ㅋㅋ,0
199999,8548411,포풍저그가나가신다영차영차영차,0


In [10]:
df.shape

(199992, 3)

In [11]:
komoran = Komoran()

In [13]:
%%time
# 문장 단위로 명사만 추출해 학습 입력 데이터로 만듦
docs = df["document"].map(lambda x: komoran.nouns(x))

CPU times: total: 1min 49s
Wall time: 1min 25s


In [14]:
docs

0                                                       [때]
1         [디자인, 학생, 외국, 디자이너, 전통, 발전, 문화, 산업, 사실, 우리나라, ...
2                                    [폴리스, 스토리, 시리즈, 뉴, 최고]
3                                [연기, 것, 라고, 생각, 몰입, 영, 화지]
4                                        [안개, 밤하늘, 초승달, 영화]
                                ...                        
199995                                         [포켓, 몬스터, 짜]
199996                                                   []
199997                            [완전, 사이코, 영화, 마지막, 영화, 질]
199998                                          [라따뚜이, 스머프]
199999                       [포, 풍, 저그, 가나, 신다영, 차영, 차영, 차]
Name: document, Length: 199992, dtype: object

In [16]:
# word2vec 모델 핛브
model = Word2Vec(sentences = docs, vector_size = 200, window = 4, min_count = 2, sg = 1)

- word2vec의 주요 하이퍼파라미터
    - sentences : Word2Vec 모델 학습에 필요한 문장 데이터
    - vector_size : 단어 임베딩 벡터 차원(크기)
    - window : 주변 단어 윈도우의 크기
    - min_count : 단어 최소 빈도 수 제한(설정된 min_count 빈도 수 미만의 단어들은 학습하지 않음)
    - sg : 0(CBOW 모델), 1(skip-gram 모델)

In [18]:
# 모델 저장
model.save("./model/nsmc_w2v.model")

In [20]:
# 학습된 말뭉치 개수
print("corpus_count :", model.corpus_count)
print("copus_total_words :", model.corpus_total_words)

corpus_count : 199992
copus_total_words : 1076840


# word2vec 모델 활용

In [21]:
# 모델 로딩
model = Word2Vec.load("./model/nsmc_w2v.model")
print(model.corpus_total_words)

1076840


In [22]:
# '사랑'이란 단어로 생성한 단어 임베딩 벡터
print("사랑 :", model.wv["사랑"])

사랑 : [-2.06396822e-02 -4.10756081e-01  2.90937573e-01  2.09320843e-01
 -2.31031671e-01 -1.59385279e-01  1.61425501e-01  4.07475233e-02
 -1.83055967e-01  3.29966515e-01 -1.60357192e-01 -4.91511039e-02
  3.01269516e-02 -2.71018982e-01 -1.06874093e-01  4.63746846e-01
  1.74394831e-01 -3.29918087e-01 -6.19718432e-01 -2.77300268e-01
  4.10873055e-01  1.14205241e-01 -7.31106708e-03  1.05938487e-01
 -1.71914786e-01  3.53104360e-02  6.90744370e-02 -1.87932864e-01
 -1.61498487e-01 -6.85307831e-02  2.58414209e-01  4.62061614e-01
  8.59596580e-02  2.25221306e-01 -1.04781888e-01  6.92833215e-02
 -1.89438850e-01  2.29418054e-01 -1.05424941e-01  1.82682518e-02
 -2.23919585e-01 -9.26988125e-02  5.93735799e-02 -2.11117998e-01
  4.36020434e-01  2.77927876e-01 -7.59327188e-02  1.31050274e-01
  3.24644089e-01  1.33795246e-01  1.19342558e-01 -1.38482913e-01
 -4.87910733e-02  3.17577720e-01 -2.41113424e-01 -1.72931820e-01
 -1.09069057e-01 -4.35462296e-02 -3.68171573e-01 -6.40005898e-03
  4.28579561e-02 -8.

- 모델을 학습할 때 설정한 vector_size 하이퍼파라미터 만큼 단어 임베딩 벡터 차원 크기가 결정됨

- model.wv.similarity() 함수 : 두 단어간의 유사도를 계산

In [24]:
# 단어 유사도 계산
print("일요일 = 월요일", model.wv.similarity(w1 = "일요일", w2 = "월요일"), sep = "\t")

일요일 = 월요일	0.9199569


In [25]:
print("삼성 = 대기업", model.wv.similarity(w1 = "삼성", w2 = "대기업"), sep = "\t")
print("일요일 = 삼성", model.wv.similarity(w1 = "일요일", w2 = "삼성"), sep = "\t")

삼성 = 대기업	0.8726748
일요일 = 삼성	0.61945915


In [26]:
print("점심 = 햄버거", model.wv.similarity(w1 = "점심", w2 = "햄버거"), sep = "\t")

점심 = 햄버거	0.94539374


- model.wv.most_similar() 함수 : 인자로 사용한 단어와 가장 유사한 단어를 리스트로 반환
    - 벡터 공간에서 가장 가까운 거리에 있는 단어들을 반환
    - topn : 반환되는 유사한 단어 수
- 유사도가 1에 가까울수록 두 단어는 동일한 의미이거나 문법적으로 관련이 있을 가능성이 높음

In [32]:
model.wv.most_similar("점심", topn = 10)

[('운동장', 0.9860125184059143),
 ('촌지', 0.9829505681991577),
 ('지구과학', 0.9821503162384033),
 ('한여름', 0.981358528137207),
 ('전학', 0.9812785387039185),
 ('라디오헤드', 0.9799153208732605),
 ('재스민', 0.979101836681366),
 ('순천', 0.9787649512290955),
 ('고속버스', 0.9780944585800171),
 ('학교4', 0.9780634045600891)]

In [29]:
import gensim

In [35]:
sentences = gensim.models.word2vec.Text8Corpus("./data/text8.txt")

In [36]:
model = Word2Vec(sentences, vector_size = 200)

In [37]:
model.wv.most_similar(positive = ["woman", "king"], negative = ["man"])

[('queen', 0.6426768898963928),
 ('throne', 0.5607941746711731),
 ('empress', 0.5519142746925354),
 ('princess', 0.5470919609069824),
 ('elizabeth', 0.5456562638282776),
 ('daughter', 0.5408150553703308),
 ('prince', 0.5221851468086243),
 ('son', 0.5168088674545288),
 ('isabella', 0.5090274810791016),
 ('emperor', 0.5084015130996704)]