In [1]:
import gensim
from gensim.models.word2vec import Word2Vec
import pandas as pd
from konlpy.tag import Okt

In [2]:
# data load
train_df = pd.read_csv('./data/ratings_train.csv')
train_df.dropna(inplace=True)

자연어 처리 할 때, 단시간에 분석을 빠르게 하는 방법 (공통적인 전처리 과정)

1. 특수 기호를 제외하고, 한글만 뽑아서 분석한다.
2. 명사 사용이 많기 때문에 명사만 추출해서 분석한다. (구문 분석 등에서는 사용 불가)

In [3]:
train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


1. 특수 기호 제외, 한글만 뽑아서 분석

In [28]:
train_df['document'] = train_df['document'].str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣]', "")
train_df.head()

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [18]:
# 불용어 정의
stopwords =['의', '가', '이', '은', '는', '듣', '으로', '를', '좀']

In [19]:
# 토크나이저에 불용어 적용

okt = Okt()
tokenized_words, sentence_nouns = [], []

for sentence in train_df['document']:
    # 형태소 분석 
    tokenized_word = okt.morphs(sentence, stem=True) # 토큰화 및 정규화
    stopwords_removed_sentence = [word for word in tokenized_word if not word in stopwords]
    tokenized_words.append(stopwords_removed_sentence)

    # 명사만 추출
    nouns = okt.nouns(sentence)
    sentence_nouns.append(nouns)

## 자연어 처리 EDA

1. 텍스트 데이터 수 기준 (통계적 수치 확인)
    1. 텍스트 길이의 최대, 최소, 중앙값, 평균값 확인
        - 최대값 : 임베딩 할 때, max_len 파라미터에 대한 값을 설정 
    2. 각 품사별 데이터 수 확인
        - 대부분 명사가 많이 사용됨
        - 만약 하드웨어 등의 사양이 낮아 문제가 되는 경우, 명사만 분석하기 위해 데이터 수 확인
2. 용어(텍스트) 기준
    1. 불용어 사용 단어 확인
    2. 유의어 확인을 위한 원문 데이터 확인 

In [20]:
# 리뷰 최대 길이
word_len = [len(l) for l in tokenized_words]
nouns_len = [len(l) for l in sentence_nouns]

print(f"가장 긴 단어 길이 : {max(word_len)} || 가장 짧은 단어 길이 : {min(word_len)}")
print(f"가장 긴 명사 길이 : {max(nouns_len)} || 가장 짧은 명사 길이 : {min(nouns_len)}")

가장 긴 단어 길이 : 95 || 가장 짧은 단어 길이 : 1
가장 긴 명사 길이 : 66 || 가장 짧은 명사 길이 : 0


In [25]:
[l for l in sentence_nouns if len(l) < 1]

[[],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],


## Word2Vec 훈련

- vector_size = 워드 벡터의 특정 값, 즉 임베딩 된 벡터의 차원
- window = context 윈도우 크기 
- min_count = 단어 최소 빈도 수 제한 (빈도가 적은 단어들을 학습하지 않도록 하는 기준)
- workers = 학습을 위한 프로세스 수 (workers로 설정을 하거나 혹은 multiprocessing)
- sg = 0 (CBOW), 1(Skip-Gram)

In [29]:
model_cbow = Word2Vec(tokenized_words, vector_size=100, window=5, min_count=5, workers=4, sg=0)
model_skipgram = Word2Vec(tokenized_words, vector_size=100, window=5, min_count=5, workers=4, sg=1)

In [30]:
# 완성된 임베딩 매트릭스의 크기 확인 (단어 수, 차원 수)
print(model_cbow.wv.vectors.shape)
print(model_skipgram.wv.vectors.shape)

(15206, 100)
(15206, 100)


모델 저장 방법
1. 재훈련 없이 모델만 사용
2. 재훈련을 할 수 있도록 임베딩에 대한 기본 정보를 함께 저장 

In [32]:
# 모델 저장 방법 1 : 재훈련을 하지 않는 경우
## RAM에 로드하지 않고도 디스크나 네트워크에서 데이터를 즉시 읽어 반복할 수 있음
## 모델 inference에서 활용하면 좋음 

model_cbow.wv.save_word2vec_format('./model/kor_w2v_cbow')
model_skipgram.wv.save_word2vec_format('./model/kor_w2v_skipgram')

In [33]:
# 모델 저장 방법1의 결과를 다시 로드해서 사용

from gensim.models import KeyedVectors

# 모델 불러오기 
model_cbow_kv =  KeyedVectors.load_word2vec_format('./model/kor_w2v_cbow')
model_skipgram_kv =  KeyedVectors.load_word2vec_format('./model/kor_w2v_skipgram')

In [35]:
# 특정 단어를 중심으로 유사한 단어 확인 

print(model_cbow_kv.most_similar('김수현', topn=5))
print(model_skipgram_kv.most_similar('김수현', topn=5))

[('노민우', 0.8487598896026611), ('한석규', 0.8399940729141235), ('안성기', 0.8375824093818665), ('최민수', 0.8359008431434631), ('정재영', 0.8352476358413696)]
[('감우성', 0.7998260855674744), ('차인표', 0.7974880337715149), ('지성', 0.7948859333992004), ('이민호', 0.7921426892280579), ('노민우', 0.7846651077270508)]


In [37]:
# 모델 저장 방법2 : 재훈련 가능한 모델

model_cbow.save('./model/kor_w2v_cbow.model')
model_skipgram.save('./model/kor_w2v_skipgram.model')

In [39]:
# 모델 불러오기
## 모델에 vocab 정보 등이 함께 저장된 결과를 로드함

model_cbow_2 = Word2Vec.load('./model/kor_w2v_cbow.model')
model_skipgram_2 = Word2Vec.load('./model/kor_w2v_skipgram.model')

In [40]:
print(model_cbow_2.wv.most_similar('추천'))
print(model_skipgram_2.wv.most_similar('추천'))

[('꼭', 0.6854079365730286), ('강추', 0.6621887683868408), ('후회', 0.6569156050682068), ('수고', 0.6291000843048096), ('응원', 0.6057289242744446), ('감사', 0.5962201952934265), ('감상', 0.5606754422187805), ('만족하다', 0.5559301376342773), ('보실', 0.549250602722168), ('강력', 0.5462774038314819)]
[('강력', 0.7842479348182678), ('강추', 0.7577776312828064), ('적극', 0.7440054416656494), ('권하다', 0.7359076738357544), ('해드리다', 0.6935892701148987), ('추하다', 0.6714584827423096), ('보삼', 0.6673778295516968), ('비추다', 0.6426467895507812), ('불면증', 0.6402562856674194), ('신분', 0.6252877116203308)]


In [41]:
model_skipgram_2.wv.most_similar('영화')

[('판타지영화', 0.7647446393966675),
 ('공포영화', 0.7194449305534363),
 ('멜로영화', 0.7064599394798279),
 ('공포물', 0.7043524980545044),
 ('인도영화', 0.6993256211280823),
 ('괴수영화', 0.6928592920303345),
 ('로맨스영화', 0.691064715385437),
 ('만화영화', 0.6902179718017578),
 ('중국영화', 0.6872007250785828),
 ('청춘영화', 0.6871140003204346)]

In [42]:
model_skipgram_2.wv.most_similar('인터스텔라')

[('TOP', 0.8181915283203125),
 ('갓파더', 0.8147589564323425),
 ('데스노트', 0.8102180361747742),
 ('편임', 0.8079822659492493),
 ('트랜스포머', 0.8022803664207458),
 ('1~4', 0.802151083946228),
 ('어메이징', 0.7977705597877502),
 ('가을동화', 0.7963384985923767),
 ('천녀유혼', 0.7957544922828674),
 ('1만', 0.7947514653205872)]

In [43]:
# 사전에 없는 경우 확인

model_skipgram_2.wv.most_similar('오펜하이머')

KeyError: "Key '오펜하이머' not present in vocabulary"

기존에 학습된 모델 확인 및 사용

In [44]:
import gensim.downloader as api
from pprint import pprint as pp
pp(list(gensim.downloader.info()['models'].keys()))

['fasttext-wiki-news-subwords-300',
 'conceptnet-numberbatch-17-06-300',
 'word2vec-ruscorpora-300',
 'word2vec-google-news-300',
 'glove-wiki-gigaword-50',
 'glove-wiki-gigaword-100',
 'glove-wiki-gigaword-200',
 'glove-wiki-gigaword-300',
 'glove-twitter-25',
 'glove-twitter-50',
 'glove-twitter-100',
 'glove-twitter-200',
 '__testing_word2vec-matrix-synopsis']


In [45]:
glove_vectors_25 = api.load('glove-twitter-25')



In [46]:
glove_vectors_25.most_similar('twitter')

[('facebook', 0.948005199432373),
 ('tweet', 0.9403423070907593),
 ('fb', 0.9342358708381653),
 ('instagram', 0.9104824066162109),
 ('chat', 0.8964964747428894),
 ('hashtag', 0.8885937333106995),
 ('tweets', 0.8878158330917358),
 ('tl', 0.8778461217880249),
 ('link', 0.8778210878372192),
 ('internet', 0.8753897547721863)]

In [51]:
glove_vectors_25.most_similar(positive=['woman', 'king'], negative=['man'])

[('meets', 0.8841924071311951),
 ('prince', 0.832163393497467),
 ('queen', 0.8257461190223694),
 ('’s', 0.8174097537994385),
 ('crow', 0.813499391078949),
 ('hunter', 0.8131037950515747),
 ('father', 0.8115834593772888),
 ('soldier', 0.81113600730896),
 ('mercy', 0.8082392811775208),
 ('hero', 0.8082264065742493)]

In [48]:
glove_vectors_100 = api.load('glove-wiki-gigaword-100')



In [49]:
glove_vectors_100.most_similar('twitter')

[('facebook', 0.9159134030342102),
 ('myspace', 0.8384657502174377),
 ('youtube', 0.7946597337722778),
 ('blog', 0.7410154938697815),
 ('tweets', 0.726836085319519),
 ('tumblr', 0.7218027114868164),
 ('blogging', 0.7101113200187683),
 ('blogs', 0.6958351731300354),
 ('instagram', 0.6919254064559937),
 ('email', 0.6856087446212769)]

In [50]:
glove_vectors_100.most_similar(positive=['woman', 'king'], negative=['man'])

[('queen', 0.7698540687561035),
 ('monarch', 0.6843381524085999),
 ('throne', 0.6755736470222473),
 ('daughter', 0.6594556570053101),
 ('princess', 0.6520534157752991),
 ('prince', 0.6517034769058228),
 ('elizabeth', 0.6464517712593079),
 ('mother', 0.631171703338623),
 ('emperor', 0.6106470823287964),
 ('wife', 0.6098655462265015)]

In [55]:
glove_vectors_100.similar_by_word('kitten')

[('puppy', 0.6905401349067688),
 ('kittens', 0.6066345572471619),
 ('puppies', 0.5902493000030518),
 ('bunnies', 0.5764291286468506),
 ('cute', 0.5598417520523071),
 ('cat', 0.5580502152442932),
 ('monkey', 0.555884599685669),
 ('tomboy', 0.5545757412910461),
 ('toddler', 0.5494624972343445),
 ('dachshund', 0.5407174229621887)]

In [68]:
glove_vectors_100.n_similarity(['korea'], ['金正恩'])

0.0