# 영화 리뷰 워드 임베딩 (Word2Vec, FastText)
- gensim 라이브러리 사용 : pip install gensim
    - Word2Vec : models.Word2Vec
    - FastText : models.FastText

## 1. 데이터 준비
* 토큰화가 잘 되어 있는 filtered 데이터 사용

In [7]:
data_filename = '../data/Korean_movie_reviews_2016_filtered.csv'
import pandas as pd
review_df = pd.read_csv(data_filename)
review_df.head()

Unnamed: 0,review,rate
0,아니 딴 그렇 비 비탄 총 대체 왜 들 온겨,7
1,진심 쓰레기 영화 만들 무서 알 쫄아 틀었 이건 뭐 웃 거리 없는 쓰레기 영화 임,1
2,역대 좀비 영화 가장 최고다 원작 만화 읽어 보려 영화 보고 결정 하려 감독 간츠 ...,10
3,온종일 불편한 피 범벅 일,6
4,답답함 극치 움직일 잇으 좀 움직여 어지간히 좀비 봣으 얼 타고 때려 잡 때 되 않냐,1


In [8]:
review_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 788189 entries, 0 to 788188
Data columns (total 2 columns):
 #   Column  Non-Null Count   Dtype 
---  ------  --------------   ----- 
 0   review  785448 non-null  object
 1   rate    788189 non-null  int64 
dtypes: int64(1), object(1)
memory usage: 12.0+ MB


In [9]:
# review만 모아서 review별 토큰 리스트로 변환 : review가 Object 타입이므로 str로 변환 후 split
review_list=list(map(str, review_df.review))
corpus = [review.split() for review in review_list]
corpus[:5]

[['아니', '딴', '그렇', '비', '비탄', '총', '대체', '왜', '들', '온겨'],
 ['진심',
  '쓰레기',
  '영화',
  '만들',
  '무서',
  '알',
  '쫄아',
  '틀었',
  '이건',
  '뭐',
  '웃',
  '거리',
  '없는',
  '쓰레기',
  '영화',
  '임'],
 ['역대',
  '좀비',
  '영화',
  '가장',
  '최고다',
  '원작',
  '만화',
  '읽어',
  '보려',
  '영화',
  '보고',
  '결정',
  '하려',
  '감독',
  '간츠',
  '실사',
  '했',
  '사람',
  '거르려',
  '그냥',
  '봤',
  '정말',
  '흠잡',
  '없는',
  '최고',
  '좀비',
  '영화',
  '잔인',
  '거',
  '싫어하지',
  '참고',
  '볼',
  '만하',
  '로미',
  '인물',
  '왜',
  '그런',
  '모르'],
 ['온종일', '불편한', '피', '범벅', '일'],
 ['답답함',
  '극치',
  '움직일',
  '잇으',
  '좀',
  '움직여',
  '어지간히',
  '좀비',
  '봣으',
  '얼',
  '타고',
  '때려',
  '잡',
  '때',
  '되',
  '않냐']]

## 1. Word2Vec 활용 영화 리뷰 워드 임베딩
* https://radimrehurek.com/gensim/models/word2vec.html

### Skipgram, negative=10 인 경우

In [None]:
# Word2Vec 모델 생성 및 학습 : window=3, min_count=3
from gensim.models import Word2Vec
model_sg_n10 = Word2Vec(corpus, window=3, min_count=3, vector_size=100, sg=1, negative=10)

In [None]:
# 단어의 임베딩 벡터 확인
model_sg_n10.wv['이정재']

In [None]:
# 단어의 임베딩 벡터 차원 확인
len(model_sg_n10.wv['이정재'])

In [None]:
# 두 단어 간 유사도 확인
model_sg_n10.wv.similarity('이정재', '정우성')

In [None]:
# 특정 단어와 유사한 단어 추출
model_sg_n10.wv.most_similar('이정재', topn=20)

In [None]:
# 특정 단어와 유사한 단어 추출
model_sg_n10.wv.most_similar('재밌', topn=20)

### Skipgram, negative=5 인 경우

In [None]:
# 모델 생성
model_sg_n5 = Word2Vec(corpus, window=3, min_count=3, vector_size=100, sg=1, negative=5)

In [None]:
# 특어 단어와 유사한 단어 추출 : 이정재
model_sg_n5.wv['이정재']

In [None]:
# 특어 단어와 유사한 단어 추출 : 재밌
model_sg_n5.wv.most_similar('재밌', topn=20)

### CBOW, negative=10 인 경우

In [None]:
model_cbow_n10 = Word2Vec(corpus, window=3, min_count=3, vector_size=100, sg=0, negative=10)

In [None]:
model_cbow_n10.wv['이정재']

In [None]:
model_cbow_n10.wv.most_similar('재밌', topn=20)

### CBOW, negative=5 인 경우

In [None]:
model_cbow_n5 = Word2Vec(corpus, window=3, min_count=3, vector_size=100, sg=0, negative=5)

In [None]:
model_cbow_n5.wv['이정재']

In [None]:
model_cbow_n5.wv.most_similar('재밌', topn=20)

### OOV(Out of Vocabulary) 문제

In [None]:
# corpus에 없는 단어 확인 : 우주평화 
'우주평화' in model_sg_n10.wv.key_to_index

In [None]:
# corpus에 없는 단어의 임베딩 벡터 확인 
model_sg_n10.wv['우주평']

## 2. FastText 활용 영화 리뷰 워드 임베딩
* https://radimrehurek.com/gensim/models/fasttext.html

In [None]:
# FastText 모델 생성 및 학습
# window=3, min_count=3, min_n=2, max_n=2
from gensim.models import FastText

ft_model = FastText(corpus, window=3, min_count=3, min_n=2, max_n=2, vector_size=100, negative=10, sg=1)

In [None]:
# 특정 단어와 유사한 단어 추출 : 이정재
ft_model.wv['이정재']

In [None]:
# corpus에 없는 단어 확인 : 우주평화 
'우주평화' in ft_model.wv.key_to_index

In [None]:
# corpus에 없는 단어의 임베딩 벡터 확인 
ft_model.wv['우주평화']

In [None]:
# corpus에 없는 단어와 유사한 단어추출 
ft_model.wv.most_similar('우주평화')