### word2vec기반 연관어 분석
- 단순히 출현횟수만을 고려하는 것이 아닌 단어 위치, 순서도 고려하는 방법
    1. CBOW: 주변 단어로 중심 단어를 예측하는 방법
    2. Skip-gram: 중심 단어로 주변 단어를 예측하는 방법(최근 더 많이 사용)

In [9]:
#긍정리뷰
import glob
pos_review = (glob.glob('c:/data/imdb/train/pos/*.txt'))
lines_pos = []
for i in pos_review:
    try:
        f = open(i, 'r')
        temp = f.readlines()[0]
        lines_pos.append(temp)
        f.close()
    except:
        continue
len(lines_pos)

12490

In [10]:
#전처리
from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
tokenizer = RegexpTokenizer('[\w]+') # 알파벳, 숫자, -
stop_words = stopwords.words('english')
text = []
for line in lines_pos:
    words = line.lower()
    tokens = tokenizer.tokenize(words)
    # 불용어('br'추가) 제거
    stopped_tokens = [i for i in list(set(tokens)) if i not in stop_words + ['br']]
    # 글자수가 1인 단어 제외
    stopped_tokens2 = [i for i in stopped_tokens if len(i) > 1]
    text.append(stopped_tokens2)

In [11]:
#word2vec모형 생성
from gensim.models.word2vec import Word2Vec
# sg=1: skip-gram 적용
# window=2: 중심단어로부터 좌우 2개의 단어까지 학습
# min_count=3: 최소 3회 이상 출현한 단어들을 대상으로 학습
model = Word2Vec(text, vector_size=100, sg=1, window=2, min_count=3)

In [12]:
#두 단어의 유사도 계산
model.wv.similarity('film', 'movie')

0.3493027

In [13]:
#good과 가장 유사한 단어 5개
model.wv.most_similar('good', topn=5)

[('course', 0.8597866892814636),
 ('moment', 0.8458071947097778),
 ('unique', 0.8370854258537292),
 ('getting', 0.8344937562942505),
 ('language', 0.8338459730148315)]

In [14]:
#모델에 저장된 단어의 개수
len(model.wv.index_to_key)

26355

In [15]:
#모델에 저장된 단어 텍스트
model.wv.index_to_key

['one',
 'film',
 'movie',
 'like',
 'good',
 'time',
 'well',
 'great',
 'see',
 'story',
 'also',
 'would',
 'really',
 'even',
 'much',
 'first',
 'get',
 'best',
 'way',
 'people',
 'made',
 'love',
 'many',
 'life',
 'seen',
 'watch',
 'think',
 'two',
 'make',
 'still',
 'never',
 'characters',
 'films',
 'movies',
 'could',
 'little',
 'character',
 'man',
 'know',
 'ever',
 'end',
 'years',
 'acting',
 'back',
 'go',
 'makes',
 'real',
 'say',
 'better',
 'though',
 'plot',
 'scene',
 'work',
 'scenes',
 'find',
 'new',
 'cast',
 'world',
 'old',
 'show',
 'something',
 'another',
 'always',
 '10',
 'lot',
 'quite',
 'young',
 'director',
 'actors',
 'watching',
 'every',
 'part',
 'look',
 'times',
 'may',
 'us',
 'things',
 'funny',
 'bad',
 'performance',
 'role',
 'going',
 'must',
 'however',
 'take',
 'actually',
 'saw',
 'bit',
 'without',
 'long',
 'excellent',
 'thing',
 'big',
 'right',
 'fact',
 'around',
 'especially',
 'come',
 'give',
 'thought',
 'got',
 'family'

In [16]:
#단어에 해당하는 벡터값
model.wv.vectors[0]

array([-8.09380412e-01,  3.99832159e-01,  8.46634388e-01,  6.12508692e-02,
       -8.82748723e-01, -2.96960652e-01,  1.02314377e+00,  1.91467345e-01,
       -4.86356795e-01, -5.04792249e-03,  1.74993858e-01, -2.99924821e-01,
        1.60585120e-01, -1.01314969e-01,  3.81359935e-01, -3.08519155e-01,
       -2.07324654e-01, -5.26919425e-01, -4.55963403e-01, -7.09635675e-01,
        3.13847542e-01,  9.99324501e-01,  3.65712136e-01, -1.14540190e-01,
        2.23823547e-01, -2.18353823e-01,  9.39392298e-02, -3.14762563e-01,
       -5.37570715e-01, -3.88826758e-01, -6.95863485e-01, -4.44568358e-02,
        2.29748115e-01, -8.50549638e-01, -1.07110608e+00,  3.94998819e-01,
        5.80289304e-01, -7.89921224e-01,  2.47520372e-01, -6.00702345e-01,
       -4.47840005e-01,  1.34651625e+00, -6.34443223e-01, -4.47588056e-01,
        7.36200571e-01, -2.98571110e-01, -7.77476072e-01,  4.41440523e-01,
        3.43774348e-01,  3.55526000e-01, -3.02182049e-01, -2.28794679e-01,
       -6.50576830e-01, -