## word2vec으로 단어 유사도 측정

word2vec은 단어 간 문맥을 사용하여, 주어진 문맥에서 어떤 단어가 발생하는지 예측하는 문제로 단어 벡터를 학습한다.
```txt
# emotion.txt
i didnt feel humiliated;sadness
im grabbing a minute to post i feel greedy wrong;anger
i am ever feeling nostalgic about the fireplace i will know that it is still on the property;love
```

In [3]:
import pandas as pd
from gensim.models import Word2Vec

In [4]:
def load_data(filepath):
    data = pd.read_csv(filepath, delimiter=';', header=None, names=['sentence','emotion'])
    data = data['sentence']

    gensim_input = []
    for text in data:
        gensim_input.append(text.rstrip().split())
    return gensim_input

input_data = load_data("emotions_train.txt")

In [5]:
input_data

[['i', 'didnt', 'feel', 'humiliated'],
 ['i',
  'can',
  'go',
  'from',
  'feeling',
  'so',
  'hopeless',
  'to',
  'so',
  'damned',
  'hopeful',
  'just',
  'from',
  'being',
  'around',
  'someone',
  'who',
  'cares',
  'and',
  'is',
  'awake'],
 ['im',
  'grabbing',
  'a',
  'minute',
  'to',
  'post',
  'i',
  'feel',
  'greedy',
  'wrong'],
 ['i',
  'am',
  'ever',
  'feeling',
  'nostalgic',
  'about',
  'the',
  'fireplace',
  'i',
  'will',
  'know',
  'that',
  'it',
  'is',
  'still',
  'on',
  'the',
  'property'],
 ['i', 'am', 'feeling', 'grouchy'],
 ['ive',
  'been',
  'feeling',
  'a',
  'little',
  'burdened',
  'lately',
  'wasnt',
  'sure',
  'why',
  'that',
  'was'],
 ['ive',
  'been',
  'taking',
  'or',
  'milligrams',
  'or',
  'times',
  'recommended',
  'amount',
  'and',
  'ive',
  'fallen',
  'asleep',
  'a',
  'lot',
  'faster',
  'but',
  'i',
  'also',
  'feel',
  'like',
  'so',
  'funny'],
 ['i',
  'feel',
  'as',
  'confused',
  'about',
  'life',


In [9]:
# window: 앞뒤 몇개의 단어 기준으로 문맥을 결정할지
# vector_size: 임베딩 벡터의 차원수, 뉴럴 네트워크의 히든 노드의 개수
w2v_model = Word2Vec(window=2, vector_size=300)
w2v_model.build_vocab(input_data)
w2v_model.train(input_data, total_examples=w2v_model.corpus_count, epochs=10)

# happy와 유사한 단어 확인
similar_happy = w2v_model.wv.most_similar('happy')
print(similar_happy)

# sad와 유사한 단어 확인
similar_sad = w2v_model.wv.most_similar('sad')
print(similar_sad)

# good, bad의 임베딩 벡터 간 유사도 확인
similar_good_bad = w2v_model.wv.similarity('good', 'bad')
print(similar_good_bad)

# sad, lonely의 임베딩 벡터 간 유사도 확인
similar_sad_lonely = w2v_model.wv.similarity('sad', 'lonely')
print(similar_sad_lonely)

# happy의 임베딩 벡터
wv_happy = w2v_model.wv['happy']
print(wv_happy)

[('excited', 0.8954598903656006), ('determined', 0.8756589293479919), ('stubborn', 0.8482080698013306), ('safe', 0.8400460481643677), ('thrilled', 0.8386650681495667), ('honest', 0.8368726968765259), ('thankful', 0.8349089622497559), ('grateful', 0.8289854526519775), ('glad', 0.8256147503852844), ('afraid', 0.822314977645874)]
[('unhappy', 0.9549233317375183), ('paranoid', 0.94061279296875), ('lonely', 0.9380125999450684), ('scared', 0.937122642993927), ('disappointed', 0.9219110012054443), ('hopeless', 0.9177390933036804), ('depressed', 0.9165918231010437), ('bitchy', 0.9131345748901367), ('worthless', 0.9108001589775085), ('confused', 0.9107634425163269)]
0.78832674
0.9380126
[-1.52775973e-01  1.03967704e-01 -7.12329969e-02  1.84652843e-02
 -1.66715831e-01 -3.65079753e-02 -2.26561129e-02  2.47383878e-01
 -8.77576545e-02 -1.33040324e-01  7.45907873e-02 -1.45664200e-01
  2.95672510e-02 -2.74600863e-01  1.20027922e-01 -6.86586276e-02
  4.05295789e-01 -1.29192427e-01  1.95260625e-02 -7.9