Word Embedding
==========

One-Hot Encoding
-------

In [40]:
import tensorflow as tf
from tensorflow.python.keras.preprocessing.text import Tokenizer


sentence1 = ['나','는','오늘','저녁','에','치킨','을','먹','을','예정','입니다']
sentence2 = ['나','는','어제', '맥주','와', '함께', '치킨','을', '먹었', '습니다']


def main():
    tokenizer=Tokenizer()

    tokenizer.fit_on_texts(sentence1 + sentence2)
    word_dict = tokenizer.word_index
    print('word_dict :', word_dict)

    sen1 = tokenizer.texts_to_sequences(sentence1)
    sen2 = tokenizer.texts_to_sequences(sentence2)
    print('\nToken to sequences\n', sen1, '\n', sen2)

    sen1 = [ token[0] for token in sen1]
    sen2 = [ token[0] for token in sen2]
    print('\nToken as list\n', sen1, '\n', sen2, '\n')
    
    oh_sen1 = sum(tf.one_hot(sen1, len(word_dict)))
    oh_sen2 = sum(tf.one_hot(sen2, len(word_dict)))

    print("원-핫 인코딩된 문장1:", oh_sen1.numpy())
    print("원-핫 인코딩된 문장2:", oh_sen2.numpy())

    
    cos_simil = (sum(list(oh_sen1 * oh_sen2)) / (tf.norm(oh_sen1) * tf.norm(oh_sen2))).numpy()
    print("두 문장의 코사인 유사도:", cos_simil)

    
    len_word=5000

    oh_sen1 = sum(tf.one_hot(sen1, len_word))
    oh_sen2 = sum(tf.one_hot(sen2, len_word))
    cos_simil = (sum(list(oh_sen1 * oh_sen2)) / (tf.norm(oh_sen1) * tf.norm(oh_sen2))).numpy()

    print("원-핫 인코딩의 길이가 5,000일 때의 코사인 유사도:", cos_simil)

if __name__ == '__main__':
    main()

word_dict : {'을': 1, '나': 2, '는': 3, '치킨': 4, '오늘': 5, '저녁': 6, '에': 7, '먹': 8, '예정': 9, '입니다': 10, '어제': 11, '맥주': 12, '와': 13, '함께': 14, '먹었': 15, '습니다': 16}

Token to sequences
 [[2], [3], [5], [6], [7], [4], [1], [8], [1], [9], [10]] 
 [[2], [3], [11], [12], [13], [14], [4], [1], [15], [16]]

Token as list
 [2, 3, 5, 6, 7, 4, 1, 8, 1, 9, 10] 
 [2, 3, 11, 12, 13, 14, 4, 1, 15, 16] 

원-핫 인코딩된 문장1: [0. 2. 1. 1. 1. 1. 1. 1. 1. 1. 1. 0. 0. 0. 0. 0.]
원-핫 인코딩된 문장2: [0. 1. 1. 1. 1. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 1.]
두 문장의 코사인 유사도: 0.46225014
원-핫 인코딩의 길이가 5,000일 때의 코사인 유사도: 0.438529
