**원핫-인코딩 One-Hot-Encoding**
word를 숫자로 표현하고자 할 때 적용할 수 있는 방법론
단어의 수 만큼 차원이 필요함, 의미를 담지 못하는 문제점 존재

**단어 임베딩 Word Embedding**
word의 의미를 간직하는 밀집 벡터로 표현하는 방법.
새로운 단어 추가시 차원 추가 필요 없음

In [10]:
# 원-핫 인코딩
word_ls = ['원숭이', '바나나', '사과']
#단어별 인덱스 지정
from collections import defaultdict
import numpy as np

def one_hot_encoding(word_ls):
    word2id_dic = defaultdict(lambda:len(word2id_dic))

    for w in word_ls :
        word2id_dic[w]
    #고유한 단어 수
    n_unique_words = len(word2id_dic)
    one_hot_vectors = np.zeros((len(word_ls), n_unique_words))
    #One Hot 벡터 생성
    for i, w in enumerate(word_ls) :
        index = word2id_dic[w]
        one_hot_vectors[i, index] = 1
        
    return one_hot_vectors

In [11]:
one_hot_encoding(word_ls)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [12]:
word_ls = ['원숭이', '바나나', '사과', '코끼리']
one_hot_encoding(word_ls)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [20]:
# One-Hot 인코딩 sklearn 사용
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder

def one_hot_encoding_sklearn(word_ls) :
    #문자열에 숫자를 부여함 (LabelEncoder)
    label_enc = LabelEncoder()
    int_enc = label_enc.fit_transform(word_ls)

    #원핫인코딩
    onehot_enc = OneHotEncoder(sparse=False)
    int_enc = int_enc.reshape(len(int_enc), 1)
    onehot_vectors = onehot_enc.fit_transform(int_enc)
    
    return onehot_vectors

In [22]:
one_hot_encoding_sklearn(word_ls)



array([[0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 0., 1.]])

In [23]:
# 유클리디언 거리 Euclidean Distance
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

In [24]:
import numpy as np

a = word_embedding_dic['사과']
b = word_embedding_dic['바나나']

def euclidean_dist(a,b):
    x = np.array(a)
    y = np.array(b)
    
    return np.sqrt(np.sum((x-y)**2))

In [25]:
euclidean_dist(a,b)

0.7071067811865475

In [26]:
#자카드 유사도 Jaccard Index
s1 = '대부분 원숭이는 바나나를 좋아합니다.'
s2 = '코주부 원숭이는 바나나를 싫어합니다.'

In [27]:
def jaccard_index(s1, s2) :
    token_s1 = s1.split()
    token_s2 = s2.split()

    union = set(token_s1).union(set(token_s2))
    intersection = set(token_s1).intersection(set(token_s2))
    
    return len(intersection)/len(union)

In [28]:
jaccard_index(s1,s2)

0.3333333333333333

In [29]:
# 코사인 유사도 Cosine Similarity

import numpy as np

def cosine_similarity(a,b) :
    n = np.dot(a, b)
    d = np.linalg.norm(a) * np.linalg.norm(b)
    
    return n / d

In [30]:
cosine_similarity(a,b)

0.8944271909999159