# Cosine Similarity

- 두 벡터의 크기와 상관 없이, 상호 방향성이 얼마나 유사한지에 기반
   - 두 벡터의 사잇각을 계산하여 유사도 측정
- 문서(문장)의 크기를 고려하지 않는 빈도수 기반의 단점 보완

# 1. TF-IDF Vectorization

> ## 1) 문장 3개 지정

In [None]:
doc_list = ['if you take the blue pill, the story ends',
            'if you take the red pill, you stay in Wonderland',
            'if you take the red pill, I show how deep the rabbit hole goes']

> ## 2) Coordinate(좌표) 양식

- '0'이 아닌 데이터 포인트의 좌표만 저장

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vec_simple = TfidfVectorizer()
feature_vec_simple = tfidf_vec_simple.fit_transform(doc_list)

print(feature_vec_simple)

# 첫 번째 문장(0) : if, you, take, the, blue, pill, story, ends -> 8개
# 두 번째 문장(1) : if, you, take, the, red, pill, stay, in, Wonderland -> 9개
# 세 번째 문장(2) : if, you, take, the, red, pill, I, show, how, deep, rabbit, hole, goes -> 13개

  (0, 2)	0.41556360057939173
  (0, 13)	0.41556360057939173
  (0, 8)	0.24543855687841593
  (0, 0)	0.41556360057939173
  (0, 15)	0.49087711375683185
  (0, 14)	0.24543855687841593
  (0, 17)	0.24543855687841593
  (0, 6)	0.24543855687841593
  (1, 16)	0.39624495215024286
  (1, 7)	0.39624495215024286
  (1, 12)	0.39624495215024286
  (1, 10)	0.3013544995034864
  (1, 8)	0.2340286519091622
  (1, 15)	0.2340286519091622
  (1, 14)	0.2340286519091622
  (1, 17)	0.4680573038183244
  (1, 6)	0.2340286519091622
  (2, 3)	0.3267028704877472
  (2, 4)	0.3267028704877472
  (2, 9)	0.3267028704877472
  (2, 1)	0.3267028704877472
  (2, 5)	0.3267028704877472
  (2, 11)	0.3267028704877472
  (2, 10)	0.24846595392048593
  (2, 8)	0.1929559782154924
  (2, 15)	0.3859119564309848
  (2, 14)	0.1929559782154924
  (2, 17)	0.1929559782154924
  (2, 6)	0.1929559782154924


> ## 3) (밀집)행렬 변환

In [None]:
feature_vec_dense = feature_vec_simple.todense()
print(feature_vec_dense)

[[0.4155636  0.         0.4155636  0.         0.         0.
  0.24543856 0.         0.24543856 0.         0.         0.
  0.         0.4155636  0.24543856 0.49087711 0.         0.24543856]
 [0.         0.         0.         0.         0.         0.
  0.23402865 0.39624495 0.23402865 0.         0.3013545  0.
  0.39624495 0.         0.23402865 0.23402865 0.39624495 0.4680573 ]
 [0.         0.32670287 0.         0.32670287 0.32670287 0.32670287
  0.19295598 0.         0.19295598 0.32670287 0.24846595 0.32670287
  0.         0.         0.19295598 0.38591196 0.         0.19295598]]


> ## 4) 개별 Feature Vector 추출

In [None]:
import numpy as np

vec1 = np.array(feature_vec_dense[0]).reshape(-1,) 
vec2 = np.array(feature_vec_dense[1]).reshape(-1,)
vec3 = np.array(feature_vec_dense[2]).reshape(-1,)

# 2. cos_similarity( )

- 두 벡터의 내적을 총 벡터 크기로 정규화(L2 Norm)
   - dot_product : 두 벡터의 내적
   - l2_norm : 총 벡터 크기의 합

In [None]:
import numpy as np
def cos_similarity(v1, v2):        # v1, v2의 코사인 유사도 구하기
    dot_product = np.dot(v1, v2)   # v1, v2의 내적을 구하고, 
    l2_norm = (np.sqrt(sum(np.square(v1))) * np.sqrt(sum(np.square(v2)))) # 총 벡터 크기의 합
    similarity = dot_product / l2_norm  # 유사도 공식

    return similarity

> ## 1) 'vec1', 'vec2' 코사인 유사도

In [None]:
similarity_simple = cos_similarity(vec1, vec2)

print('vec1, vec2 코사인 유사도 : {0: .5f}'.format(similarity_simple))

vec1, vec2 코사인 유사도 :  0.40208


> ## 2) 'vec1', 'vec3' 코사인 유사도

In [None]:
similarity_simple = cos_similarity(vec1, vec3)

print('vec1, vec3 코사인 유사도 : {0: .5f}'.format(similarity_simple))

vec1, vec3 코사인 유사도 :  0.37887


# 3. sklearn - cosine_similarity( )

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

cosine_similarity(feature_vec_simple[0], feature_vec_simple)
# vec1(첫 번째 문장)과 vec1, 2, 3와의 코사인 유사도 출력

array([[1.        , 0.40207758, 0.37887069]])

In [None]:
cosine_similarity(feature_vec_simple[0], feature_vec_simple[1:])
# 자기 자신과의 유사도를 제외한 유사도 -> vec2와 유사도가 더 높다.

array([[0.40207758, 0.37887069]])

In [None]:
cosine_similarity(feature_vec_simple, feature_vec_simple)
# 첫 번째, 두 번째 문장의 유사도가 그나마 높다.

array([[1.        , 0.40207758, 0.37887069],
       [0.40207758, 1.        , 0.39097693],
       [0.37887069, 0.39097693, 1.        ]])

# 4. Topic Problem

> ## 1) 문장 지정

In [None]:
sent_list = ['I eat an apple',
             'Koo have fruit',
             'I sell an apple']

> ## 2) 벡터 변환

In [None]:
tfidf_vec = TfidfVectorizer()
feature_vec = tfidf_vec.fit_transform(sent_list)

> ## 3) 문장1 vs. 문장2 : 유사도 0

In [None]:
cosine_similarity(feature_vec[0], feature_vec[1])

array([[0.]])

> ## 4) 문자1 vs. 문장3 : 유사도 0.5363

In [None]:
cosine_similarity(feature_vec[0], feature_vec[2])

array([[0.53634991]])

# 5. Word2Vec : Embedding 구현 방식 중 하나

In [None]:
# Load Pretrained Word2Vec
import tensorflow_hub as hub

embed = hub.load('https://tfhub.dev/google/Wiki-words-250/2')

In [None]:
words = ['apple', 'eat', 'fruit', 'have', 'sell']

In [None]:
embeddings = embed(words)

In [None]:
import numpy as np

for i in range(len(words)):
    for j in range(i, len(words)):
        print("(", words[i], ",", words[j],")", np.inner(embeddings[i], embeddings[j]))

( apple , apple ) 1.0
( apple , eat ) 0.48909307
( apple , fruit ) 0.78753763
( apple , have ) 0.13348329
( apple , sell ) 0.106232405
( eat , eat ) 1.0
( eat , fruit ) 0.53294003
( eat , have ) 0.3232242
( eat , sell ) 0.2691978
( fruit , fruit ) 1.0
( fruit , have ) 0.13598028
( fruit , sell ) 0.11212408
( have , have ) 1.0
( have , sell ) 0.21071003
( sell , sell ) 1.0


### 
# The End
###