## 텍스트 유사도(Text similarity)

수치화된 텍스트 데이터를 이용하여 어떤 단어나 문장, 문서간의 유사도를 구하는 것

### 코사인 유사도(Cosine Similarity)

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미

두 벡터의 방향이 완전히 동일한 경우에는 1

90도의 각을 이루면 0

180도로 반대의 방향을 가지면 -1

값을 가짐

코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단

문서 단어 행렬이나 TF-IDF 행렬을 각각의 특징 벡터로 하여 코사인 유사도를 구할 수 있음

두 벡터 A, B에 대해 코사인 유사도는

$ similarity = cos(\theta) = \frac{A \cdot B}{||A|| \, ||B||} = \frac{\sum_{i=1}^{n} A_i \times B_i}{\sqrt{\sum_{i=1}^{n} (A_i)^2} \times \sqrt{\sum_{i=1}^{n} (B_i)^2}} $

In [27]:
import numpy as np
from numpy import dot
from numpy.linalg import norm
from sklearn.feature_extraction.text import CountVectorizer

In [28]:
docs = [
    "I don't know",
    "what should I do",
    "I don't know. what should I do",
    "I don't know. I don't know."
]

In [29]:
def cos_similarity(A, B):
    return dot(A, B) / (norm(A) * norm(B))

In [30]:
vector = CountVectorizer()

print(vectors := vector.fit_transform(docs).toarray())
print(vector.vocabulary_)

[[0 1 1 0 0]
 [1 0 0 1 1]
 [1 1 1 1 1]
 [0 2 2 0 0]]
{'don': 1, 'know': 2, 'what': 4, 'should': 3, 'do': 0}


In [31]:
print('1과 2의 유사도 :', cos_similarity(vectors[0], vectors[1]))
print('1과 3의 유사도 :', cos_similarity(vectors[0], vectors[2]))
print('1과 4의 유사도 :', cos_similarity(vectors[0], vectors[3]))
print('2와 3의 유사도 :', cos_similarity(vectors[1], vectors[2]))
print('3와 4의 유사도 :', cos_similarity(vectors[2], vectors[3]))

1과 2의 유사도 : 0.0
1과 3의 유사도 : 0.6324555320336759
1과 4의 유사도 : 0.9999999999999998
2와 3의 유사도 : 0.7745966692414834
3와 4의 유사도 : 0.6324555320336759


문서 내의 모든 단어의 빈도수가 동일하게 증가하는 경우에는 기존의 문서와 코사인 유사도의 값이 1

문서 A와 B가 동일한 주제의 문서. 문서 C는 다른 주제의 문서라 하고,

문서 A와 문서 C의 문서의 길이는 거의 차이가 나지 않지만, 문서 B의 경우 문서 A의 길이보다 두 배의 길이를 가진다고 가정하면

유클리드 거리로 유사도를 연산하면 문서 A가 문서 B보다 문서 C와 유사도가 더 높게 계산, 유사도 연산에 문서의 길이가 영향

이 경우 코사인 유사도가 해결책이 될 수 있음

### 유클리드 거리(Euclidean distance)

유클리드 거리(euclidean distance)는 문서의 유사도를 구할 때 자카드 유사도나 코사인 유사도만큼, 유용한 방법은 아님

유클리드 거리는 좌표상 두 점 사이의 거리를 구하는 방식

여러 문서에 대해서 유사도를 구하기 위해서는 단어의 총 개수만큼의 차원으로 확장이 필요

다차원 공간에서 두개의 점 p, q가 있을때 유클리드 거리는 다음과 같다

$ d(p, q) = \sqrt{(q_1 - p_1)^2 + (q_2 - p_2)^2 + \cdots + (q_n - p_n)^2} = \sqrt{\displaystyle\sum_{i=1}^{n} (q_i - p_i)^2} $

In [32]:
docs = [
    "I don't know",
    "what should I do",
    "I don't know. what should I do",
    "I don't know. I don't know."
]

In [33]:
def distance(x, y):   
    return np.sqrt(np.sum((x-y)**2))

In [34]:
vector = CountVectorizer()

print(vectors := vector.fit_transform(docs).toarray())
print(vector.vocabulary_)

[[0 1 1 0 0]
 [1 0 0 1 1]
 [1 1 1 1 1]
 [0 2 2 0 0]]
{'don': 1, 'know': 2, 'what': 4, 'should': 3, 'do': 0}


In [35]:
print('1과 2의 거리 :', distance(vectors[0], vectors[1]))
print('1과 3의 거리 :', distance(vectors[0], vectors[2]))
print('1과 4의 거리 :', distance(vectors[0], vectors[3]))
print('2와 3의 거리 :', distance(vectors[1], vectors[2]))
print('3와 4의 거리 :', distance(vectors[2], vectors[3]))

1과 2의 거리 : 2.23606797749979
1과 3의 거리 : 1.7320508075688772
1과 4의 거리 : 1.4142135623730951
2와 3의 거리 : 1.4142135623730951
3와 4의 거리 : 2.23606797749979


유클리드 거리의 값이 가장 작다는 것은 문서 간 거리가 가장 가깝다는 것을 의미

### 자카드 유사도(Jaccard similarity)

자카드 유사도(jaccard similarity) A와 B 두개의 집합이 있을때, 합집합에서 교집합의 비율을 구하여 유사도를 판별함

자카드 유사도는 0과 1사이의 값

두 집합이 동일하다면 1, 두 집합의 공통 원소가 없다면 0

자카드 유사도를 구하는 함수를 J라 할때 자카드 유사도는 다음과 같다

$ J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{|A \cap B|}{|A| + |B| - |A \cap B|} $

In [36]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print('문서1 :',tokenized_doc1)
print('문서2 :',tokenized_doc2)

문서1 : ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 : ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [37]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print('문서1과 문서2의 합집합 :', union)

문서1과 문서2의 합집합 : {'watch', 'holder', 'you', 'like', 'banana', 'love', 'passport', 'apple', 'card', 'coupon', 'likey', 'everyone'}


In [38]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print('문서1과 문서2의 교집합 :',intersection)

문서1과 문서2의 교집합 : {'apple', 'banana'}


In [39]:
print('자카드 유사도 :',len(intersection)/len(union))

자카드 유사도 : 0.16666666666666666
