# 리뷰완료

이 자료는 위키독스 딥 러닝을 이용한 자연어 처리 입문의 여러가지 유사도 기법 튜토리얼 자료입니다.

링크 : https://wikidocs.net/24654

# 1. 유클리드 거리

In [1]:
import numpy as np

In [2]:
def dist(x,y):   
    return np.sqrt(np.sum((x-y)**2))

doc1 = np.array((2,3,0,1))
doc2 = np.array((1,2,3,1))
doc3 = np.array((2,1,2,2))
docQ = np.array((1,1,0,1))

print('문서1과 문서Q의 거리 :',dist(doc1,docQ))
print('문서2과 문서Q의 거리 :',dist(doc2,docQ))
print('문서3과 문서Q의 거리 :',dist(doc3,docQ))

문서1과 문서Q의 거리 : 2.23606797749979
문서2과 문서Q의 거리 : 3.1622776601683795
문서3과 문서Q의 거리 : 2.449489742783178


# 2. 자카드 유사도

# 자카드 유사도 (Jaccard Similarity)

자카드 유사도(Jaccard Similarity)는 두 집합 간의 유사도를 측정하는 방법 중 하나입니다. 이는 두 집합의 교집합 크기를 합집합 크기로 나누어 계산합니다. 수식으로 표현하면 다음과 같습니다.

$$
J(A, B) = \frac{|A \cap B|}{|A \cup B|}
$$

여기서,
- \( A \)와 \( B \)는 비교하고자 하는 두 집합입니다.
- \( |A \cap B| \)는 두 집합의 교집합의 크기입니다.
- \( |A \cup B| \)는 두 집합의 합집합의 크기입니다.

## 예제

두 집합 \( A \)와 \( B \)가 다음과 같다고 가정해봅시다:
- \( A = \{1, 2, 3\} \)
- \( B = \{2, 3, 4, 5\} \)

이 경우, 교집합과 합집합은 다음과 같이 계산됩니다:
- \( A \cap B = \{2, 3\} \)
- \( A \cup B = \{1, 2, 3, 4, 5\} \)

따라서 자카드 유사도는 다음과 같습니다:
$$
J(A, B) = \frac{|A \cap B|}{|A \cup B|} = \frac{2}{5} = 0.4
$$

자카드 유사도는 0에서 1 사이의 값을 가지며, 1은 두 집합이 동일함을 의미하고 0은 두 집합이 공통 요소가 없음을 의미합니다.


In [3]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print('문서1 :',tokenized_doc1)
print('문서2 :',tokenized_doc2)

문서1 : ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 : ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [4]:
union = set(tokenized_doc1).union(set(tokenized_doc2))
print('문서1과 문서2의 합집합 :',union)

문서1과 문서2의 합집합 : {'watch', 'apple', 'banana', 'holder', 'coupon', 'you', 'love', 'passport', 'likey', 'like', 'everyone', 'card'}


In [5]:
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print('문서1과 문서2의 교집합 :',intersection)

문서1과 문서2의 교집합 : {'apple', 'banana'}


In [6]:
print('자카드 유사도 :',len(intersection)/len(union))

자카드 유사도 : 0.16666666666666666
