## 자카드 유사도(Jaccard Similarity)

- A, B 두 개의 집합이 있을 때, 교집합은 공통으로 가지고 있는 것
- 즉, 합집합에서 교집합의 비율 = A,B 의 유사도
    - 동일하다면 1, 공통 원소가 없으면 0

$$J(A,B)=\frac{|A∩B|}{|A∪B|}=\frac{|A∩B|}{|A|+|B|-|A∩B|}$$

두 개의 비교할 문서를 각 doc1, doc2 라고 할때 자카드 유사도는
$$J(doc_{1},doc_{2})=\frac{doc_{1}∩doc_{2}}{doc_{1}∪doc_{2}}$$


In [1]:
doc1 = "apple banana everyone like likey watch card holder"
doc2 = "apple banana coupon passport love you"

# 토큰화
tokenized_doc1 = doc1.split()
tokenized_doc2 = doc2.split()

print('문서1 :',tokenized_doc1)
print('문서2 :',tokenized_doc2)

문서1 : ['apple', 'banana', 'everyone', 'like', 'likey', 'watch', 'card', 'holder']
문서2 : ['apple', 'banana', 'coupon', 'passport', 'love', 'you']


In [2]:
# 합집합 ( 공통적인 단어는 제거하기 위해 set 사용)
union = set(tokenized_doc1).union(set(tokenized_doc2))
print('문서1과 문서2의 합집합 :',union)

문서1과 문서2의 합집합 : {'everyone', 'love', 'holder', 'card', 'you', 'banana', 'like', 'passport', 'watch', 'coupon', 'apple', 'likey'}


In [3]:
# 교집합
intersection = set(tokenized_doc1).intersection(set(tokenized_doc2))
print('문서1과 문서2의 교집합 :',intersection)

문서1과 문서2의 교집합 : {'banana', 'apple'}


In [5]:
# 교집합의 크기를 합집합의 크기로 나눠준다
print('자카드 유사도 :',len(intersection)/len(union))

자카드 유사도 : 0.16666666666666666
