# 여러가지 유사도

1. 자카드 유사도(Jaccard Similarity)
2. 코사인 유사도(Cosine Similarity)
3. 유클리디언 유사도(Euclidean Similarity)
4. 맨하탄 유사도(Manhattan Similarity)

In [9]:
import numpy as np
from sklearn.metrics import accuracy_score

## 자카드 유사도(Jaccard Similarity)
자카드 지수라고도 불리움
- 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도 측정
- 유사도 측정법: A/B
    - A: 두 집합의 교집합인 공통된 단어의 개수
    - B: 집합이 가지는 단어의 개수
- 자카드 유사도는 0과 1사이의 값을 가짐

In [10]:
accuracy_score(np.array([1,3,2]), np.array([1,4,5]))

0.3333333333333333

In [3]:
accuracy_score(np.array([1,3,2]), np.array([4,1,5]))

0.0

In [4]:
accuracy_score(np.array([1,1,0,0]), np.array([1,1,0,2]))

0.75

In [5]:
accuracy_score(np.array([1,1,0,0]), np.array([1,1,0,2]))

0.75

## 코사인 유사도(Cosine Similarity)
- 두 개의 벡터값에서 코사인 각도를 구하는 방법
- -1에서 1사이의 값을 가짐


In [36]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 테스트할 문장들
sentence =('오늘도 폭염이 이어졌는데요, 내일은 반가운 비 소식이 있습니다.',
          '폭염을 피해 놀러왔다가 갑작스런 비로 망연자실하고 있습니다.') 

# tfid 벡터 객체 생성
tfidf_vector = TfidfVectorizer(max_features=100)

# 문장 벡터화 하기
tfidf_matrix = tfidf_vector.fit_transform(sentence)

In [40]:
from sklearn.metrics.pairwise import cosine_similarity # 코사인 유사도 불러오기

In [41]:
print(f"0번째 문장과 0번째 문장 비교 : {cosine_similarity(tfidf_matrix[0], tfidf_matrix[0])}")

0번째 문장과 0번째 문장 비교 : [[1.]]


In [42]:
print(f"0번째 문장과 1번째 문장 비교 : {cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])}")

0번째 문장과 1번째 문장 비교 : [[0.07780894]]


## 유클리디언 유사도(Euclidean Similarity)
- 두 벡터 간의 거리로 유사도를 판단(기준: 유클리디언 거리판단)
- **거리를 계산하는 방법으로 유사도를 판별하지는 않는다.**

In [None]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# 테스트할 문장들
sentence =('오늘도 폭염이 이어졌는데요, 내일은 반가운 비 소식이 있습니다.',
          '폭염을 피해 놀러왔다가 갑작스런 비로 망연자실하고 있습니다.') 

# tfid 벡터 객체 생성
tfidf_vector = TfidfVectorizer(max_features=100)

# 문장 벡터화 하기
tfidf_matrix = tfidf_vector.fit_transform(sentence)

In [47]:
from sklearn.metrics.pairwise import euclidean_distances # 유클리디언 유사도 불러오기

In [49]:
print(f"0번째 문장과 0번째 문장 비교 : {euclidean_distances(tfidf_matrix[0]/np.sum(tfidf_matrix[0]), tfidf_matrix[0]/np.sum(tfidf_matrix[0]))}")

0번째 문장과 0번째 문장 비교 : [[0.]]


In [50]:
print(f"0번째 문장과 1번째 문장 비교 : {euclidean_distances(tfidf_matrix[0]/np.sum(tfidf_matrix[0]), tfidf_matrix[1]/np.sum(tfidf_matrix[1]))}")

0번째 문장과 1번째 문장 비교 : [[0.51614354]]


## 맨하탄 유사도(Manhattan Similarity)
- 두 벡터 간의 거리로 유사도를 판단(기준: 맨하탄 거리판단)
- **거리를 계산하는 방법으로 유사도를 판별하지는 않는다.**

In [52]:
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

# 테스트할 문장들
sentence =('오늘도 폭염이 이어졌는데요, 내일은 반가운 비 소식이 있습니다.',
          '폭염을 피해 놀러왔다가 갑작스런 비로 망연자실하고 있습니다.') 

# tfid 벡터 객체 생성
tfidf_vector = TfidfVectorizer(max_features=100)

# 문장 벡터화 하기
tfidf_matrix = tfidf_vector.fit_transform(sentence)

In [53]:
from sklearn.metrics.pairwise import euclidean_distances # 맨하탄 유사도 불러오기

In [54]:
print(f"0번째 문장과 0번째 문장 비교 : {euclidean_distances(tfidf_matrix[0]/np.sum(tfidf_matrix[0]), tfidf_matrix[0]/np.sum(tfidf_matrix[0]))}")

0번째 문장과 0번째 문장 비교 : [[0.]]


In [55]:
print(f"0번째 문장과 1번째 문장 비교 : {euclidean_distances(tfidf_matrix[0]/np.sum(tfidf_matrix[0]), tfidf_matrix[1]/np.sum(tfidf_matrix[1]))}")

0번째 문장과 1번째 문장 비교 : [[0.51614354]]
