In [1]:
import nltk

In [2]:
sent_1 = "오늘 중부지방을 중심으로 소나기가 예상됩니다"
sent_2 = "오늘 전국이 맑은 날씨가 예상됩니다"

In [3]:
def cal_jaccard_sim(sent1, sent2):
    # 각 문장을 토큰화 후 set 타입으로 변환 .
    words_sent1 = set(sent1.split())
    words_sent2 = set(sent2.split())

    # 공통된 단어의 개수를 intersection 변수에 저장 .
    intersection = words_sent1.intersection(words_sent2)
    
    # 두 문장 내 발생하는 모든 단어의 개수를 union 변수에 저장하세요.
    union = words_sent1.union(words_sent2)

    # intersection과 union을 사용하여 자카드 지수를 계산하고 float 타입으로 반환
    return float(len(intersection) / len(union))

# cal_jaccard_sim() 함수 실행 결과 확인 
print(cal_jaccard_sim(sent_1, sent_2))

0.25


### nltk의 jaccard_distance() 함수를 이용해 자카드 유사도를 계산 

In [4]:
sent1_set = set(sent_1.split())
sent2_set = set(sent_2.split())

nltk_jaccard_sim = 1 - nltk.jaccard_distance(sent1_set,sent2_set)

# 직접 정의한 함수와 결과가 같은지 비교합니다.
print(nltk_jaccard_sim)

0.25


---

### 코사인 유사도를 통한 문장 유사도 측정

In [5]:
from numpy import sqrt, dot
from scipy.spatial import distance
from sklearn.metrics import pairwise

### 문장 벡터 데이터

In [6]:
sent_1 = [0.3, 0.2, 0.2133, 0.3891, 0.8852, 0.586, 1.244, 0.777, 0.882]
sent_2 = [0.03, 0.223, 0.1, 0.4, 2.931, 0.122, 0.5934, 0.8472, 0.54]
sent_3 = [0.13, 0.83, 0.827, 0.92, 0.1, 0.32, 0.28, 0.34, 0]

In [7]:
def cal_cosine_sim(v1, v2):
    # 벡터 v1, v2 간 코사인 유사도를 계산 후 반환 
    # v1과 v2의 내적
    top = dot(v1, v2)
    # 각각 입력 벡터의 크기
    size1 = sqrt(dot(v1, v1)) # 자기 자신과의 내적 + 루트
    size2 = sqrt(dot(v2, v2))
    return top / (size1 * size2) # 내적 / 각 벡터 크기의 곱

# 정의한 코사인 유도 계산 함수 확인 
print(cal_cosine_sim(sent_1, sent_2))

0.713722489605211


### scipy의 distance.cosine() 함수를 이용한 코사인 유사도를 계산 

* `distance.cosine()` 은 코사인 거리를 계산하기 때문에 유사도 = 1 - 거리 관계를 사용해서 유사도로 변환

In [9]:
scipy_cosine_sim = 1 - distance.cosine(sent_1, sent_2)

# scipy를 이용해 계산한 코사인 유사도 확인 
print(scipy_cosine_sim)

0.7137224896052109


### scikit-learn의 pairwise.cosine_similarity() 함수를 이용한 코사인 유사도 계산

In [10]:
 all_sent = [sent_1] + [sent_2] + [sent_3]
scikit_learn_cosine_sim  = pairwise.cosine_similarity(all_sent)

# scikit-learn을 이용해 계산한 코사인 유사도 확인 
print(scikit_learn_cosine_sim)

[[1.         0.71372249 0.4876509 ]
 [0.71372249 1.         0.2801926 ]
 [0.4876509  0.2801926  1.        ]]
