In [1]:
import numpy as np 
from sklearn.feature_extraction.text import TfidfVectorizer

In [2]:
sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.",
        "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니다.")

tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(sent)

In [3]:
print(tfidf_matrix)

  (0, 11)	0.23061650387901597
  (0, 6)	0.3241234495558481
  (0, 4)	0.3241234495558481
  (0, 1)	0.3241234495558481
  (0, 9)	0.3241234495558481
  (0, 13)	0.23061650387901597
  (0, 8)	0.3241234495558481
  (0, 12)	0.3241234495558481
  (0, 5)	0.3241234495558481
  (0, 7)	0.3241234495558481
  (0, 16)	0.23061650387901597
  (1, 15)	0.36469322896147516
  (1, 3)	0.36469322896147516
  (1, 10)	0.36469322896147516
  (1, 0)	0.36469322896147516
  (1, 2)	0.36469322896147516
  (1, 14)	0.36469322896147516
  (1, 11)	0.2594822360637418
  (1, 13)	0.2594822360637418
  (1, 16)	0.2594822360637418


In [4]:
idf = tfidf_vectorizer.idf_
word_dict = dict(zip(tfidf_vectorizer.get_feature_names(), idf))
print(len(word_dict))

17


In [5]:
print(word_dict)

{'갑작스런': 1.4054651081081644, '내일': 1.4054651081081644, '놀러왔다가': 1.4054651081081644, '망연자실': 1.4054651081081644, '반가운': 1.4054651081081644, '서쪽': 1.4054651081081644, '소식': 1.4054651081081644, '오늘': 1.4054651081081644, '으로': 1.4054651081081644, '이어졌는데요': 1.4054651081081644, '인해': 1.4054651081081644, '있습니다': 1.0, '중심': 1.4054651081081644, '폭염': 1.0, '피해서': 1.4054651081081644, '하고': 1.4054651081081644, '휴일': 1.0}


## 유사도(Similarity) 종류 

1. 자카드 유사도 
2. 코사인 유사도 
3. 유클리디안 유사도 
4. 맨하탄 유사도

## 1. 자카드(Jaccard) 유사도
- 벡터화 없이 유사도 측정 가능  
- 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도 측정  
- 두 집합의 교집합인 공통된 단어의 개수를 전체 단어의 수로 나눔(0 ~ 1)  
- 결과가 1에 가까울 수록 유사도가 높다는 의미(공통 단어가 많다는 의미)  
- A, B 는 각 문장을 의미, token은 각 단어를 의미 할 경우 수식은 다음과 같음  
## J(A, B) = $\frac {|A\, \cap \, B|} {|A\, \cup \, B|}$ = $\frac {|token\,in\, A\, \cap\, token\, in\, B|} {|token\, in\, A\, \cup\, token\, in\, B|}$

In [7]:
from sklearn.metrics import jaccard_score
# jaccard_score(tfidf_matrix[0:1], tfidf_matrix[1:2])
jaccard_score(np.array([1,1,0,0]), np.array([1,1,0,2]), average = None)


array([0.5, 1. , 0. ])

## 2. 코사인 유사도  
- 두 개의 벡터값에서 코사인 각도를 구함  
- 코사인 유사도 값은 -1 과 1사이의 값을 가지고, 1에 가까울수록 유사함을 의미  
- 유사도를 계산할 때 가장 널리 쓰이는 방법  
- 다른 유사도 접근법에 비해 일반적으로 성능이 좋음  
- 단순히 좌표상의 거리를 구하는 대신 두 벡터간의 각도를 구함, 방향성의 개념이 더해짐  
- 두 문장이 유사하다면 같은 방향으로 가리킬 것이고, 그렇지 않다면 직교좌표로 표현될 것임  
## $\cos(\theta) = \frac {\vec{a}\bullet\vec{b}} {\parallel\vec{a}\parallel\bullet\parallel\vec{b}\parallel}$

In [13]:
from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])

array([[0.17952266]])

In [14]:
print(tfidf_matrix[0:1])

  (0, 11)	0.23061650387901597
  (0, 6)	0.3241234495558481
  (0, 4)	0.3241234495558481
  (0, 1)	0.3241234495558481
  (0, 9)	0.3241234495558481
  (0, 13)	0.23061650387901597
  (0, 8)	0.3241234495558481
  (0, 12)	0.3241234495558481
  (0, 5)	0.3241234495558481
  (0, 7)	0.3241234495558481
  (0, 16)	0.23061650387901597


In [15]:
print(tfidf_matrix[1:2])

  (0, 15)	0.36469322896147516
  (0, 3)	0.36469322896147516
  (0, 10)	0.36469322896147516
  (0, 0)	0.36469322896147516
  (0, 2)	0.36469322896147516
  (0, 14)	0.36469322896147516
  (0, 11)	0.2594822360637418
  (0, 13)	0.2594822360637418
  (0, 16)	0.2594822360637418


## 3. 유클리디안 유사도(L2 distance)
- 가장 기본적인 거리를 측정하는 유사도  
## d(x, y) = $\sqrt{(x_{1} - y_{1})^2 + (x_{2} - y_{2})^2 + ... + (x_{n} - y_{n})^2}$

In [19]:
from sklearn.metrics.pairwise import euclidean_distances
print(euclidean_distances(tfidf_matrix[0:1], tfidf_matrix[1:2]))

[[1.28099753]]


- 유클리디안 유사도의 값은 단순히 두 점 사이의 거리를 뜻하기 때문에 값이 상당히 커질 수 있다. 
- 0과 1사이의 값을 갖도록 정규화 한다. 
- L1 정규화를 사용하는데 (각 벡터 안의 요소 값을 모두 더한 값이 크기가 1이 되도록 조정)