# 문장 벡터화 진행

In [1]:
import numpy as np

In [3]:
from sklearn.feature_extraction.text import TfidfVectorizer
sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니 다.") 
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(sent) # 문장 벡터화 진행
idf = tfidf_vectorizer.idf_
print(dict(zip(tfidf_vectorizer.get_feature_names(), idf)))
tfidf_vectorizer.get_feature_names()

{'갑작스런': 1.4054651081081644, '내일': 1.4054651081081644, '놀러왔다가': 1.4054651081081644, '망연자실': 1.4054651081081644, '반가운': 1.4054651081081644, '서쪽': 1.4054651081081644, '소식': 1.4054651081081644, '오늘': 1.4054651081081644, '으로': 1.4054651081081644, '이어졌는데요': 1.4054651081081644, '인해': 1.4054651081081644, '있습니': 1.4054651081081644, '있습니다': 1.4054651081081644, '중심': 1.4054651081081644, '폭염': 1.0, '피해서': 1.4054651081081644, '하고': 1.4054651081081644, '휴일': 1.0}


['갑작스런',
 '내일',
 '놀러왔다가',
 '망연자실',
 '반가운',
 '서쪽',
 '소식',
 '오늘',
 '으로',
 '이어졌는데요',
 '인해',
 '있습니',
 '있습니다',
 '중심',
 '폭염',
 '피해서',
 '하고',
 '휴일']

# 유사도의 예
1. 자카드 유사도
2. 코사인 유사도
3. 유클리디안 유사도
4. 맨하탄 유사도



## 자카드 유사도
자카드 유사도는 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도를 측정하는 방식 중 하나다. 
유사도를 측정하는 방법은 두 집합의 교집합인 공통된 단어의 개수를 두 집합의 합집합, 즉 전체 단어의 수로 나누면 된다.
결과값은 공통의 원소의 개수에 따라 0과 1 사이의 값이 나올 것이고, 1에 가까울수록 유사도가 높다는 의미다.

In [12]:
# 1. 자카드 유사도
from sklearn.metrics import jaccard_similarity_score

jaccard_similarity_score(np.array([1, 1, 0, 0]), np.array([1, 1, 0, 2]))

# 4개의 숫자중 3개가 같은 75%

0.75

## 코사인 유사도
- 코사인 유사도는 두 개의 벡터값에서 코사인 각도를 구하는 방법이다. 코사인 유사도 값은 -1과 1 사이의 값을 가지고 1에 가까울수록 유사하다는 것을
  의미한다.
  코사인 유사도는 유사도를 계산할 때 가장 널리 쓰이는 방법 중 하나다. 다른 유사도 접근법에 비해 일반적으로 성능이 좋은데, 이는 단순히 좌표 상의 거리를 구하는 다른 유사도 측정 방법에 비해 코사인 유사도는 말 그대로 두 벡터 간의 각도를 구하는 것이기 때문에 방향성의 개념이 더해진다.
  
  두 문장이 유사하다면 같은 방향으로 가리킬 것이고, 유사하지 않을수록 직교로 표현될 것이다.  

In [13]:
# 2. 코사인 유사도
from sklearn.metrics.pairwise import cosine_similarity

# 코사인 유사도
cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

array([[0.11304078]])

In [16]:
# 3. 유클리디안 유사도

from sklearn.metrics.pairwise import euclidean_distances

euclidean_distances(tfidf_matrix[0:1], tfidf_matrix[1:2])

# 정규화
import numpy as np
def l1_normalize(v):
    norm = np.sum(v)
    return v / norm

tfidf_norm_l1 = l1_normalize(tfidf_matrix)
euclidean_distances(tfidf_norm_l1[0], tfidf_norm_l1[1])

array([[0.21243357]])

In [59]:
# 4. 맨하탄 유사도

from sklearn.metrics.pairwise import manhattan_distances

manhattan_distances(tfidf_norm_l1[0:1], tfidf_norm_l1[1:2])

array([[0.85654185]])