# 3.3 텍스트 유사도

: 텍스트가 얼마나 유사한지 표현하는 방식

ex) 단어의 개수를 사용하여 유사도를 판별, 형태소로 나누어 형태소를 비교하는 방법, 자소 단위로 나누어 단어를 비교하는 방법 등


### 딥러닝 기반 텍스트 유사도 측정

1. 단어, 형태소, 유사도의 종류에 상관없이 텍스트를 벡터화
2. 벡터화한 각 문장간의 유사도를 측정

# 문장 백터화 진행

In [1]:
import numpy as np

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer  # TF-IDF로 벡터화

sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니 다.") 
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(sent) #문장 벡터화 진행

idf = tfidf_vectorizer.idf_
print(dict(zip(tfidf_vectorizer.get_feature_names(), idf)))

{'갑작스런': 1.4054651081081644, '내일': 1.4054651081081644, '놀러왔다가': 1.4054651081081644, '망연자실': 1.4054651081081644, '반가운': 1.4054651081081644, '서쪽': 1.4054651081081644, '소식': 1.4054651081081644, '오늘': 1.4054651081081644, '으로': 1.4054651081081644, '이어졌는데요': 1.4054651081081644, '인해': 1.4054651081081644, '있습니': 1.4054651081081644, '있습니다': 1.4054651081081644, '중심': 1.4054651081081644, '폭염': 1.0, '피해서': 1.4054651081081644, '하고': 1.4054651081081644, '휴일': 1.0}


# 유사도의 예

1. 자카드 유사도: 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도를 측정하는 방법
 - 두 집합의 교집합인 공통된 단어의 개수를 두 집합의 합집합, 즉 전체 단어의 수로 나누면 된다.
 - 1에 가까울수록 유사도가 높다.

2. 코사인 유사도: 두 개의 벡터값에서 코사인 각도를 구하는 방법
 - 방향성의 개념이 더해진다.
 - [-1, 1]의 값을 가지며 1에 가까울수록 유사하다.

3. 유클리디안 유사도(L2 거리): n차원 공간에서 두 점 사이의 최단 거리를 구하는 접근법
 - 값에 제한이 없다.
 - L1 정규화 방법 사용하여 벡터를 Normalize한 후 측정 -> [0,1]의 값을 가진다.
   - L1 정규화 방법: 벡터의 모든 값을 더한 뒤 이 값으로 각 벡터의 값을 나누면 된다.
   
4. 멘하탄 유사도(L1 거리): 사각형 격자로 이뤄진 지도에서 출발점에서 도착점까지를 가로지르지 않고 갈 수 있는 최단거리를 구하는 공식
 - 유클리디언 유사도와 마찬가지로 값에 제한이 없다.
 - L1 정규화 방법 사용하여 벡터를 Normalize한 후 측정 -> [0,1]의 값을 가진다.

In [3]:
# 1. 자카드 유사도: 벡터화 없이 유사도 측정 가능
from sklearn.metrics import jaccard_similarity_score

# jaccard_similarity_score(tfidf_matrix[0:1], tfidf_matrix[1:2])
jaccard_similarity_score(np.array([1,1,0,0]), np.array([1,1,0,2]))

0.75

In [4]:
# 2. 코사인 유사도

from sklearn.metrics.pairwise import cosine_similarity

# 코사인 유사도를 구해보자
cosine_similarity(tfidf_matrix[0:1], tfidf_matrix[1:2])

array([[ 0.11304078]])

In [5]:
# 3. 유클리디안 유사도

from sklearn.metrics.pairwise import euclidean_distances

euclidean_distances(tfidf_matrix[0:1], tfidf_matrix[1:2])

# 정규화

import numpy as np

def l1_normalize(v):
    norm = np.sum(v)
    return v / norm

tfidf_norm_l1 = l1_normalize(tfidf_matrix)
euclidean_distances(tfidf_norm_l1[0:1], tfidf_norm_l1[1:2])

array([[ 0.21243357]])

In [6]:
# 4. 맨하탄 유사도

from sklearn.metrics.pairwise import manhattan_distances

manhattan_distances(tfidf_norm_l1[0:1], tfidf_norm_l1[1:2])

array([[ 0.85654185]])