# 출력으로 거리계산 결과를 표시
특정 상황에서 어떤 거리 측정 방법을 사용하는 것이 좋을지에 대한 관점을 제공


In [4]:
# spaCy 설치, 'en_core_web_md' 모델을 다운로드
# !pip install spacy
# !python -m spacy download en_core_web_md


In [5]:

# 라이브러리 가져오기
import spacy
import numpy as np
from scipy.spatial.distance import cosine, euclidean

# 사전 학습된 단어 임베딩 모델 로드
nlp = spacy.load('en_core_web_md')


text_a and text_b vector 각도 작을 가능성 높음
text_a 와 text_c 는 벡터 각도 클 가능성 높음 

벡터의 크기 = 벡터 공간에서 텍스트 가중치를 나타냄
크기는 텍스트 단어빈도 또는 데이터 세트에서 텍스트 중요도와 관련 가능
벡터크기는 텍스트 길이나 시맨틱 유사성을 나타낼 수 있는 특정 단어 존재 여부와 같은 것들에 의해 영향을 받을 수 있음

In [6]:

# 텍스트 정의
text_a = "The cat is playing with a toy."
text_b = "A kitten is interacting with a plaything."
text_c = "The chef is cooking a delicious meal."
text_d = "Economics is the social science that studies the production, distribution, and consumption of goods and services."
text_e = "Economics studies goods and services."

# spaCy 모델을 사용해 텍스트를 벡터 표현으로 변환
vector_a = nlp(text_a).vector
vector_b = nlp(text_b).vector
vector_c = nlp(text_c).vector
vector_d = nlp(text_d).vector
vector_e = nlp(text_e).vector

# 벡터 간 코사인 유사도 계산
cosine_sim_ab = 1 - cosine(vector_a, vector_b)
cosine_sim_ac = 1 - cosine(vector_a, vector_c)
cosine_sim_de = 1 - cosine(vector_d, vector_e)

print(f"Cosine similarity between Text A and Text B: {cosine_sim_ab:.2f}")
print(f"Cosine similarity between Text A and Text C: {cosine_sim_ac:.2f}")
print(f"Cosine similarity between Text D and Text E: {cosine_sim_de:.2f}")

# 벡터 간 유클리드 거리 계산
euclidean_dist_ab = euclidean(vector_a, vector_b)
euclidean_dist_ac = euclidean(vector_a, vector_c)
euclidean_dist_de = euclidean(vector_d, vector_e)

print(f"Euclidean distance between Text A and Text B: {euclidean_dist_ab:.2f}")
print(f"Euclidean distance between Text A and Text C: {euclidean_dist_ac:.2f}")
print(f"Euclidean distance between Text D and Text E: {euclidean_dist_de:.2f}")

# 벡터의 크기 계산
magnitude_d = np.linalg.norm(vector_d)
magnitude_e = np.linalg.norm(vector_e)

print(f"Magnitude of Text D's vector: {magnitude_d:.2f}")
print(f"Magnitude of Text E's vector: {magnitude_e:.2f}")


Cosine similarity between Text A and Text B: 0.90
Cosine similarity between Text A and Text C: 0.76
Cosine similarity between Text D and Text E: 0.91
Euclidean distance between Text A and Text B: 1.79
Euclidean distance between Text A and Text C: 2.91
Euclidean distance between Text D and Text E: 1.75
Magnitude of Text D's vector: 3.91
Magnitude of Text E's vector: 4.27
