In [15]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

# 모델 로드
model = SentenceTransformer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

# 기준 텍스트
query = "안녕하세요. 예제문장입니다."

# 비교 대상 텍스트
candidates = [
    "안녕하세요. 각문장의 벡터로변환됩니다.",
    "이것은 예제문장입니다.",
    "오늘 날시가 좋네요.",
    "이 모델은 다국어를 지원합니다."
]

# 모든 문장을 임베딩 벡터로 변환
query_embedding = model.encode([query])
candidate_embeddings = model.encode(candidates)

# 코사인 유사도 계산
similarities = cosine_similarity(query_embedding, candidate_embeddings)[0]

# 유사도 정렬
sorted_indices = np.argsort(similarities)[::1]
sorted_candidates = [(candidates[i], similarities[i]) for i in sorted_indices]

print(similarities)
print(sorted_indices)
print(sorted_candidates)

[0.38786927 0.73397976 0.57596374 0.11865944]
[3 0 2 1]
[('이 모델은 다국어를 지원합니다.', np.float32(0.118659444)), ('안녕하세요. 각문장의 벡터로변환됩니다.', np.float32(0.38786927)), ('오늘 날시가 좋네요.', np.float32(0.57596374)), ('이것은 예제문장입니다.', np.float32(0.73397976))]


In [36]:
# 결과 출력
print("입력 문장:", query)
print("\n유사도 순위:")
for rank, (sentence, score) in enumerate(sorted_candidates, 1):
    print(f"{rank} {sentence} (유사도: {score:.4f})")

입력 문장: 안녕하세요. 예제문장입니다.

유사도 순위:
1 이 모델은 다국어를 지원합니다. (유사도: 0.1187)
2 안녕하세요. 각문장의 벡터로변환됩니다. (유사도: 0.3879)
3 오늘 날시가 좋네요. (유사도: 0.5760)
4 이것은 예제문장입니다. (유사도: 0.7340)
