In [None]:
!pip install sentence-transformers

In [None]:
from sentence_transformers import SentenceTransformer, util

# 한국어에 특화된 Sentence-BERT 모델 로드
# 'snunlp/KR-SBERT-V40K-klueNLI-58B' 또는 'jhgan/ko-sroberta-multitask' 등
# 다양한 한국어 SBERT 모델이 Hugging Face Hub에 있습니다.
# 여기서는 'jhgan/ko-sroberta-multitask'를 예시로 사용합니다.
model_name = 'jhgan/ko-sroberta-multitask'
model = SentenceTransformer(model_name)
print(f"'{model_name}' 모델 로드 완료.")

# 비교할 문장들
sentences = [
    "오늘 날씨가 정말 좋네요.",
    "오늘은 햇살이 따뜻하고 맑습니다.",
    "점심 메뉴는 무엇인가요?",
    "지금 비가 오고 있어요.",
    "저는 IT 엔지니어입니다."
]

# 문장 임베딩 생성
sentence_embeddings = model.encode(sentences, convert_to_tensor=True)

# 문장 간 코사인 유사도 계산
# 예시 1: 의미가 유사한 두 문장
similarity_1_2 = util.cos_sim(sentence_embeddings[0], sentence_embeddings[1])
print(f"'{sentences[0]}'와 '{sentences[1]}'의 유사도: {similarity_1_2.item():.4f}")

# 예시 2: 의미가 다른 두 문장
similarity_1_3 = util.cos_sim(sentence_embeddings[0], sentence_embeddings[2])
print(f"'{sentences[0]}'와 '{sentences[2]}'의 유사도: {similarity_1_3.item():.4f}")

# 예시 3: 의미가 완전히 다른 두 문장
similarity_1_5 = util.cos_sim(sentence_embeddings[0], sentence_embeddings[4])
print(f"'{sentences[0]}'와 '{sentences[4]}'의 유사도: {similarity_1_5.item():.4f}")

# 모든 문장 쌍 간의 유사도 행렬 계산
cosine_scores = util.cos_sim(sentence_embeddings, sentence_embeddings)
print("\n모든 문장 쌍 간의 유사도 행렬:")
print(cosine_scores)

# 특정 문장과 가장 유사한 문장 찾기
query_sentence = "오늘 날씨가 맑고 좋네요."
query_embedding = model.encode(query_sentence, convert_to_tensor=True)

# 기존 문장들과의 유사도 계산
similarities_to_query = util.cos_sim(query_embedding, sentence_embeddings)[0]

# 유사도 순으로 정렬하여 출력
for i, score in enumerate(similarities_to_query):
    print(f"'{query_sentence}'와 '{sentences[i]}'의 유사도: {score.item():.4f}")