In [1]:
from ragcar import Ragcar

In [2]:
Ragcar.available_models("sentence_similarity")

'Available models for sentence_similarity are ([src]: model_name_or_path, [model]: leewaay/kpf-bert-base-klueNLI-klueSTS-MSL512, leewaay/klue-roberta-base-klueNLI-klueSTS-MSL512, leewaay/klue-roberta-large-klueNLI-klueSTS-MSL512, leewaay/kpf-bert-base-klueSTS-cross, leewaay/klue-roberta-large-klueSTS-cross, MODELS_SUPPORTED(https://huggingface.co/models?pipeline_tag=sentence-similarity)), ([src]: googledrive, [model]: YOUR_MODEL), ([src]: openai, [model]: text-embedding-3-large, text-embedding-3-small, text-embedding-ada-002, MODELS_SUPPORTED(https://platform.openai.com/docs/models)), ([src]: clova, [model]: YOUR_MODEL(https://www.ncloud.com/product/aiService/clovaStudio))'

## [Semantic Textual Similarity](https://www.sbert.net/docs/usage/semantic_textual_similarity.html)

In [3]:
sts = Ragcar(tool="sentence_similarity", src="model_name_or_path")

In [4]:
sts("저는 경기도에 살고 있어요", ["경기도에 거주하고 있습니다", "경기 시작 10분 전 입니다.", "서울 근교에 집이 있어요"])

tensor([[ 0.9283, -0.0136,  0.3213]], device='cuda:0')

### Parameter
* sorted (bool): If True, returns similarity scores in descending order.
* batch_size (int): Batch size for processing when handling multiple sentences.
* convert_to_tensor (bool): If True, converts the embeddings to PyTorch tensors.

##### 유사도 내림차순 정렬

In [5]:
sts("저는 경기도에 살고 있어요", ["경기도에 거주하고 있습니다", "경기 시작 10분 전 입니다.", "서울 근교에 집이 있어요"], sorted=True)

[[tensor(0.9283, device='cuda:0'), 0, 0],
 [tensor(0.3213, device='cuda:0'), 0, 2],
 [tensor(-0.0136, device='cuda:0'), 0, 1]]

##### 다중 쿼리

In [6]:
sts(["흡연", "외도"], ["바람피면 죽는다", "담배피면 죽는다", "라이터", "간통"], sorted=True)

[[tensor(0.6019, device='cuda:0'), 1, 3],
 [tensor(0.5841, device='cuda:0'), 0, 2],
 [tensor(0.5401, device='cuda:0'), 0, 3],
 [tensor(0.5081, device='cuda:0'), 0, 1],
 [tensor(0.3637, device='cuda:0'), 1, 2],
 [tensor(0.2483, device='cuda:0'), 0, 0],
 [tensor(0.1724, device='cuda:0'), 1, 1],
 [tensor(0.1133, device='cuda:0'), 1, 0]]

## [Paraphrase Mining](https://www.sbert.net/examples/applications/paraphrase-mining/README.html#paraphrase-mining)

In [7]:
my_news = [
    "프로농구 2023-2024시즌, 10월 21일 인삼공사 vs SK 경기로 개막", 
    "LG 최원태, 이적 후 첫 경기서 완벽투…우승 향한 '화룡점정'(종합)",
    "맨시티 홀란, AT 마드리드 친선경기 선발…그리에즈만과 맞대결",
    "이재성, 프리시즌 경기서 골맛…마인츠, 장크트갈렌에 4-1 승",
    "7월 건설경기실사지수 89.8…2년 7개월 만에 최고", 
    "한강∼아라뱃길 복원 모색…서울·인천·경기 '맞손'",
]

sts(my_news)

[[tensor(0.1482, device='cuda:0'), 0, 1],
 [tensor(0.0773, device='cuda:0'), 0, 2],
 [tensor(0.1079, device='cuda:0'), 0, 3],
 [tensor(0.0597, device='cuda:0'), 0, 4],
 [tensor(0.1095, device='cuda:0'), 0, 5],
 [tensor(0.1804, device='cuda:0'), 1, 2],
 [tensor(0.1560, device='cuda:0'), 1, 3],
 [tensor(0.1296, device='cuda:0'), 1, 4],
 [tensor(0.1045, device='cuda:0'), 1, 5],
 [tensor(0.1511, device='cuda:0'), 2, 3],
 [tensor(0.1823, device='cuda:0'), 2, 4],
 [tensor(0.0626, device='cuda:0'), 2, 5],
 [tensor(-0.0300, device='cuda:0'), 3, 4],
 [tensor(0.0756, device='cuda:0'), 3, 5],
 [tensor(0.0215, device='cuda:0'), 4, 5]]

## [Bi-Encoder vs. Cross-Encoder](https://www.sbert.net/examples/applications/cross-encoder/README.html)

In [8]:
bi_encoder = Ragcar(tool="sentence_similarity", src="model_name_or_path", model="distiluse-base-multilingual-cased-v1")
cross_encoder = Ragcar(tool="sentence_similarity", src="model_name_or_path", model="leewaay/kpf-bert-base-klueSTS-cross")

No sentence-transformers model found with name leewaay/kpf-bert-base-klueSTS-cross. Creating a new one with MEAN pooling.


In [9]:
corpus = [
    "프로농구 2023-2024시즌, 10월 21일 인삼공사 vs SK 경기로 개막", 
    "LG 최원태, 이적 후 첫 경기서 완벽투…우승 향한 '화룡점정'(종합)",
    "맨시티 홀란, AT 마드리드 친선경기 선발…그리에즈만과 맞대결",
    "이재성, 프리시즌 경기서 골맛…마인츠, 장크트갈렌에 4-1 승",
    "7월 건설경기실사지수 89.8…2년 7개월 만에 최고", 
    "한강∼아라뱃길 복원 모색…서울·인천·경기 '맞손'",
]

query = "류현진, 올라오지 않은 구속·장타에 고전…5이닝 버틴 건 수확(종합)"

In [10]:
# Output of top hits from bi-encoder
print("\n-------------------------\n")
print("Top-3 Bi-Encoder Retrieval hits")
hits = bi_encoder(query, corpus, sorted=True)
for hit in hits[0:3]:
    print("\t{:.3f}\t{}".format(hit[0], corpus[hit[2]]))
    

# Output of top hits from bi-encoder
print("\n-------------------------\n")
print("Top-3 Cross-Encoder Retrieval hits")
hits = cross_encoder(query, corpus, sorted=True)
for hit in hits[0:3]:
    print("\t{:.3f}\t{}".format(hit[0], corpus[hit[2]]))


-------------------------

Top-3 Bi-Encoder Retrieval hits
	0.264	이재성, 프리시즌 경기서 골맛…마인츠, 장크트갈렌에 4-1 승
	0.216	LG 최원태, 이적 후 첫 경기서 완벽투…우승 향한 '화룡점정'(종합)
	0.202	한강∼아라뱃길 복원 모색…서울·인천·경기 '맞손'

-------------------------

Top-3 Cross-Encoder Retrieval hits
	0.925	LG 최원태, 이적 후 첫 경기서 완벽투…우승 향한 '화룡점정'(종합)
	0.908	이재성, 프리시즌 경기서 골맛…마인츠, 장크트갈렌에 4-1 승
	0.843	맨시티 홀란, AT 마드리드 친선경기 선발…그리에즈만과 맞대결
