# Sentence Transformer 란?

우리가 입력값으로 **입력한 정보(텍스트 혹은 이미지)를 고정된 크기의 벡터로 표현**해주는것(임베딩). 따라서 정보를 특정 방향을 가진 벡터로 표현하는 것.

In [1]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("all-MiniLM-L6-v2")

sentences = [
    "The weather is lovely today.",
    "It's so sunny outside!",
    "He drove to the stadium"
]

embeddings = model.encode(sentences)

  from .autonotebook import tqdm as notebook_tqdm
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


In [3]:
embeddings.shape

(3, 384)

위와 같이 특정 단어를 입력했을때 고정된 길이인 384 사이즈의 벡터를 리턴해줍니다. 

In [2]:
model.similarity(embeddings, embeddings) 

tensor([[1.0000, 0.6660, 0.1058],
        [0.6660, 1.0000, 0.1471],
        [0.1058, 0.1471, 1.0000]])

임베딩된 벡터의 유사도를 살펴보면 첫번째 문장인  "The weather is lovely today." 는 두번째 문장과 "It's so sunny outside!" 약간 유사하다고 판단하고 있음을 확인할 수 있습니다. 반대로 세번째 문장은 첫번째 문장과 0.1058, 두번째 문장과 0.1471 인걸 보아 유사하지 않음을 확인할 수 있습니다. 이 처럼 임베딩을 통해 우리는 문장이 얼마나 의미론적으로 유사한지 판단할 수 있습니다.

In [13]:
sentences1 = [
    "I've already seen this movie",
    "I like soccer",
    "he is a basketball player"
]

sentences2 = [
    "I don't want to watch this movie again",
    "I like baseball",
    "My name is roach"
]

embeddings1 = model.encode(sentences1)
embeddings2 = model.encode(sentences2)

for i in range(0, len(embeddings1)):
    sentence1 = sentences1[i]
    nd1 = embeddings1[i]
    for j in range(0, len(embeddings2)):
        sentence2 = sentences2[j]
        nd2 = embeddings2[j]
        score = model.similarity(nd1, nd2)
        print(f"{sentence1} 은 {sentence2} 와 {score.item()} 만큼 유사합니다")

I've already seen this movie 은 I don't want to watch this movie again 와 0.6583706140518188 만큼 유사합니다
I've already seen this movie 은 I like baseball 와 0.10951775312423706 만큼 유사합니다
I've already seen this movie 은 My name is roach 와 0.22180543839931488 만큼 유사합니다
I like soccer 은 I don't want to watch this movie again 와 0.13166044652462006 만큼 유사합니다
I like soccer 은 I like baseball 와 0.7686097025871277 만큼 유사합니다
I like soccer 은 My name is roach 와 0.1979486048221588 만큼 유사합니다
he is a basketball player 은 I don't want to watch this movie again 와 0.11488835513591766 만큼 유사합니다
he is a basketball player 은 I like baseball 와 0.2155824452638626 만큼 유사합니다
he is a basketball player 은 My name is roach 와 0.15206508338451385 만큼 유사합니다


## 유사도 기준

![image.png](../image.png)

유사도는 어렸을때 우리가 수학시간에 배웠던 이 점사이의 거리를 구하는 것과 비슷하다고 생각하시면 되는데요. 예를 들어, 벡터로 표현하는 것이 점을 특정 공간속에서 점을 찍는 것이라면, 저희의 유사도 기준도 가까운 점을 구하면 유사할 것이다 라고 생각할 수 있는 것이죠? 다만 벡터이기에 방향도 가지고 있어, 아래와 같이 코싸인 유사도 혹은 벡터의 내적등의 연산으로도 표현 가능합니다. 우리가 사용하는 **SentenceTransformer** 에서의 유사도 함수는 아래와 같이 4가지 사용가능합니다.

- **SimilarityFunction.COSINE** : 코싸인 유사도
- **SimilarityFunction.DOT_PRODUCT** : 내적
- **SimilarityFunction.EUCLIDEAN** :  유클라디안 거리
- **SimilarityFunction.MANHATTAN** :  맨하탄 거리

In [14]:
from sentence_transformers import SentenceTransformer, SimilarityFunction

model = SentenceTransformer("all-MiniLM-L6-v2", similarity_fn_name=SimilarityFunction.COSINE)

In [15]:
sentences1 = [
    "I've already seen this movie",
    "I like soccer",
    "he is a basketball player"
]

sentences2 = [
    "I don't want to watch this movie again",
    "I like baseball",
    "My name is roach"
]

embeddings1 = model.encode(sentences1)
embeddings2 = model.encode(sentences2)

for i in range(0, len(embeddings1)):
    sentence1 = sentences1[i]
    nd1 = embeddings1[i]
    for j in range(0, len(embeddings2)):
        sentence2 = sentences2[j]
        nd2 = embeddings2[j]
        score = model.similarity(nd1, nd2)
        print(f"{sentence1} 은 {sentence2} 와 {score.item()} 만큼 유사합니다")

I've already seen this movie 은 I don't want to watch this movie again 와 0.6583706140518188 만큼 유사합니다
I've already seen this movie 은 I like baseball 와 0.10951775312423706 만큼 유사합니다
I've already seen this movie 은 My name is roach 와 0.2218054234981537 만큼 유사합니다
I like soccer 은 I don't want to watch this movie again 와 0.13166044652462006 만큼 유사합니다
I like soccer 은 I like baseball 와 0.7686097025871277 만큼 유사합니다
I like soccer 은 My name is roach 와 0.19794858992099762 만큼 유사합니다
he is a basketball player 은 I don't want to watch this movie again 와 0.11488835513591766 만큼 유사합니다
he is a basketball player 은 I like baseball 와 0.2155824452638626 만큼 유사합니다
he is a basketball player 은 My name is roach 와 0.15206508338451385 만큼 유사합니다
