# Embddding
#### 작성: 고우주

### 1. Setence Transformer

2019년에 발표된 SentenceTransformer는 Bi-encoder아키텍처를 갖추고 있으며 효율적인 문장 임베딩을 생성하기 위해 BERT를 조정하는 역할을 수행했습니다. 최근에 Sentence Transformer는 LLM의 RAG 파이프라인에서 Embedding에 활용 합니다. 이러한 점에서 Sentence Transformer는 일반적으로 텍스트와 텍스트 간의 의미적 유사성을 측정하고 주어진 입력 텍스트를 기반으로 적절한 텍스트 조각을 검색하는 데 사용됩니다.


### 2. TF-IDF
TF-IDF는 문장의 핵심 단어를 강조하는 데는 탁월하지만 문맥과 문장 구조의 미묘한 차이를 놓치는 경우가 많습니다. 이와는 대조적으로, BERT가 제공하는 SentenceTransformer는 문맥의 의미를 깊이 파고들어 텍스트를 더욱 풍부하고 미묘하게 이해할 수 있게 해줍니다. 그 여정을 통해 깨달음을 얻었습니다: TF-IDF는 빠른 표면 수준 분석이 필요한 작업에 이상적이며, SentenceTransformer는 깊은 의미론적 인사이트가 필요한 시나리오에서 빛을 발합니다. 

- `tfidf`: TF-IDF(용어 빈도 역 문서 빈도) 벡터화기를 사용하여 문장을 벡터로 변환하고 코사인 유사도를 계산합니다. 

- `sentencetransformer`: 사전 학습된 BERT 모델('bert-base-nli-mean-tokens')을 사용하여 문장 임베딩을 생성한 다음 코사인 유사도를 계산합니다.

In [1]:
%pip install -q sentence_transformers tfidf

Note: you may need to restart the kernel to use updated packages.


In [2]:
from sentence_transformers import SentenceTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.spatial.distance import cosine
import numpy as np

  from tqdm.autonotebook import tqdm, trange
2025-07-10 18:01:08.325109: I tensorflow/core/util/port.cc:110] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-07-10 18:01:08.431356: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2025-07-10 18:01:08.806739: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 AVX512F AVX512_VNNI FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


## Compute Similarity

`compute_similariy` 함수는 지정된 방법인 'tfidf' 또는 'sentencetransformer'를 기반으로 두 문장의 유사도를 계산하여 비교합니다. 

In [3]:
def compute_similarity(sentence1, sentence2, similarity_type):
    if similarity_type == 'tfidf':
        # TF-IDF 벡터라이저를 초기화합니다.
        vectorizer = TfidfVectorizer()

        # vetorizer를 두 문장에 맞추고 TF-IDF 벡터로 변환합니다.
        tfidf_matrix = vectorizer.fit_transform([sentence1, sentence2])

        # Compute the cosine similarity between the two TF-IDF vectors
        similarity = 1 - cosine(
            tfidf_matrix[0].toarray()[0], 
            tfidf_matrix[1].toarray()[0]
        )

    elif similarity_type == 'sentencetransformer':
        # SentenceTransformer 모델을 초기화합니다.
        model = SentenceTransformer('bert-base-nli-mean-tokens')

        # Sentence embeddings을 계산합니다.
        embeddings = model.encode([sentence1, sentence2])

        # 두 임베딩 간의 코사인 유사도를 계산합니다.
        similarity = 1 - cosine(
            embeddings[0], 
            embeddings[1])

    else:
        raise ValueError("Invalid similarity_type. Choose either 'tfidf' or 'sentencetransformer'.")

    return similarity

## Text Similarity
TFIDF(용어 빈도 역 문서 빈도)와 SentenceTransformer입니다. 

각 방법에 따라 두 문장이 얼마나 유사한지 측정하기 위해 compute_similarity 함수를 사용하여 자연어 처리에서 의미 분석에 대한 다양한 접근 방식을 보여줍니다.

In [4]:
sentence1 = "Generative AI is useful for programming."
sentence2 = "Coding will be easy to implement for beginner."

print('TFIDF Similarity : ', compute_similarity(sentence1, sentence2, 'tfidf'))
print('SentenceTransformer Similarity : ', compute_similarity(sentence1, sentence2, 'sentencetransformer'))

TFIDF Similarity :  0.07874460345594514


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/399 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

SentenceTransformer Similarity :  0.6271942831121081


In [5]:
sentence1 = "The cat quickly jumped over the small fence."
sentence2 = "The feline swiftly leaped above the low barrier."

print('TFIDF Similarity : ', compute_similarity(sentence1, sentence2, 'tfidf'))
print('SentenceTransformer Similarity : ', compute_similarity(sentence1, sentence2, 'sentencetransformer'))

TFIDF Similarity :  0.2523342014336962
SentenceTransformer Similarity :  0.5344065503281913


In [6]:
sentence1 = "We love each other."
sentence2 = "We like eating vegitable either."

print('TFIDF Similarity : ', compute_similarity(sentence1, sentence2, 'tfidf'))
print('SentenceTransformer Similarity : ', compute_similarity(sentence1, sentence2, 'sentencetransformer'))

TFIDF Similarity :  0.1273595297947936
SentenceTransformer Similarity :  0.5838586213973489


In [7]:
sentence1 = "He likes drawing more than writing."
sentence2 = "More than writing, he likes drawing"

print('TFIDF Similarity : ', compute_similarity(sentence1, sentence2, 'tfidf'))
print('SentenceTransformer Similarity : ', compute_similarity(sentence1, sentence2, 'sentencetransformer'))

TFIDF Similarity :  1
SentenceTransformer Similarity :  0.9362028023229261
