#  문장 내의 단어들을 임베딩
- Huggingface 무료 모델 사용

In [3]:
# !pip install sentence_transformers

In [4]:
from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("nlpai-lab/KURE-v1")

In [5]:
# 샘플 데이터: 간단한 문장들의 모음
sentences = [
    '나는 인공지능 공부를 좋아한다.',
    '인공지능은 매우 흥미롭다.',
    '오늘 날씨가 흐리고 비가 온다.'
]

embeddings = model.encode(sentences)
print(embeddings.shape)

(3, 1024)


In [6]:
# 임베딩 결과 확인
print('첫 번째 문장의 임베딩 벡터 (처음 10개 값):')
print(embeddings[0][:10])

첫 번째 문장의 임베딩 벡터 (처음 10개 값):
[-0.04133051 -0.00886621 -0.01965642  0.00259992 -0.01420297 -0.00173233
  0.00808731 -0.02382693  0.03474921  0.01797117]


In [7]:
import pandas as pd

# 임베딩 결과를 DataFrame으로 변환하여 시각화
embedding_df = pd.DataFrame(embeddings, index=sentences)
print(embedding_df.head())

                       0         1         2         3         4         5     \
나는 인공지능 공부를 좋아한다. -0.041331 -0.008866 -0.019656  0.002600 -0.014203 -0.001732   
인공지능은 매우 흥미롭다.    -0.031890  0.007180 -0.015229  0.003641 -0.032137 -0.021120   
오늘 날씨가 흐리고 비가 온다. -0.027240  0.072480 -0.033453 -0.013671 -0.020261 -0.046810   

                       6         7         8         9     ...      1014  \
나는 인공지능 공부를 좋아한다.  0.008087 -0.023827  0.034749  0.017971  ...  0.009031   
인공지능은 매우 흥미롭다.     0.033232 -0.034247  0.014975  0.013564  ...  0.015914   
오늘 날씨가 흐리고 비가 온다. -0.030745  0.014778 -0.006895 -0.017057  ... -0.018110   

                       1015      1016      1017      1018      1019      1020  \
나는 인공지능 공부를 좋아한다. -0.015729  0.076318  0.038932 -0.020271 -0.014609  0.006914   
인공지능은 매우 흥미롭다.    -0.002616  0.036231  0.045488 -0.049278 -0.017388 -0.012169   
오늘 날씨가 흐리고 비가 온다.  0.025783  0.003339  0.059365 -0.023501 -0.008735 -0.011778   

                       1021      1022      10

In [8]:
# Get the similarity scores for the embeddings
similarity_matrix = model.similarity(embeddings, embeddings)
print(similarity_matrix)

tensor([[1.0000, 0.7380, 0.4107],
        [0.7380, 1.0000, 0.4417],
        [0.4107, 0.4417, 1.0000]])


In [9]:
print('\n문장 간 코사인 유사도:')
for i in range(len(sentences)):
    for j in range(i+1, len(sentences)):
        similarity = similarity_matrix[i][j]
        print(f'{sentences[i]} vs {sentences[j]}: {similarity:.4f}') 


문장 간 코사인 유사도:
나는 인공지능 공부를 좋아한다. vs 인공지능은 매우 흥미롭다.: 0.7380
나는 인공지능 공부를 좋아한다. vs 오늘 날씨가 흐리고 비가 온다.: 0.4107
인공지능은 매우 흥미롭다. vs 오늘 날씨가 흐리고 비가 온다.: 0.4417
