# 임베딩 사용해 보기

## 0. 필요한 패키지 설치
- `sentence-transformers` 설치 필요
    - `pip install sentence-transformers`

## 1. 임베딩 임포트

In [2]:
from langchain_community.embeddings import HuggingFaceEmbeddings
# from langchain_community.embeddings import OpenAIEmbeddings
# from langchain_community.embeddings import LlamaCppEmbeddings

## 2. 임베딩 모델 로드
- LLM을 임베딩 모드로 사용할 수 있지만, 우리 PC의 사양이 좋지 못하고 각 임베딩의 관계를 잘 표현하지 못할 수 있음
- 본 코드에서는 sentence-transformers를 활용하는 HuggingFaceEmbeddings를 사용
- 한국어에 좀 더 적합한 임베딩 모델을 사용 [(링크)](https://github.com/jhgan00/ko-sentence-transformers)

In [3]:
embedding_model = HuggingFaceEmbeddings(
    model_name="jhgan/ko-sroberta-multitask",  # 사용할 모델(huggingface)
    cache_folder="models",  # 임베딩시 모델 저장에 사용할 디렉토리 지정
)

  from .autonotebook import tqdm as notebook_tqdm


In [17]:
user_input = input("Enter your question: ")
em = embedding_model.embed_query(user_input)
print(f"len: {len(em)}")
print(em[:5])

Enter your question:  피곤한 것 같아요


len: 768
[-0.09456981718540192, -0.7493470907211304, 0.808427095413208, 0.4418898820877075, -0.22291558980941772]


# 유사도 확인해 보기

In [10]:
data_list = [
    "안녕하세요",
    "하이",
    "배가 너무 고파요",
    "빨리 집에 가고싶어요",
    "오늘은 날씨가 정말 좋네요"
]

em_list = embedding_model.embed_documents(data_list)

In [11]:
import numpy as np
from numpy.linalg import norm

def cos_sim(A, B):
  return np.dot(A, B)/(norm(A)*norm(B))

In [15]:
user_input = input("입력: ")

for em in em_list:
    print(cos_sim(embedding_model.embed_query(user_input), em))

입력:  배고파 죽을 것 같아요


0.13234199690067916
0.16379533543354127
0.7148723010925735
0.4528340803845859
0.17378247344097547
