In [2]:
from langchain.callbacks import get_openai_callback # token 계산
import time
# os.environ['OPENAI_API_KEY'] = "sk-xxx"

#### Embedding Test

In [3]:
kor_text = """
금융통화위원회는 다음 통화정책방향 결정시까지 한국은행 기준금리를 현 수준(3.50%)에서 유지하여 통화정책을 운용하기로 하였다. 물가상승률이 둔화 흐름을지속하겠지만 상당기간 목표수준을 상회할 것으로 전망되는 만큼 현재의 긴축기조를 유지하는 것이 적절하다고 보았다. 추가 인상 필요성은 대내외 정책여건의 변화를 점검하면서 판단해 나갈 것이다.
"""

eng_text = """
The old, creaky wooden door swung open slowly, revealing a dimly lit room filled with dusty books and antique furniture, while a faint scent of lavender lingered in the air, evoking a sense of nostalgia and mystery."""

print("한국어 문장 단어 수: ", len(kor_text.split(' ')))
print(kor_text)

print("영어 문장 단어 수: ", len(eng_text.split(' ')))
print(eng_text)


한국어 문장 단어 수:  37

금융통화위원회는 다음 통화정책방향 결정시까지 한국은행 기준금리를 현 수준(3.50%)에서 유지하여 통화정책을 운용하기로 하였다. 물가상승률이 둔화 흐름을지속하겠지만 상당기간 목표수준을 상회할 것으로 전망되는 만큼 현재의 긴축기조를 유지하는 것이 적절하다고 보았다. 추가 인상 필요성은 대내외 정책여건의 변화를 점검하면서 판단해 나갈 것이다.

영어 문장 단어 수:  37

The old, creaky wooden door swung open slowly, revealing a dimly lit room filled with dusty books and antique furniture, while a faint scent of lavender lingered in the air, evoking a sense of nostalgia and mystery.


In [40]:
## Aleph Alpha : 서로 다른 구조(docummnet-query)의 문장 Asymmetric / 같은 구조 symmetric(same) 유사성을 볼 때 사용, embedding size를 줄일 수 있다.
## pip install aleph_alpha_client 설치 + https://app.aleph-alpha.com/ 가입 후 API KEY 발급 받아야 함
os.environ['ALEPH_ALPHA_API_KEY'] = "..."

## Asymmetric

from langchain.embeddings import AlephAlphaAsymmetricSemanticEmbedding
max_output = 128 # 5120 dimensions
embeddings = AlephAlphaAsymmetricSemanticEmbedding(compress_to_size=128)

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

한국어 문장 임베딩 길이:  128
한국어 문장 임베딩 시간:  1.0295090675354004
영어 문장 임베딩 길이:  128
영어 문장 임베딩 시간:  0.4645390510559082


In [42]:

## Symmetric

from langchain.embeddings import AlephAlphaSymmetricSemanticEmbedding
max_output = 128 # 5120 dimensions
embeddings = AlephAlphaSymmetricSemanticEmbedding(compress_to_size=128)

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

한국어 문장 임베딩 길이:  128
한국어 문장 임베딩 시간:  1.316870927810669
영어 문장 임베딩 길이:  128
영어 문장 임베딩 시간:  0.3432149887084961


In [49]:
## Cohere : embedding 횟수로 가격을 받음 1000회 1달라
## pip install cohere 설치 + https://dashboard.cohere.ai/api-keys/ 가입 후 API KEY 발급 받아야 함
os.environ['COHERE_API_KEY']='...'

from langchain.embeddings import CohereEmbeddings

max_output = 4096
embeddings = CohereEmbeddings(model='embed-multilingual-v2.0')

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

한국어 문장 임베딩 길이:  768
한국어 문장 임베딩 시간:  1.168846845626831
영어 문장 임베딩 길이:  768
영어 문장 임베딩 시간:  0.3746333122253418


In [None]:
## Google Cloud Platform Vertex AI PaLM : 
## !pip install google-cloud-aiplatform 설치 + https://dashboard.cohere.ai/api-keys/ 가입 후 API KEY 발급 받아야 함

os.environ['GOOGLE_APPLICATION_CREDENTIALS']='...'
from langchain.embeddings import VertexAIEmbeddings

max_output = 4096
embeddings = VertexAIEmbeddings()

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

In [6]:
## Hugging Face Hub : Cost 0에 CPU/GPU MPS 까지 지원
## default : sentence-transformers/all-mpnet-base-v2 모델 이외에 다양한 Task 모델 지원

from langchain.embeddings import HuggingFaceEmbeddings
max_output = 768
embeddings = HuggingFaceEmbeddings()

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

한국어 문장 임베딩 길이:  768
한국어 문장 임베딩 시간:  0.20738792419433594
영어 문장 임베딩 길이:  768
영어 문장 임베딩 시간:  0.04394221305847168


In [10]:
## InstructEmbeddings : Cost 0에 CPU/GPU/MPS 까지 지원
## default : hkunlp/instructor-large 모델 이외에 다양한 Task 모델 지원

from langchain.embeddings import HuggingFaceInstructEmbeddings
max_output = 0
embeddings = HuggingFaceInstructEmbeddings()

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

load INSTRUCTOR_Transformer
max_seq_length  512
한국어 문장 임베딩 길이:  768
한국어 문장 임베딩 시간:  0.13651299476623535
영어 문장 임베딩 길이:  768
영어 문장 임베딩 시간:  0.12634706497192383


In [8]:
## Jina : Cost 0에 CPU/GPU/MPS 까지 지원
## default : ViT-B-32::openai 모델 이외에 다양한 Task 모델 지원
## pip install jina + https://cloud.jina.ai/ 가입 후 Token 발급 받아야 함 + model 생성


from langchain.embeddings import JinaEmbeddings
max_output = 0
embeddings = JinaEmbeddings(jina_auth_token=jina_auth_token, model_name="ViT-B-32::openai")

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

한국어 문장 임베딩 길이:  512
한국어 문장 임베딩 시간:  2.2679479122161865
영어 문장 임베딩 길이:  512
영어 문장 임베딩 시간:  1.4199268817901611


In [None]:
## Llama-cpp : LLama model cpp version 
## !pip install llama-cpp-python / llamamodel 사용


from langchain.embeddings import LlamaCppEmbeddings

max_output = 0
embeddings = LlamaCppEmbeddings(model_path='/')

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

In [None]:
## MosaicML embeddings
# sign up for an account: https://forms.mosaicml.com/demo?utm_source=langchain
# pip install --upgrade mosaicml-cli 
from getpass import getpass

MOSAICML_API_TOKEN = getpass()

import os

os.environ["MOSAICML_API_TOKEN"] = MOSAICML_API_TOKEN

from langchain.embeddings import MosaicMLInstructorEmbeddings

max_output = 0
embeddings = MosaicMLInstructorEmbeddings()

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

In [9]:
## OpenAI Embeddings
from langchain.embeddings import OpenAIEmbeddings


max_output = 0
embeddings = OpenAIEmbeddings()

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

한국어 문장 임베딩 길이:  1536
한국어 문장 임베딩 시간:  0.30863404273986816
영어 문장 임베딩 길이:  1536
영어 문장 임베딩 시간:  0.389833927154541


In [None]:
## OpenAI Embeddings
from langchain.embeddings import TensorflowHubEmbeddings


max_output = 0
embeddings = TensorflowHubEmbeddings()

start = time.time()
kor_embed = embeddings.embed_query(kor_text)
end = time.time()

kor_cost = end - start
kor_len = len(kor_embed)

start = time.time()
eng_embed = embeddings.embed_query(eng_text)
end = time.time()
eng_cost = end - start
eng_len = len(eng_embed)

print("한국어 문장 임베딩 길이: ", kor_len)
print("한국어 문장 임베딩 시간: ", kor_cost)

print("영어 문장 임베딩 길이: ", eng_len)
print("영어 문장 임베딩 시간: ", eng_cost)

|model|max_dim|kor_cost|eng_cost|kor_dim|eng_dim|price|
|---|---|---|---|---|---|----|
|AlephAlphaAsymmetricSemanticEmbedding|128~5120|1.0295090675354004|0.4645390510559082|128|128|Base Price per 1000 input tokens 0.03 (€0.006)|
|AlephAlphaSymmetricSemanticEmbedding|128~5120|1.4380428791046143|0.3773219585418701|128|128|Base Price per 1000 input tokens 0.03 (€0.006)|
|CohereEmbeddings|4096|1.168846845626831|0.3746333122253418|768|768|$1.0 / 1k Embeddings|
|VertexAIEmbeddings|1024|-|-|-|-|$0.01 / 1k token|
|HuggingFaceEmbeddings|768|0.20738792419433594|0.04394221305847168|768|768|no cost|
|HuggingFaceInstructEmbeddings|512|0.1447281837463379|0.1259918212890625|768|768|no cost|
|LlamaCppEmbeddings|-|-|-|-|-|-|
|JinaEmbeddings|512|2.2679479122161865|1.4199268817901611|512|512|usage per credit(1000 req)|
|OpenAIEmbeddings|1536|0.30863404273986816|0.389833927154541|1536|1536|$0.0004 / 1k tokens|

In [43]:
from openai.embeddings_utils import get_embedding, cosine_similarity
