# Disclaimer & Copyright

Copyright 2024 Forusone : shins777@gmail.com

Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with the License. You may obtain a copy of the License at

https://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the specific language governing permissions and limitations under the License.

# Gemini - Korean text embedding test
* This notebook explains how to use Korean embeddings and understand vectorization.
* Refer to the link for more information about the embeddings.
 * https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/text-embeddings


# Configuration


In [1]:
%pip install -U -q sentence_transformers

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m227.1/227.1 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m21.3/21.3 MB[0m [31m13.3 MB/s[0m eta [36m0:00:00[0m
[?25h

## Authentication to access to the GCP & Google drive

* Use OAuth to access the GCP environment.
 * Refer to the authentication methods in GCP : https://cloud.google.com/docs/authentication?hl=ko

In [2]:
#  For only colab to authenticate to get an access to the GCP.
import sys

if "google.colab" in sys.modules:
    from google.colab import auth
    auth.authenticate_user()

* Mount to the google drive to access the .ipynb files in the repository.



In [3]:
# To access contents in Google drive

if "google.colab" in sys.modules:
  from google.colab import drive
  drive.mount('/content/drive')

Mounted at /content/drive


## Functions to evaluate similarity

In [4]:
import numpy as np
import torch.nn as nn

""" torch matrix multiplication """
def cal_mm(a, b):
  if len(a.shape) == 1: a = a.unsqueeze(0)
  if len(b.shape) == 1: b = b.unsqueeze(0)

  a_norm = a / a.norm(dim=1)[:, None]
  b_norm = b / b.norm(dim=1)[:, None]
  return torch.mm(a_norm, b_norm.transpose(0, 1)) * 100

""" torch cosine similarity """
def cal_cosine(a, b):
  cos = nn.CosineSimilarity(dim=1, eps=1e-6)
  output = cos(a, b)
  return output

""" torch dot product similarity """
def cal_dot_product(a, b):
  a1= a[0]
  b1= b[0]
  return torch.dot(a1, b1)

In [5]:
import torch

def print_similarity(embeddings):

  mm_score0 = cal_mm(torch.from_numpy(embeddings[0]),torch.from_numpy(embeddings[0]) )
  mm_score1 = cal_mm(torch.from_numpy(embeddings[0]),torch.from_numpy(embeddings[1]) )
  mm_score2 = cal_mm(torch.from_numpy(embeddings[0]),torch.from_numpy(embeddings[2]) )
  mm_score3 = cal_mm(torch.from_numpy(embeddings[0]),torch.from_numpy(embeddings[3]) )
  mm_score4 = cal_mm(torch.from_numpy(embeddings[0]),torch.from_numpy(embeddings[4]) )

  print(f"mm_score0[{mm_score0}]")
  print(f"mm_score1[{mm_score1}]")
  print(f"mm_score2[{mm_score2}]")
  print(f"mm_score3[{mm_score3}]")
  print(f"mm_score4[{mm_score4}]")

In [6]:

from sentence_transformers import SentenceTransformer

def get_embeddings(model_name, sentences):

  model = SentenceTransformer(model_name)
  embeddings = model.encode(sentences)

  return embeddings

  from tqdm.autonotebook import tqdm, trange


In [7]:

sentence0 = """ 2024년에는 인공지능 기술을 활용한 다양한 고객서비스에 대한 요구를 많이 한다. """

sentence1 = """ 2024년에는 경기 둔화 여파로 사람들은 절약을 할 것이고 인공지능 기술을 활용한 다양한 고객서비스에 대한 요구를 많이 한다.
인공지능을 활용하기 위한 고객 서비스는 다양한 형태의 활용사례를 만들수 있으며, 금융회사의 고객 상담 센터가 가장 적합한 형태의 서비스가 될 가능성이 있다.
기타 다양한 산업 분야에서의 지식검색을 통한 고객서비스도 좋은 사례가 될수 있다.
"""

sentence2 = """ 2024년 금융소비 트렌드와 금융 기회를 보면 2024년에는 경기 둔화의 여파로 안전하고 절약 지향적인 재무관리 태도가 소비자의 금융생활 전반에 확산될 전망이다.
또한, 인공지능(AI) 등 디지털 혁신이 고도화되면서 1:1 맞춤형 자산관리나 웨어러블(Wearable) 기반의 간편 결제 서비스에 대한 기대는 점점 커지고 있다.
사회적 의식이 성숙하면서 금융권의 책임경영이 중시되는 경향과 연령이 낮아지는 미래 손님군의 특징도 눈여겨 볼만하다.
"""

sentence3 = """ 피아노는 17세기 말, 이탈리아의 피렌체에서 처음으로 그 모습을 드러냈다.
피아노는 제작자 ‘바르톨로메오 크리스토포리(Bartolomeo Cristofori, 1655-1732)’가 처음 발명한 것으로 추측되며,
당시 크리스토포리는 피렌체를 대표하는 가문 ‘메디치’를 위해 건반악기를 제작하고 있었다. 피아노의 전신 하프시코드, 스피넷등을 제작하던 크리스토포리는 1689년경 피아노 제작에 착수했을 것으로 추정되며,
1710년경에는 피아노 3대를 완성했다는 기록이 남아있다.
"""

sentence4 = """ 2024년에는 사람들은 점점 소비를 줄이게 될것이다. """

# sentence0 ="호랑이가 토끼를 쫒아간다"
# sentence1 ="토끼가 호랑이에게 쫒긴다"
# sentence2 ="호랑이가 토끼 뒤에 있다"
# sentence3 ="호랑이 같은 고양이가 토끼를 쫒고 있다"
# sentence4 ="고양이가 사슴을 보고 있다"

## snunlp/KR-SBERT-V40K-klueNLI-augSTS
* https://huggingface.co/snunlp/KR-SBERT-V40K-klueNLI-augSTS


In [8]:

model_name = 'snunlp/KR-SBERT-V40K-klueNLI-augSTS'
sentences = [sentence0, sentence1, sentence2, sentence3, sentence4 ]

embeddings = get_embeddings(model_name, sentences)
print_similarity(embeddings)


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.02k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]



config.json:   0%|          | 0.00/707 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/467M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/394 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/336k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/967k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

mm_score0[tensor([[100.0000]])]
mm_score1[tensor([[79.6881]])]
mm_score2[tensor([[71.4170]])]
mm_score3[tensor([[0.1466]])]
mm_score4[tensor([[35.8840]])]


## sentence-transformers/stsb-xlm-r-multilingual
* https://huggingface.co/sentence-transformers/stsb-xlm-r-multilingual

In [9]:
model_name = 'sentence-transformers/stsb-xlm-r-multilingual'
sentences = [sentence0, sentence1, sentence2, sentence3, sentence4 ]

embeddings = get_embeddings(model_name, sentences)
print_similarity(embeddings)

modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.73k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/709 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/505 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

mm_score0[tensor([[100.0000]])]
mm_score1[tensor([[72.4863]])]
mm_score2[tensor([[45.2171]])]
mm_score3[tensor([[22.4821]])]
mm_score4[tensor([[25.6795]])]
