In [1]:
from sentence_transformers import SentenceTransformer
import pandas as pd
import numpy as np

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
bge = SentenceTransformer("BAAI/bge-m3")

In [3]:
df = pd.DataFrame()

In [4]:
def text_sim(model, text1: list, text2: list):
    embeddings1 = model.encode(text1)
    embeddings2 = model.encode(text2)
    similarities = model.similarity(embeddings1, embeddings2)

    for idx_i, sentence1 in enumerate(text1):
        print(f"{sentence1}")
        for idx_j, sentence2 in enumerate(text2):
            print(f" - {sentence2: <30}: {similarities[idx_i][idx_j]:.4f}")

    return similarities

In [5]:
sentences = [
    "บริษัท ยนไดเมะ คิคุคาวะ",
    "บริษัท ยนไดเมะ คิคุคาวะ (ประเทศไทย)",
    "ยนไดเมะ คิคุคาวะ (ประเทศไทย)",
    "ยนไดเมะ คิคุคาวะ"
]
sim = text_sim(bge,sentences,sentences)

data = []
for idx_i, sentence1 in enumerate(sentences):
    for idx_j, sentence2 in enumerate(sentences):
        data.append({
            "Sentence 1": sentence1,
            "Sentence 2": sentence2,
            "Similarity": np.round(sim[idx_i][idx_j].item() * 100,4)
        })
df = pd.concat([df,pd.DataFrame(data)])

บริษัท ยนไดเมะ คิคุคาวะ
 - บริษัท ยนไดเมะ คิคุคาวะ       : 1.0000
 - บริษัท ยนไดเมะ คิคุคาวะ (ประเทศไทย): 0.8388
 - ยนไดเมะ คิคุคาวะ (ประเทศไทย)  : 0.7590
 - ยนไดเมะ คิคุคาวะ              : 0.8474
บริษัท ยนไดเมะ คิคุคาวะ (ประเทศไทย)
 - บริษัท ยนไดเมะ คิคุคาวะ       : 0.8388
 - บริษัท ยนไดเมะ คิคุคาวะ (ประเทศไทย): 1.0000
 - ยนไดเมะ คิคุคาวะ (ประเทศไทย)  : 0.9329
 - ยนไดเมะ คิคุคาวะ              : 0.6802
ยนไดเมะ คิคุคาวะ (ประเทศไทย)
 - บริษัท ยนไดเมะ คิคุคาวะ       : 0.7590
 - บริษัท ยนไดเมะ คิคุคาวะ (ประเทศไทย): 0.9329
 - ยนไดเมะ คิคุคาวะ (ประเทศไทย)  : 1.0000
 - ยนไดเมะ คิคุคาวะ              : 0.7014
ยนไดเมะ คิคุคาวะ
 - บริษัท ยนไดเมะ คิคุคาวะ       : 0.8474
 - บริษัท ยนไดเมะ คิคุคาวะ (ประเทศไทย): 0.6802
 - ยนไดเมะ คิคุคาวะ (ประเทศไทย)  : 0.7014
 - ยนไดเมะ คิคุคาวะ              : 1.0000


In [6]:
sentences = [
    "Dean & Deluca",
    "DEAN & DELUCA",
    "Dean & Deluca Asia",
    "Dean & Deluca Asia (Thailand)",
    "Dean & Deluca Asia (Thailand) Co., Ltd.",
]
sim = text_sim(bge,sentences,sentences)

data = []
for idx_i, sentence1 in enumerate(sentences):
    for idx_j, sentence2 in enumerate(sentences):
        data.append({
            "Sentence 1": sentence1,
            "Sentence 2": sentence2,
            "Similarity": np.round(sim[idx_i][idx_j].item() * 100,4)
        })
df = pd.concat([df,pd.DataFrame(data)])

Dean & Deluca
 - Dean & Deluca                 : 1.0000
 - DEAN & DELUCA                 : 0.8454
 - Dean & Deluca Asia            : 0.8625
 - Dean & Deluca Asia (Thailand) : 0.6822
 - Dean & Deluca Asia (Thailand) Co., Ltd.: 0.6780
DEAN & DELUCA
 - Dean & Deluca                 : 0.8454
 - DEAN & DELUCA                 : 1.0000
 - Dean & Deluca Asia            : 0.7346
 - Dean & Deluca Asia (Thailand) : 0.5807
 - Dean & Deluca Asia (Thailand) Co., Ltd.: 0.5887
Dean & Deluca Asia
 - Dean & Deluca                 : 0.8625
 - DEAN & DELUCA                 : 0.7346
 - Dean & Deluca Asia            : 1.0000
 - Dean & Deluca Asia (Thailand) : 0.8179
 - Dean & Deluca Asia (Thailand) Co., Ltd.: 0.7658
Dean & Deluca Asia (Thailand)
 - Dean & Deluca                 : 0.6822
 - DEAN & DELUCA                 : 0.5807
 - Dean & Deluca Asia            : 0.8179
 - Dean & Deluca Asia (Thailand) : 1.0000
 - Dean & Deluca Asia (Thailand) Co., Ltd.: 0.8888
Dean & Deluca Asia (Thailand) Co., Ltd.
 - Dean

In [None]:
sentences = [
    "Big C Market",
    "BIG C MARKET",
    "BIGC MARKET",
]
sim = text_sim(bge,sentences,sentences)

data = []
for idx_i, sentence1 in enumerate(sentences):
    for idx_j, sentence2 in enumerate(sentences):
        data.append({
            "Sentence 1": sentence1,
            "Sentence 2": sentence2,
            "Similarity": np.round(sim[idx_i][idx_j].item() * 100,4)
        })
df = pd.concat([df,pd.DataFrame(data)])

Big C Market
 - Big C Market                  : 1.0000
 - BIG C MARKET                  : 0.8478
 - BIGC MARKET                   : 0.7203
 - BIG C MARKET                  : 0.8478
BIG C MARKET
 - Big C Market                  : 0.8478
 - BIG C MARKET                  : 1.0000
 - BIGC MARKET                   : 0.8777
 - BIG C MARKET                  : 1.0000
BIGC MARKET
 - Big C Market                  : 0.7203
 - BIG C MARKET                  : 0.8777
 - BIGC MARKET                   : 1.0000
 - BIG C MARKET                  : 0.8777
BIG C MARKET
 - Big C Market                  : 0.8478
 - BIG C MARKET                  : 1.0000
 - BIGC MARKET                   : 0.8777
 - BIG C MARKET                  : 1.0000


In [9]:
sentences = [
    "Hachicken Ramen",
    "KYOTO RAMEN HACHICKEN",
    "Hachicken",
    "Kyoto Ramen Hachicken",
]
sim = text_sim(bge,sentences,sentences)

data = []
for idx_i, sentence1 in enumerate(sentences):
    for idx_j, sentence2 in enumerate(sentences):
        data.append({
            "Sentence 1": sentence1,
            "Sentence 2": sentence2,
            "Similarity": np.round(sim[idx_i][idx_j].item() * 100,4)
        })
df = pd.concat([df,pd.DataFrame(data)])

Hachicken Ramen
 - Hachicken Ramen               : 1.0000
 - KYOTO RAMEN HACHICKEN         : 0.7382
 - Hachicken                     : 0.8774
 - Kyoto Ramen Hachicken         : 0.8850
KYOTO RAMEN HACHICKEN
 - Hachicken Ramen               : 0.7382
 - KYOTO RAMEN HACHICKEN         : 1.0000
 - Hachicken                     : 0.6257
 - Kyoto Ramen Hachicken         : 0.7837
Hachicken
 - Hachicken Ramen               : 0.8774
 - KYOTO RAMEN HACHICKEN         : 0.6257
 - Hachicken                     : 1.0000
 - Kyoto Ramen Hachicken         : 0.7604
Kyoto Ramen Hachicken
 - Hachicken Ramen               : 0.8850
 - KYOTO RAMEN HACHICKEN         : 0.7837
 - Hachicken                     : 0.7604
 - Kyoto Ramen Hachicken         : 1.0000
