# Import Libraries

In [1]:
from encoder.encoder import TextEncoder
import pandas as pd
import numpy as np
import torch
from tqdm import tqdm

  from .autonotebook import tqdm as notebook_tqdm
  _torch_pytree._register_pytree_node(
  _torch_pytree._register_pytree_node(


# Prepare Function

In [2]:
def cosine_similarity(a, b):
    type_a = type(a)
    type_b = type(b)
    assert type_a == type_b, f"Type mismatch: {type_a} != {type_b}"

    if type_a == torch.Tensor:
        return a.dot(b) / (a.norm() * b.norm())
    
    elif type_a == np.ndarray:
        return a.dot(b) / (np.linalg.norm(a) * np.linalg.norm(b))
    
    return None

# Initialise Text Encoder

In [3]:
model_name = "BAAI/bge-m3" # "airesearch/wangchanberta-base-att-spm-uncased", "BAAI/bge-m3"
encoder = TextEncoder(model_name)

  _torch_pytree._register_pytree_node(


# Test Encoder

In [4]:
example_text = "สวัสดีครับ ผมชื่อหมูเด้ง ยินดีที่ได้รู้จักครับ"
example_embedding = encoder.encode(example_text)

print(f"Embedding shape: {example_embedding.shape}")

Embedding shape: torch.Size([1, 1024])


# Load and Preview Data

In [5]:
generated_path = "../generated/processed/combined_sentences_with_phoneme.csv"
df = pd.read_csv(generated_path)
df

Unnamed: 0,thai sentence,english sentence,thai phoneme,english phoneme
0,วันนี้อากาศดีมาก ฉันคิดว่าเราควรออกไปเดินเล่นท...,The weather is very nice today; do you think w...,w a n n iː4 _ ʔ aː k aː2 t _ d iː _ m aː3 k _ ...,ð ə _ w ɛ ð ɚ ɹ _ ɪ z _ v ɛ ɹ i _ n aɪ s _ t ə...
1,แม้ว่าฝนจะตกหนัก แต่ฉันก็ยังต้องไปทำงานเพราะมี...,"Even though it's raining heavily, I still have...",m ɛː4 w aː3 _ f o5 n _ c a2 _ t o2 k n a2 k _ ...,iː v ə n _ ð oʊ _ ɪ t s _ ɹ eɪ n ɪ ŋ _ h ɛ v i...
2,เมื่อวานฉันได้พบกับเพื่อนเก่าที่ไม่ได้เจอกันมา...,Yesterday I met an old friend whom I haven't s...,m ɯːa3 w aː n _ cʰ a5 n _ d aː3 j _ pʰ o4 p _ ...,j ɛ s t ɚ d eɪ _ aɪ _ m ɛ t _ ɐ n _ oʊ l d _ f...
3,ถ้าคุณมีเวลาว่างสุดสัปดาห์นี้ เราไปเที่ยวภูเขา...,"If you have free time this weekend, should we ...",tʰ aː3 _ kʰ u n _ m iː _ w eː l aː w aː3 ŋ _ s...,ɪ f _ j uː _ h æ v _ f ɹ iː _ t aɪ m _ ð ɪ s _...
4,ก่อนที่จะตัดสินใจซื้อบ้านหลังนี้ เราควรพิจารณา...,"Before deciding to buy this house, we should c...",k ᴐː2 n _ tʰ iː3 _ c a2 _ t a2 t s i5 n c a j ...,b ɪ f oːɹ _ d ᵻ s aɪ d ɪ ŋ _ t ə _ b aɪ _ ð ɪ ...
...,...,...,...,...
2500,ถ้าเรามีความพยายาม ไม่มีอะไรที่เป็นไปไม่ได้,"If we have determination, nothing is impossible",tʰ aː3 _ r a w _ m iː _ kʰw aː m pʰ a4 j aː j ...,"ɪ f _ w iː _ h æ v _ d ɪ t ɜː m ᵻ n eɪ ʃ ə n ,..."
2501,เราควรอนุรักษ์วัฒนธรรมและประเพณีที่ดีงามของเรา,We should preserve our good culture and tradit...,r a w _ kʰ uːa n _ ʔ a2 n u4 r a4 k _ w a4 t t...,w iː _ ʃ ʊ d _ p ɹ ɪ s ɜː v _ aʊ ɚ _ ɡ ʊ d _ k...
2502,การเดินทางทำให้เราได้เรียนรู้และเห็นโลกในมุมที...,Traveling allows us to learn and see the world...,k aː n _ d ɤː n tʰ aː ŋ _ tʰ a m h a3 j _ r a ...,t ɹ æ v ə l ɪ ŋ _ ɐ l aʊ z _ ʌ s _ t ə _ l ɜː ...
2503,ฉันสนใจเรื่องการถ่ายภาพและอยากปรับปรุงทักษะของ...,I'm interested in photography and want to impr...,cʰ a5 n _ s o5 n c a j _ r ɯːa3 ŋ _ k aː n _ t...,aɪ m _ ɪ n t ɹ ə s t ᵻ d _ ɪ n _ f ə t ɑː ɡ ɹ ...


# Encode

In [6]:
encoded_texts = []
for index, row in tqdm(df.iterrows(), desc="Encoding", total=len(df)):
    text = row["thai sentence"]
    encoded_text = encoder.encode(text)
    encoded_texts.append(encoded_text)

Encoding: 100%|██████████| 2505/2505 [01:14<00:00, 33.85it/s]


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [7]:
encoded_texts = [enc.flatten().cpu().numpy() for enc in encoded_texts]
np_encoded_texts = np.array(encoded_texts)

# Cosine Similarity

In [8]:
cosine_similarities = {} # keys (i, j) where i < j
for i in tqdm(range(len(np_encoded_texts)), desc="Calculating cosine similarities", total=len(np_encoded_texts)):
    for j in range(i + 1, len(np_encoded_texts)):
        cosine_sim = cosine_similarity(np_encoded_texts[i], np_encoded_texts[j])
        cosine_similarities[(i, j)] = cosine_sim

# assert len(cosine_similarities) == len(df) * (len(df) - 1) // 2

Calculating cosine similarities: 100%|██████████| 2505/2505 [00:23<00:00, 106.91it/s]


In [9]:
import pickle
with open("pickled/cosine_similarities.pkl", "wb") as f:
    pickle.dump(cosine_similarities, f)
with open(f"pickled/embeddings_{model_name.split('/')[-1]}.pkl", "wb") as f:
    pickle.dump(np_encoded_texts, f)