# Import Libraries

In [1]:
import matplotlib.pyplot as plt
from tqdm import tqdm
import pandas as pd
import numpy as np
import torch

# Load Data

In [2]:
import pickle

with open("pickled/cosine_similarities.pkl", "rb") as f:
    cosine_similarities = pickle.load(f)
with open("pickled/embeddings_bge-m3.pkl", "rb") as f:
    np_encoded_texts = pickle.load(f)

In [7]:
generated_path = "../generated/processed/combined_sentences_with_phoneme.csv"
df = pd.read_csv(generated_path)

# Binning

In [3]:
sorted_cosine_similarities = sorted(cosine_similarities.items(), key=lambda x: x[1], reverse=True)

# do binning
bins = np.linspace(0, 1, 11)
bin_counts = np.zeros(10, dtype=int)
for _, cosine_sim in tqdm(sorted_cosine_similarities):
    for i in range(10):
        if cosine_sim < bins[i + 1]:
            bin_counts[i] += 1
            break

100%|██████████| 2049300/2049300 [00:04<00:00, 417601.50it/s]


In [4]:
print(bin_counts)

[      0       0       0       0       1   56325 1508419  457234   25191
    2120]


In [5]:
with open("results/bin_result.txt", "w") as f:
    for i, count in enumerate(bin_counts):
        f.write(f"Bin {i}: {count}\n")

# Thresholding

In [8]:
threshold = 0.9
cos_sims, line1, sent1, line2, sent2 = [], [], [], [], []
for (i, j), cosine_sim in sorted_cosine_similarities:
    if cosine_sim < threshold:
        break
    print(f"Cosine similarity: {cosine_sim:.2f}")
    print(f"Line {i+2}: {df.iloc[i]['thai sentence']}")
    print(f"Line {j+2}: {df.iloc[j]['thai sentence']}")
    print()
    cos_sims.append(round(cosine_sim, 3))
    line1.append(i+2)
    line2.append(j+2)
    sent1.append(df.iloc[i]['thai sentence'])
    sent2.append(df.iloc[j]['thai sentence'])
df_sim = pd.DataFrame({"cosine similarity": cos_sims, "line1": line1, "sentence1": sent1, "line2": line2, "sentence2": sent2})
df_sim.to_csv("results/cosine_similarities.csv", index=False)

Cosine similarity: 1.00
Line 460: ถ้าเราไม่ลอง เราก็จะไม่รู้ว่าผลลัพธ์จะเป็นอย่างไร
Line 871: ถ้าเราไม่ลอง เราก็จะไม่รู้ว่าผลลัพธ์จะเป็นอย่างไร

Cosine similarity: 1.00
Line 810: ฉันตั้งใจว่าจะออกกำลังกายทุกวันเพื่อสุขภาพที่ดีขึ้น
Line 1596: ฉันตั้งใจว่าจะออกกำลังกายทุกวันเพื่อสุขภาพที่ดีขึ้น

Cosine similarity: 1.00
Line 850: ฉันชอบฟังเพลงขณะขับรถ เพราะมันทำให้รู้สึกผ่อนคลาย
Line 1018: ฉันชอบฟังเพลงขณะขับรถ เพราะมันทำให้รู้สึกผ่อนคลาย

Cosine similarity: 1.00
Line 306: ถ้าเราช่วยกันรักษาสิ่งแวดล้อม โลกของเราก็จะน่าอยู่ขึ้น
Line 636: ถ้าเราช่วยกันรักษาสิ่งแวดล้อม โลกของเราก็จะน่าอยู่ขึ้น

Cosine similarity: 1.00
Line 431: ถ้าเราช่วยกันทำงานนี้ เราจะเสร็จเร็วขึ้น
Line 1602: ถ้าเราช่วยกันทำงานนี้ เราจะเสร็จเร็วขึ้น

Cosine similarity: 1.00
Line 709: การสื่อสารที่ดีเป็นกุญแจสำคัญในการทำงานเป็นทีมอย่างมีประสิทธิภาพ
Line 1287: การสื่อสารที่ดีเป็นกุญแจสำคัญในการทำงานเป็นทีมอย่างมีประสิทธิภาพ

Cosine similarity: 1.00
Line 832: คุณคิดว่าอนาคตของเทคโนโลยีจะเป็นอย่างไร
Line 2026: คุณคิดว่าอนาคตข