In [2]:
import numpy as np
import pandas as pd
import scipy.stats
from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer

model = SentenceTransformer("sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2")

In [3]:
df = pd.read_csv('data/sts-test_th.csv', header=None, names=['sent1', 'sent2', 'score'])
df.head()

Unnamed: 0,sent1,sent2,score
0,ผู้หญิงกำลังจัดแต่งทรงผมของเธอ,ผู้หญิงคนหนึ่งกำลังแปรงผมของเธอ,2.5
1,กลุ่มผู้ชายเล่นฟุตบอลบนชายหาด,กลุ่มเด็กผู้ชายกำลังเล่นฟุตบอลบนชายหาด,3.6
2,ผู้หญิงคนหนึ่งกำลังวัดข้อเท้าของผู้หญิงคนอื่น,ผู้หญิงวัดข้อเท้าของผู้หญิงคนอื่น,5.0
3,ผู้ชายกำลังตัดแตงกวา,ผู้ชายกำลังหั่นแตงกวา,4.2
4,ผู้ชายกำลังเล่นพิณ,ผู้ชายกำลังเล่นแป้นพิมพ์,1.5


In [4]:

# Extract sentences and scores
sentences1 = df['sent1']
sentences2 = df['sent2']
human_scores = df['score']

# Compute embeddings
sent1_emb = model.encode(sentences1, convert_to_tensor=True)
sent2_emb = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine similarities (full matrix)
cosine_similarities = cos_sim(sent1_emb, sent2_emb).cpu().numpy()

# Extract diagonal values (correct pairwise similarity)
cosine_similarities = np.diag(cosine_similarities)

# Compute Pearson and Spearman correlation
pearson_corr, _ = scipy.stats.pearsonr(human_scores, cosine_similarities)
spearman_corr, _ = scipy.stats.spearmanr(human_scores, cosine_similarities)

print(f"✅ Pearson Correlation: {pearson_corr:.4f}")
print(f"✅ Spearman Correlation: {spearman_corr:.4f}")

✅ Pearson Correlation: 0.7711
✅ Spearman Correlation: 0.7823


In [5]:
df = pd.read_excel('data/FineTsent.xlsx')
df.drop('score', axis=1, inplace=True)
df.head()

Unnamed: 0,sent1,sent2,normalize
0,ผู้ป่วยชื่ออะไร,ให้คนไข้,0.4
1,ไอบูโปรเพน,ไอบูโปรเพน,1.0
2,ความแรง400มิลลิกรัม,ความแรง400มิลลิกรัม,1.0
3,จำนวน10เม็ด,จำนวน10เม็ด,1.0
4,ใช้เพื่อบรรเทาอาการปวด,ใช้เพื่อบรรเทาอาการปวด,1.0


In [6]:

# Extract sentences and scores
sentences1 = df['sent1']
sentences2 = df['sent2']
human_scores = df['normalize']

# Compute embeddings
sent1_emb = model.encode(sentences1, convert_to_tensor=True)
sent2_emb = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine similarities (full matrix)
cosine_similarities = cos_sim(sent1_emb, sent2_emb).cpu().numpy()

# Extract diagonal values (correct pairwise similarity)
cosine_similarities = np.diag(cosine_similarities)

# Compute Pearson and Spearman correlation
pearson_corr, _ = scipy.stats.pearsonr(human_scores, cosine_similarities)
spearman_corr, _ = scipy.stats.spearmanr(human_scores, cosine_similarities)

print(f"✅ Pearson Correlation: {pearson_corr:.4f}")
print(f"✅ Spearman Correlation: {spearman_corr:.4f}")

✅ Pearson Correlation: 0.7980
✅ Spearman Correlation: 0.8936


In [7]:
model = SentenceTransformer("trained_model")

In [8]:
df = pd.read_csv('data/sts-test_th.csv', header=None, names=['sent1', 'sent2', 'score'])
df.head()

Unnamed: 0,sent1,sent2,score
0,ผู้หญิงกำลังจัดแต่งทรงผมของเธอ,ผู้หญิงคนหนึ่งกำลังแปรงผมของเธอ,2.5
1,กลุ่มผู้ชายเล่นฟุตบอลบนชายหาด,กลุ่มเด็กผู้ชายกำลังเล่นฟุตบอลบนชายหาด,3.6
2,ผู้หญิงคนหนึ่งกำลังวัดข้อเท้าของผู้หญิงคนอื่น,ผู้หญิงวัดข้อเท้าของผู้หญิงคนอื่น,5.0
3,ผู้ชายกำลังตัดแตงกวา,ผู้ชายกำลังหั่นแตงกวา,4.2
4,ผู้ชายกำลังเล่นพิณ,ผู้ชายกำลังเล่นแป้นพิมพ์,1.5


In [9]:

# Extract sentences and scores
sentences1 = df['sent1']
sentences2 = df['sent2']
human_scores = df['score']

# Compute embeddings
sent1_emb = model.encode(sentences1, convert_to_tensor=True)
sent2_emb = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine similarities (full matrix)
cosine_similarities = cos_sim(sent1_emb, sent2_emb).cpu().numpy()

# Extract diagonal values (correct pairwise similarity)
cosine_similarities = np.diag(cosine_similarities)

# Compute Pearson and Spearman correlation
pearson_corr, _ = scipy.stats.pearsonr(human_scores, cosine_similarities)
spearman_corr, _ = scipy.stats.spearmanr(human_scores, cosine_similarities)

print(f"✅ Pearson Correlation: {pearson_corr:.4f}")
print(f"✅ Spearman Correlation: {spearman_corr:.4f}")

✅ Pearson Correlation: 0.7754
✅ Spearman Correlation: 0.7836


In [10]:
df = pd.read_excel('data/FineTsent.xlsx')
df.drop('score', axis=1, inplace=True)
df.head()

Unnamed: 0,sent1,sent2,normalize
0,ผู้ป่วยชื่ออะไร,ให้คนไข้,0.4
1,ไอบูโปรเพน,ไอบูโปรเพน,1.0
2,ความแรง400มิลลิกรัม,ความแรง400มิลลิกรัม,1.0
3,จำนวน10เม็ด,จำนวน10เม็ด,1.0
4,ใช้เพื่อบรรเทาอาการปวด,ใช้เพื่อบรรเทาอาการปวด,1.0


In [11]:

# Extract sentences and scores
sentences1 = df['sent1']
sentences2 = df['sent2']
human_scores = df['normalize']

# Compute embeddings
sent1_emb = model.encode(sentences1, convert_to_tensor=True)
sent2_emb = model.encode(sentences2, convert_to_tensor=True)

# Compute cosine similarities (full matrix)
cosine_similarities = cos_sim(sent1_emb, sent2_emb).cpu().numpy()

# Extract diagonal values (correct pairwise similarity)
cosine_similarities = np.diag(cosine_similarities)

# Compute Pearson and Spearman correlation
pearson_corr, _ = scipy.stats.pearsonr(human_scores, cosine_similarities)
spearman_corr, _ = scipy.stats.spearmanr(human_scores, cosine_similarities)

print(f"✅ Pearson Correlation: {pearson_corr:.4f}")
print(f"✅ Spearman Correlation: {spearman_corr:.4f}")

✅ Pearson Correlation: 0.9991
✅ Spearman Correlation: 0.9517
