In [1]:
! ollama list

NAME              	ID          	SIZE  	MODIFIED    
llama2:latest     	78e26419b446	3.8 GB	2 weeks ago	
openthaigpt:latest	e242a9902d99	4.1 GB	2 weeks ago	


In [2]:
import requests
import numpy as np

# Function to get embedding from OpenThaiGPT via Ollama
def get_embedding(text):
    response = requests.post('http://localhost:11434/api/embeddings', json={
        "model": "openthaigpt",
        "prompt": text
    })
    return np.array(response.json()['embedding'])

# Function to get word embedding (simplified, may need adjustment)
def get_word_embedding(sentence, word):
    full_embedding = get_embedding(sentence)
    # This is a simplification. In reality, we might need a more sophisticated
    # method to extract the embedding for a specific word.
    return full_embedding

# Example sentences using "ตา" in different contexts
sentences = [
    "ตาของฉันมองเห็นได้ไม่ชัดเจนในที่มืด",
    "ตาของฉันชอบเล่านิทานให้หลานฟัง",
    "ตาข่ายนี้มีตาห่างกัน 1 นิ้ว",
    "หมอตาแนะนำให้ฉันใส่แว่นสายตา",
    "ฉันชอบทานข้าวกับน้ำพริกปลาทู และไข่ต้มไข่ตาเดียว",
    "ตาของแมวมองเห็นได้ในที่มืด"  # ประโยคที่ 6: ใช้ "ตา" ในความหมายเดียวกับประโยคที่ 1
]

# Get embeddings for 'ตา' in each context
embeddings = [get_word_embedding(sentence, 'ตา') for sentence in sentences]

# Function to compute cosine similarity
def cosine_similarity(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

# Compute pairwise similarities
similarities = np.zeros((len(embeddings), len(embeddings)))
for i in range(len(embeddings)):
    for j in range(len(embeddings)):
        similarities[i][j] = cosine_similarity(embeddings[i], embeddings[j])

# Print results
for i, sentence in enumerate(sentences):
    print(f"ประโยค {i+1}: {sentence}")
    print(f"Embedding สำหรับ 'ตา' (5 มิติแรก): {embeddings[i][:5]}")
    print()

print("Cosine Similarities:")
for i in range(len(similarities)):
    for j in range(len(similarities)):
        print(f"{similarities[i][j]:.4f}", end="\t")
    print()

# Find the most similar pair of sentences
max_similarity = 0
max_pair = (0, 0)
for i in range(len(similarities)):
    for j in range(i+1, len(similarities)):
        if similarities[i][j] > max_similarity:
            max_similarity = similarities[i][j]
            max_pair = (i, j)

print(f"\nประโยคที่มีความคล้ายคลึงกันมากที่สุด: ประโยค {max_pair[0]+1} และประโยค {max_pair[1]+1}")
print(f"ค่าความคล้ายคลึง: {max_similarity:.4f}")
print(f"ประโยค {max_pair[0]+1}: {sentences[max_pair[0]]}")
print(f"ประโยค {max_pair[1]+1}: {sentences[max_pair[1]]}")

ประโยค 1: ตาของฉันมองเห็นได้ไม่ชัดเจนในที่มืด
Embedding สำหรับ 'ตา' (5 มิติแรก): [ 1.02773631 -2.00147319 -0.6744923  -3.36433649  0.16465473]

ประโยค 2: ตาของฉันชอบเล่านิทานให้หลานฟัง
Embedding สำหรับ 'ตา' (5 มิติแรก): [ 1.74994242 -1.75833607 -2.10216713  0.96326739  2.70796347]

ประโยค 3: ตาข่ายนี้มีตาห่างกัน 1 นิ้ว
Embedding สำหรับ 'ตา' (5 มิติแรก): [ 2.13430572  1.53308547 -0.56140751  1.03662014  0.58016777]

ประโยค 4: หมอตาแนะนำให้ฉันใส่แว่นสายตา
Embedding สำหรับ 'ตา' (5 มิติแรก): [-1.33564496 -1.12100363  0.12250137  0.33749661  2.37906742]

ประโยค 5: ฉันชอบทานข้าวกับน้ำพริกปลาทู และไข่ต้มไข่ตาเดียว
Embedding สำหรับ 'ตา' (5 มิติแรก): [-1.28735363 -1.37021363  1.30141366  0.32551229 -1.54150462]

ประโยค 6: ตาของแมวมองเห็นได้ในที่มืด
Embedding สำหรับ 'ตา' (5 มิติแรก): [ 1.47900188  2.06987476 -0.55017507 -1.43172538 -2.80366635]

Cosine Similarities:
1.0000	0.1798	0.1514	0.1494	0.1410	0.3805	
0.1798	1.0000	0.1313	0.1224	0.1869	0.1640	
0.1514	0.1313	1.0000	0.0779	0.1526	0.2062	
0.