In [None]:
# -- Cell 1: Imports
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core.node_parser import TokenTextSplitter
import numpy as np



In [None]:
# -- Cell 2: ฟังก์ชัน cosine similarity
def cosine_sim(a, b):
    return np.dot(a, b) / (np.linalg.norm(a)*np.linalg.norm(b))



In [None]:
# -- Cell 3: เปรียบเทียบประโยคหลายกรณี
sentence_pairs = [
    # ใกล้เคียง/แทบเหมือนกัน
    ("AI ช่วยให้การทำงานสะดวกขึ้น", "AI ทำให้การทำงานสะดวกมากขึ้น"),
    # คล้ายแต่บริบทต่าง
    ("AI ในไทยเติบโตเร็ว", "AI ในต่างประเทศเติบโตเร็ว"),
    # ต่างกันชัดเจน
    ("ประเทศไทยมีภูเขาสวยงาม", "การประมวลผลภาษาธรรมชาติสำคัญกับ AI"),
    # ประโยคคนละเรื่องแต่มีบางคำเหมือนกัน
    ("การวิจัย AI สำคัญมาก", "AI ในประเทศไทยสำคัญมาก"),
    # ความหมายตรงข้าม
    ("AI ช่วยเพิ่มประสิทธิภาพ", "AI ทำให้ประสิทธิภาพลดลง"),
    # คำซ้ำบริบทต่าง
    ("การประชุมออนไลน์มีข้อดี", "ข้อดีของการประชุมแบบออฟไลน์"),
    # ประโยคสั้นๆ
    ("AI สำคัญ", "AI ไม่สำคัญ"),
]

embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")
all_sims = []

for i, (s1, s2) in enumerate(sentence_pairs):
    v1 = embed_model.get_text_embedding(s1)
    v2 = embed_model.get_text_embedding(s2)
    sim = cosine_sim(v1, v2)
    print(f"คู่ที่ {i+1}")
    print(f"  1: {s1}")
    print(f"  2: {s2}")
    print(f"  -> cosine similarity: {sim:.4f}")
    all_sims.append(sim)
    print('-'*30)




In [None]:
# -- Cell 4: ให้ผู้เรียนสังเกตและตั้งข้อสังเกต
print("\nข้อสังเกต: ค่า similarity ยิ่งเข้าใกล้ 1 คือความหมายใกล้กัน, เข้าใกล้ 0 คือความหมายต่าง, ถ้าค่าติดลบแสดงถึงความตรงข้าม\n")



In [None]:
# -- Cell 5: [Optional] ลองเพิ่ม/แก้ไข sentence pairs ด้วยตัวเอง แล้วดู similarity
# ทดลองเพิ่มเอง เช่น
# your_sentence1 = "..."
# your_sentence2 = "..."
# v1 = embed_model.get_text_embedding(your_sentence1)
# v2 = embed_model.get_text_embedding(your_sentence2)
# print("cosine similarity:", cosine_sim(v1, v2))


In [None]:

# -- Cell 6: Section เปรียบเทียบ chunking เหมือนเดิม
sample_text = """การเลือกขนาด chunk ที่เหมาะสมสำคัญมากสำหรับ RAG
chunk ขนาดเล็กให้บริบทน้อยแต่ค้นหาได้ละเอียด
chunk ใหญ่ได้บริบทมากแต่ความแม่นยำลดลง"""

for chunk_size in [32, 64, 128]:
    splitter = TokenTextSplitter(chunk_size=chunk_size, chunk_overlap=8)
    chunks = splitter.split_text(sample_text)
    print(f"\n--- Chunk Size: {chunk_size} ---")
    for i, c in enumerate(chunks):
        print(f"[{i}] {c}")