# 🧪 Workshop: การวิเคราะห์ข้อความเชิงบริบทด้วย Text Embedding
### Contextual Text Analysis using Sentence Embedding
ผู้สอน: Assist. Prof. Dr. CJ  
วัตถุประสงค์: เรียนรู้การสร้างและวิเคราะห์ Text Embedding ภาษาไทยด้วย SentenceTransformer

In [None]:
!pip install -q sentence-transformers matplotlib scikit-learn

## ส่วนที่ 1: โหลดโมเดลและเตรียมข้อมูลตัวอย่าง

In [None]:
from sentence_transformers import SentenceTransformer, util
import numpy as np
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE

# โหลดโมเดล multilingual ที่รองรับภาษาไทย
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# ข้อความตัวอย่างภาษาไทย
texts = [
    "รถยนต์ไฟฟ้าเป็นมิตรต่อสิ่งแวดล้อม",
    "ยานยนต์พลังงานสะอาดกำลังได้รับความนิยม",
    "ธนาคารให้บริการสินเชื่อบ้าน",
    "แม่น้ำมีน้ำมากในฤดูฝน",
    "รถยนต์ใช้น้ำมันเชื้อเพลิง"
]

print("จำนวนข้อความที่ใช้ในการทดลอง:", len(texts))

## ส่วนที่ 2: การสร้าง Text Embeddings

In [None]:
embeddings = model.encode(texts)
print("Embedding Shape:", embeddings.shape)
print("\nตัวอย่างเวกเตอร์ของข้อความแรก:")
print(embeddings[0][:10])

## ส่วนที่ 3: การวัดความคล้ายคลึงของข้อความ

In [None]:
similarity = util.cos_sim(embeddings, embeddings)
print("\nตารางความคล้ายคลึง (Cosine Similarity Matrix):\n")
print(similarity)

print("\n=== การวิเคราะห์ความคล้ายคลึงเชิงความหมาย ===\n")
for i in range(len(texts)):
    for j in range(i+1, len(texts)):
        print(f"[{texts[i]}] ↔ [{texts[j]}] = {similarity[i][j]:.3f}")

## ส่วนที่ 4: การแสดงภาพเชิงเวกเตอร์ด้วย t-SNE

In [None]:
tsne = TSNE(n_components=2, random_state=42, perplexity=5)
reduced = tsne.fit_transform(embeddings)

plt.figure(figsize=(8,6))
plt.scatter(reduced[:,0], reduced[:,1], s=80)
for i, text in enumerate(texts):
    plt.annotate(text, (reduced[i,0]+0.2, reduced[i,1]), fontsize=12)
plt.title("Visualization of Thai Sentence Embeddings", fontsize=14)
plt.xlabel("t-SNE Dimension 1")
plt.ylabel("t-SNE Dimension 2")
plt.grid(True)
plt.show()

## ส่วนที่ 5: สรุปและอภิปรายผล

In [None]:
print("\n🧠 สรุปเชิงแนวคิด:")
print("- ข้อความที่มีความหมายใกล้เคียงกัน เช่น 'รถยนต์ไฟฟ้า' กับ 'ยานยนต์พลังงานสะอาด' จะอยู่ใกล้กันในพื้นที่เวกเตอร์")
print("- ข้อความที่บริบทต่างกัน เช่น 'รถยนต์ไฟฟ้า' กับ 'ธนาคาร' จะมีระยะห่างมาก")
print("- แสดงให้เห็นว่า embedding ช่วยให้ระบบเข้าใจ 'ความหมาย' มากกว่า 'คำ'")