# คำเเนะนำ

*   ควรจะโหลดข้อมูลให้ครบ
*   เชื่อม google drive




**สิ่งที่จะใช้**

*    Embedding model คือ paraphrase-multilingual-MiniLM-L12-v2
*    vector database  ของ Chroma db
*    RAG ของ langchain


ทำการเชื่อม google drive

In [None]:
from google.colab import drive
drive.mount('/content/drive')


โหลดสิ่งที่จำเป็น

In [None]:
!pip install transformers torch chromadb
!pip install --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
!pip install -q langchain transformers chromadb requests
!pip install -q langchain chromadb requests

In [None]:
!pip install --upgrade torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
!pip install -q langchain transformers chromadb requests
!pip install -q langchain chromadb requests


ใช้โมเดล paraphrase-multilingual-MiniLM-L12-v2  ในการ Embed

In [None]:
from transformers import AutoTokenizer, AutoModel
import torch
import json
import numpy as np

# ใช้โมเดลที่โหลดได้จริง
model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

def embed_text(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    with torch.no_grad():
        outputs = model(**inputs)
    # mean pooling over token embeddings
    embeddings = outputs.last_hidden_state.mean(dim=1).squeeze()
    return embeddings.cpu().numpy()

def embed_recommendations(categorized_recommendations):
    for idx, rec in enumerate(categorized_recommendations, start=1):
        text = rec['text']
        embedding = embed_text(text)
        rec['embedding'] = embedding.tolist()
        print(f"✅ ข้อความที่ {idx} ได้รับการ embed แล้ว")
    return categorized_recommendations

def save_embeddings_to_file(data, output_file_path):
    with open(output_file_path, 'w', encoding='utf-8') as f:
        json.dump(data, f, ensure_ascii=False, indent=4)
    print(f"✅ บันทึกไฟล์ที่มีข้อมูล embedding ลงใน: {output_file_path}")

def read_recommendations(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        data = json.load(f)
    return data

# Main
file_path = '/content/drive/MyDrive/LockLearn/recommendations_with_categories.json'  # แก้ path ตามของคุณ
recommendations = read_recommendations(file_path)

recommendations_with_embeddings = embed_recommendations(recommendations)

embedding_output_file = '/content/drive/MyDrive/LockLearn/recommendations_with_embeddings_miniLM.json'
save_embeddings_to_file(recommendations_with_embeddings, embedding_output_file)

print("✅ เสร็จสิ้นการทำ embedding และบันทึกข้อมูลลงไฟล์แยก")


สร้าง vector database

In [None]:
import chromadb
import json

# 🚀 โหลดไฟล์ embeddings ที่มีอยู่แล้ว
embedding_file =   '/content/drive/MyDrive/LockLearn/recommendations_with_embeddings_miniLM.json'
with open(embedding_file, 'r', encoding='utf-8') as f:
    recommendations_with_embeddings = json.load(f)

# 🚀 สร้าง client และ collection
db_path = '/content/drive/MyDrive/LockLearn/chromadb_database_v4'  # ระบุ path ของฐานข้อมูล
client = chromadb.PersistentClient(path=db_path)

# ลบ Collection เก่า (ถ้ามี)
if "recommendations" in [col.name for col in client.list_collections()]:
    client.delete_collection(name="recommendations")

# สร้าง Collection ใหม่
collection = client.get_or_create_collection(name="recommendations")

# 🚀 เพิ่มข้อมูลที่มี embedding ลงใน Chroma DB
for i, rec in enumerate(recommendations_with_embeddings):
    collection.add(
        documents=[rec['text']],
        embeddings=[rec['embedding']],
        metadatas=[{"category": rec.get('category', 'Unknown')}],
        ids=[f"rec_{i}"]
    )

print("✅ เก็บคำแนะนำทั้งหมดที่มี embedding ลง Chroma DB ใน Google Drive เรียบร้อย")
