# RAG Tutorial

## สิ่งที่จะได้รู้
- การใช้งาน OpenAI Client
- การใช้งาน OpenAI API Compatibility
- การใช้งาน Role system, user, assistant
- การใช้งาน Embedding
- การใช้งาน VectorDB
- การสร้าง RAG

## สิ่งที่คาดหวัง
- สามารถสร้าง RAG โดยใช้ OpenAI API Compatibility ร่วมกับ Embedding ที่รองรับภาษาไทย

# การใช้งาน OpenAI Client

In [None]:
!pip install rich



In [None]:
from rich import print

In [None]:
from openai import OpenAI # เรียกใช้งาน OpenAI Library

สำหรับการใช้งาน OpenAI Model โดยตรง แก้ไขเฉพาะ API Key เท่านั้น แต่ถ้าต้องการใช้งาน OpenAI API Compatibility จำเป็นต้องแก้ไข base_url ด้วย

In [None]:
API_KEY="REDACTED_OPENAI_API_KEY" # ใช้งาน GPT-5 หรือ GPT ตัวอื่น ๆ
client = OpenAI(
    api_key = API_KEY,
)
base_model = "gpt-5.2"

In [None]:
# API_KEY="float16-r-CT1EIdtNcJDOw015AAHj5XSlYKyn" # สำหรับใช้งานผ่าน Float16, Open router, Ollama หรือ Self-host ตัวอื่น ๆ
# client = OpenAI(
#     api_key = API_KEY,
#     base_url="https://proxy-instance.float16.cloud/7188aae3-1e71-4d7c-a6ae-f50ce9cf1983/3900/v1"
# )
# model = "/model/Qwen/Qwen3-VL-30B-A3B-Instruct-FP8"

`chat.completion.create` คือการเรียกใช้งาน model โดยมี arguments สำคัญได้แก่
1. `model` ใช้สำหรับระบุว่าต้องการใช้งาน model ตัวไหน
2. `messages` ใช้สำหรับระบุ prompt และการสนทนาแบบ multi-turn
3. `max_tokens` ใช้สำหรับระบุความยาวสูงสุดสำหรับการตอบกลับ
4. `stream` ใช้ระบุว่า Response ควรตอบกลับมาเป็น Streaming หรือ Non-Streaming

In [None]:
res = client.chat.completions.create(
    model=base_model,
    messages=[
        {
            "role": "user",
            "content": "สวัสดี คุณทำอะไรได้บ้าง"
        },
    ],
    stream=False
)
print(res)

`messages` มีโครงสร้างและสำคัญต่อการเรียกใช้งาน LLM

`messages` มี data structure เป็น list of dict

โดยลำดับของ dictionary มีความสำคัญต่อ LLM เช่นกัน
โดยทั่วไปแล้วลำดับของ `messages` จะประกอบไปด้วย role ดังนี้

1. role : system (Optional)
2. role : user
3. role : assistant
4. role : user
5. role : assistant

ตามลำดับไปเรื่อย ๆ

ซึ่งแต่ละ role มีความสำคัญดังนี้

1. role : system

role : system ใช้สำหรับกำหนดคุณลักษณะของ LLM ที่เราต้องการให้ทำงานตามที่เราต้องการและใช้สำหรับการกำหนด กฎ, สูตร หรือแม้แต่ตัวย่อ ต่าง ๆ

role : user ใช้สำหรับ user prompt เมื่อ user ถามใน Chat Application ทุกครั้งจะถูกนำมาใส่ใน role : user เสมอ

role : assistant ใช้สำหรับเพิ่มสิ่งที่ LLM ได้ทำการตอบกลับมาจาก Response ครั้งล่าสุด

In [None]:
messages = [
        {
            "role": "user",
            "content": "สวัสดี คุณคือสุดยอดผู้ช่วยด้านฝ่ายขาย ชื่อ Mati"
        }
]

In [None]:
res = client.chat.completions.create(
    model=base_model,
    messages=messages,
    stream=False
)
print(res)

In [None]:
assistant_response = res.choices[0].message.content

In [None]:
messages.append({ #เพิ่มบทสนทนาล่าสุดจาก LLM ลงไปในการสนทนา
    "role" : "assistant",
    "content" : assistant_response
})

In [None]:
messages.append({ #เพิ่มบทสนทนาล่าสุดจาก LLM ลงไปในการสนทนา
    "role" : "user",
    "content" : "สวัสดี คุณทำอะไรได้บ้าง"
})

In [None]:
print(messages)

## ลักษณะของ messages สำหรับ Multi-turn

ลักษณะของ `messages` ประกอบไปด้วย

1. role : user
2. role : assistant
3. role : user

โดย role : assistant เป็นการนำคำตอบจาก LLM ครั้งก่อนมาใส่ไว้ เพื่อให้ LLM สามารถจดจำการสนทนาครั้งก่อนได้

In [None]:
next_turn_response = client.chat.completions.create(
    model=base_model,
    messages=messages,
    stream=False
)
assistant_response = next_turn_response.choices[0].message.content

In [None]:
print(assistant_response)

In [None]:
single_turn_response = client.chat.completions.create(
    model=base_model,
    messages=[{
        "role" : "user",
        "content" : "สวัสดี คุณทำอะไรได้บ้าง"
    }],
    stream=False
)
print(single_turn_response.choices[0].message.content)

## เปรียบเทียบการทำ Single-turn และ Multi-turn

จากการทดสอบระหว่างการเพิ่ม assistant และไม่เพิ่ม assistant จะเห็นได้ว่า
เมื่อไม่เพิ่ม assistant ลงไปใน `messages` LLM จะไม่สามารถจดจำการสนทนาครั้งก่อนได้เลย

ทำให้ **LLM ทำงานเป็น stateless เท่านั้น** ไม่มีการเก็บค่าการสนทนาครั้งก่อนไว้กับตัวเอง

## Embedding

Embedding เป็น AI Model สำหรับการแปลง Text ให้เป็น Vector เพื่อที่จะสามารถทำ Semantic search ได้

โดยเราจะใช้ Embedding ชื่อ bge-m3 ซึ่งรองรับภาษาไทย และ all-MiniLM-L6-v2 ซึ่งไม่รองรับภาษาไทย เพื่อเปรียบเทียบประสิทธิภาพ

ติดตั้ง bge-m3 ผ่าน pip install

In [None]:
! pip install -U FlagEmbedding==1.3.5



In [None]:
! pip install transformers==4.57.6



In [None]:
from FlagEmbedding import BGEM3FlagModel
import numpy as np


ทดสอบการหาความใกล้เคียงระหว่างประโยคภาษาไทยด้วย BGE-M3 (ค่ายิ่งมากยิ่งใกล้เคียง)

In [None]:
model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)

sentences_1 = ["ไก่ถูกใช้ทำอาหารอะไรบ้าง"] # ทดสอบด้วยภาษาไทย
sentences_2 = ["กะเพราหมู", "ข้าวมันไก่", "ก๋วยเตี๋ยว"]
sentences_3 = ["กะเพราหมู", "ข้าวมันไก่", "ก๋วยเตี๋ยว","กะเพราหมู", "ข้าวมันไก่", "ก๋วยเตี๋ยว"]

embeddings_1 = model.encode(sentences_1,
                            batch_size=12,
                            max_length=8192,
                            )['dense_vecs']
embeddings_2 = model.encode(sentences_2)['dense_vecs']
print(embeddings_1)
print(embeddings_2)
print(len(embeddings_2))
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


ทดสอบการหาความใกล้เคียงระหว่างประโยคภาษาไทยด้วย all-MiniLM-L6-v2 (ค่ายิ่งมากยิ่งใกล้เคียง)

In [None]:
from sentence_transformers import SentenceTransformer
sentences = ["ไก่ถูกใช้ทำอาหารอะไรบ้าง", "กะเพราหมู", "ข้าวมันไก่", "ก๋วยเตี๋ยว"]

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
len(embeddings)

4

In [None]:
similarity = embeddings[0] @ embeddings[1:].T
print(similarity)

In [None]:
# @title def store_content_with_vector
from typing import List, Dict, Any, Tuple, Optional
import math

collection = {}

def store_content_with_vector(content_and_vector, collection_key):
    """
    Store content and vector data under a specific key in the collection.

    Args:
        content_and_vector: The data to store. Expected structure:
            - Can be any object (dict, list, tuple, string, etc.)
            - Commonly used as a dict with keys like:
                - "content": (str, list, dict) - the actual content
                - "vector": (list, tuple, np.ndarray) - numerical vector representation
                - "metadata": (dict, optional) - additional info (e.g., source, timestamp)
            Example:
                {
                    "content": "This is a document",
                    "vector": [0.1, 0.2, 0.3]
                }
            - Can also be a simple string, list, or any serializable object.

        collection_key (str): The key under which to store the data. Must be a string.

    Returns:
        dict: Result containing success status and message
    """
    try:
        if collection_key in collection:
            # Append content_and_vector to existing key
            collection[collection_key].append(content_and_vector)
            return {
                "success": True,
                "message": f"Content and vector successfully appended to existing key '{collection_key}'"
            }
        else:
            # Create new key with content_and_vector as a list
            collection[collection_key] = [content_and_vector]
            return {
                "success": True,
                "message": f"New key '{collection_key}' created and content/vector stored"
            }
    except Exception as e:
        return {
            "success": False,
            "error": f"Unexpected error occurred during storage: {str(e)}"
        }

def clear_collection():
  global collection
  collection = {}

In [None]:
# @title def get_content
def get_content(
    query_vector: List[float],
    top_k: int = 5,
    threshold: float = 0.0,
    collection_key: str = None,
    return_vector = False
) -> List[Dict[str, Any]]:
    global collection
    """
    Find the most similar content entries to a query vector using cosine similarity.

    Args:
        query_vector (List[float]): The query vector to search for (must be non-empty)
        top_k (int): Maximum number of results to return (default: 5)
        threshold (float): Minimum similarity score threshold (0.0 to 1.0, default: 0.0)
        collection_key (str, optional): Specific key in collection to search. If None, searches all keys.

    Returns:
        List[Dict[str, Any]]: List of matching results with:
            - "content": The stored content
            - "vector": The stored vector
            - "similarity": Cosine similarity score (0.0 to 1.0)
            - "metadata": Any additional metadata (if present)
            - "collection_key": The key where this entry was found

    Raises:
        ValueError: If query_vector is empty or invalid
        TypeError: If parameters have wrong types
        RuntimeError: If no data is available for searching
    """
    try:
        # Input validation
        if not isinstance(query_vector, (list, tuple)):
            return {
                "success": False,
                "error": f"query_vector must be a list or tuple, got {type(query_vector).__name__}"
            }

        if not query_vector:
            return {
                "success": False,
                "error": "query_vector cannot be empty"
            }

        # Check if collection exists and has data
        if not collection:
            return {
                "success": False,
                "error": "Collection is empty. No data to search."
            }

        # Determine which keys to search
        keys_to_search = [collection_key] if collection_key else collection.keys()

        # Validate that the specified key exists if provided
        if collection_key and collection_key not in collection:
            return {
                "success": False,
                "error": f"collection_key '{collection_key}' does not exist in the collection"
            }

        # List to store results
        results = []
        # Search through all relevant keys
        for key in keys_to_search:
            if not isinstance(collection[key], list):
                continue  # Skip non-list entries

            for item in collection[key]:
                # Extract vector from item
                if isinstance(item, dict):
                    vector_data = item.get("vector")
                    content = item.get("content", item)  # Use content field or the item itself
                    metadata = item.get("metadata", {})
                elif isinstance(item, (list, tuple)):
                    vector_data = item
                    content = item
                    metadata = {}
                else:
                    # Handle other types (string, number, etc.)
                    vector_data = None
                    content = item
                    metadata = {}

                # Skip if no vector data available
                if vector_data is None or not isinstance(vector_data, (list, tuple)):
                    continue

                # Ensure vector dimensions match
                if len(query_vector) != len(vector_data):
                    continue

                # Calculate cosine similarity
                try:
                    # Calculate dot product
                    dot_product = sum(a * b for a, b in zip(query_vector, vector_data))

                    # Calculate magnitudes
                    query_magnitude = math.sqrt(sum(a * a for a in query_vector))
                    vector_magnitude = math.sqrt(sum(b * b for b in vector_data))

                    # Avoid division by zero
                    if query_magnitude == 0 or vector_magnitude == 0:
                        similarity = 0.0
                    else:
                        similarity = dot_product / (query_magnitude * vector_magnitude)

                    # Apply threshold
                    if similarity < threshold:
                        continue


                    if return_vector :
                      # Add to results
                      results.append({
                          "content": content,
                          "vector": vector_data,
                          "similarity": round(similarity, 6),
                          "metadata": metadata,
                          "collection_key": key
                      })
                    else :
                      results.append({
                          "content": content,
                          "similarity": round(similarity, 6),
                          "metadata": metadata,
                          "collection_key": key
                      })

                except (TypeError, ValueError, OverflowError) as e:
                    # Skip items with calculation errors
                    continue

        # Sort by similarity (descending) and take top_k
        results.sort(key=lambda x: x["similarity"], reverse=True)
        top_results = results[:top_k]

        # Return results
        return {
            "success": True,
            "results": top_results,
            "total_found": len(results),
            "top_k": top_k,
            "threshold": threshold
        }

    except Exception as e:
        return {
            "success": False,
            "error": f"Unexpected error occurred during search: {str(e)}"
        }


In [None]:
# store_content_with_vector(content_and_vector, collection_key)

store_content_with_vector({
  "content": "This is a document",
  "vector": [0.1, 0.2, 0.3]
}, 'test')

{'success': True,
 'message': "New key 'test' created and content/vector stored"}

In [None]:
#get_content(query_vector = List[Float], top_k: int = 5, threshold: float = 0.0, collection_key: str = None )

get_content(query_vector = [0.1,0.2,0.3], collection_key = "test", return_vector = True)

{'success': True,
 'results': [{'content': 'This is a document',
   'vector': [0.1, 0.2, 0.3],
   'similarity': 1.0,
   'metadata': {},
   'collection_key': 'test'}],
 'total_found': 1,
 'top_k': 5,
 'threshold': 0.0}

In [None]:
documents = [
    "ข้าวมันไก่ - ทำจากข้าวสวยต้มในน้ำซุปไก่ พร้อมไก่ต้มน้ำซุป น้ำจิ้ม",
    "กะเพรา - ทำจากข้าวสวยราดด้วยกับกะเพรา ไก่หรือหมู พร้อมน้ำปลา น้ำตาล และพริกขี้หนู",
    "ก๋วยเตี๋ยว - ทำจากเส้นก๋วยเตี๋ยวเหนียวนุ่ม ผัดหรือต้มในน้ำซุปไก่หรือเนื้อ ใส่เนื้อสัตว์ ผัก และเครื่องปรุงรส",
    "ผัดไท - ทำจากเส้นก๋วยเตี๋ยวเหนียว ผัดกับไข่ ถั่วงอก และน้ำปลา น้ำมะนาว น้ำตาล"
]
def do_vector_by_yourself(documents):

  model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)
  for doc in documents :
      embedded_result = model.encode(doc,
                                  batch_size=1,
                                  max_length=8192,
                                  )['dense_vecs']
      store_content_with_vector({
          "content" : doc,
          "vector" : list(embedded_result)
      },'my_collection')

do_vector_by_yourself(documents)

## Search

user_prompt = "แนะนำเมนูที่ทำมาจากเส้นหน่อย"

def do_embedding_by_yourself(user_prompt):
  user_query = None
  model = BGEM3FlagModel('BAAI/bge-m3', use_fp16=True)
  user_query = model.encode(user_prompt,
                              batch_size=1,
                              max_length=8192,
                              )['dense_vecs']
  return user_query

query_vector = do_embedding_by_yourself(user_prompt)

print(query_vector, type(query_vector), query_vector.shape)
search_result = get_content(query_vector = list(query_vector), collection_key = "my_collection")
clear_collection()
print(search_result)

Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

pre tokenize: 100%|██████████| 1/1 [00:00<00:00, 1590.56it/s]
You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
Inference Embeddings: 100%|██████████| 1/1 [00:00<00:00, 55.28it/s]
pre tokenize: 100%|██████████| 1/1 [00:00<00:00, 1549.43it/s]
Inference Embeddings: 100%|██████████| 1/1 [00:00<00:00, 57.85it/s]
pre tokenize: 100%|██████████| 1/1 [00:00<00:00, 833.20it/s]
Inference Embeddings: 100%|██████████| 1/1 [00:00<00:00, 58.31it/s]
pre tokenize: 100%|██████████| 1/1 [00:00<00:00, 2305.83it/s]
Inference Embeddings: 100%|██████████| 1/1 [00:00<00:00, 59.14it/s]


Fetching 30 files:   0%|          | 0/30 [00:00<?, ?it/s]

pre tokenize: 100%|██████████| 1/1 [00:00<00:00, 1846.08it/s]
You're using a XLMRobertaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
Inference Embeddings: 100%|██████████| 1/1 [00:00<00:00, 46.26it/s]


  "similarity": round(similarity, 6),
  "similarity": round(similarity, 6),


## นำผลลัพธ์จาก Vector Database ใช้ร่วมกับ LLM model

In [None]:
retrieved_content = ""
for item in search_result["results"] :
    content = item['content']
    retrieved_content += content + "\n"

retrieved_content

'ข้าวมันไก่ - ทำจากข้าวสวยต้มในน้ำซุปไก่ พร้อมไก่ต้มน้ำซุป น้ำจิ้ม\nกะเพรา - ทำจากข้าวสวยราดด้วยกับกะเพรา ไก่หรือหมู พร้อมน้ำปลา น้ำตาล และพริกขี้หนู\nก๋วยเตี๋ยว - ทำจากเส้นก๋วยเตี๋ยวเหนียวนุ่ม ผัดหรือต้มในน้ำซุปไก่หรือเนื้อ ใส่เนื้อสัตว์ ผัก และเครื่องปรุงรส\nผัดไท - ทำจากเส้นก๋วยเตี๋ยวเหนียว ผัดกับไข่ ถั่วงอก และน้ำปลา น้ำมะนาว น้ำตาล\n'

In [None]:
user_prompt = "แนะนำเมนูที่ทำมาจากเส้นหน่อย"
messages = [
        {
            "role": "user",
            "content": f"""
            ===========================CONTEXT===========================
            Context : {retrieved_content}
            ===========================CONTEXT===========================

            User question : {user_prompt}
            """
        }
]
print(messages)

In [None]:
response = client.chat.completions.create(
    model=base_model,
    messages=[{"role":"user", "content" : user_prompt}],
    stream=False
)
print(response)

In [None]:
response = client.chat.completions.create(
    model=base_model,
    messages=messages,
    stream=False
)
print(response)