# หัวข้อ : สร้าง RAG สำหรับภาษาไทย ด้วย OpenSource

#### จัดทำโดยทีม [VulturePrime](https://vultureprime.com)

## รายละเอียด
การสร้าง RAG เริ่มต้นเป็น Use case ที่แพร่หลายสำหรับการนำ AI เข้ามาประยุกต์ใช้กับธุรกิจ
แต่เนื่องจากความขาดแคลนตัวอย่างที่เหมาะสมของแต่ละภาษา ทำให้เกิดปัญหา 2 ปัญหาได้แก่
1. English centric ตัวอย่างส่วนใหญ่จะถูกทำขึ้นมาโดยใช้ภาษาอังกฤษเป็นศูนย์กลาง ทำให้ภาษาอื่นนั้น จำเป็นต้องประยุกต์ Solution ขึ้นมาเองซึ่งทำให้ Developer ต้องลงทุนในการเรียนรู้เพิ่มขึ้นอย่างมหาศาล ไม่ว่าจะเป็นในเรื่องของ Tokenizer หรือ Text splitter
2. OpenAI centric เนื่องจากการเชื่อมต่อกับ OpenAI API นั้นเป็นเรื่องที่ใช้ Effort ต่ำสุดและมีประสิทธิภาพสูงที่สุด ทำให้ AI และ Embedding Model อื่นนั้น กลายเป็น 3rd class citizen เมื่อนักพัฒนาอยากลดรายจ่ายโดยใช้ AI และ Embedding รายอื่น จึงเป็นเรื่องที่มีต้นทุนสูงอย่างมหาศาล (Switching cost)  

จากปัญหาทั้ง 2 ปัญหาทำให้เกิด AI Adoption ที่ช้ากว่าและแพงกว่าบริษัทที่ใช้ภาษาอังกฤษ​เป็นภาษาหลัก

จึงเป็นที่มาของการสร้าง Use case ด้วยโปรเจคตัวอย่าง เพื่อให้ Developer สามารถลด Learning curve ลงไปได้
และส่งเสริมให้มีความรวดเร็วในการนำ AI ไปใช้เพิ่มประสิทธิของ Feature ที่มีอยู่แล้วหรือสร้าง Feature ใหม่ขึ้นมา

## บทความเพิ่มเติม (ภาษาไทย)
- [Driving a Q&A Bot Project](https://www.vultureprime.com/blogs/driving-a-q-a-bot-project-a-product-owners-guide)

## Benefit
- ราคาต่อ Character ที่ถูกกว่า 90 - 95% เมื่อเทียบกับ OpenAI
- เวลาในการประมวลผลที่น้อยลงเหลือเพียง 1/3 ถึง 1/4 (Float16 API หรือ SLA ตามต้องการ)
- สามารถใช้งาน Offline หรือ Private เองได้

## ความท้าทาย
- การนับจำนวน Token ที่ไม่เท่ากันของภาษาอังกฤษและภาษาอื่น ทำให้ต้องสร้าง Custom Helper function เพื่อให้รองรับภาษาอื่น
- การตัดประโยคของภาษาไทยเมื่อเทียบกับภาษาอื่น
- การใช้งาน OpenSource เช่น Huggingface Embedding และ OpenAI API-like
- การใช้งาน Vector Database และทำความเข้าใจ Parameter ในการค้นหา

## Environment
- [LlamaIndex](https://www.llamaindex.ai/) (Data Framework)
- [Weaviate](https://weaviate.io/) (Vector Database)
- [SeaLLM-7b](https://huggingface.co/SeaLLMs/SeaLLM-7B-Chat) (AI Model) ใช้งานผ่าน [Float16.cloud](https://float16.cloud)
- [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) (Embedding Model)

## Flow
1. บันทึกข้อมูลรูปแบบ String Text ไปยัง Vector Database
2. ค้นหาข้อมูลจาก Vector Database และนำไปใช้กับ AI Model

-------------------------------

#### 1.เก็บข้อมูลรูปแบบ String Text ไปยัง Vector Database

In [6]:
#ทำการ Import Library ที่จำเป็น
from llama_index import ServiceContext, StorageContext,VectorStoreIndex,Document
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.vector_stores import WeaviateVectorStore
from llama_index.node_parser import TokenTextSplitter
import weaviate
from weaviate.embedded import EmbeddedOptions

#เชื่อมต่อกับ Vector Database
auth_config = weaviate.AuthApiKey(api_key="IQQAPrPfigZjZI64pUdYwM08g8sXkZvcI9aO")
client = weaviate.Client(
  url="https://monkbot001-6i46c5vt.weaviate.network",
  auth_client_secret=auth_config
)

#กำหนดชื่อ Document สำหรับ String Text ที่ต้องการบันทึกใน Vector Database
document_name = 'Read_document'

In [7]:
with open("read.txt", "r", encoding="utf-8") as Read_document:
    Read_document = Read_document.read()

In [8]:
#กำหนดค่าของ Text Splitter ที่ต้องการใช้
#Chunk size กำหนดถึงความยาวของ Text ที่ต้องการตัด และ Chunk overlap หมายถึงการคาบเกี่ยวของ Text แต่ละชุดให้คาบเกี่ยวกับชุดก่อนหน้ามากน้อยแค่ไหน
text_parser = TokenTextSplitter.from_defaults(chunk_overlap=192,chunk_size=384)

#ประมวลผล String Text ให้กลายเป็น List[String] โดย String มีขนาดตามที่กำหนดจากขั้นตอนก่อนหน้านี้
nodes = text_parser.get_nodes_from_documents(
    [Document(text=Read_document)], show_progress=True
)

Parsing nodes:   0%|          | 0/1 [00:00<?, ?it/s]

In [10]:
import openai
openai.api_key = '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'

#กำหนดชื่อ Embedding model ที่รองรับภาษาไทย
#embedding_model_name = "BAAI/bge-m3"

#Download Embedding Model จาก Huggingface
embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-m3")

#กำหนดให้ใช้งาน Embedding ที่ทำการ Download มาจาก Huggingface
service_context = ServiceContext.from_defaults(embed_model=embed_model)

#กำหนดชื่อสำหรับ text key สำหรับการค้นหา
text_key = 'content'

#สร้าง VectorStore Node
vector_store = WeaviateVectorStore(weaviate_client = client,index_name = document_name,text_key = text_key)

#กำหนดให้ใช้งาน VectorDatabase ที่ทำการเชื่อมต่อกับ Weaviate
storage_context = StorageContext.from_defaults(vector_store = vector_store)

ValueError: Unrecognized model identifier in BAAI/bge-m3. Should contains one of 'bert', 'openai-gpt', 'gpt2', 'transfo-xl', 'xlnet', 'xlm', 'roberta, 'ctrl'

In [33]:
#นำ List[String] ที่ได้จากขั้นตอนประมวลผล Text นำมาแปลงให้อยู่ในรูปของ List[Vector]
#แปลง String เป็น Vector โดยใช้ Embedding Model intfloat/multilingual-e5-small
#หลังจากได้ List[Vector] และ List[String] ให้นำข้อมูลดังกล่าวเก็บไว้ยัง VectorDatabase ที่ได้เชื่อมต่อไว้แล้ว
#โดยเก็บไว้ใน Document ชื่อ Read_document และมี Text_key เริ่มต้นด้วย "content"
VectorStoreIndex(nodes=nodes,storage_context=storage_context, service_context = service_context)

RateLimitError: Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}

#### 2. ค้นหาข้อมูลจาก Vector Database และนำไปใช้กับ AI Model

In [14]:
#ทำการ Import Library ที่จำเป็น
from llama_index.llms import openai_like
from llama_index.readers.weaviate.reader import WeaviateReader
from llama_index import ServiceContext, ListIndex
from llama_index.embeddings import HuggingFaceEmbedding
from llama_index.response_synthesizers import get_response_synthesizer
from llama_index.llms import OpenAI
from llama_index.indices.prompt_helper import PromptHelper
import weaviate

In [7]:
#ทำการ Config API ที่ต้องการใช้
OPENAI_KEY = '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'
FLOAT16_API_KEY = 'float16-56hBpTpGA5VYSs13Awe9U1FjGaTo5pNODx67cnI066EBP5rewr'
FLOAT16_CUSTOM_URL = 'https://api.float16.cloud/v1/llamaindex'
WEAVIATE_ENDPOINT = "https://munkbot-zzx9jngn.weaviate.network"

In [26]:
#เชื่อมต่อกับ VectorDatabase
auth_config = weaviate.AuthApiKey(api_key="YBS4VORSc2Fc4EvY3zM0FHTl56mdvuhgJRKR")

client = weaviate.Client(
  url="https://munkbot-zzx9jngn.weaviate.network",
  auth_client_secret=auth_config
)

reader = WeaviateReader(
    "https://munkbot-zzx9jngn.weaviate.network",
    auth_client_secret=auth_config,
)

            Please consider upgrading to the latest version. See https://weaviate.io/developers/weaviate/client-libraries/python for details.


In [27]:
#สร้าง GraphQL query schema สำหรับการค้นหาข้อมูลที่เกี่ยวข้องจาก VectorDatabase
query_schema = """
{{
  Get{{
    {document_name}(
      nearVector: {{
        vector: {vector_question},
        certainty: {certainty}
      }}
      limit : {limit}
    ) {{
      {text_key}
    }}
  }}
}}
"""

In [24]:
#กำหนดชื่อ Embedding model ที่รองรับภาษาไทย
embedding_model_name = "intfloat/multilingual-e5-small"

#Download Embedding Model จาก Huggingface
embed_model = HuggingFaceEmbedding(model_name=embedding_model_name,max_length=384)

#ระบุคำถามที่ต้องการถาม AI
question = "อุเทสิกเจดีย์คือ"

#เปลี่ยนคำถาม (String) ให้กลายเป็น Vector
vector_question = embed_model._embed(question)[0]

In [28]:
#กำหนดชื่อ Document สำหรับ String Text ที่ต้องการบันทึกใน Vector Database
document_name = 'Read_document'

#กำหนดชื่อสำหรับ text key สำหรับการค้นหา
text_key = 'content'

#ทำการ map ตัวแปรเข้ากับ Schema
query = query_schema.format(
  document_name=document_name,
  vector_question=vector_question,
  certainty=0.96,
  text_key=text_key,
  limit=1
)

#ส่งคำสั่ง query ไปยัง VectorDatabase
documents = reader.load_data(graphql_query=query, separate_documents=True)

In [29]:
print(documents)

[Document(id_='d16ddc4a-c341-47a6-a472-a0065e77c9bb', embedding=None, metadata={}, excluded_embed_metadata_keys=[], excluded_llm_metadata_keys=[], relationships={}, hash='7567acd3fc7df69aeee7fd0b86bfd61d491c47dcd3e411ff60799f3f1b4c52ae', text='content: เครื่องสักการะเครื่องบูชาใครไปนั่งตรงนั้นก็ได้รับการสักการะบูชา เพราะว่าผู้แสดงธรรมเป็นผู้ที่ควรแก่สักการะบูชา ที่เรียกว่าอุเทสิกเจดีย์เค้าเรียกว่าเป็นสิ่งที่ควรค่า ไม่ได้ว่าจะเป็นเฉพาะพระภิกษุนะฆราวาสเองก็ตาม ถ้าเขาจัดตั้งการบูชาไว้ก็คือต้องการบูชาอุเทสิกเจดีย์\nอุเทสิกเจดีย์ตัวนี้ไม่มีวัตถุปรากฏ แต่เป็นสิ่งที่เนื่องด้วยพระตถาคต คำว่าสิ่งที่เนื่องด้วยพระตถาคตคือการแสดงธรรม เพราะอุเทสิกมีความหมายว่าการยกขึ้น', start_char_idx=None, end_char_idx=None, text_template='{metadata_str}\n\n{content}', metadata_template='{key}: {value}', metadata_seperator='\n')]


#### กำหนด Service ที่เกี่ยวข้องกับ AI

llm คือการกำหนดให้ใช้งาน LLM ตัวใดหรือผู้ให้บริการเจ้าใดสำหรับการรับ Prompt เพื่อให้ตอบคำถาม

embed_model คือการกำหนดให้ใช้งาน Embedding ตัวใด สำหรับการแปลง Text ให้เป็น Vector

prompt_helper คือตัวช่วยจิปาถะที่เกี่ยวข้องกับการใช้งาน LLM เช่น การทำให้ Prompt ที่ส่งไปยังผู้ให้บริการมีขนาดไม่เกินที่กำหนด (max_context)

หรือ เมื่อ Prompt มีขนาดยาวเกินไปก็จะทำการ "ตัดข้อมูล" โดยอัตโนมัติ

สำหรับ context_window ที่เรากำหนดขึ้นมานั้นมีขนาด 10,000 token ซึ่งการนับ Token โดย Default นั้น ใช้งาน Tiktoken หรือ OpenAI ในการนับ Token

ทำให้ไม่สอดคล้องกับ SeaLLM-7b เนื่องจาก SeaLLM-7b นับ Token ต่างกับ OpenAI

ส่งผลให้เมื่อใช้งาน context_window default จะทำให้ข้อมูลขาดหายไปบางช่วง

DEFAULT context_window = 3900 #token

In [30]:
#ระบุ model ที่ต้องการใช้งาน
llm_model_name = "seallm-7b-v2"

#เชื่อมต่อกับ Float16
agent = openai_like.OpenAILike(
    api_key=FLOAT16_API_KEY,
    api_base=FLOAT16_CUSTOM_URL,
    model=llm_model_name,
    temperature=0.3,
    max_tokens=512,
)

In [31]:
service_context = ServiceContext.from_defaults(llm=agent,embed_model=embed_model,prompt_helper=PromptHelper(context_window=10000))

In [13]:
#สร้าง index สำหรับการค้นหาข้อมูลจาก ผลลัพธ์จาก query
index = ListIndex.from_documents(documents, service_context=service_context)

NameError: name 'ListIndex' is not defined

#### กำหนด Prompt pipeline สำหรับ RAG

Default สำหรับ Llamaindex จะเป็นการ "refine" ซึ่ง refine จะเป็นขั้นตอนการทำงาน 2 ขั้นตอนต่อกัน
1. Question and Answer เพื่อให้ LLM ที่กำหนดไว้ใน Service_context ตอบคำถาม
2. Refine เพื่อให้คำตอบที่ได้ออกมานั้นสวยงามมากยิ่งขึ้น



In [33]:
#กำหนด Prompt pipeline สำหรับ RAG
response_synthesizer = get_response_synthesizer(
      response_mode="simple_summarize",service_context=service_context
)

In [34]:
#สร้าง Query engine จาก index ที่เราได้สร้างจาก ผลลัพธ์จาก Query และเปลี่ยน Response ให้ทำงานแค่ 1 ขั้นตอน
query_engine = index.as_query_engine(
    response_synthesizer=response_synthesizer,
    service_context=service_context,
)

#ค้นหาผลลัพธ์จาก RAG
result = query_engine.query("<summarization_query>")
print(documents[0].text)
print("result :",result)

content: เครื่องสักการะเครื่องบูชาใครไปนั่งตรงนั้นก็ได้รับการสักการะบูชา เพราะว่าผู้แสดงธรรมเป็นผู้ที่ควรแก่สักการะบูชา ที่เรียกว่าอุเทสิกเจดีย์เค้าเรียกว่าเป็นสิ่งที่ควรค่า ไม่ได้ว่าจะเป็นเฉพาะพระภิกษุนะฆราวาสเองก็ตาม ถ้าเขาจัดตั้งการบูชาไว้ก็คือต้องการบูชาอุเทสิกเจดีย์
อุเทสิกเจดีย์ตัวนี้ไม่มีวัตถุปรากฏ แต่เป็นสิ่งที่เนื่องด้วยพระตถาคต คำว่าสิ่งที่เนื่องด้วยพระตถาคตคือการแสดงธรรม เพราะอุเทสิกมีความหมายว่าการยกขึ้น
result : อุเทสิกเจดีย์คือสิ่งที่เนื่องด้วยพระตถาคต คำว่าสิ่งที่เนื่องด้วยพระตถาคตคือการแสดงธรรม เพราะอุเทสิกมีความหมายว่าการยกขึ้น


In [35]:
#สร้าง Query engine จาก index ที่เราได้สร้างจาก ผลลัพธ์จาก Query และเปลี่ยน Response ให้ทำงานแค่ 1 ขั้นตอน
query_engine = index.as_query_engine(
    response_synthesizer=response_synthesizer,
    service_context=service_context,
)

#ค้นหาผลลัพธ์จาก RAG
result = query_engine.query(question)
print(result)

อุเทสิกเจดีย์คือสิ่งที่เนื่องด้วยพระตถาคต ซึ่งเป็นสิ่งที่เนื่องด้วยการแสดงธรรมหรือการยกขึ้นในความหมายของอุเทสิก. มันคือสิ่งที่ควรค่าและเป็นสิ่งที่ควรได้รับการบูชา. ผู้แสดงธรรมเป็นผู้ที่ควรได้รับการบูชาอุเทสิกเจดีย์ และการจัดตั้งการบูชานั้นแสดงถึงความต้องการบูชาอุเทสิกเจดีย์.
