# 📚 Workshop: RAG + LangChain + Streamlit

## ช่วงที่ 1: Introduction to RAG & LangChain (0:00 – 0:30)

---

### 🎯 วัตถุประสงค์การเรียนรู้
- เข้าใจปัญหาของ LLM (hallucination, context limit)
- เข้าใจแนวคิด Retrieval-Augmented Generation (RAG)
- รู้จักสถาปัตยกรรม RAG และ LangChain
- เห็นความแตกต่างระหว่าง chatbot ธรรมดา vs RAG

---


## 🤖 ปัญหาของ LLM (Large Language Models)

### 1. **Hallucination (การหลอน)**
- LLM สร้างข้อมูลที่ดูเหมือนจริงแต่ไม่ถูกต้อง
- ไม่สามารถแยกแยะระหว่างข้อมูลจริงกับข้อมูลที่สมมติขึ้น
- ตัวอย่าง: ถามเกี่ยวกับข้อมูลเฉพาะที่ LLM ไม่เคยเรียนรู้

### 2. **Context Limit (ข้อจำกัดบริบท)**
- LLM มีข้อจำกัดในการจำข้อมูล (เช่น GPT-3.5: 4K tokens, GPT-4: 8K-32K tokens)
- ไม่สามารถเข้าถึงข้อมูลล่าสุดหรือข้อมูลเฉพาะได้
- ข้อมูลที่เรียนรู้จะหยุดที่จุดหนึ่ง (training cutoff)

### 3. **Static Knowledge (ความรู้คงที่)**
- ไม่สามารถอัปเดตความรู้ได้แบบ real-time
- ไม่สามารถเข้าถึงเอกสารหรือฐานข้อมูลภายนอกได้


## 🔍 แนวคิด Retrieval-Augmented Generation (RAG)

### RAG คืออะไร?

**RAG** = **Retrieval** + **Augmented** + **Generation**

1. **Retrieval**: ค้นหาข้อมูลที่เกี่ยวข้องจากเอกสาร
2. **Augmented**: เพิ่มข้อมูลที่ค้นหาได้เข้าไปในบริบท
3. **Generation**: สร้างคำตอบโดยใช้ข้อมูลที่เพิ่มเข้ามา

### ข้อดีของ RAG:
- ✅ ลด Hallucination
- ✅ เข้าถึงข้อมูลล่าสุด
- ✅ ใช้ข้อมูลเฉพาะโดเมน
- ✅ มีแหล่งอ้างอิงที่ชัดเจน


## 🏗️ สถาปัตยกรรม RAG

```mermaid
graph TD
    A[เอกสาร PDF/Text] --> B[Document Loader]
    B --> C[Text Splitter]
    C --> D[Embeddings]
    D --> E[Vector Store]
    
    F[คำถามของผู้ใช้] --> G[Embeddings]
    G --> H[Vector Search]
    E --> H
    H --> I[Retriever]
    I --> J[LLM Chain]
    J --> K[คำตอบ]
```

### ส่วนประกอบหลัก:

1. **Document Loader**: โหลดเอกสารจากแหล่งต่างๆ
2. **Text Splitter**: แบ่งเอกสารเป็น chunks
3. **Embeddings**: แปลงข้อความเป็น vector
4. **Vector Store**: เก็บและค้นหา vector
5. **Retriever**: ค้นหาเอกสารที่เกี่ยวข้อง
6. **LLM Chain**: สร้างคำตอบจากบริบท


## 🔧 LangChain Framework

### LangChain คืออะไร?

**LangChain** เป็น framework สำหรับการสร้างแอปพลิเคชันที่ใช้ LLM

### คุณสมบัติหลัก:
- 🔗 **Component-based**: เชื่อมต่อส่วนต่างๆ ได้ง่าย
- 🔄 **Chain**: เชื่อมต่อขั้นตอนต่างๆ เป็น pipeline
- 💾 **Memory**: จดจำการสนทนาก่อนหน้า
- 🛠️ **Tools**: เชื่อมต่อกับ API และฐานข้อมูลภายนอก

### LangChain Components:

```python
# ตัวอย่างการใช้งาน LangChain
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
```


## 🆚 เปรียบเทียบ: Chatbot ธรรมดา vs RAG

### Chatbot ธรรมดา (ไม่ใช้ RAG)
```python
# ตัวอย่าง chatbot ธรรมดา
def simple_chatbot(question):
    # ใช้ความรู้ที่ LLM เรียนรู้มาแล้วเท่านั้น
    response = llm.generate(question)
    return response
```

**ข้อจำกัด:**
- ❌ ไม่สามารถตอบคำถามเกี่ยวกับข้อมูลเฉพาะได้
- ❌ อาจเกิด hallucination
- ❌ ไม่มีแหล่งอ้างอิง

### RAG Chatbot
```python
# ตัวอย่าง RAG chatbot
def rag_chatbot(question):
    # 1. ค้นหาข้อมูลที่เกี่ยวข้อง
    relevant_docs = vector_store.similarity_search(question)
    
    # 2. สร้างบริบท
    context = "\n".join([doc.page_content for doc in relevant_docs])
    
    # 3. สร้างคำตอบ
    prompt = f"Context: {context}\nQuestion: {question}\nAnswer:"
    response = llm.generate(prompt)
    return response
```

**ข้อดี:**
- ✅ ตอบคำถามเกี่ยวกับข้อมูลเฉพาะได้
- ✅ ลด hallucination
- ✅ มีแหล่งอ้างอิงชัดเจน


## 🎯 Demo: เปรียบเทียบ Chatbot ธรรมดา vs RAG

### คำถามทดสอบ: "จังหวัดน่านมีประชากรเท่าไหร่?"

#### Chatbot ธรรมดา:
- อาจตอบผิดหรือไม่แน่ใจ
- ไม่มีแหล่งอ้างอิง
- อาจเกิด hallucination

#### RAG Chatbot:
- ค้นหาข้อมูลจากเอกสารจังหวัดน่าน
- ตอบได้ถูกต้องตามข้อมูลจริง
- แสดงแหล่งอ้างอิง


In [3]:
# Demo: Simple Chatbot (ไม่ใช้ RAG)
import os
from dotenv import load_dotenv
from langchain_groq import ChatGroq

# โหลด environment variables
load_dotenv()

# ตั้งค่า LLM
llm = ChatGroq(
    groq_api_key=os.getenv("GROQ_API_KEY"),
    model_name="llama-3.3-70b-versatile",
    temperature=0.1
)

# ทดสอบ chatbot ธรรมดา
def simple_chatbot_test():
    questions = [
        "จังหวัดน่านมีประชากรเท่าไหร่?",
        "จังหวัดน่านมีสถานที่ท่องเที่ยวอะไรบ้าง?",
        "จังหวัดน่านมีประวัติศาสตร์อย่างไร?"
    ]
    
    print("🤖 Simple Chatbot (ไม่ใช้ RAG)")
    print("=" * 50)
    
    for i, question in enumerate(questions, 1):
        print(f"\nคำถามที่ {i}: {question}")
        print("-" * 30)
        
        try:
            response = llm.invoke(question)
            print(f"คำตอบ: {response.content}")
        except Exception as e:
            print(f"เกิดข้อผิดพลาด: {e}")
        
        print("\n" + "="*50)

# รันการทดสอบ
simple_chatbot_test()

🤖 Simple Chatbot (ไม่ใช้ RAG)

คำถามที่ 1: จังหวัดน่านมีประชากรเท่าไหร่?
------------------------------
คำตอบ: จังหวัดน่าน มีประชากรประมาณ 478,264 คน (ข้อมูลปี พ.ศ. 2564)


คำถามที่ 2: จังหวัดน่านมีสถานที่ท่องเที่ยวอะไรบ้าง?
------------------------------
คำตอบ: จังหวัดน่าน มีสถานที่ท่องเที่ยวมากมาย เช่น

1. อุทยานแห่งชาติแห่งหนึ่ง
2. วัดพระธาตุช้างค้ำ
3. วัดพระธาตุแช่แห้ง
4. วัดพระธาตุเขาน้อย
5. น้ำตกแม่สา
6. น้ำตกแม่จริม
7. น้ำตกแม่จริม
8. ถ้ำผาแล
9. ถ้ำผาแล
10. ถ้ำผาแล
11. ถ้ำผาแล
12. ถ้ำผาแล
13. ถ้ำผาแล
14. ถ้ำผาแล
15. ถ้ำผาแล


คำถามที่ 3: จังหวัดน่านมีประวัติศาสตร์อย่างไร?
------------------------------
คำตอบ: จังหวัดน่านมีประวัติศาสตร์ที่ยาวนานและหลากหลาย โดยมีหลักฐานทางโบราณคดีที่แสดงให้เห็นว่าพื้นที่นี้มีการตั้งถิ่นฐานของมนุษย์มาอย่างน้อย 1,000 ปี ก่อนคริสต์ศักราช ในช่วงสมัยทวาราวดี (พุทธศตวรรษที่ 1-7) พื้นที่นี้เป็นส่วนหนึ่งของอาณาจักรทวาราวดี ซึ่งเป็นอาณาจักรที่มีศูนย์กลางอยู่ที่เมืองทวาราวดี (ปัจจุบันอยู่ในประเทศพม่า)

ในสมัยหลัง พื้นที่นี้ได้ถูกครอบครองโดยอาณาจักรล้านนา ซึ

## 📝 สรุปช่วงที่ 1

### สิ่งที่เราได้เรียนรู้:
1. **ปัญหาของ LLM**: Hallucination, Context Limit, Static Knowledge
2. **แนวคิด RAG**: Retrieval + Augmented + Generation
3. **สถาปัตยกรรม RAG**: Document → Embeddings → Vector Store → Retrieval → LLM
4. **LangChain Framework**: Component-based framework สำหรับ LLM applications
5. **ความแตกต่าง**: Chatbot ธรรมดา vs RAG

### ต่อไปในช่วงที่ 2:
เราจะเรียนรู้การเตรียมข้อมูลและสร้าง Vector Store

---

**⏰ เวลาที่ใช้: 30 นาที**
**📚 ไฟล์ต่อไป: `02_data_ingestion_vector_store.ipynb`**
