<a href="https://colab.research.google.com/github/ecocw/114_bigdata/blob/AI_demo/%E3%80%90Demo06%E3%80%91%E7%94%A8_RAG_%E6%89%93%E9%80%A0%E5%BF%83%E9%9D%88%E8%99%95%E6%96%B9%E7%B1%A4%E6%A9%9F%E5%99%A8%E4%BA%BA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### 1. 讀入需要的套件

這裡主要用 `LangChain`, 這可以說整合各式 LLM 功能的方便套件。

In [2]:
!pip install -U nltk



In [3]:
!pip install langchain langchain-community openai faiss-cpu unstructured tiktoken

Collecting langchain-community
  Downloading langchain_community-0.3.29-py3-none-any.whl.metadata (2.9 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.12.0-cp312-cp312-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (5.1 kB)
Collecting unstructured
  Downloading unstructured-0.18.15-py3-none-any.whl.metadata (24 kB)
Collecting requests<3,>=2 (from langchain)
  Downloading requests-2.32.5-py3-none-any.whl.metadata (4.9 kB)
Collecting dataclasses-json<0.7,>=0.6.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting filetype (from unstructured)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting python-magic (from unstructured)
  Downloading python_magic-0.4.27-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting emoji (from unstructured)
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting python-iso639 (from unstructured)
  Downloading python_iso639-2025.2.18-py3-none-any.whl.

讀入正確的 `nltk` 所需資料。

In [4]:
import nltk

In [5]:
nltk.data.path.append("/root/nltk_data")
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

讀入一大票需要的函式。

In [6]:
import os
from langchain.document_loaders import DirectoryLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.llms import OpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage

### 2. 讀入範例資料

我們這裡用聖嚴法師的《真正的快樂》一書為範例, 當然其實可以用更多的資料, 直接放入相對的資料夾 (這裡是設在 `books` 之下) 即可。包括這本書都在[《法鼓全集》](https://ddc.shengyen.org/)之下, 請注意版權屬「法鼓文化」所有, 我們只是作為範例。

In [7]:
# 下載 books.zip 檔案
!wget -O books.zip https://github.com/yenlung/AI-Demo/raw/refs/heads/master/books.zip

# 解壓縮 books.zip 到 books 資料夾
!unzip -o books.zip

--2025-09-20 06:21:30--  https://github.com/yenlung/AI-Demo/raw/refs/heads/master/books.zip
Resolving github.com (github.com)... 20.27.177.113
Connecting to github.com (github.com)|20.27.177.113|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/yenlung/AI-Demo/refs/heads/master/books.zip [following]
--2025-09-20 06:21:30--  https://raw.githubusercontent.com/yenlung/AI-Demo/refs/heads/master/books.zip
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.111.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 63072 (62K) [application/zip]
Saving to: ‘books.zip’


2025-09-20 06:21:31 (598 KB/s) - ‘books.zip’ saved [63072/63072]

Archive:  books.zip
   creating: books/
  inflating: books/book1.txt         
  inflating: __MACOSX/books/._book1.txt  


### 3. 設定 OpenAI 金鑰

In [8]:
from getpass import getpass

In [None]:
api_key = getpass("請輸入您的 OpenAI API key: ")

In [None]:
# from google.colab import userdata
# # 將 OpenAI API Key 記在 colab 當中
# api_key = userdata.get('keyFor108')

In [None]:
os.environ["OPENAI_API_KEY"] = api_key

### 4. 建立向量資料庫

#### Step 1: 加載資料夾中的文件

In [None]:
loader = DirectoryLoader("books", glob="*.txt")  # 替換為你的資料夾路徑
documents = loader.load()

#### Step 2: 將文件分割成較小的片段

In [None]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
split_docs = text_splitter.split_documents(documents)

#### Step 3: 使用 OpenAI 的嵌入來將文件轉為向量嵌入

In [None]:
embeddings = OpenAIEmbeddings()

#### Step 4: 使用 FAISS 建立向量資料庫

In [None]:
vector_store = FAISS.from_documents(split_docs, embeddings)

#### Step 5: 建立檢索器

In [None]:
retriever = vector_store.as_retriever()

### 5. 打造心靈處方籤機器人

#### 選定語言模型

In [None]:
llm = ChatOpenAI(model="gpt-4o")

#### 定義一些心靈處方籤

In [None]:
spiritual_prescriptions = [
    "感謝給我們機會，順境、逆境，皆是恩人。",
    "身心常放鬆，逢人面帶笑；放鬆能使我們身心健康，帶笑容易增進彼此友誼。",
    "識人識己識進退，時時身心平安；知福惜福多培福，處處廣結善緣。",
    "平常心就是最自在、最愉快的心。",
    "知道自己的缺點愈多，成長的速度愈快，對自己的信心也就愈堅定。"
]

#### 建立一個結合檢索與生成的 RAG 問答鏈

In [None]:
qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=retriever)

#### 定義真正的心靈處方籤主函式

注意最主要還是設計 `prompt` 的型式。

In [None]:
def answer_user_question(question):
    # 抽取一條隨機的心靈處方籤
    chosen_prescription = np.random.choice(spiritual_prescriptions)

    # 檢索資料夾中的相關內容
    retriever_result = qa_chain.run(question)

    print(f"你抽到的心靈處方籤: {chosen_prescription}")

    # 自訂 prompt，結合心靈處方籤、上下文和使用者問題
    prompt = f"""
    使用者抽到了一個心靈處方籤，它的內容是：{chosen_prescription}

    以下是我們從資料庫中檢索到的內容，這些內容來自書中的資料，並與使用者的問題相關：
    {retriever_result}

    請根據「心靈處方籤」中的訊息，結合書中的資料，用類似的語氣和觀念來回應使用者的問題：
    「{question}」
    """

    # 使用 HumanMessage 包裝 prompt 並生成回答
    final_response = llm.invoke([HumanMessage(content=prompt)])

    return final_response.content

In [None]:
# 使用範例：回答一個使用者問題
user_question = "今天有颱風好可怕，該如何面對？"
response = answer_user_question(user_question)

print(f'\n經過機器人得到的內容是 \n==================== \n{response}')

# 建立 Gradio 互動介面

In [None]:
!pip install gradio
import gradio as gr

In [None]:
def answer_user_question(question):
    # 抽取一條隨機的心靈處方籤
    chosen_prescription = np.random.choice(spiritual_prescriptions)

    # 檢索資料夾中的相關內容
    retriever_result = qa_chain.run(question)

    # 自訂 prompt，結合心靈處方籤、上下文和使用者問題
    prompt = f"""
    使用者抽到了一個心靈處方籤，它的內容是：{chosen_prescription}

    以下是我們從資料庫中檢索到的內容，這些內容來自書中的資料，並與使用者的問題相關：
    {retriever_result}

    請根據「心靈處方籤」中的訊息，結合書中的資料，用類似的語氣和觀念來回應使用者的問題：
    「{question}」
    """

    # 使用 HumanMessage 包裝 prompt 並生成回答
    final_response = llm.invoke([HumanMessage(content=prompt)])

    return chosen_prescription, final_response.content

In [None]:
title = "【拍拍機器人】AI 心靈處方籤"
description = "請你注意自己的呼吸一分鐘, 寫下你心裡浮現的問題。發送之後會幫你抽出一支心靈處方籤, 還會幫你解籤 :)"

In [None]:
inp = gr.Textbox(label="請寫下你的問題:")
out1 = gr.Textbox(label="你抽到的心靈處方籤")
out2 = gr.Textbox(label="拍拍想跟你說的話")

In [None]:
iface = gr.Interface(answer_user_question,
                     title=title,
                     description=description,
                     inputs = inp,
                     outputs = [out1, out2])

In [None]:
iface.launch(share=True, debug=True)