### 簡要說明

這段 Python 程式碼是 **RAG（Retrieval-Augmented Generation）資料庫**的前置作業，主要用於**文件分塊（Document Chunking）**。

1.  **`split_into_chunks` 函式：** 這個函式負責讀取指定的檔案（`reflexion_zh.md`）。
2.  **`content.split("\n\n")`：** 這是核心操作，它會根據連續的兩個換行符號（`\n\n`）來將文件內容分割開來。在 Markdown 格式中，這通常代表一個新的段落或區塊。
3.  **迴圈與列印：** 程式碼的最後部分則遍歷這些分割後的區塊，並加上編號後列印出來。

最終，這些**被分割好的文字區塊**（chunks）將會被進一步處理，例如**嵌入（embedding）**，然後儲存到向量資料庫（Vector Database）中，作為 RAG 系統用來**檢索（retrieval）**的來源資料。

In [5]:
from typing import List

def split_into_chunks(doc_file: str) -> List[str]:
    with open(doc_file, 'r') as file:
        content = file.read()
    return [chunk for chunk in content.split("\n\n")]

chunks = split_into_chunks("reflexion_zh.md")

for i, chunk in enumerate(chunks):
    print(f"[{i}] {chunk}\n")


[0] # 反思：帶有語言強化學習的語言代理

[1] Noah Shinn  東北大學  noahshinn024@gmail.com

[2] Federico Cassano  東北大學  cassano.f@northeastern.edu

[3] Edward Berman  東北大學  berman.ed@northeastern.edu

[4] Ashwin Gopinath  麻省理工學院  agopi@mit.edu

[5] Karthik Narasimhan  普林斯頓大學  karthikn@princeton.edu

[6] Shunyu Yao  普林斯頓大學  shunyuy@princeton.edu

[7] # 摘要

[8] 大型語言模型（LLMs）越來越多地被用作與外部環境（例如，遊戲、編譯器、API）互動的目標導向代理。然而，對於這些語言代理來說，要快速有效地從試錯中學習仍然具有挑戰性，因為傳統的強化學習方法需要大量的訓練樣本和昂貴的模型微調。我們提出了一種名為 **Reflexion** 的新穎框架，它不是透過更新權重來強化語言代理，而是透過**語言回饋**。具體來說，Reflexion 代理會口頭反思任務回饋訊號，然後將其自身的反思文本保存在一個情景記憶緩衝區中，以誘導在後續試驗中做出更好的決策。Reflexion 框架足夠靈活，可以納入各種類型（純量值或自由形式語言）和來源（外部或內部模擬）的回饋訊號，並在多樣化的任務（循序決策、程式編碼、語言推理）上顯著優於基線代理。例如，Reflexion 在 HumanEval 編碼基準測試上達到了 **$91\%$** 的 pass@1 準確度，超越了先前最先進的 **GPT-4** 的 **$80\%$**。我們還進行了消融（ablation）和分析研究，使用不同的回饋訊號、回饋整合方法和代理類型，並提供關於它們如何影響效能的見解。我們在 https://github.com/noahshinn024/reflexion 釋出所有程式碼、示範和資料集。

[9] # 1 引言

[10] 諸如 ReAct [30]、SayCan [1]、Toolformer [22]、HuggingGPT [23]、生成式代理 [19] 和 WebGPT [17] 等近期工作已經證明

### 簡要說明

這段 Python 程式碼使用了 `sentence-transformers` 函式庫，進行**文字嵌入（text embedding）**，這是 **RAG（Retrieval-Augmented Generation）** 系統中非常關鍵的一步。

1.  **`SentenceTransformer` 模型載入：** 首先，程式碼載入了 `shibing624/text2vec-base-chinese` 這個預訓練模型。這個模型專門針對中文設計，能夠理解文字語意，並將其轉換為固定長度的向量。
2.  **`embed_chunk` 函式：** 這個函式接收一個文字區塊 (`chunk`) 作為輸入。
3.  **`embedding_model.encode(chunk)`：** 這是核心操作。它將文字區塊通過模型進行編碼，產生一個高維度的數值向量。這個向量代表了該文字的語意資訊。
4.  **`return embedding.tolist()`：** 最後，程式碼將這個向量轉換成 Python 列表格式並回傳。

這個數值向量（embedding）後續通常會被儲存到向量資料庫中，作為 RAG 系統用來**檢索**相關資訊的依據。透過比較這些向量的相似度，系統可以快速找到與使用者查詢語意最相近的文字區塊。

In [None]:
from sentence_transformers import SentenceTransformer

embedding_model = SentenceTransformer("shibing624/text2vec-base-chinese")

def embed_chunk(chunk: str) -> list[float]:
    embedding = embedding_model.encode(chunk)
    return embedding.tolist()

# test = embed_chunk("這是一個測試")
# print(len(test))
# print(test)

tokenizer_config.json:   0%|          | 0.00/319 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/74.0 [00:00<?, ?B/s]

768
[0.2990936040878296, 0.1355181336402893, -0.39434388279914856, 0.2805689573287964, 0.678432822227478, -0.6151585578918457, -0.12356254458427429, 0.3951432704925537, 0.0021721962839365005, -0.6227761507034302, 0.45126456022262573, -0.3146153688430786, 0.8864192962646484, -0.5102314949035645, -0.9343315958976746, 0.0187201090157032, -0.04101871699094772, 0.19450080394744873, -0.3441966772079468, -0.0012566149234771729, -0.5598320960998535, 0.3227599859237671, -0.9176159501075745, 0.02703871577978134, 0.3883141279220581, -0.35309094190597534, -1.3748698234558105, 0.2628708481788635, 0.897472620010376, 0.9632723331451416, 0.3881807029247284, 0.09929098188877106, 0.15569257736206055, 0.11329668015241623, -0.7448760271072388, -0.5646571516990662, -0.05475657433271408, 0.17633135616779327, 0.1883418709039688, 0.3935178816318512, -0.13437309861183167, 0.5934925675392151, -1.1509883403778076, -0.9170684814453125, 0.26818132400512695, 0.30468571186065674, 0.31642627716064453, 0.8884555101394

In [None]:
embeddings = [embed_chunk(chunk) for chunk in chunks]
print(len(embeddings))
print(embeddings[0])

235
[0.5129936337471008, -0.22915524244308472, 0.4295875132083893, 0.58030104637146, 0.48000597953796387, -1.0451878309249878, 0.5200716257095337, 0.5218423008918762, -0.2732039988040924, 0.07719428092241287, -0.524263858795166, -0.14263573288917542, 0.1493522822856903, -0.043291617184877396, -0.8812920451164246, 0.10687371343374252, 0.6698636412620544, 0.9996813535690308, 0.2731923758983612, -0.405118465423584, -0.10809390246868134, 1.0258002281188965, -0.08068691939115524, -0.08611724525690079, -0.21590089797973633, -0.773329496383667, -0.3537631928920746, 0.3810468018054962, 0.08318948745727539, 0.5975735783576965, 0.5067188143730164, -1.166683554649353, -0.9287459850311279, 0.8308585286140442, -0.6131950616836548, 0.06722401082515717, 0.07883433252573013, -0.36942681670188904, 0.6727641224861145, 0.16592249274253845, 0.31800708174705505, 0.7450768351554871, -0.8569239377975464, -1.0102840662002563, 0.10882086306810379, 0.07382714003324509, 0.2153509557247162, -0.01113487035036087, 

### 程式碼備註：使用 ChromaDB 儲存向量

這段程式碼展示了如何初始化一個 ChromaDB 臨時客戶端，並將文本切塊（`chunks`）及其向量（`embeddings`）儲存到資料庫中。

---

#### 核心邏輯
* **`chromadb.EphemeralClient()`**: 建立一個**臨時（ephemeral）**的資料庫，所有資料只存在於記憶體中，程式執行結束後會自動清除。這非常適合測試或短暫的數據處理。
* **`collection.add(...)`**: 這是將資料添加到 ChromaDB 的主要方法。它需要三個關鍵參數：
    1.  `ids`: 每個資料項的**唯一識別碼**。
    2.  `embeddings`: 對應的向量。
    3.  `documents`: 原始文本內容。

---

#### IDs 的重要性與潛在問題

這段程式碼使用 `ids = [str(i) for i in range(len(chunks))]` 來生成 ID，這是一種簡單且有效的方式，**在單次執行時**可以確保每個 ID 都是獨一無二的。

然而，這種方法存在一個潛在風險：如果你在不同的時間點或代碼塊中**多次運行**這段程式碼，新生成的 ID `["0", "1", ...]` 會與之前儲存的資料發生衝突，導致舊資料被覆蓋。

**正式專案建議**：為了避免 ID 衝突，建議使用更嚴謹的方式，例如 **UUID**。

In [7]:
import chromadb

chromadb_client = chromadb.EphemeralClient()

collection = chromadb_client.get_or_create_collection("reflexion_zh")

def save_embeddings(embeddings: list[list[float]], chunks: list[str]):
    ids = [str(i) for i in range(len(chunks))]
    collection.add(
        ids=ids,
        embeddings=embeddings,
        documents=chunks,
    )

save_embeddings(embeddings, chunks)