# 8.推理、规划和树搜索增强

## 8.1 简介

在前面的章节中，我们已经看到大语言模型智能体在记忆、调用工具和执行指令等方面具备了强大的能力。当这些模型被用于需要多步推理或全局规划的复杂任务时，单纯依赖端到端的直接回答策略难以取得理想效果。

其根本原因在于，复杂推理任务往往包含多层次的逻辑结构与决策路径，大语言模型本质是对下一词元进行预测建模；如果缺乏对中间状态的逐步展开，仅凭输入直接预测输出，就意味着模型需要在极少词元内一次性掌握所有潜在的推理链条与结构信息，面临极高的建模难度，这在许多任务中是不切实际的。如果能引入明确的中间步骤，将任务拆解为“输入→推理状态1→推理状态2→…→输出”的过程，每一步的建模难度便显著降低，整个解题过程也更符合人类“逐步思考”的方式。正如我们在日常中解决复杂问题时，通常也会经历分析、推演与修正的过程，“三思而后行”正体现了结构化推理的必要性。

近年来研究者提出了一系列基于中间推理过程建模的增强方法。语言，作为人类思维的外化形式，一直被视为推理的核心工具。借助语言序列本身的表达能力，我们可以显式地将模型的推理过程建模为"思维链", 即将推理过程展开成一系列结构化的“思维步骤”，将原本需要一次性完成的复杂映射转化为多阶段、可追踪的推理路径。通过这种方式，智能体得以逐步构建逻辑链条，在每一步都进行局部判断与修正，从而逐步逼近正确答案，显著提升了解题的稳定性与可解释性。

![image.png](attachment:image.png)
<center style="font-size:14px">图1."直接作答"方式和"推理模式"两种回答问题的方式对比图</center> 

图1 展示了"直接作答"方式和"推理模式"两种回答问题的方式对比。
左子图展示了大语言模型在推理时的“直接作答”方式：模型在接收到问题后，直接输出答案，缺乏中间的推理展开过程。
右子图展示了更具结构性的“推理模式”：模型在给出最终答案前，会先生成一系列推理步骤，形成一个逐步展开、可追踪的思考过程。该过程中，模型可以通过多轮推理操作，完成：(1)对已有推理的回顾与修正，(2)推进至后续的推理阶段，(3)探索多个可能的推理路径或解答思路。这种方式显著增强了模型在复杂任务中的任务理解能力和解题鲁棒性，更贴近人类解决问题时“先思考、再回答”的认知范式。

推理增强方法大致可以归纳为四类基本范式：

**逐步推理**：引导模型显式展开中间思维步骤，逐步构建推理链条，并在每一步进行验证与调整，从而避免直接作答时可能出现的错误；

**任务规划**：任务规划强调在开始推理前先对整体问题进行通盘考虑，制定清晰的解决方案。相比直接进行逐步推理的方式，这种策略要求模型结合当前状态、目标状态以及可能的中间步骤，明确行动路径后再逐步执行，从而避免盲目推进带来的误判和低效。通过提前规划，模型能够更系统地组织推理过程，提高解题的稳定性和整体连贯性。

**反思与自我修正机制**：通过引导模型在执行过程中回顾先前的推理结果，识别潜在错误并调整后续步骤，反思机制为推理过程引入了迭代优化的能力。这种机制显著增强了模型对错误的容忍度与修复能力，从而提升了推理的鲁棒性与整体成功率。

**搜索与路径探索**：结合搜索算法，使模型在面对多种可能的解题路径时，能够系统性地探索解空间，从中选出最优路径或更高质量的答案；

### 本章重点内容

围绕着上述四类基本策略范式, 在本章中，我们将循序渐进地展开智能体推理与规划能力的关键议题。首先，我们将看到面对多步推理任务时，简单地“拍脑袋直接回答”往往难以奏效；接着，我们会介绍经典的逐步推理方法，并指出它在实际应用中仍存在一定局限。为此，我们将进一步探讨规划和树搜索增强两大类推理增强策略：规划方法强调不同推理步骤之间的相互影响, 协同优化; 搜索增强方法强调在推理过程的部分步骤中引入搜索机制，允许模型在多条路径中并行探索，从而提高解题的灵活性和效率。最后，我们还特别设计了一个小实验：数独游戏，欢迎大家动手实践，用不同方法亲自感受推理增强带来的变化，并将经验推广到未来更具挑战性的智能任务！



## 8.2 智能体推理与规划挑战

### 8.2.1 从失败案例看解决推理任务的难点

在处理复杂任务时，智能体面临的最大挑战之一是如何进行有效的推理和规划，特别是当任务要求多步推理时。例如，简单的输入-输出映射不足以完成许多复杂的实际任务，而是需要智能体在“脑海中”进行多步推理，逐步获取必要的信息，并在此基础上做出决策。这类任务的复杂性通常源自于以下几个因素：

1. **多步推理**：任务往往需要智能体从多个角度考虑问题，每一步的推理都可能影响后续的决策。缺乏充分推理的智能体可能会忽视重要的细节，导致错误的结论。
2. **中间推理步骤**：在许多复杂任务中，解答并非直观显现，而是通过多个推理步骤连接的结果。这些中间步骤对于最终答案的正确性至关重要。
3. **逐步行动与反馈调整**：一些任务要求智能体不仅要进行思考，还要基于中间反馈调整策略。这种动态调整能力是智能体规划与执行过程中不可或缺的一部分。

#### 举例说明：复杂问题的多步推理挑战
下面我们通过一个具体的数学题为例来说明智能体在多步推理任务中可能遇到的挑战：

1. 定义智能体(你可以把其中Qwen2.5-0.5B-Instruct换成其他开源模型再次尝试)

In [1]:
!pip install numpy==1.23.5

from transformers import AutoTokenizer, AutoModelForCausalLM
import requests
import json
import time
from typing import List, Dict, Any, Tuple, Optional
import torch
import random
import re


class QwenAgent:
    def __init__(self, system_prompt="你是一个很聪明的智能体。你会用中文回答用户提出的任何问题。"):
        self.system_prompt = system_prompt
        self.tokenizer = AutoTokenizer.from_pretrained("/mnt/workspace/bohuang/model/qwen2.5-7B-Instruct")
        self.model = AutoModelForCausalLM.from_pretrained("/mnt/workspace/bohuang/model/qwen2.5-7B-Instruct", torch_dtype="auto", device_map="auto")

    def default_ask(self, question):
        messages = [
            {"role": "system", "content": self.system_prompt},
            {"role": "user", "content": question}
        ]
        return self.ask(messages)

    def ask(self, messages):
        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
        model_inputs = self.tokenizer([text], return_tensors="pt").to(self.model.device)
        generated_ids = self.model.generate(
            **model_inputs,
            max_new_tokens=2048,
            do_sample=True,
            temperature=0.3,
        )
        generated_ids = [
            output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
        ]
        response = self.tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
        return response


random.seed(423)
myAgent = QwenAgent()

Looking in indexes: https://ai_sw_guest:****@art-pub.eng.t-head.cn/artifactory/api/pypi/ptgai-pypi_ppu_ubuntu_cu126_index/simple/
You should consider upgrading via the '/usr/local/bin/python3 -m pip install --upgrade pip' command.[0m[33m
[0m

  from .autonotebook import tqdm as notebook_tqdm
Loading checkpoint shards: 100%|██████████| 4/4 [00:02<00:00,  1.46it/s]


In [None]:
# 使用少样本学习诱导不经思考直接回答模式
messages = [
    {"role": "system", "content": "你是一个数学智能体，需要直接解答数学问题，不进行任何推理，只需给出答案。"},
    
    {"role": "user", "content": "将直角坐标中的点 $(0,3)$ 转换为极坐标形式。请以 $(r,\theta)$ 的形式作答，其中 $r > 0$ 且 $0 \le \theta < 2\pi$。"},
    {"role": "assistant", "content": "答案是 \\left( 3, \\frac{\\pi}{2} \\right)"},
    
    {"role": "user", "content": "设 \[p = \sum_{k = 1}^\infty \frac{1}{k^2} \quad \text{且} \quad q = \sum_{k = 1}^\infty \frac{1}{k^3}.\]请尝试用 $p$ 和 $q$ 表示下面这个双重级数：\[\sum_{j = 1}^\infty \sum_{k = 1}^\infty \frac{1}{(j + k)^3}\]"},
    {"role": "assistant", "content": "答案是 p - q"},
    
    {"role": "user", "content": "正整数 196 有多少个正整数约数？"},
    {"role": "assistant", "content": "答案是 9"},
    
    {"role": "user", "content": "若 $f(x) = \frac{3x-2}{x-2}$，那么 $f(-2) + f(-1) + f(0)$ 的值是多少？请将你的答案化为最简分数。"},
]

torch.manual_seed(46)  # 设置种子，确保实验可复现
print(myAgent.ask(messages))

答案是 \frac{15}{4}\)


In [None]:
# 逐步思考模式
messages = [
    {"role": "system", "content": "你是一个数学智能体，你需要逐步推理, 然后给出答案。"},  
    {"role": "user", "content": "若 $f(x) = \frac{3x-2}{x-2}$，那么 $f(-2) + f(-1) + f(0)$ 的值是多少？请将你的答案化为最简分数。"},
]
torch.manual_seed(46)  # 设置种子，确保实验可复现
print(myAgent.ask(messages))

为了找到函数 \( f(x) = \frac{3x-2}{x-2} \) 在 \( x = -2 \)，\( x = -1 \)，和 \( x = 0 \) 时的 \( f(-2) + f(-1) + f(0) \) 的值，我们需要分别计算每个函数值，然后将结果相加。

首先，我们计算 \( f(-2) \)：
\[
f(-2) = \frac{3(-2) - 2}{-2 - 2} = \frac{-6 - 2}{-4} = \frac{-8}{-4} = 2
\]

接下来，我们计算 \( f(-1) \)：
\[
f(-1) = \frac{3(-1) - 2}{-1 - 2} = \frac{-3 - 2}{-3} = \frac{-5}{-3} = \frac{5}{3}
\]

然后，我们计算 \( f(0) \)：
\[
f(0) = \frac{3(0) - 2}{0 - 2} = \frac{-2}{-2} = 1
\]

现在，我们将这些值相加：
\[
f(-2) + f(-1) + f(0) = 2 + \frac{5}{3} + 1
\]

为了将这些数相加，我们需要一个公共分母。2 和 1 可以写成 \(\frac{6}{3}\) 和 \(\frac{3}{3}\)，分别。因此，我们有：
\[
2 + \frac{5}{3} + 1 = \frac{6}{3} + \frac{5}{3} + \frac{3}{3} = \frac{6 + 5 + 3}{3} = \frac{14}{3}
\]

因此，\( f(-2) + f(-1) + f(0) \) 的值是 \(\boxed{\frac{14}{3}}\)。


在上述数学题的解答中, 使用直接回答方式的智能体给出了错误答案$\frac{15}{4}$。而使用逐步思考的推理模式的智能体则在经过任务拆解, 分步完成相应的子任务, 整合子任务答案之后, 最终得出了正确答案$\frac{14}{3}$。

上面这个数学题示例很好地展示了为什么需要进行多步推理。对于还没有经过专门的后训练增强推理能力之前的语言模型, 其生成行为高度依赖于语言表层的统计模式，而缺乏稳定的、结构化的思维路径构建能力。也就是说，当问题的解决依赖于多步逻辑的组合与转换，而非直接的信息提取时，模型便难以从训练中习得稳健的应对策略。其结果是，模型虽然能够流畅地生成语法正确、表达通顺的回答，但在逻辑层面却可能漏洞百出。这种缺乏思维过程的回答问题方式, 在缺乏推理机制的语言模型中尤为常见。具体表现为：

1. 模型往往省略中间步骤，直接跳转到结论；

2. 模型倾向于依据语义相似度“匹配”已见过的语言模式，而非主动进行条件判断；

3. 一旦问题结构稍作变化，例如添加条件或引入变量，模型的泛化能力就会明显下降。

从认知角度看，语言模型的这一局限本质上反映出其缺乏“过程意识”——即对问题求解所需的中间状态、阶段性目标和逻辑转换没有明确的建模机制。这与人类解决问题的方式形成鲜明对比：在人类的解题过程中，思考通常是沿着清晰的路径层层推进的，而非单步“跳结论”。

而当我们想要设计能够解决现实生活中各种复杂问题的智能体时, 我们必须意识到，如果智能体的构建缺乏对于内在的思维过程机制的建模, 单纯依赖语言模型的表层生成能力来解决问题, 那么在复杂任务上的失败几乎是必然的。这一认识构成了本章进一步讨论推理范式与增强方法的基础。


### 8.2.2 逐步思考：基础链式思维范式

在上一节中，我们分析了语言模型直接根据在缺乏结构化推理机制时会直接跳结论，导致正确率低、逻辑失控的核心问题。为了解决这一问题，研究者提出了一种最基础却极具启发性的方式：**思维链**，又称“逐步思考”。

#### 什么是“思维链”？

“思维链”指的是一种让模型在回答最终结论之前，先生成一系列**清晰有序的中间推理步骤**。它强调的是从问题输入出发，通过若干子问题的显式解决，逐步构建到最终答案的思考路径。与传统一次性输出结果相比，思维链将复杂推理显性化，使每一步的逻辑关系对用户可见。

![image-2.png](attachment:image-2.png)
<center style="font-size:14px">图2.思维链结构阐释图</center> 


#### 方法来源与发展背景

思维链方法最早由 Wei 等人在 2022 年的论文《Chain‑of‑Thought Prompting Elicits Reasoning in Large Language Models》中系统提出。研究者通过向大型语言模型（如 PaLM 540B）提供**带有推理步骤演示的少量示例**，引导模型以类似方式生成思维链。论文的核心发现包括：

* 包含 8 个思维链示范的少样本提示，可让 PaLM 在数学问题集 GSM8K 上准确率从约 17% 提升至 57%；
* 思维链提示对于模型推理能力呈“规模依赖性”——仅在足够大的模型上效果显著；
* 这不依赖于模型内在是否构建了符号推理机制，而是语言模型在生成中，通过自然语言表达隐式推理过程。

论文通过大量实验验证，表明思维链可在算术题、常识推理、符号推理等多种任务上带来显著提升，是自然语言中“诱导思考”的有效策略。

该研究奠定了思维链作为推理范式的基石，并广泛影响了后续研究方向。

#### 为什么思维链有效？机制分析

为了进一步深入拆解研究思维链的有效性，Wang 等人在论文《Towards Understanding Chain-of‑Thought Prompting: An Empirical Study of What Matters》中，对思维链机制进行了深入剖析。他们通过一系列“消融实验”发现：

1. **即使提供的少样本示例中含有逻辑错误，模型仍能获得标准思维链提示技术 80–90% 的原始提升效果**，说明思维链提示的关键不在于提供完全正确的推理，而在于其结构；
2. 思维链效果依赖两个核心要素：**与问题相关的内容质量**和**步骤顺序的正确性**，而不是主题逻辑是否正确；
3. 这种现象表明，思维链提示作用主要是使模型“生成结构化、连贯、按顺序的输出”，而非直接灌输逻辑结构本身。

换句话说，思维链的提示作用更像是启发了模型去“按步骤解题”的输出范式，而模型本身已具备一定推理能力，只是缺乏结构化组织。

从理论与认知角度而言，思维链之所以能够提升模型推理性能，主要体现在两个方面：

1. **分解复杂任务，降低认知负荷**
   将“大问题”拆解为“小步骤”，让每一步逻辑更为明确、可控，减少模型直接跳结论导致错误的可能。

2. **显性展现推理路径，增加可解释性与调试性**
   用户和开发者可通过每一步分析判断模型是否在推理流程中偏离预期，为后续增强策略（如反思、自检）提供可能。


通过上述研究，我们可以得出如下结论：

* **明确结构即可改变行为**：思维链通过提示任务格式，显性化分步路径，从而显著提升推理质量；
* **过程能被学习而非逻辑**：模型并非通过思维链示例中的内容本身，而是学习到了“思考路径展开的形式感”；
* **构建推理范式基础**：思维链并非万能，但它提供了一种最基本的“让模型显性思考”的范式。这一方式不仅提升深层语义推理准确率，也为未来引入更高级机制（如反思、多路径规划、验证纠错等）奠定结构性基础。


综上所述，**思维链（逐步思考）** 是一种极具启发与有效性的基础推理方式。它通过显性引导分步输出，不仅在实践中提升了模型执行复杂任务的能力，也为后续章节中设计智能体的高级推理能力提供了坚实基础。下一节，我们将进一步探讨思维链的潜在局限，为更复杂的思维策略与规划机制搭建桥梁。

### 8.2.3 基础链式思维的局限性

思维链作为一种基础的推理引导范式，通过显性生成中间步骤，有效增强了语言模型面对复杂问题的推理能力。然而，尽管它在多步计算与符号推理任务中表现突出，仍然存在一些根本性限制，难以覆盖更复杂的推理需求。下面我们从三个典型维度对其局限性进行分析。

1. **缺乏前后关联建模能力，难以实现全局规划**

基础的思维链结构是一种典型的“从前向后”式的线性推理路径，其每一步的生成仅依赖于此前步骤的信息。这种单向依赖机制虽然契合人类的逐步思考习惯，却也带来了一项关键限制：模型只能建模“前因对后果”的影响关系，难以捕捉“后续目标”对“先前步骤”的反向约束或调整作用。

在许多需要全局规划的任务中，合理的求解策略往往不是顺着一步步“自然推进”得出的，而是需要结合终局目标进行倒推或反向修正。例如，在解数学题或规划动作序列时，后续的状态要求常常对前序步骤提出结构性约束，甚至需要模型回看已有推理并进行调整。而标准的思维链在建模这种“全局目标对局部路径的反向影响”时力不从心，无法有效实现前后信息的协调统一，导致推理路径缺乏整体一致性。

2. **推理链结构缺乏有效的探索机制，难以覆盖复杂多样化思考路径**
基于"逐步思考"提示产生的基础的思维链通常以线性结构展现模型的推理过程，即每一个步骤依赖前一步的输出，并按顺序推进。然而，在真实任务中，推理往往不是简单的线性推进，而是具有条件分支、信息回溯、路径选择甚至并行展开的复杂结构。此时，线性思维链的表达能力就显得非常有限。

以条件规划任务为例，一个合理的解题过程可能需要模型在多个方案之间动态选择，并根据当前状态调整后续步骤；而在代码生成或结构化问答中，模型可能需要回溯先前判断、重构路径逻辑。标准的思维链无法原生支持这类多路径或图结构的思维形式，导致推理链在面对结构复杂度更高的任务时表现受限。

3. **推理链过长时易产生错误积累**
在多步任务中，思维链要求模型显式生成每一个中间步骤，每一个后续步骤都依赖于前一步的输出。这种链式结构虽然增强了推理透明度，但也带来了新的风险：中间步骤一旦出错，错误将沿链条持续传递并放大，最终影响整体结论的正确性。

研究发现，随着思维链的长度增长，模型在保持逻辑一致性和语义连贯性上的能力迅速下降，尤其是在缺乏自我纠错机制的条件下，早期失误往往导致后续所有推理都建立在错误基础之上。这种“不可逆”的链式结构，在长推理路径下尤其脆弱，限制了思维链在复杂问题上的泛化能力。

4. **思维链的任务依赖性强，适用范围受限**
大量实证研究表明，思维链对模型性能的提升主要集中在数学计算、符号推理、排序判断等结构化逻辑任务中。而在更广泛的自然语言理解任务中，如常识推理、阅读理解、情感判断、视觉问答等场景中，思维链的收益则不显著，甚至在某些任务上可能带来性能下降。

这类现象表明，思维链的有效性具有较强的任务依赖性：它更适用于人类解决问题时本身需要展开步骤思考的任务，而在那些依赖直觉判断或整体语境感知的任务中，逐步展开反而可能破坏模型原有的判断结构，导致信息冗余、重点偏移或路径干扰。

总结而言, 思维链是一种重要的推理起点，它为语言模型引入了显性的过程结构。但我们也应认识到，其线性单径的结构假设、错误不可逆的链式特性，以及在非结构化任务上的适应性不足，构成了其主要限制。我们亟需在此基础上，探索更灵活、更具适应性的推理与规划机制，以应对更复杂的智能体任务。

## 8.3 智能体任务规划策略

在面对复杂任务时，智能体需要具备有效的任务规划能力，以提高任务完成的效率和准确性。相较于传统的链式思维范式仅沿着“从前向后”的路径展开推理，复杂任务往往要求智能体同时具备“前瞻”与“后顾”的能力：一方面，能够在推理之初明确全局目标与关键节点，从而指导后续步骤的展开；另一方面，能够在中途或末尾回看已有推理路径，根据当前状态对先前判断进行调整与修正。

这类“前瞻后顾”式的思维方式构成了更具规划性的推理范式，强调信息在时间维度上的双向流动，以及全局结构对局部行为的约束作用。它不仅要求智能体制定清晰的计划，还要求其在执行过程中具备动态调整与路径重构的能力，跳脱出线性推进、不可逆的链式结构限制，从而更贴近人类解决复杂问题时的思维模式。

以下是几种典型的任务规划策略，展示如何在大语言模型中引入更具结构性的规划能力，以提升智能体对复杂问题的适应性与鲁棒性：

### 8.3.1 规划-执行范式


![image.png](attachment:image.png)
<center style="font-size:14px">图3.规划-执行范式示例图</center> 

问题引入: 

在普通的思维链模式中，模型会直接生成一条线性推理链，但这在“多子任务”场景中显出明显缺陷。尤其当任务本身结构复杂、需要跨多个阶段解决时，单一链条容易**遗漏中间目标**；同时在长链中，初期规范，即使微小错误也会在后续累积，最终导致整个推理失败。

方法核心思想:

为了解决这些问题，Lei Wang 等人于 2023 年提出 **规划--执行提示方法**，其立足点如下：

* **问题识别**：单链推理忽略任务内部结构，导致过程不清晰、中间遗漏；
* **思路设计**：通过明确生成“计划”，让模型先概览任务结构，再分步执行，从而提高可控性与完整性；
* **方法定位**：聚焦于零样本提示场景，不依赖示例，适配未见任务的泛用性需求。

方法机制详解:

（a）规划阶段

* 模型接收原问题，通过提示引导其生成一份“结构化计划”。该计划列举出完成任务所需解决的各个子任务或行动步骤，明确任务空间。
* 多数实现中仅需一句自然语言引导，如：

  > “让我们首先通过将问题分解为子步骤来制定计划。”

（b）执行阶段

* 将计划中的每一步作为单独输入，再让模型分别输出思维链与结果。
* 这种方式使每一步变得聚焦、深度更高，减少遗漏关键环节和中间理解失误。

（c）规划--执行提示方法增强

* 在标准规划--执行结构基础上添加提示细节，例如：提取相关变量，谨慎执行中间计算。
* 这些细化提示能显著降低链条中“缺步”和“计算错误”类型的失误。

（d）零样本学习能适用更多场景

* 规划--执行的零样本学习形式无须示例，仅靠问题提示即可工作，特别适合在未见任务或数据稀缺场景下使用。

### 8.3.2 子任务分解

![image-2.png](attachment:image-2.png)
<center style="font-size:14px">图4.Least‑to‑Most Prompting示例图</center> 


问题引入：思维链难以应对难度跃升的问题

尽管基础思维链能够拆解推理过程，但当问题难度超出示例范围时，模型往往会失败。这是因为传统的思维链依赖一次性推理链，难以支持 **从简单到复杂的递进**。具体表现为：

* 对比示例复杂度，模型在面对更难问题时容易逻辑断裂或跳结论；
* 思维链没有显式结构来帮助模型逐步扩展解题难度；
* 导致模型难以实现“由易到难”的持续推理，易陷入局部最优或盲目错误。

方法核心思想:引入“由易到难”的递进式子问题设定

为了解决传统思维链在“难题超示例难度”时的失效问题，Zhou 等人在 2022 年在文章 《Least‑to‑Most Prompting Enables Complex Reasoning in Large Language Models》中提出了 **Least‑to‑Most Prompting** 方法。其核心思想是**将复杂问题拆分为多个子问题**，按从最简单到最困难的顺序依次解决，每一步都使用前一步的答案辅助当前推理。

方法机制详解:

1. **子问题拆解阶段**
   使用少样本示例或指令，让模型将复杂问题拆解为一系列清晰的子问题。例如：“Elsa 有 5 个苹果，Anna 比她多 2 个……先算 Anna 有多少，再算总数。”

2. **按难度顺序逐步解答**
   模型依次解决子问题，每一步将先前答案作为上下文提供。例如：

   * 子问题 1：Anna 有几个？ → 得出 7；
   * 子问题 2：两人共有几个？ → 使用答案 7 作计算。

3. **利用前序结果强化推理**
   每一步都在提示词中加入之前的答案，提高连贯性与准确性。相比一次性思维链，该方法建立了跨步骤的显性依赖关系。

4. **多任务与多任务泛化能力**

   * 在 SCAN 组合推理任务上，使用 14 个示例的 Least‑to‑Most Prompting 将 GPT-3（code‑davinci‑002）对长度拆分测试的准确率从 16% 提升至 99%；
   * 在 GSM8K 多步数学题中，LtM 在 5 步以上任务上比 CoT 平均提升约 6%。


### 8.3.3 动态调整与反思

问题引入：基础思维链无法实现自我纠错与策略改进

尽管基础思维链通过显性步骤输出有助于逻辑清晰，但在面对需要试错探索的环境（如程序生成、环境交互决策）时，却存在两个核心不足：

* **无法从失败中学习**：当模型执行错误后，通常不会总结失败原因并调整下一步策略，只会依赖同样模式再次尝试；
* **缺乏长期记忆机制**：模型无法将过去的失败经验存储并用于后续任务，导致类似错误重复发生且效率低下。

方法核心思想:

因此，要在复杂环境中提升智能体的持续决策能力，需要引入一种让模型**反思失败**并**在后续尝试中改进行为**的机制。

为了解决上述痛点，Shinn 等人在论文《Reflexion: Language Agents with Verbal Reinforcement Learning》中提出了**通过语言反馈进行反思学习**的新框架。该方法无需微调模型参数，而是通过语言强化学习激发模型在试错后生成自我反馈，从而在后续任务中调整行为。

方法机制详解:

![image-2.png](attachment:image-2.png)
<center style="font-size:14px">图5.Reflexion 算法示例图</center> 


**Input**: 初始策略模型 $M_a$，评估模型 $M_e$，反思模型 $M_{sr}$

1. 初始化策略 $\pi_\theta(a_i \mid s_i)$，其中 $\theta = \{M_a, \text{mem} \}$；
2. 使用 $\pi_\theta$ 生成初始轨迹 $\tau_0$；
3. 使用 $M_e$ 对 $\tau_0$ 进行评估；
4. 使用 $M_{sr}$ 生成初始反思 $sr_0$，初始化记忆 $\text{mem} \leftarrow \{sr_0\}$；
5. 设时间步 $t \leftarrow 0$；
6. **while** $M_e$ 未通过或 $t < \text{最大尝试次数}$ **do**
    1. 使用 $\pi_\theta$ 生成当前轨迹 $\tau_t = [a_0, o_0, ..., a_i, o_i]$；
    2. 使用 $M_e$ 对 $\tau_t$ 进行评估；
    3. 使用 $M_{sr}$ 生成当前反思 $sr_t$；
    4. 将 $sr_t$ 加入记忆模块：$\text{mem} \leftarrow \text{mem} \cup \{sr_t\}$；
    5. $t \leftarrow t + 1$；
7.  **return**
<center style="font-size:14px">算法1.Reflexion 算法伪代码</center> 




1. “行动者–评估者–反思者”三阶段架构

   * **行动者**：采用推理-行动或思维链模式，与环境交互，生成一系列行为轨迹；
   * **评估者**：对行为轨迹的执行结果进行评价（如是否成功、通过测试用例数量等），输出反馈信号；
   * **反思者**：结合执行轨迹、反馈信号及记忆内容，生成文字形式的“反思总结”，并写入记忆池，供下次任务调用以指导下一次执行


2. **记忆更新机制**

   * 保持短期记忆（当前任务轨迹）与长期记忆（历史反思摘要）并存，通常保留最近 1–3 条反思，以控制上下文长度；
   * 下一轮执行中，行动者将上述记忆内容拼接至模型输入提示中，作为行为修正的语言指导信息。


3. **反思信号转换**

   * 将评估者输出的布尔型信号、打分信号或启发式指标转化为自然语言反思提示；
   * 典型的语言反馈包括：错误类型识别、重复模式警示、后续建议与优化方向等。

4. **应用成效与任务案例**

   * 在代码生成任务 HumanEval 中，Reflexion 智能体的首次成功率（pass@1）由 80% 提升至 91%，超越 GPT-4 的表现；
   * 在 AlfWorld 决策任务中，成功率提高约 22%，在 HotPotQA 问答中提高约 20%。

5. **方法启示与教学价值**

   * 该方法本质上可视为强化学习中“回合记忆 + 策略修正”的语言化实现，优势在于无需重新训练模型参数，成本较低；
   * 借助自然语言生成“失败总结”，构建模型的“内省能力”，适用于解决长期任务或多轮交互决策中路径依赖与错误固化的问题。



## 8.4 基于搜索的推理增强

在面对复杂推理任务时，传统的推理方法往往依赖单一的推理路径或答案，这在一些多步骤推理任务中可能会导致错误或不完整的解答。为了增强智能体的推理能力，研究者们提出了基于搜索的推理增强方法，允许智能体在推理过程中探索多个可能的路径，并通过对这些路径的评估，选择最佳的推理方案。搜索算法使得智能体不仅能考虑一条思路，还能尝试多种可能路径，从而提高推理的成功率和准确性。

通过引入搜索算法，智能体能够更加系统化地探索解空间，不仅限于一个固定的推理路径，而是能够广泛地搜索多个可能的解答，并在此过程中排除不良解，从而找到最优的解决方案。这种方式对于处理需要多重推理步骤的复杂任务至关重要，特别是在面对组合爆炸性问题时，搜索算法可以帮助智能体更高效地找到正确的路径。

![image-2.png](attachment:image-2.png)
<center style="font-size:14px">图6.基于搜索的推理增强代表算法示例图</center> 


### 8.4.1 思维树

问题引入：

“链式思考”方式采用逐步生成推理步骤的方式来辅助模型思考，但本质上属于单路径的前向搜索，不具备探索多方案与回溯能力。因此，在需要策略规划或存在组合爆炸的复杂任务中（如“24点游戏”、“迷你填字游戏”或创意写作等），这种方式往往容易陷入局部死角而失败。

方法核心思想:

为突破这一局限，Yao 等人于 2023 年提出了思维树框架，该方法将推理任务形式化为树状结构的搜索过程，结合语言模型的生成能力与评估能力，使得模型在每一步中不仅生成一个想法，而是生成多个可能的“思维节点”，然后通过深度或广度优先的搜索策略扩展这些想法。每个新产生的节点都可能带来新的推理路径，而不符合目标的路径则会被剪枝，从而逐步集中精力在可能的最优路径上。

方法机制详解:

思维树将推理任务形式化为一个树状搜索过程，每个节点代表一个“思维”，即一个中间推理状态，整棵树由以下要素构成：

**1. 思维**

* 定义：语言模型生成的一段逻辑连贯的中间状态，通常比一个词元更长，用自然语言表达推理步骤或子结构。
* 特点：每个思维是模型理解问题后的部分解答或推理方向。

**2. 思维生成**

* 方法：在某一节点上，通过多次采样生成多个候选思维；
* 策略选择：可以采用顺序生成（如按计划推进）或随机采样生成，体现探索性。


**3. 思维评估**

* 机制：通过语言模型本身（或外部函数）对每个候选思维进行评分，衡量其“解决问题的潜力”；
* 形式：可以是启发式评分、状态评估或任务相关指标；
* 意义：评估机制是整个搜索流程的关键，决定哪些路径被保留、哪些被剪枝。


**4. 搜索策略**

* 策略类型：可采用广度优先、深度优先或束搜索等经典算法；
* 控制方式：设定树的深度、宽度、回溯条件，控制生成成本与解空间大小；
* 回溯能力：当某路径被判断为无前景时，系统可退回上层节点，探索其他分支，具备试错与纠错能力。


**5. 最终决策**

* 输出方式：当搜索完成后，根据节点评估分数或路径整体质量选择一条最优链作为解答路径；
* 评估依据：既可以基于累计评分，也可以结合任务目标（如是否满足所有约束条件）进行决策。


**6. 方法优势总结**

| 特性               | 描述                                                                 |
|--------------------|----------------------------------------------------------------------|
| 多路径探索能力     | 相比传统推理路径，ToT 在多个方向上并行展开思考，避免一条路走到黑。    |
| 显式评估机制       | 在每一步都可引入纠偏机制，提高路径选择的鲁棒性。                    |
| 搜索可控性强       | 模型可在用户设定的预算与限制下进行结构化的、有目标的搜索与规划。     |
| 灵活适配多种任务   | 适用于数学题、逻辑谜题、代码生成等任务，具备较强泛化能力。           |

此外，后续研究指出，思维树的性能关键取决于生成器能力远胜评估器，且随着生成规模增长、评估策略合理调优，表现进一步提升。


### 8.4.2 自我一致性（Self-Consistency）

问题引入：

在基础的思维链框架中，语言模型通常通过贪婪解码生成一条推理链和最终结论。然而，这种单一路径的生成方式极易受到中间步骤偶然误判的影响。即使每一步在表面上看似合理，只要每一步存在一定概率的错误，随着推理步骤的累积，最终结果出错的可能性就会呈指数增长，导致整体推理正确率显著下降。换言之，只要推理链中的任一环节出错，后续步骤便可能在错误基础上“逻辑自洽”地继续下去，最终给出看似有据却实际错误的结论。

方法核心思想:

为缓解这一“路径偶然性”问题，Wang 等人在 2022 年在《Self‑Consistency Improves Chain of Thought Reasoning in Language Models》中提出了一种基于统计集成思想的增强策略——自我一致性。该方法通过对同一问题进行多次独立采样，生成多条不同的推理路径，再通过投票机制从中选出出现频率最高的答案，以**放大正确路径的概率优势**, 从而提升推理结果的稳定性与正确率。

方法机制详解:

自我一致性方法核心包括以下三个步骤：

**1. 多路径生成（多样性采样）**

* 利用链式思考提示引导模型进行推理，但不再使用贪婪生成方式；
* 改为采用采样式解码策略（如 top-k 采样、温度采样等），生成若干条具有差异性的推理链；
* 每条路径独立生成，并可能得出不同的最终答案；
* 常见设置包括生成 10 条、20 条甚至 40 条路径，以保证推理思路的多样性。

**2. 投票决策（答案选取）**

* 从每条推理链中提取最终答案；
* 对所有答案进行多数投票，选取出现频率最高的结果作为最终输出；
* 在大多数任务中，**简单的多数投票机制（不加权）**往往效果优于贪婪选择或基于概率的加权策略，操作简便且鲁棒性强。

**3. 增益原理（统计平均效应）**

自我一致性方法之所以有效，其核心在于统计意义下的正确路径优势积累：

错误推理往往分布离散、逻辑路径各异，因此不同错误路径的输出结果较难集中；正确推理路径虽然可能形式不同，但多数能收敛到同一个答案，具备**“频率优势”**；在多次采样中，正确答案更容易被多次覆盖，而错误答案分散在多个选项中难以形成多数；

理想情况下, 只要获得正确答案的概率高于获得任何一个确定的错误答案的概率，那么通过多样性采样和多数投票的方式，就能显著提升最终结果的正确率。这种“多样采样 + 多数投票”的方式，构成一种轻量且高效的结果校验机制。

**4. 实证效果**

* 在数学推理任务 GSM8K 上，SC 较 greedy 解码提升 17.9%；SVAMP 提升 11%；AQuA 提升 12%；明确提升覆盖常识与算术问题的正确率；
* 自我一致性方法是当前最简单、几乎无训练成本但效果显著的推理优化手段。


In [None]:
# # data_source: https://huggingface.co/datasets/open-r1/DAPO-Math-17k-Processed/viewer/all/train?views%5B%5D=all_train&row=2

def extract_boxed_answer(text: str) -> str:
    # 使用正则表达式匹配 \boxed{...} 中的内容
    # 这里需要处理嵌套的大括号情况
    pattern = r'\\boxed\{([^{}]*(?:\{[^{}]*\}[^{}]*)*)\}'
    matches = re.findall(pattern, text)    
    if matches:
        # 返回最后一个匹配的内容（通常是最终答案）
        return matches[-1].strip()
    else:
        return ""

answers = []

for seed in [46, 47, 48, 49, 50, 51, 52, 53, 54, 55]:
    torch.manual_seed(seed)  # 设置种子，确保实验可复现
    messages = [
        {"role": "system", "content": "你是一个数学智能体，你需要逐步推理, 然后给出答案。将你的答案用 \boxed{} 包裹起来。"},  
        {"role": "user", "content": "设 $a, b, c$ 为不同的数，且方程 $x^2 + ax + 1 = 0$ 和 $x^2 + bx + c = 0$ 有一个共同的实根，方程 $x^2 + x + a = 0$ 和 $x^2 + cx + b = 0$ 也有一个共同的实根。计算和 $a + b + c$。"},
    ]
    answer = myAgent.ask(messages)
    # print(answer)
    print(f"Seed {seed}: {extract_boxed_answer(answer)}")
    print('-' * 50)  # 分隔符
    answers.append(extract_boxed_answer(answer))

print(answers)

Seed 46: -3
--------------------------------------------------
Seed 47: 
--------------------------------------------------
Seed 48: 
--------------------------------------------------
Seed 49: 2
--------------------------------------------------
Seed 50: -3
--------------------------------------------------
Seed 51: 
--------------------------------------------------
Seed 52: -3
--------------------------------------------------
Seed 53: 0
--------------------------------------------------
Seed 54: -1
--------------------------------------------------
Seed 55: 
--------------------------------------------------
['-3', '', '', '2', '-3', '', '-3', '0', '-1', '']


### 8.4.3 搜索算法结合（如MCTS）

问题引入：

在处理复杂决策任务（如代码生成、路径规划、环境交互等）时，语言模型需要同时具备“多步推理”“策略选择”和“环境反馈”机制。然而，基础的思维链或单纯思维树方法缺乏以下能力：

* 无法有效平衡探索不同策略和利用已有成功路径之间的关系；
* 缺乏对不确定环境反馈的适应机制；
* 难以在动态环境中进行持续优化。

方法核心思想：

为此，研究者引入 **蒙特卡洛树搜索**, 一种在高维、决策树结构中既能随机探索也能系统利用已有信息的搜索算法。它通过 **选择 → 扩展 → 模拟 → 回传** 四步骤，在有限计算预算内逐步构建决策策略树，广泛应用于围棋、棋牌、机器人控制等领域。

语言模型结合 MCTS 的初衷是：利用语言模型生成候选决策并评估其价值，将模型能力融入搜索控制，进而支持“思考—尝试—评估—修正”循环，从而提升复杂任务的表现与鲁棒性。

方法机制详解：

LATS 方法由 Zhou 等人于 2023 年提出，是目前将 MCTS 框架系统性引入语言智能体任务的代表。该方法结合语言生成、环境反馈与反思机制，构建统一的“推理–搜索–学习”流程, 其关键模块如下：

1. **生成模块**

在当前节点下，语言模型通过提示技术生成多个候选操作（例如子问题解法、下一步动作）；

这些候选项即构成 MCTS 中的“待扩展子节点”；

模型也可以基于记忆、历史反思内容等信息调节生成策略。

2. **价值评估模块**

每个候选路径会被赋予一个价值估计分数，代表该路径通向成功的可能性；

评估信号来源包括：

语言模型内评估：如“这条路径的可行性如何？”；

环境反馈：执行该路径后观察是否成功，如代码是否运行正确、页面是否跳转成功；

自我反思生成：对失败路径总结错误，作为后续路径选择的提示。

3. **树搜索控制流程**

LATS 使用标准 MCTS 流程中的四个阶段来控制搜索树的生长：

* 选择：使用上置信界策略，从根节点出发选择具有最高潜力的子节点；

* 扩展：对未展开节点调用生成器，添加新分支；

* 模拟：在当前路径上执行动作或调用语言模型，获得结果与反馈；

* 回传：将执行结果（奖励）向上反馈至路径中的每个节点，更新其估值。

4. **环境交互与记忆机制**

LATS 的优势之一在于将“外部交互”与“长期记忆”机制融合进搜索流程：

* 每次模拟后，系统接收来自环境的反馈（如网页状态、编译结果）；
* 若执行失败，模型自动生成一段“反思总结”，写入记忆池；
* 后续的路径生成与评估均可参考记忆内容，避免重复错误、强化正确策略。

5. **最终输出与策略优化**

当搜索预算耗尽（如最大节点数、最大搜索轮次）后：

1. 选取根节点下访问次数最多的路径作为最优解；
2. 输出该路径所对应的操作序列或答案；
3. 将此次任务中的关键反馈与反思内容加入记忆池，为后续任务积累经验。

方法总结与适用场景

LATS 将语言模型的生成能力、MCTS 的结构化搜索能力、以及环境反馈与记忆能力三者融合，构建出一种动态、可控、可反思的决策式智能体系统。

它相较于思维链和思维树更具“交互性”和“可学习性”，尤其适合以下任务场景：

需要试错探索的环境：如代码生成、接口调用、网页点击任务；

需要累积经验优化策略的任务：如多轮问答、交互式智能体；

高维、长期规划的推理问题：如自动推理、组合路径生成等。

通过引入搜索算法，智能体可以更全面地探索解空间，不仅依赖单一的推理路径，还能通过多路径搜索提高解答的准确性和可靠性。思维树方法、 自我一致性和蒙特卡洛树搜索等方法通过不同的搜索机制优化了推理过程，在多步推理任务中取得了显著效果。这些基于搜索的推理增强方法为智能体处理复杂任务提供了有力支持，帮助其在面对复杂的推理、规划任务时更高效、更准确地找到解决方案。


## 8.5 实战：复杂任务智能体

在本章的前面，我们详细探讨了如何增强智能体的推理和规划能力，包括任务规划策略、思维树、搜索算法以及自我一致性等方法。现在，通过一个实战任务，我们将带领读者实际应用这些策略，提升智能体解决复杂任务的能力。

#### 任务设计与目标

为了更好地展示这些方法的效果，我们将设计一个较为复杂的任务，该任务涉及多个步骤的推理和规划。任务的目标是让读者通过不同的智能体策略解决问题，并观察不同方法对解决任务的影响。

在这个实战任务中，智能体将面临以下挑战：

1. **复杂任务**：任务本身具有一定的复杂性，要求智能体进行多步骤推理或进行任务分解。
2. **失败点识别**：智能体必须在面对挑战时能够识别失败点，并采取适当的策略进行调整。
3. **逐步改进**：通过逐步引入本章所学的各种策略（如链式思维、规划步骤、思维树、自我一致性等），智能体将不断改进其推理过程，最终完成任务。

#### 示例任务：数独求解

数独是一个经典的逻辑谜题，目标是在9x9的方格内填入1到9的数字，使得每一行、每一列以及每一个3x3的小格子内的数字都不重复。由于数独的解法涉及大量的推理和步骤，有些智能体在尝试解决时会遇到难题。

**任务流程：**

1. **智能体尝试解决**：首先，让基本智能体（不使用增强推理和规划技术）尝试解决数独谜题。通过观察其执行过程，读者可以看到智能体如何在没有明确计划或分步推理的情况下尝试填入数字，通常这种方法会导致错误或无法完成任务。

2. **失败点分析**：观察并分析基本智能体在解决数独过程中的失败点。例如，智能体可能在某一行或列中填入了错误的数字，导致后续步骤无法继续执行，最终失败。读者需要识别失败点，并思考如何改进。

3. **引入链式思维提示**：在智能体的推理过程中引入链式思维提示。例如，可以要求智能体逐步推理每一个格子的数字，考虑每个填入的数字如何影响其所在行、列和小格子中的其他数字。这一方法可以帮助智能体避免盲目填充，逐步解决问题。

4. **尝试自我一致性**：当智能体生成多个解答时，可以利用自我一致性方法让模型独立进行多次推理，并通过投票选择最终答案。自我一致性能够提高复杂任务中的推理可靠性，减少单一路径推理的误差。



In [None]:
# 数独题目示例, 基本 utils 函数
puzzle_problem1 = {
    "puzzle": [
        [0, 3, 0, 2],
        [0, 0, 3, 0],
        [0, 1, 0, 0],
        [4, 0, 0, 0]
    ],
    "config": {
        "grid_size": 4,
        "placeholder": 0
    },
    "answer": [
        [1, 3, 4, 2],
        [2, 4, 3, 1],
        [3, 1, 2, 4],
        [4, 2, 1, 3]
    ]
}

def format_puzzle_display(puzzle):
    """格式化显示数独"""
    puzzle_str = ""
    for row in puzzle:
        row_str = " ".join(str(cell) if cell != 0 else "_" for cell in row)
        puzzle_str += row_str + "\n"
    return puzzle_str


def validate_sudoku_solution(parsed_solution: Optional[List[List[int]]], correct_answer: List[List[int]]) -> bool:
    """
    验证解析后的数独解答是否与标准答案一致
    
    Args:
        parsed_solution: parse_solution函数返回的结果
        correct_answer: 标准答案
        
    Returns:
        bool: True表示正确，False表示错误
    """
    # 如果解析失败，返回False
    if parsed_solution is None:
        return False
    
    # 检查尺寸是否一致
    if len(parsed_solution) != len(correct_answer):
        return False
    
    # 逐行比较
    for i in range(len(correct_answer)):
        if len(parsed_solution[i]) != len(correct_answer[i]):
            return False
        for j in range(len(correct_answer[i])):
            if parsed_solution[i][j] != correct_answer[i][j]:
                return False
    
    return True


def parse_solution(response: str, grid_size: int) -> Optional[List[List[int]]]:
    """从LLM响应中解析数独解答，支持 \\boxed{} 格式"""
    
    # 首先尝试提取 \boxed{} 中的内容
    boxed_pattern = r'\\boxed\{([^{}]*(?:\{[^{}]*\}[^{}]*)*)\}'
    boxed_matches = re.findall(boxed_pattern, response)
    
    if boxed_matches:
        # 使用最后一个 \boxed{} 中的内容
        answer_part = boxed_matches[-1].strip()
    else:
        # 如果没有找到 \boxed{}，尝试查找 [answer] 标记
        answer_marker = "[answer]"
        if answer_marker.lower() in response.lower():
            marker_pos = response.lower().find(answer_marker.lower())
            answer_part = response[marker_pos + len(answer_marker):].strip()
        else:
            # 如果都没有找到，使用整个响应
            answer_part = response
    
    lines = answer_part.split('\n')
    solution = []

    for line in lines:
        line = line.strip()
        if not line:
            continue
        # 尝试解析数字行
        numbers = []
        parts = line.replace('|', ' ').replace(',', ' ').split()
        
        for part in parts:
            if part.isdigit() and 1 <= int(part) <= grid_size:
                numbers.append(int(part))
        
        if len(numbers) == grid_size:
            solution.append(numbers)
    
    # 检查是否得到完整的网格
    if len(solution) == grid_size:
        return solution
    
    return None


print("原始数独题目:")
print(format_puzzle_display(puzzle_problem1["puzzle"]))

原始数独题目:
_ 3 _ 2
_ _ 3 _
_ 1 _ _
4 _ _ _



In [None]:
# 直接提示方法, 逐步思考方法
def solve_direct_prompt(puzzle: List[List[int]], config: Dict) -> Tuple[str, Optional[List[List[int]]]]:
    """使用Direct Prompt方法解决数独"""
    
    # 格式化输入
    puzzle_str = format_puzzle_display(puzzle)
    
    # 构造few-shot示例 - 使用一个简单的数独问题和直接答案
    few_shot_puzzle = """_ 3 _ 2
_ _ 3 _
_ 1 _ _
4 _ _ _"""
    
    few_shot_answer = """\\boxed{
1 3 4 2
2 4 3 1
3 1 2 4
4 2 1 3
}"""
    
    # 使用messages格式来构造few-shot对话
    messages = [
        {"role": "system", "content": "你是一个很聪明的智能体。你会用中文回答用户提出的任何问题。"},
        {"role": "user", "content": f"""请直接输出这个4×4数独谜题的答案：

规则：
每一行必须包含从1到4的所有数字
每一列必须包含从1到4的所有数字
数字0或_表示空格

题目：
{few_shot_puzzle}

请用\\boxed{{}}包装答案，每行数字用空格分隔。"""},

        {"role": "assistant", "content": few_shot_answer},
        
        {"role": "user", "content": f"""请直接输出这个{config['grid_size']}×{config['grid_size']}数独谜题的答案：

规则：
每一行必须包含从1到{config['grid_size']}的所有数字
每一列必须包含从1到{config['grid_size']}的所有数字
数字0或_表示空格

题目：
{puzzle_str}

请用\\boxed{{}}包装答案，每行数字用空格分隔。"""}
    ]

    print("=== Direct Prompt 方法 (Few-shot) ===")
    print("\n" + "="*50 + "\n")
    
    # 调用LLM
    response = myAgent.ask(messages)
    
    # 解析解答
    solution = parse_solution(response, config['grid_size'])
    return response, solution




def solve_step_by_step(puzzle: List[List[int]], config: Dict) -> Tuple[str, Optional[List[List[int]]]]:
    """使用Think Step by Step方法解决数独"""
    # 格式化输入
    puzzle_str = format_puzzle_display(puzzle)
    
    # 构建提示词
    prompt = f"""请逐步求解这个 {config['grid_size']}×{config['grid_size']} 的数独谜题。

规则：
每一行必须包含从 1 到 {config['grid_size']} 的所有数字
每一列必须包含从 1 到 {config['grid_size']} 的所有数字
数字 0 或 _ 表示空白格
不要修改已有的数字

题目如下：
{puzzle_str}

请按以下步骤逐步思考：
1. 首先分析当前谜题的状态, 分析每一行、每一列的数字分布
2. 分析当前空着的位置中，哪些位置只能填入一个数字, 使用逻辑推理找出唯一解
3. 填入数字后, 再次分析当前谜题的状态, 重复上述步骤，直到谜题完成

展示你的思考过程与推理逻辑，最后用 \\boxed{{}} 包装你的最终答案：
下面是一个参考的格式样例
\\boxed{{
1 2 3 4
4 3 2 1
2 1 4 3
3 4 1 2
}}

每行一个数字序列，只包含数字，数字之间用空格分隔。

让我们有条不紊地推理完成这个谜题。"""

    print("=== Think Step by Step 方法 ===")
    print("\n" + "="*50 + "\n")
    
    # 调用LLM
    response = myAgent.default_ask(prompt)
    
    # 解析解答
    solution = parse_solution(response, config['grid_size'])
    
    return response, solution

In [None]:
# 自我一致性方法
def solve_self_consistency(puzzle: List[List[int]], config: Dict, num_rollouts: int = 5) -> Tuple[str, Optional[List[List[int]]]]:
    """使用Self-Consistency方法解决数独"""
    
    print("=== Self-Consistency 方法 ===")
    print(f"将进行 {num_rollouts} 次推理...")
    print("\n" + "="*50 + "\n")
    
    # 收集所有成功解析的结果
    parsed_solutions = []
    all_responses = []
    
    for i in range(num_rollouts):
        print(f"第 {i+1} 次推理...")
        torch.manual_seed(100 + i)  # 每次使用不同的seed
        
        try:
            response, solution = solve_step_by_step(puzzle, config)
            all_responses.append(response)
            
            if solution is not None:
                parsed_solutions.append(solution)
                print(f"第 {i+1} 次: 解析成功")
            else:
                print(f"第 {i+1} 次: 解析失败")
        except Exception as e:
            print(f"第 {i+1} 次: 异常: {str(e)}")
            all_responses.append(f"异常: {str(e)}")
    
    # 如果没有成功解析的结果
    if not parsed_solutions:
        return "\n".join(all_responses), None
    
    # 统计每个解答出现的次数
    solution_counts = {}
    for solution in parsed_solutions:
        # 将solution转换为字符串作为key
        solution_str = str(solution)
        solution_counts[solution_str] = solution_counts.get(solution_str, 0) + 1
    
    # 找到出现次数最多的解答
    most_common_solution_str = max(solution_counts, key=solution_counts.get)
    most_common_count = solution_counts[most_common_solution_str]
    
    # 将字符串转换回列表
    most_common_solution = eval(most_common_solution_str)
    
    print(f"\n统计结果:")
    print(f"成功解析: {len(parsed_solutions)}/{num_rollouts}")
    print(f"最高票数: {most_common_count}")
    
    # 合并所有响应
    combined_response = f"Self-Consistency结果 (共{num_rollouts}次推理):\n"
    combined_response += f"成功解析: {len(parsed_solutions)}/{num_rollouts}\n"
    combined_response += f"最终选择的解答出现了 {most_common_count} 次\n\n"
    combined_response += "各次推理的详细结果:\n" + "\n".join([f"第{i+1}次:\n{resp}\n{'-'*30}" for i, resp in enumerate(all_responses)])
    
    return combined_response, most_common_solution



In [None]:
# 实验结果展示
test_case = {"puzzle": [[2, 4, 1, 3], [1, 3, 2, 0], [0, 0, 3, 0], [3, 1, 4, 2]], "answer": [[2, 4, 1, 3], [1, 3, 2, 4], [4, 2, 3, 1], [3, 1, 4, 2]], "config": {"grid_size": 4, "difficulty": 25, "enforce_unique": True, "placeholder": 0}}

print("=" * 80)
print("数独推理方法对比演示")
print("=" * 80)

print("\n题目:")
print(format_puzzle_display(test_case["puzzle"]))

print("标准答案:")
print(format_puzzle_display(test_case["answer"]))

print("\n" + "=" * 80)

# 方法1: Direct Prompt
print("\n【方法1: Direct Prompt】")
torch.manual_seed(96)
try:
    direct_response, direct_solution = solve_direct_prompt(test_case["puzzle"], test_case["config"])
    print("LLM回复:")
    print(direct_response[:300] + "..." if len(direct_response) > 300 else direct_response)
    
    if direct_solution:
        print("\n解析出的答案:")
        print(format_puzzle_display(direct_solution))
        is_correct = validate_sudoku_solution(direct_solution, test_case["answer"])
        print(f"结果: {'正确' if is_correct else '错误'}")
    else:
        print(" 无法解析出有效答案")
except Exception as e:
    print(f" 异常: {str(e)}")

print("\n" + "-" * 80)

# 方法2: Think Step by Step  
print("\n【方法2: Think Step by Step】")
torch.manual_seed(96)
try:
    step_response, step_solution = solve_step_by_step(test_case["puzzle"], test_case["config"])
    print("LLM回复:")
    print(step_response[:500] + "..." if len(step_response) > 500 else step_response)
    
    if step_solution:
        print("\n解析出的答案:")
        print(format_puzzle_display(step_solution))
        is_correct = validate_sudoku_solution(step_solution, test_case["answer"])
        print(f"结果: {'正确' if is_correct else ' 错误'}")
    else:
        print(" 无法解析出有效答案")
except Exception as e:
    print(f" 异常: {str(e)}")

print("\n" + "-" * 80)

# 方法3: Self-Consistency
print("\n【方法3: Self-Consistency】")
try:
    sc_response, sc_solution = solve_self_consistency(test_case["puzzle"], test_case["config"], num_rollouts=3)
    
    if sc_solution:
        print("最终选择的答案:")
        print(format_puzzle_display(sc_solution))
        is_correct = validate_sudoku_solution(sc_solution, test_case["answer"])
        print(f"结果: {'正确' if is_correct else '错误'}")
    else:
        print(" 无法得到有效答案")
except Exception as e:
    print(f" 异常: {str(e)}")

print("\n" + "=" * 80)
print("演示完成")


数独推理方法对比演示

题目:
2 4 1 3
1 3 2 _
_ _ 3 _
3 1 4 2

标准答案:
2 4 1 3
1 3 2 4
4 2 3 1
3 1 4 2



【方法1: Direct Prompt】
=== Direct Prompt 方法 (Few-shot) ===


LLM回复:
\boxed{
2 4 1 3
1 3 2 4
4 2 3 1
3 1 4 2
}

解析出的答案:
2 4 1 3
1 3 2 4
4 2 3 1
3 1 4 2

结果: ✅ 正确

--------------------------------------------------------------------------------

【方法2: Think Step by Step】
=== Think Step by Step 方法 ===


LLM回复:
我们从给定的数独谜题开始：

\[
\begin{array}{|c|c|c|c|}
\hline
2 & 4 & 1 & 3 \\
\hline
1 & 3 & 2 & \_ \\
\hline
\_ & \_ & 3 & \_ \\
\hline
3 & 1 & 4 & 2 \\
\hline
\end{array}
\]

首先，我们分析第二行。数字 1、3 和 2 已经放置，所以缺失的数字必须是 4。因此，我们可以填入：

\[
\begin{array}{|c|c|c|c|}
\hline
2 & 4 & 1 & 3 \\
\hline
1 & 3 & 2 & 4 \\
\hline
\_ & \_ & 3 & \_ \\
\hline
3 & 1 & 4 & 2 \\
\hline
\end{array}
\]

接下来，我们分析第三行。数字 3 已经放置，所以缺失的数字必须是 1、2 和 4。然而，由于第一列已经有 2，第二列已经有 3，第三列已经有 3，缺失的数字必须是 1、2 和 4，但它们不能与第一列、第二列和第三列的数字重叠。因此，我们可以填入：

\[
\beg...

解析出的答案:
2 4 1 3
1 3 2 4
4 2 3 1
3 1 4 2

结果: ✅ 正确

-----------------------------------------------

In [None]:
# 修改批量测试函数，添加self-consistency测试
def run_batch_test(sudoku_data_file):
    """简单的批量测试函数"""
    print(sudoku_data_file)
    test_cases = []
    with open(sudoku_data_file, 'r', encoding='utf-8') as f:
        for line in f:
            test_cases.append(json.loads(line.strip()))
    
    print(f"开始测试 {len(test_cases)} 个样例...")
    
    # 统计结果
    direct_correct = 0
    step_correct = 0
    self_consistency_correct = 0
    
    for i in range(len(test_cases)):
        puzzle = test_cases[i]
        print(f"\n=== 测试样例 {i+1} ===")
        
        # 测试Direct Prompt
        torch.manual_seed(96)
        try:
            _, direct_solution = solve_direct_prompt(puzzle["puzzle"], puzzle["config"])
            if direct_solution and validate_sudoku_solution(direct_solution, puzzle["answer"]):
                direct_correct += 1
                print(f"Direct Prompt: 正确")
            else:
                print(f"Direct Prompt: 错误")
        except:
            print(f"Direct Prompt:  (异常)")
        
        # 测试Step by Step
        torch.manual_seed(96)
        try:
            _, step_solution = solve_step_by_step(puzzle["puzzle"], puzzle["config"])
            if step_solution and validate_sudoku_solution(step_solution, puzzle["answer"]):
                step_correct += 1
                print(f"Step by Step: 正确")
            else:
                print(f"Step by Step: 错误")
        except:
            print(f"Step by Step:  (异常)")
        
        # 测试Self-Consistency
        try:
            _, sc_solution = solve_self_consistency(puzzle["puzzle"], puzzle["config"])
            if sc_solution and validate_sudoku_solution(sc_solution, puzzle["answer"]):
                self_consistency_correct += 1
                print(f"Self-Consistency: 正确")
            else:
                print(f"Self-Consistency: 错误")
        except:
            print(f"Self-Consistency:  (异常)")
    
    # 打印结果
    print(f"\n=== 最终统计 ===")
    print(f"Direct Prompt 正确率: {direct_correct}/{len(test_cases)} = {direct_correct/len(test_cases)*100:.1f}%")
    print(f"Step by Step 正确率: {step_correct}/{len(test_cases)} = {step_correct/len(test_cases)*100:.1f}%")
    print(f"Self-Consistency 正确率: {self_consistency_correct}/{len(test_cases)} = {self_consistency_correct/len(test_cases)*100:.1f}%")



In [None]:
# 大批量实验测试
run_batch_test(sudoku_data_file='/mnt/workspace/bohuang/sodoku_data/sudoku_problems.jsonl')

/mnt/workspace/bohuang/sodoku_data/sudoku_problems.jsonl
开始测试 12 个样例...

=== 测试样例 1 ===
=== Direct Prompt 方法 (Few-shot) ===


Direct Prompt: ❌
=== Think Step by Step 方法 ===




Step by Step: ❌
=== Self-Consistency 方法 ===
将进行 5 次推理...


第 1 次推理...
=== Think Step by Step 方法 ===


第 1 次: ✅ 解析成功
第 2 次推理...
=== Think Step by Step 方法 ===


第 2 次: ✅ 解析成功
第 3 次推理...
=== Think Step by Step 方法 ===


第 3 次: ❌ 解析失败
第 4 次推理...
=== Think Step by Step 方法 ===


第 4 次: ❌ 解析失败
第 5 次推理...
=== Think Step by Step 方法 ===


第 5 次: ✅ 解析成功

统计结果:
成功解析: 3/5
最高票数: 1
Self-Consistency: ❌

=== 测试样例 2 ===
=== Direct Prompt 方法 (Few-shot) ===


Direct Prompt: ❌
=== Think Step by Step 方法 ===


Step by Step: ❌
=== Self-Consistency 方法 ===
将进行 5 次推理...


第 1 次推理...
=== Think Step by Step 方法 ===


第 1 次: ✅ 解析成功
第 2 次推理...
=== Think Step by Step 方法 ===


第 2 次: ✅ 解析成功
第 3 次推理...
=== Think Step by Step 方法 ===


第 3 次: ✅ 解析成功
第 4 次推理...
=== Think Step by Step 方法 ===


第 4 次: ✅ 解析成功
第 5 次推理...
=== Think Step by Step 方法 ===


第 5 次: ✅ 解析成功

统计结果:
成功解析: 5/5
最高票数: 2
Self-Consistency: ❌

=== 测试样例 3 ===
=== Direct Prompt 方法 (Few-shot) ===


Direct Prompt: ❌
=== Think Step by Step 方法 ===


Step by Step: ❌


#### 方法效果对比与分析

在完成数独任务后，读者可以对比不同方法的效果：

* **基本智能体尝试**：没有规划或增强推理的智能体往往会快速失败，或者产生错误的解答，表明缺乏有效的推理和规划能力。
* **链式思维**：引入链式思维后，智能体能够逐步推理，避免了盲目行动，解答的准确性大幅提升。
* **自我一致性**：通过自我一致性的投票，智能体能够在多步骤推理中找到更优解，减少了推理中的偶然错误。

建议读者在实践中动手尝试本章中提到的其他增强策略，并对比它们在数独求解中的表现差异。观察每种方法在解题效率与正确率方面的变化。这样不仅有助于理解不同技术的原理，也能直观体会它们在实际任务中的作用。

#### 总结与启示

通过这个任务，读者可以直观地感受到增强推理和规划策略（链式思维、自我一致性）对智能体解决复杂任务的影响。在实践过程中，智能体通过逐步改进推理策略，从单一推理到多路径探索，再到自我反馈修正，逐步提升了推理的准确性和任务完成的效率。

此外，数独作为一个典型的组合优化问题，能够展示任务分解、逐步推理和回溯修正等方法的优势。这些方法不仅适用于数独问题，还可以扩展到其他复杂的推理任务和规划问题，如解谜、优化问题以及基于知识库的推理任务等。



## 8.6 小结

本章深入探讨了 **LLM Agent 中的推理、规划与树搜索增强**，旨在帮助读者理解并应用各种策略来提高智能体在复杂任务中的推理和规划能力。通过介绍多种方法，包括任务规划策略、思维树搜索、自我一致性以及搜索算法结合等技术，智能体可以在面对多步骤推理、规划和优化问题时，提升其效率、准确性和可靠性。

首先，我们分析了智能体在复杂任务中的推理与规划挑战，揭示了传统 LLM 在处理需要多步推理的任务时所面临的困难。典型的挑战包括缺乏逐步推理能力、规划视野的局限性和执行过程中的动态调整不足。针对这些问题，研究者们提出了多种增强推理和规划的策略，帮助智能体在面对复杂问题时能够更加高效地推理和执行任务。

在 **任务规划策略** 部分，我们介绍了 **计划-执行范式**、**子任务分解** 和 **动态调整与反思** 等技术。通过这些策略，智能体能够将复杂任务拆解成可管理的子任务，制定合理的计划，并根据中间结果进行动态调整。例如，计划-执行范式要求智能体先规划任务解决方案，再逐步执行，避免了直接盲目行动的潜在风险；子任务分解则通过逐步解决子问题，有效降低了任务的复杂性。

接下来，我们讨论了 **基于搜索的推理增强**，介绍了 **思维树**、**自我一致性** 和 **搜索算法结合** 等方法。思维树方法通过扩展链式思考，使智能体能够生成多个候选推理路径，并通过剪枝与选择，最终找到最佳解答；自我一致性方法通过独立思考和投票机制，提高了推理任务的可靠性；而通过结合传统的搜索算法（如蒙特卡罗树搜索，MCTS），智能体能够在复杂任务的解空间中进行系统性的探索，从而优化决策过程。

最后，在 **实战任务设计** 部分，我们通过数独求解任务，实际演示了增强推理与规划策略的应用效果。通过让智能体多次尝试并逐步引入本章所学的策略，读者可以看到这些方法如何提升任务解决的效率和准确性。数独任务作为一个经典的组合优化问题，展示了任务分解、逐步推理和回溯修正等方法的优势，这些技术不仅适用于数独问题，还能扩展到其他复杂推理和规划任务中。

通过本章的学习，读者不仅理解了推理和规划增强的核心概念，还掌握了如何通过不同的策略来提升智能体的推理能力和任务执行能力。多步推理与规划能力对于智能体在面对复杂问题时至关重要，而合理的提示策略、增强的推理算法和高效的搜索机制，能够显著提高智能体在实际任务中的表现。

总之，本章的内容为理解和应用增强推理与规划技术提供了坚实的基础。未来，随着更多高效推理与规划方法的涌现，智能体将在各类复杂任务中展现出更强的能力，推动 AI 系统向更高的智能水平发展。



## 8.7 参考文献

1. Wei, J. et al. (2022). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS 2022.
2. Wang, X. et al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. ICLR 2023.
3. Zhou, D. et al. (2023). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. ICLR 2023.
4. Wang, L. et al. (2023). Plan-and-Solve Prompting: Improving Zero-Shot CoT Reasoning by LLMs. arXiv preprint.
5. Shinn, N. et al. (2023). Reflexion: Language Agents with Verbal Reinforcement Learning. arXiv preprint.
6. Yao, S. et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. NeurIPS 2023.
7. Zhou, A. et al. (2023). Language Agent Tree Search Unifies Reasoning, Acting, and Planning in LLMs. arXiv preprint.
8. LangChain Dev Blog (2024). Reflection Agents (Feb 21, 2024)
9. Helicone AI Blog (2023). Tree-of-Thought Prompting: Key Techniques and Use Cases
10. Wang, J. et al. (2024). OpenR: An Open Source Framework for Advanced Reasoning with Large Language Models. arXiv preprint arXiv:2410.09671. 


<!-- 

[1]: https://arxiv.org/abs/2205.10625?utm_source=chatgpt.com "Least-to-Most Prompting Enables Complex Reasoning in Large Language Models"
[2]: https://www.prompthub.us/blog/least-to-most-prompting-guide?utm_source=chatgpt.com "Least-to-Most Prompting Guide - PromptHub"
[3]: https://medium.com/%40marketing_novita.ai/how-can-least-to-most-prompting-enable-complex-reasoning-in-llms-7580211273d8?utm_source=chatgpt.com "How Can Least-to-Most Prompting Enable Complex Reasoning in ..."
[4]: https://docs.helicone.ai/guides/prompt-engineering/use-least-to-most-prompting?utm_source=chatgpt.com "Use Least-to-Most prompting - Helicone OSS LLM Observability"
[5]: https://medium.com/papers-i-found/e6-least-to-most-prompting-c301663d3134?utm_source=chatgpt.com "E6 : Least-to-most Prompting - Medium"

 -->


## 8.8 参考习题

下面让我们来动手进行几道简单的练习，巩固一下本章所学的知识吧！

### 习题 1：推理失败的原因
**问题**：以下哪项最能解释 LLM 在多步骤逻辑谜题上容易出错的原因？  
A. 训练数据不足  
B. 无法访问外部知识库  
C. 缺乏逐步推理能力  
D. 输出语法错误较多  

**答案**：C. 缺乏逐步推理能力


### 习题 2：计划-执行的提示方式  
**问题**：计划-执行提示最典型的提示形式是：  
A. “一步一步来解决这个问题。”  
B. “现在开始写出你的答案。”  
C. “先制定解决计划，再逐步求解。”  
D. “生成答案后自我检查。”  

**答案**：C. “先制定解决计划，再逐步求解。”


### 习题 3：子任务分解的核心思想  
**问题**：子任务分解方法的核心思想最接近以下哪一项？  
A. 随机游走  
B. 分而治之  
C. 启发式排序  
D. 投票机制  

**答案**：B. 分而治之



### 习题 4：Reflexion 的关键机制  
**问题**：Reflexion 框架的关键机制是：  
A. 引导用户直接给出正确答案  
B. 对每次输出生成自我反馈并存入记忆  
C. 使用大模型替代人类评审  
D. 生成图谱结构的推理链  

**答案**：B. 对每次输出生成自我反馈并存入记忆



### 习题 5：思维树方法的优势  
**问题**：思维树方法的关键优势在于：  
A. 可以自我训练  
B. 减少中间步骤  
C. 并行探索多种思路  
D. 模拟用户反馈机制  

**答案**：C. 并行探索多种思路



### 习题 6：MCTS 与 LLM 结合的好处  
**问题**：将 MCTS 与 LLM 结合的主要收益在于：  
A. 减少记忆负担  
B. 引导模型在搜索空间中找到更优路径  
C. 缩短响应时间  
D. 降低提示词复杂度  

**答案**：B. 引导模型在搜索空间中找到更优路径

### 习题 7(开放拓展) 推理范式是否本质上是一种“用时间换空间”的策略？

说明：这是一个开放性问题，旨在引导你从工程实现和计算复杂性的角度，理解推理范式的提出动机。你可以选择同意或不同意，并结合自己的理解展开分析。

**问题描述**
在本章中，我们介绍了多种推理增强方法，如链式思维、计划-执行范式、思维树等。这些方法都具有一个共同点：将原本复杂的“问题到答案”的映射过程，分解为多个中间步骤进行建模与推理。

有一种观点认为：这种“多步推理”的本质，并不是单纯追求解释性或思维模拟，而是出于现实中数据量和模型参数容量受限的工程考量，不得不减少模型参数量这一"空间"，放弃在这个"空间"上采用问题-->答案的直接映射, 拆解为一系列更简单的步骤，从而以“时间上的推理过程”换取“空间上的表达能力”。

你是否赞同这一观点？你可以结合结合神经网络表达能力、模型容量限制、以及推理范式的工程目标进行分析说明。




**参考解答（示例思路，仅供参考, 无论是否赞同, 言之有理即可）**

我基本赞同这一观点，并认为“用时间换空间”确实可以解释多步推理范式的底层动因。

从理论上讲，神经网络具备强大的表达能力。根据神经网络万能逼近定理，只要参数足够多，理论上任何从输入到输出的映射都可以通过端到端的网络直接学习出来。因此，从“问题 → 答案”的映射在理论上并不存在不可达性。

然而在现实中，模型的参数空间是有限的，而且训练数据的分布也不可能覆盖所有潜在输入。于是我们面临的问题是：原始的“问题 → 答案”映射，过于复杂、难以泛化、容易出错。

这时我们引入的“推理范式”实际上是一种结构性简化策略。它将原本整体的高复杂度映射，拆解为多个子任务，例如：

第一步：问题 → 子结论 A

第二步：问题 + A → 子结论 B

第三步：问题 + A + B → 答案

每个子映射都更简单、更稳定，而整个推理过程串联起来之后，可以更好地拟合原始问题到答案的复杂路径。这一过程的本质，就像是在牺牲计算“时间”去分阶段近似一个难以整体表达的“空间”函数。与算法设计中“用时间换空间”完全一致。

因此，我认为推理范式不仅是一种认知模拟策略，更是工程上的空间压缩方案，以延长推理时间为代价，降低建模难度。
