# 大模型思维链

- 一、什么是思维链*
- 二、思维链体系***
- 三、思维链变种***
- 四、总结

对于学习**技术**的同学来说，这节课你们需要特别关注的是各类思维链技术的原理与方法，比如Self-Consistency、Auto-CoT、Least to Most等方法的技术细节、算法实现原理以及各方法之间的异同。应该在听课过程中多思考每种方法的适用场景，以及如何在实际的模型开发中具体应用和优化。

而对于学习**AI产品经理**的同学，你们的关注重点则应该放在对思维链技术的概念理解、应用场景和具体实践案例上。需要思考如何将这些方法应用在实际产品中解决用户的问题，提高产品性能。

在引入思维链（Chain of Thought，简称COT）技术之前，大型语言模型面临着一些挑战，这些挑战影响了大模型解决问题的能力、与用户的互动效果和大模型的落地。

1. **解决复杂问题**：大模型在没有COT的情况下试图解决复杂或多跳问题时，因为缺乏思考过程的情况，有时候难以给出正确或完整的答案。另外在数学物理等复杂问题上都有所欠缺。

| 特征         | 无COT情况                                                                                   | 有COT情况                                                                                                       |
| ------------ | ------------------------------------------------------------------------------------------ | -------------------------------------------------------------------------------------------------------------- |
| **描述**     | 模型尝试直接解决问题。 | 模型通过生成思维链条来逐步解决问题。                           |
| **优点**     | 快速给出答案，适用于简单问题。                                                               | 提供步骤和逻辑推理，提高解决复杂问题的准确性和完整性。                                                         |
| **缺点**     | 在需要步骤和逻辑推理的复杂问题上容易出错或给出不完整的答案。                                 | 处理速度可能比直接给出答案慢，因为需要生成并解释每一步的思考过程。                                             |
| **应用场景** | 简单查询、直接应答等场景，其中问题不需要复杂的逻辑推理。                                     | 数学、物理等科学问题，以及任何需要详细解释和步骤的复杂问题解答。                                              |
| **示例**     | 问：“一个数的平方是256，这个数的3倍加1是多少？”答案直接给出：“49。”                                          | 问：“一个数的平方是256，这个数的3倍加1是多少？请一步一步思考：”答案会是一系列步骤，如：“首先，找到这个数，它的平方是256。所以我们找到根号256等于16，因此这个数是16或者-16。接下来我们计算这个数的3倍；如果这个数是16，那么3倍加1等于3 * 16 + 1 =49。如果这个数是-16，那么3倍加1等于3 * (-16) + 1 =-47。所以，结果要么是49，要么是-47。” ” |



2. **不够透明**：如果大模型给出一个答案，但不告诉我们大模型是怎么想到的，我们可能会感到困惑或不信任大模型，我们也很难真正理解问题的答案。

| 特征       | 无COT情况                                                     | 有COT情况                                                     |
|----------|------------------------------------------------------------|------------------------------------------------------------|
| **描述**   | 在没有COT的情况下，大模型给出答案但不展示其思考过程，导致用户可能感到困惑或不信任。 | 引入COT后，大模型会展示其解决问题的逻辑步骤，从而增加透明度，使用户更容易理解和信任模型的答案。 |
| **例子**   | **问题**：解释为什么天空是蓝色的。 **无COT答案**：天空是蓝色的，因为这是光的散射效果。没有进一步解释，这可能让人感到答案缺乏深度和解释。 | **问题**：解释为什么天空是蓝色的。 **有COT答案**：首先，阳光进入地球大气层时，会与大气中的分子相互作用，这种作用被称为光的散射。由于蓝光波长短于其他颜色，散射效果更强，因此当我们从地面向上看时，看到的天空主要是蓝色的。这一过程详细解释了背后的物理原理，使答案更加全面和可信。 |


3. **交流不够流畅**：没有展示大模型是如何一步步得到结论的，就像是在对话中突然改变话题一样，可能会让人感到突兀或失去兴趣。这种情况下，大模型的交流质量可能会下降，我们可能不太满意大模型的回答。

| 特点         | 无COT的情况                                      | 有COT的情况                                      |
| ------------ | ---------------------------------------------- | ---------------------------------------------- |
| **交流流畅性** | 交流可能显得不够流畅。模型可能突然给出答案而不解释其推理过程，让人感觉就像对话中突然改变话题一样，可能会让人感到突兀或失去兴趣。 | 交流更加流畅。通过展示思维的步骤，使得对话更加连贯，用户能够理解模型是如何逐步得到结论的，从而增加了交流的参与感和满意度。 |
| **用户满意度** | 用户可能对模型的回答感到不满意，因为缺乏对答案生成过程的理解。 | 用户满意度提高，因为他们可以跟随模型的思考过程，更容易理解和接受模型的回答。 |
| **例子**       | 用户询问：“为什么地球是圆的？”模型直接回答：“因为地球的重力使其成为一个近似球体。”没有进一步解释为什么重力会导致这种形状。 | 用户询问：“为什么地球是圆的？”模型回答：“首先，地球的重力向中心拉扯所有物质，这种力量是向内的。然后，因为重力从所有方向均等地作用于地球的物质，所以最稳定和能量最低的形状是球形。因此，地球成为了一个近似球体。”这种解释方式帮助用户理解了背后的物理原理。 |


4. **错误更难被发现和纠正**：如果大模型犯了一个错误，但没有展示大模型的推理过程，那么找出并指出错误的具体位置就像是在黑暗中寻找针一样困难。

| 特征 | 无COT情况 | 有COT情况 |
| --- | --- | --- |
| **错误发现与纠正的难易程度** | 非常困难，因为缺乏透明的推理过程使得发现和指出错误的具体位置就像是在黑暗中寻找针一样。 | 相对容易，因为模型展示了其推理的每一步，使得错误更容易被发现和指正。 |
| **例子** | 假设模型在计算一个复杂的数学问题时给出了错误答案，由于没有提供解题步骤，用户难以理解错误出现的原因，也无法轻易指出问题所在。 | 假设在处理同一个数学问题时，模型展示了每一步的计算过程，包括其中的逻辑推理。用户发现在某一步骤模型采用了错误的数学公式，因此可以具体指出这一错误，并理解为何模型会得出错误答案。 |


5. 数学能力

<img src="image/数学能力.png" width = "600" alt="cot-example" align=center />

## 一、什么是思维链

### [思维链](https://arxiv.org/pdf/2201.11903.pdf)
- Wei J, Wang X, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models[J]. Advances in Neural Information Processing Systems, 2022, 35: 24824-24837.
  
<b>思维链（CoT）</b>，即Chain-of-Thought，是一种推理链的引导方法。其核心理念是通过生成一个或多个思维链来激发语言模型进行更深入的推理和思考，以提升模型的性能。每个思维链代表了模型在解决问题时可能采用的不同思考路径。

CoT包含两个主要步骤：
1. **生成思维链**： 模型根据输入的问题和上下文生成一个或多个可能的思维链。每个思维链都由一系列与问题相关的语句组成，代表了模型在解决问题时的思考过程。
2. **选择和生成答案**：模型从生成的思维链中选择一条或多条，并基于这些思维链生成最终的答案。这一方法的目的是通过引入多样的推理路径来提高模型的鲁棒性和推理能力。

<img src="image/cot-example.png" width = "600" alt="cot-example" align=center />

研究者们提出了一种新方法，通过在模型提示中加入思维链（即一系列自然语言中的推理步骤），来帮助模型更好地理解和解决问题。这种方法不仅提高了模型的解题性能，还使得解决方案更加可解释。

通常，当人们尝试解决复杂问题时，会将问题分解成多个小步骤，逐一解决，最后得出答案。研究者们希望让语言模型也能采取类似的方法。通过向模型展示如何通过一系列中间步骤来逐步解决问题，他们发现模型可以学习并模仿这种解题过程，从而更有效地处理复杂任务。

<img src="image/COT-1.png" width = "600" alt="cot-example" align=center />


**标准提示方法**：在测试时，模型通过查看之前给出的输入-输出对（问题和答案）来进行预测，这种方法遵循了小样本提示方法。

**连锁思维提示**：提出了一种新方法，即通过为每个范例增加一系列逻辑步骤或"思维链"来增强提示。这是为了帮助模型更好地理解和解决问题。

通过在小样本提示中加入思维链来改善数学单词问题的解决，同时评估了不同的大型语言模型在这种新提示方法下的表现。


CoT成功的样例

<img src="image/COT-2.png" width = "600" alt="cot-example" align=center />



CoT错误的样例

<img src="image/COT-3.png" width = "600" alt="cot-example" align=center />


根据对模型输出的正确和错误示例的分析，我们可以得出以下结论:

1. **思维链的正确性**:即使模型得到了正确的答案，思维链也可能是不完美的。在分析的数据集中，有一些突出的案例，思维链有微小的缺陷，但仍然导致正确的结论，这表明模型能够成功推理，尽管并不总是遵循完美的逻辑序列。

2. **错误分类**:该研究将错误分为三类:计算器错误、符号映射错误和单步缺失错误。计算器的错误可以通过使用外部计算器来纠正;符号映射错误只需要更改方程，而不需要更改单词;一步遗漏错误需要额外的推理步骤。这些类别有助于理解模型错误的性质以及如何纠正它们。

3. **改进的地方**:错误的分类提供了如何改进模型的见解。例如，集成一个外部计算器可以解决计算器错误，并使模型更好地进行符号映射可以解决相关错误。

4. **模型的潜力**:这一事实表明许多思维链基本上是正确的，模型具有强大的潜在能力，可以像人类一样处理和推理问题。错误的发生往往是由于具体的，可纠正的错误，而不是完全的理解失败。

5. **语义理解**:很大一部分错误涉及语义理解，这表明提高模型对意义和上下文的把握可以带来更好的性能。

6. **中间逻辑步骤**:模型通常会产生正确的逻辑步骤，这在教育工具或其他需要解释推理过程的应用中很受欢迎。

7. **对不完美的鲁棒性**:即使推理链存在缺陷，模型也可以得出正确的答案，这表明了一定程度的鲁棒性，并表明精确的推理可能并不总是正确结果的必要条件。

8. **模型规模的影响**:思维链推理的成功似乎与语言模型的规模有关，更大的模型可能会修复所有类别的很大一部分错误。这表明模型的规模和容量是影响推理能力和正确推理路径的重要因素。

总之，对模型在思维链推理任务上输出的正确和错误示例的分析表明，虽然模型能够进行复杂推理，但在某些特定领域可以进行改进。了解错误的类型和发生错误的条件可以指导模型的推理能力的未来增强。

CoT提示作为促进语言模型推理的方法具有几个吸引人的特性：
- 首先，原则上，CoT允许模型将多步骤问题分解为中间步骤，这意味着可以为需要更多推理步骤的问题分配额外的计算资源。
- 其次，CoT提供了一个可解释的窗口，用于观察模型的行为，指出它可能是如何得出特定答案的，并在推理路径出错的地方提供调试的机会（尽管完全描述支持答案的模型计算仍然是一个未解决的问题）。
- 第三，CoT推理可用于数学单词问题、常识推理和符号操作等任务，并且原则上至少适用于人类可以通过语言解决的任何任务。
- 最后，CoT推理可以在足够大的现成语言模型中容易地引出，只需在少量提示的示例中包含链式思维序列即可。




#### COT的问题
1. **逻辑不一致**：在COT推理过程中，模型可能产生逻辑上不连贯或自相矛盾的推理步骤，这会降低答案的准确性和可信度。
2. **过程复杂性导致的错误**：由于COT推理涉及多步骤的逻辑链条，每一步的错误都可能导致最终结论的错误，累积误差可能导致答案完全偏离正确路径。
3. **推理深度和广度的限制**：模型在进行COT推理时，可能因为推理深度或广度的限制而无法完全探索问题的所有方面，导致遗漏关键信息。
4. **难以跟踪和验证**：COT方法产生的推理链条较长，对用户来说，可能难以跟踪和验证每一步的正确性，尤其是在复杂问题上。

## 二、思维链体系

### [COT Self Consistency 思维链自一致性](https://arxiv.org/pdf/2203.11171.pdf)

COT（Chain of Thought）方法虽然显著提高了大型语言模型在解决复杂问题上的能力，特别是在需要细致逻辑推理的任务中，但它也面临一些问题，这些问题促使了对自一致性（Self-Consistency）的提出和重视。

#### Self-Consistency的作用

自一致性（Self-Consistency）的提出，旨在解决COT方法中出现的这些问题，通过确保推理过程的内部一致性和逻辑连贯性，来提高解答的质量和可信度。具体来说，自一致性有以下作用：

1. **提高逻辑一致性**：通过强调自一致性，模型被鼓励在整个推理过程中保持逻辑的一致性，从而减少自相矛盾的情况。
2. **减少累积误差**：要求模型在每一步都进行自我检查和校正，有助于及时发现并修正错误，从而减少累积误差。
3. **促进全面性分析**：鼓励模型考虑问题的所有方面，通过全面分析来确保不遗漏关键信息，提高答案的全面性和深度。
4. **增强用户可理解性和可验证性**：一个逻辑自洽的推理过程对用户来说更加清晰易懂，用户可以更容易地跟踪和验证推理的每一步，增加了模型输出的透明度和可信度。


#### Self-Consistency方法


<img src="image/Self-Consistency-1.png" width = "800" alt="cot-example" align=center />

实施的Self-Consistency COT方法涉及以下关键步骤：

- 起始阶段，从数据集中随机选取若干实例进行手动标记，明确它们的思维链条。

- 这些标注好的思维链条随后输入到大型模型中，引导模型产生多条推理路径，这些路径形成候选推理路径的集合。

- 完成这一过程后，对所有候选推理路径执行综合分析，通过一个投票机制筛选出那些获得较多共识的答案。

此方法的核心在于通过<b>手动标注</b>引导模型理解和生成多样化的推理路径，然后通过<b>集体智慧（即投票规则）</b>识别最具代表性和一致性的解答，从而在提升模型推理过程的自洽性和准确度方面迈出重要一步。


<!-- <img src="Self-Consistency-2.png" width = "200" alt="cot-example" align=center /> -->

<div align="center">
  <img src="image/Self-Consistency-2.png" width="300" alt="cot-example" />
</div>

 **在不同的数据集上的训练样例**

<div align="center">
  <img src="image/Self-Consistency-4.png" width="800" alt="cot-example" />
</div>
模型的自一致性的利用。


<div class="alert alert-warning">
<b>注意：</b>在本课中，部分代码提取了关键代码块，以便更好地理解从概念化到代码实现的过程。</div>

In [1]:
# 运行后重启内核
! pip uninstall -y openai
! pip install openai

Found existing installation: openai 2.8.1
Uninstalling openai-2.8.1:
  Successfully uninstalled openai-2.8.1
Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Collecting openai
  Using cached http://mirrors.tencentyun.com/pypi/packages/55/4f/dbc0c124c40cb390508a82770fb9f6e3ed162560181a85089191a851c59a/openai-2.8.1-py3-none-any.whl (1.0 MB)
Installing collected packages: openai
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
dspy-ai 2.4.10 requires openai<2.0.0,>=0.28.1, but you have openai 2.8.1 which is incompatible.
langchain-openai 0.3.16 requires openai<2.0.0,>=1.68.2, but you have openai 2.8.1 which is incompatible.
paper-qa 3.13.0 requires openai<1, but you have openai 2.8.1 which is incompatible.
paper-qa 3.13.0 requires pydantic<2, but you have pydantic 2.11.6 which is incompatible.
promptbench 0.0.2 requires openai==1.3.7, but you have

In [2]:
from dotenv import load_dotenv
load_dotenv('../.env')

True

In [3]:
import os
from openai import OpenAI
from functools import lru_cache

class BaseLLM:
    @lru_cache(maxsize=1024)
    def chat(self, text):
        return self._chat(text)
    def _chat(self, text):
        raise NotImplementedError
        
class OpenAILLM(BaseLLM):
    def __init__(self, model_name):
        self.client = OpenAI(
            api_key=os.getenv("OPENAI_API_KEY"),
            base_url=os.getenv("OPENAI_API_BASE")
        )
        self.model_name = model_name
        self.conversation_history = []
        
    def convert_text_to_prompt(self,instr,target):
        return instr.format(target)

    def __call__(self,text):
        return self.chat(text)
        
    def chat(self, text, temperature=0, messages=[], stops=None):
        return self._chat(text, temperature, messages, stops)
        
    def _chat(self, text, temperature, messages=[], stops=None):
        if not messages:
            messages = [{"role": "user", "content": text}]
        print("开始请求模型%s"%(self.model_name))
        
        response = self.client.chat.completions.create(
            model=self.model_name,
            messages=messages,
            stream=False,
            stop=stops,
            temperature= temperature,
        )
        
        return response.choices[0].message.content
        
    def history_chat(self,text, message=[], stops=None):
        self.conversation_history.append({"role": "user", "content": text})

        # 创建请求
        response = self.client.chat.completions.create(
            model=self.model_name,
            messages=self.conversation_history,  # 传递完整的对话历史
            stream=False,
        )

        # 将模型的回答添加到对话历史中
        answer = response.choices[0].message.content
        self.conversation_history.append({"role": "assistant", "content": answer})
        return answer
        
gpt_4 = OpenAILLM("gpt-4")

gpt_3_5_turbo = OpenAILLM("gpt-3.5-turbo")

In [4]:
#Bad Case

gpt_3_5_turbo.chat("""
Q:小明每天早上花费20分钟时间走到学校，如果小明家距离学校225335厘米，那么他每一分钟走多少米?
A:
""")

开始请求模型gpt-3.5-turbo


'小明每天早上花费20分钟时间走到学校，所以他每分钟走的距离为225335厘米 / 20分钟 = 11266.75厘米/分钟 = 112.67米/分钟。所以小明每分钟走112.67米。'

In [5]:
#Good Case
#模型模仿例子的思维过程得到正确答案
gpt_3_5_turbo.chat("""
Q:两辆汽车从相距500千米的两城同时出发，相向而行。一辆摩托车以每小时80千米的速度在两辆汽车之间不断往返联络。已知这两辆汽车的速度分别是每小时40千米和60千米，求两汽车相遇时，摩托车共行驶了多少千米?
A:我们可以使用相遇前的时间来计算摩托车的行驶距离。两辆汽车的相对速度是40千米/小时+60千米/小时 =100千米/小时 根据题目我们可以得知，两辆汽车从相距500千米的两个城市同时出发，因此它们相遇的时间是 500千米/100千米/小时 =5小时 摩托车以每小时80千米的速度在两辆汽车之间往返，因此它每小时行驶的距离是80千米。所以，摩托车共行驶了5小时乘以80千米/小时 =400千米
Q:小明每天早上花费20分钟时间走到学校，如果小明家距离学校225335厘米，那么他每一分钟走多少米?
A:
""")

开始请求模型gpt-3.5-turbo


'首先将225335厘米转换为米，即225335厘米 = 2253.35米。小明每天早上花费20分钟时间走到学校，所以他每分钟走的距离为2253.35米 / 20分钟 = 112.6675米/分钟，约合112.67米/分钟。因此，小明每一分钟走约112.67米。'

In [6]:
#Bad Case
#模型无法得到正确答案
#正确答案是44岁
gpt_3_5_turbo.chat("""
Q:我的妈妈在29岁时生下的我。今年我14岁了，我的妹妹是我年龄的一半。当我妈妈已经80岁时，我的妹妹几岁？
A:
""")

开始请求模型gpt-3.5-turbo


'当我妈妈已经80岁时，我的妹妹将会是35岁。'

In [7]:
#Good Case
#模型通过学习提示中的自我一致性信息得到正确答案
#论文中是在CoT提示中进行采样，以生成多个推理路径，得到多个推理结果，再选择最一致的结果
Prompt = """
Q：林中有15棵树。林业工人今天将在林中种树。完成后，将有21棵树。林业工人今天种了多少棵树？
A：我们从15棵树开始。后来我们有21棵树。差异必须是他们种树的数量。因此，他们必须种了21-15 = 6棵树。答案是6。

Q：停车场有3辆汽车，又来了2辆汽车，停车场有多少辆汽车？
A：停车场已经有3辆汽车。又来了2辆。现在有3 + 2 = 5辆汽车。答案是5。

Q：Leah有32块巧克力，她的姐姐有42块。如果他们吃了35块，他们总共还剩多少块？
A：Leah有32块巧克力，Leah的姐姐有42块。这意味着最初有32 + 42 = 74块巧克力。已经吃了35块。因此，他们总共还剩74-35 = 39块巧克力。答案是39。

Q：Jason有20个棒棒糖。他给Denny一些棒棒糖。现在Jason只有12个棒棒糖。Jason给Denny多少棒棒糖？
A：Jason有20个棒棒糖。因为他现在只有12个，所以他必须把剩下的给Denny。他给Denny的棒棒糖数量必须是20-12 = 8个棒棒糖。答案是8。

Q：Shawn有五个玩具。圣诞节，他从他的父母那里得到了两个玩具。他现在有多少个玩具？
A：他有5个玩具。他从妈妈那里得到了2个，所以在那之后他有5 + 2 = 7个玩具。然后他从爸爸那里得到了2个，所以总共他有7 + 2 = 9个玩具。答案是9。

Q：服务器房间里有9台计算机。从周一到周四，每天都会安装5台计算机。现在服务器房间里有多少台计算机？
A：从周一到周四有4天。每天都添加了5台计算机。这意味着总共添加了4 * 5 =
20台计算机。一开始有9台计算机，所以现在有9 + 20 = 29台计算机。答案是29。

Q：Michael有58个高尔夫球。星期二，他丢失了23个高尔夫球。星期三，他又丢失了2个。星期三结束时他还剩多少个高尔夫球？
A：Michael最初有58个球。星期二他丢失了23个，所以在那之后他有58-23 = 35个球。星期三他又丢失了2个，所以现在他有35-2 = 33个球。答案是33。

Q：Olivia有23美元。她用每个3美元的价格买了五个百吉饼。她还剩多少钱？
A：她用每个3美元的价格买了5个百吉饼。这意味着她花了15美元。她还剩8美元。

Q：我的妈妈在29岁时生下的我。今年我14岁了，我的妹妹是我年龄的一半。当我妈妈已经80岁时，我的妹妹几岁？
A：
"""
print(gpt_4.chat(Prompt,temperature=0.1))
print(gpt_4.chat(Prompt,temperature=0.7))
print(gpt_4.chat(Prompt,temperature=0.3))

开始请求模型gpt-4
首先，我们需要找出我妈妈现在的年龄。我今年14岁，所以我妈妈现在是29 + 14 = 43岁。然后，我们需要找出我妈妈80岁时我将是多少岁。这将是80 - 43 = 37岁。我的妹妹是我年龄的一半，所以当我37岁时，她将是37 / 2 = 18.5岁。但是，年龄通常不以半岁计算，所以我们可以说当我妈妈80岁时，我的妹妹将是18或19岁。
开始请求模型gpt-4
我今年14岁，所以我的妹妹是14除以2等于7岁。当我妈妈80岁时，我将是80-29=51岁。所以，我的妹妹将是51-7=44岁。答案是44。
开始请求模型gpt-4
我的妈妈在我出生时是29岁。今年我14岁，所以我的妈妈现在是29 + 14 = 43岁。我的妹妹是我年龄的一半，所以她现在是14 / 2 = 7岁。当我妈妈80岁时，她将比现在大80 - 43 = 37岁。所以，当我妈妈80岁时，我的妹妹将是7 + 37 = 44岁。答案是44。


### [Auto-CoT 自动化思维链提示](https://arxiv.org/pdf/2210.03493.pdf)

一种自动化构建提示的方法

为了解决人工设计Chain-of-Thought (CoT)提示的繁琐工作并提高提示的多样性，提出了Auto-CoT方法。传统的CoT方法依赖于手工设计的提示，这不仅耗时耗力，而且难以覆盖所有可能的问题类型。Auto-CoT通过自动化生成问题和推理链的提示，旨在提升语言模型的推理能力，减少因手工设计带来的偏差和限制。通过问题聚类和提示采样，Auto-CoT能够自动构建丰富多样的提示，有效地提高了在多种推理任务上的表现，展示了自动化提示构建的潜力和效果。

#### Auto-CoT解决的问题示例

在传统的Chain-of-Thought (CoT)方法中，如果要解决一个复杂的数学问题，比如计算一个特定情境下的概率问题，通常需要人工设计一系列的推理步骤。这种方法有两个主要问题：

1. **人力资源消耗大**：设计有效的推理链需要专家的知识和大量的时间，尤其是当问题集合庞大且多样时。
2. **推理链多样性有限**：手工设计的推理链可能固守于一种特定的思维模式，难以覆盖所有可能的解题角度，导致模型的推理能力和泛化能力受限。

Auto-CoT通过自动化生成推理链来解决上述问题，减少人力资源的消耗，提供更丰富多样的推理路径，增强语言模型处理各类问题的能力。

#### 引言

在CoT (Chain-of-Thought) prompting中，存在两种主流范式：

- **Zero-Shot-CoT**：使用简单的提示，如“Let’s think step by step”，要求语言模型在给出答案前逐步思考。
- **Manual-CoT**：通过人工设计提示，并以few-shot提示的形式提示语言模型。

尽管Manual-CoT方法往往比Zero-Shot-CoT更有效，但它需要手动设计大量的提示。为解决这一问题，本文提出了**Auto-CoT**方法，可以自动构建包含问题和推理链的提示。


<div align="center">
  <img src="image/AUTO-COT-1.png" width="800" alt="cot-example" />
</div>

#### Auto-CoT的挑战

Auto-CoT的主要挑战在于如何自动化地构建包含优质问题和相应推理链的提示。这一挑战涉及到几个关键方面：

1. **问题质量的保证**：如何确保自动生成的问题既具有挑战性，又能够有效地引导模型进行深层次推理。
2. **推理链的准确性和逻辑性**：生成的推理链需要逻辑清晰、步骤准确，避免推理过程中出现逻辑错误或无关紧要的步骤。
3. **多样性与泛化能力**：需要生成多样化的问题和推理链，以提高模型对不同类型问题的适应能力和泛化性能。


#### Retrieval-Q-CoT的失败与相似性的误导


<div align="center">
  <img src="image/AUTO-COT-2.png" width="800" alt="cot-example" />
</div>

图片展示了两种问题解决策略，即"检索问题连续思考"（Retrieval-Q-CoT）和"随机问题连续思考"（Random-Q-CoT）。图片中展示了四个问题的例子，每个问题的答案旁边都有一个标记，说明答案是正确（✓）还是错误（✗）。这些例子说明，即使是使用连续思考的策略，答案也可能是错误的，因此在使用这些策略时需要仔细检查和验证结果。

- **检索问题连续思考（Retrieval-Q-CoT）**：这种策略是通过寻找与当前问题相似的问题，并基于之前的问题解决方法来推理解决当前问题。这种方法有时候可能会出错，因为即使问题看起来相似，但细节可能有所不同，从而导致推理出错误的答案。在图片中给出的例子里，算法尝试通过之前解决的类似问题来解答新问题，但由于没有正确适应问题的细微差别，所以推理出了错误的答案。

- **随机问题连续思考（Random-Q-CoT）**：这种策略是通过随机选取问题，并以此来构建解决当前问题的推理链。这样做可以减少由于问题间相似性导致的误导和错误答案的风险。在例子里，算法通过随机选取的问题生成推理链，这有助于避免由于依赖过于相似的问题而导致的错误。

这说明在设计Auto-CoT方法时，多样性比相似性更能减少误导和提高推理链的准确性。Auto-CoT结合了这两种方法的思路，通过多样性采样和自动生成推理链的方式，旨在提供一个减少手工错误、更高效的解决问题的方法。


#### Auto-CoT方法

Auto-CoT主要包括两个步骤：

1. 问题聚类(Question Clustering)：使用k-means算法将问题聚成k个簇。
2. 提示采样(Demonstration Sampling)：从每个簇中选择代表性的问题，并通过Zero-Shot-CoT的方式生成推理链。

<div align="center">
  <img src="image/AUTO-COT-3.png" width="800" alt="cot-example" />
</div>

#### 自动构造提示例子

<div align="center">
  <img src="image/AUTO-COT-4.png" width="800" alt="cot-example" />
</div>


#### 结论

Auto-CoT方法通过采样丰富的问题并生成相应的推理链来自动化地构建提示。Auto-CoT能够达到甚至超过手工设计的提示效果。


### [Least to Most](https://arxiv.org/pdf/2205.10625.pdf)

#### Least to Most 解决的问题示例

"Least to Most"技术主要旨在提高语言模型解决比训练示例更复杂问题的能力。它通过一种分步骤的策略，解决了现有"Chain-of-Thought"方法在处理难度逐渐增加的任务时的泛化问题。

#### Least to Most 技术概述

**核心策略**

该方法的核心在于将复杂问题分解为一系列更简单的子问题，并按顺序解决这些子问题。此过程中，每个子问题的解答都会为解决后续子问题提供帮助，逐步构建出对整个复杂问题的解答。

**方法优势**

- **效率提升**：通过逐步解决子问题，可以更高效地找到复杂问题的解决方案。
- **泛化能力增强**：此方法增强了模型解决未知、更复杂问题的能力，通过从简到难的过程，模型学习到如何逐步解决问题。

<div align="center">
  <img src="image/Least-Most-1.png" width="800" alt="cot-example" />
</div>

"Least to Most"技术是一种解决问题的方法，旨在帮助模型更有效地处理复杂问题。该技术通过以下步骤实现：

1. **问题分解**：将一个复杂问题分解成多个简单的子问题。
2. **逐步解决**：从最简单的子问题开始，依次解决每个子问题。
3. **递归利用答案**：利用前一个子问题的答案来帮助解决当前的子问题，逐步构建出整个问题的解决方案。

这种方法的关键在于能够让模型针对每个子问题集中精力，提高解决问题的准确性和效率。同时，通过逐步解决问题，模型能够更好地理解问题的整体结构，从而提高对复杂问题的泛化能力。

**实例应用**

考虑解决一个涉及多个形状组合的几何问题，计算整个组合的面积。传统方法可能会尝试一次性解决整个问题，而"Least to Most"方法则采取以下策略：

- **基本步骤识别**：首先确定解决问题的基本步骤，例如计算单个形状的面积。
- **逐步组合**：然后基于这些基本步骤的结果，逐步计算形状组合的面积。

**问题分解实例**

一个命令分解提示，包含8个示例，演示如何将一个长命令分解为一系列短命令

<div align="center">
  <img src="image/Least-Most-2.png" width="800" alt="cot-example" />
</div>

当将Least to Most用于数学推理

演示问题在只有两个步骤，但是可以处理需要多个步骤才能解决的问题。


<div align="center">
  <img src="image/Least-Most-3.png" width="800" alt="cot-example" />
</div>

演示示例包括两个部分。第一部分（从“让我们分解这个问题…”开始）展示了原始问题如何分解为更简单的子问题，第二部分展示了如何按顺序解决这些子问题。请注意，此提示将分解和子问题解决合并为单个过程。我们也可以分别为分解和子问题解决设计两个不同的提示，就像前面章节中的从最少到最多的提示那样，以进一步提高性能。在这里，我们专注于研究这个简单的从最少到最多提示如何从一个简单的2步问题推广到更复杂的多步问题。


``` python
def CoT_Prompting(question, problem_reducing_prompt_path,problem_solving_prompt_path):
	# 读取 Prompt
	with open(file=problem_reducing_prompt_path, mode="r", encoding="utf-8") as f:
		problem_reducing_prompt = f.read().strip()
	with open(file=problem_solving_prompt_path, mode="r", encoding="utf-8") as f:
		problem_solving_prompt = f.read().strip()

	# 问题分解
	# 构造模型输入
	problem_reducing_prompt_input = problem_reducing_prompt + "\n\nQ {}\nA:".format(question)
	# 调用模型得到回复
	problem_reducing_response = create_response(problem_reducing_prompt_input)

    
	# 得到分解后的子问题列表
	reduced_problem_list = get_reduced_problem_list_from_response(problem_reducing_response)

	# 串行解决问题
	problem_solving_prompt_input = problem_solving_prompt + "\n\n{}".format(question)
	for sub_problem in reduced_problem_list:
		# 构造解决子问题的 prompt
		problem_solving_prompt_input = problem_solving_prompt_input + "\n\nQ: {}\nA:".format(sub_problem)

		# 调用模型得到回复
		sub_problem_response = create_response(problem_solving_prompt_input)

		sub_answer = get_sub_answer_from_response(sub_problem_response)

		# 把当前子问题的答案拼接到之前的 Prompt 上面
		problem_solving_prompt_input = problem_solving_prompt_input + sub_answer
		
	# 得到最终答案
	final_answer = answer_clean(sub_answer)
	# 返回答案
	return final_answer

#### 优点

该方法通过逐步增加提示，使模型能够分阶段处理问题，避免一次性处理过多信息而导致性能下降。此外，这种方法还可以减少模型出现错误答案的概率，提高模型的可靠性。

#### 设计注意事项

设计时需确保提示的逐步增强方式的连贯性和准确性。提示的复杂度需要恰当，以避免过于简单或复杂导致模型效果下降。实践中需要进行充分的实验和优化，根据具体任务和数据集调整提示的数量和类型。

## 三、思维链变种

### EOT 思维交流框架

### COT Self-Correct 思维链自纠正
自纠正方法是指通过利用模型对先前输出的反馈信息，以迭代的方式提高模型生成答案的质量。模型会不断地调整其输出，根据先前的错误或不确定性进行修正，以期望获得更准确、一致的结果。

自纠正方法的步骤：
- 生成初始response：模型首先生成对于给定输入问题或任务的初始答案。
- 获取反馈: 通过比较生成的答案与真实标签或其他参考答案，模型获取关于答案的反馈信息。这可以包括确定哪些部分是正确的，哪些部分是错误的，或者哪些方面存在不确定性。
- 调整response: 模型根据反馈信息调整先前生成的答案，试图更好地匹配预期的正确结果。
- 重复上述过程，直到达到满意水平或达到终止条件

<img src="image/cot-self-correct.png" width = "600" alt="cot-self-correct" align=center />

### [EOT 思维交流框架 Exchange-of-Thought](https://aclanthology.org/2023.emnlp-main.936.pdf)

- COT和COT SC受到模型自身知识的限制，其理解和推理能力有限
- 如果引入外部洞察力，即其他外部模型的Thought，将有助于提升模型的推理能力
- 进行跨模型通信（模型间的思想交流），引入外部洞察力

大型语言模型（LLMs）在复杂推理任务中因内在理解能力的限制而缺乏外部见解，导致在面对复杂问题时性能不佳，容易出现错误推理。

- Exchange-of-Thought（EoT）通过引入跨模型通信的框架，允许不同模型分享思想和推理链，为模型提供外部见解，从而增强了模型的问题解决能力。

- EoT通过评估模型的确定性和减轻错误推理的影响，确保问题解决过程的完整性，有效提升了模型的性能。综合外部见解并促进模型间通信，EoT解决了大型语言模型在复杂推理任务中缺乏外部见解的问题，显著提高了推理能力和整体表现。

<div align="center">
  <img src="image/eot.png" width="600" alt="cot-example" />
</div>

跨模型通信面临三个挑战：

- 如何为模型通信确定合适的对应关系？
- 模型之间停止通信的条件是什么？
- 如何在通信过程中最小化错误推理的影响？

### EoT方法的具体实现

Exchange of Thought（EoT）的实现方法类似于集成方法，通过多次独立回答问题并有效选择最佳答案来提高性能。

**解决的问题：**

- **模型间通信：** 模型之间如何进行通信和交流
- **结束时间：** 迭代过程何时结束以及如何给出最终的回答
- **置信度：** 如何评价回答的置信度
  

**具体步骤：**

1. **多模型独立回答：** 多个模型同时独立对问题进行回答。

2. **交叉分析和重新回答：** 模型对答案后，将其他模型的回答作为输入进行综合分析，然后重新回答问题。

3. **迭代过程：** 重复步骤2，直到模型达成统一且稳定的答案。

#### 交流范式
四种实现方式：Memory记忆，采用总线拓扑；Report报告，采用星型拓扑；Relay中继，采用环形拓扑；Debate辩论，采用树状拓扑

<div align="center">
  <img src="image/EOT-1.png" width="600" alt="cot-example"/>
</div>

这些交流范式为模型之间的信息共享提供了途径，促使它们形成共识。

Memory:这种模型间的交流方式算是最为暴力和直接的方式了，就是让每个模型都看到其他所有模型的上一轮回答的答案，然后重新进行生成。

Report:以一个节点作为核心节点，来整合其他所有节点的回答结果

Relay:循环沟通的方式，每一个节点只需要整合自己的回答与其下一个节点的回答即可

Debate:小组讨论的方式,具体来说的话就是先构造一个二叉树，然后每个叶子节点都只和自己的兄弟节点进行讨论，然后父节点则能够同时看到下述子节点的答案并于自己的答案进行整合。


#### 终止条件
关于EoT的迭代停止条件的两种方法：

- 两次迭代之后模型的回答都不再发生变化了，那么就可以终止迭代了；
- 当大部分的模型回答的结果都一致了，那么也可以终止迭代了。


#### 置信度评估

对每一个模型的回答可靠度进行评估：考察每一个模型在迭代过程中的所有回答结果，如果变化越频繁，说明他对答案的置信度就越低；反之，如果无论怎么讨论，它的答案都始终没有发生过改变，那么他的回答就有很高的置信度。

<div align="center">
  <img src="image/EOT-2.png" width="800" alt="cot-example"/>
</div>

#### 案例研究

- Memory（记忆）

<div align="center">
  <img src="image/EOT-3.png" width="800" alt="cot-example"/>
</div>

图片中，我们可以将Kitty的解决方案视为“记忆”的体现。Kitty记录了Carla下载文件的过程，包括下载中断前的进度（40%等于80 GB）和重启后需要重新下载的全部200 GB文件，以及重启的额外时间（20分钟）。她的解决方案考虑到了先前的所有信息和所采取的步骤，然后计算出总的下载时间为160分钟。<b>这反映了Memory阶段的特点，即利用和参考已有的知识（记忆）来解决问题。</b>


- Report（报告）

<div align="center">
  <img src="image/EOT-4.png" width="800" alt="cot-example"/>
</div>


在Report（报告）阶段，我们指定一个中心节点（或模型）来获取所有其他模型的推理和答案。这意味着，与Memory（记忆）阶段不同，在哪里所有模型都能看到完整的记录，在Report阶段有一个中心点负责收集和重新整理信息，然后将其汇报。

在提供的图像中，Kitty对Ben和Peter的解答进行了分析，并给出了她的反馈。她审视了他们的计算方法，并指出了Peter可能误解了问题的条件。然后，Kitty重新计算并报告了正确的总下载时间为160分钟。她的响应实际上充当了“报告者”的角色，她汇总了之前的解答，提供了自己的理解，并且最终确定了问题的解决方案。<b>这反映了报告阶段的特点，即一个中心点（在这里是Kitty）对其他节点（Ben和Peter）提供的信息进行审查、整理和汇报。</b>

- Relay（中继）

<div align="center">
  <img src="image/EOT-5.png" width="800" alt="cot-example"/>
</div>

在这张图片中，我们可以看到中继（Relay）阶段的特点。这一阶段体现在Peter对前面Ben和Kitty两个解决方案的评估和反馈中。Peter在分析了之前两个解答之后，提出了自己的解答，并对问题进行了重新评估，这是信息在多个节点之间传递和改进的过程。

在中继阶段，每个个体或节点都将收到前一个个体的信息，然后添加自己的理解和计算，再将更新后的信息传递给下一个个体或节点。Peter在这里接收了Kitty和Ben的解答，然后通过自己的计算更正了错误，进而产生了新的解答。<b>这个过程正是中继传递的体现——信息通过一系列个体进行传递，每个个体都对信息进行处理和增强，最终得出结论。</b>

- Debate（辩论）

<div align="center">
  <img src="image/EOT-6.png" width="800" alt="cot-example"/>
</div>


在Debate（辩论）阶段，叶子节点可以相互交换信息，而父节点负责汇总这些信息。这个阶段类似于一个树状结构，信息流动在各个节点之间更为动态和双向。

在这张图片中，我们看到Ben给出了对Peter解答的回应。在此过程中，Ben分析并反思了Peter的解答，同时也重新考虑了他自己的解答。然后，Ben修改了他自己的解答，得出了一个新的结论，即下载时间为160分钟。这个过程体现了辩论的特征，其中各方不仅仅是传递信息，而是在分析和批判对方的观点的基础上，进一步发展和完善自己的观点。<b>在这个阶段，信息不是单向流动，而是通过批判性的讨论在参与者之间来回动态交流的。</b>


### Tree of Thought 思维树
对于需要探索或预判战略的复杂任务来说，传统或简单的提示技巧是不够的。最近，[Yao et el. (2023)](https://arxiv.org/abs/2305.10601)

提出了思维树（Tree of Thoughts，ToT）框架，该框架基于思维链提示进行了总结，引导语言模型探索把思维作为中间步骤来解决通用问题。

ToT 维护着一棵思维树，思维由连贯的语言序列表示，这个序列就是解决问题的中间步骤。使用这种方法，LLM 能够自己对严谨推理过程的中间思维进行评估。LLM 将生成及评估思维的能力与搜索算法（如广度优先搜索和深度优先搜索）相结合，在系统性探索思维的时候可以向前验证和回溯。

这看起来有点复杂，因为涉及到了回溯和搜索算法，但好在[Hulbert (2023)](https://github.com/dave1010/tree-of-thought-prompting) 提出了思维树（ToT）提示法，将 ToT 框架的主要概念概括成了一段简短的提示词，指导 LLM 在一次提示中**对中间思维做出评估**。使用ToT 提示词的例子如下：



#模型能正确回答本应错误的答案
print(gpt_4.chat("""
    假设三位思路风格不同的专家来回答这个问题
    
    所有专家都写下他们思考这个问题的第一个步骤，然后与大家分享。
    然后，所有专家都写下他们思考的下一个步骤并分享。
    以此类推，直到所有专家写完他们思考的所有步骤。
    只要大家发现有专家的步骤出错了，就让这位专家离开。
    
    请问：
    我的妈妈在29岁时生下的我。今年我14岁了，我的妹妹是我年龄的一半。当我妈妈已经80岁时，我的妹妹几岁？
"""))

<img src="image/ToT.png" width = "600" alt="eot" align=center />

**Thought分解**

在不同的任务中，中间的思维过程（thoughts）可能会有所不同。例如，这个过程可能包含几个单词（如在填字谜游戏中），可能是一个等式（如在24点游戏中），也可能是一段文本（如在创意文本生成中）。设计思维分解方法时，可以遵循以下几个原则：

- **避免过大的思维单元**：如果思维单元过大（例如一整本书），语言模型（LM）可能难以生成具有前瞻性和多样性的候选样本。我们需要的是能够引导模型朝着有希望的方向探索，同时保持生成的多样性。

- **避免过小的思维单元**：如果思维单元过小（例如仅生成一个token），语言模型可能难以评估这个单元对最终解决问题的帮助程度。一个有效的思维单元应该足够丰富，以便模型可以利用它来做出有意义的推断和决策。

通过平衡思维单元的大小，我们旨在为语言模型提供足够的信息来生成有用的候选样本，同时又不至于让任务变得过于狭窄或是过于宽泛。这种平衡有助于提高模型解决问题的效率和质量。



**Thought生成**
1. 背景

- 不同的任务在生成思维过程（Thought）时的原则也有所不同，这些原则应根据任务的特点进行制定。

2. 原则

- 原则一：
  对于思维单元较大的任务，如创意写作（其中Thought可能是一个段落），可以采用链式推理（Chain of Thought，CoT）的方式来生成Thought。这种方法有助于引导语言模型以更结构化和连贯的方式探索可能的解决方案。

- 原则二：
  对于思维单元较小的任务，如只有几个字的字谜游戏或者只有一行的24点游戏，可以使用“提议式提示”（propose prompt）来依次提出想法。这种方法适用于需要精确和有限步骤推理的场景。

3. 示例
- 24点游戏概述
  “24点游戏”是一种数学益智游戏，目标是通过对四个给定数字（通常是1到13之间的整数）进行组合和计算，得出结果为24的表达式。

- 24点游戏的Thought生成方法
  根据上一个Thought或者游戏的当前状态，提出可能的运算组合或策略，进而逐步构建出达到24点的解决方案。这种方法强调了从具体数字出发，通过逐步推理来探索所有可能的计算路径。


**状态评估**
1. 定义

状态评估器用于给定不同当前状态（state）的情况下，评估哪种方法最接近于解决当前问题。常见的解决方法包括利用启发式方法，例如DeepBlue使用编程方法解决问题，AlphaGo通过学习方法解决问题。本文提出直接使用语言模型（LM）来评估和思考当前状态解决问题的前景。针对不同的任务，评估方法也有所不同，这里主要提出两种策略：

2. 策略

- 原则一：独立评估
  当每个状态独立时，并且可以用数值型的方式进行评估，可以直接利用prompt生成数值型或类别性的评估结果。这里可以利用一些前瞻性的模拟（例如：5+5+14可以凑成24点）加上常识（例如：1、2、3太小了，凑不到24点）来直接给出“good”或“bad”的评价，而不要求特别准确。24点游戏评估方法直接利用prompt让LM评估每个思考（thoughts）为“sure”、“maybe”、“impossible”几个选项。

- 原则二：对所有状态投票 
  当评估段落连贯性（passage coherency）时，如果不适合使用数值型方法评估，可以通过投票提示（vote prompt）来详细比较不同的状态，选出一个最具优前景的方案。例如，可以将多个状态拼接成一个多项选择题，然后利用LM对其进行投票。创意文本生成评估方法：直接利用LM投票从多个状态中选择最佳选项，例如使用以下prompt：“analyze the choices below，then conclude which is most promising for the instruction”。

**搜索**
1. 说明

在处理树结构数据时，存在多种搜索算法。

2. 算法介绍

- BFS（宽度优先搜索）
  宽度优先搜索算法在每一步保留*b*个最具前景的方案。本文提到的“24点游戏”和“创意文本生成”就是使用的这个算法。在这种方法中，树的深度被限制为*T*（小于等于3），并且在剪枝到一个较小的集合（*b*小于等于5）之前，会先对“思考步骤”（thoughts step）进行评分（evaluation）。

- DFS（深度优先搜索）
  深度优先搜索算法优先探索最有前景的解决方案，直到超过树的最大深度*T*（*t* > *T*），或者当前状态已经无法解决问题，此时会进行剪枝操作，然后返回至父节点继续探索。DFS适用于在解空间中深入探索，寻找深层次的解决方案，但可能需要回溯以探索其他可能的路径。



In [8]:
# 运行后重启内核
! pip uninstall -y openai
! pip install openai

Found existing installation: openai 2.8.1
Uninstalling openai-2.8.1:
  Successfully uninstalled openai-2.8.1
Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Collecting openai
  Using cached http://mirrors.tencentyun.com/pypi/packages/55/4f/dbc0c124c40cb390508a82770fb9f6e3ed162560181a85089191a851c59a/openai-2.8.1-py3-none-any.whl (1.0 MB)
Installing collected packages: openai
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
dspy-ai 2.4.10 requires openai<2.0.0,>=0.28.1, but you have openai 2.8.1 which is incompatible.
langchain-openai 0.3.16 requires openai<2.0.0,>=1.68.2, but you have openai 2.8.1 which is incompatible.
paper-qa 3.13.0 requires openai<1, but you have openai 2.8.1 which is incompatible.
paper-qa 3.13.0 requires pydantic<2, but you have pydantic 2.11.6 which is incompatible.
promptbench 0.0.2 requires openai==1.3.7, but you have

In [9]:
print(gpt_3_5_turbo.chat("你知道24点吗，请算出4 5 6 10的24点"))

开始请求模型gpt-3.5-turbo
当给定数字4、5、6、10时，可以通过以下运算得到24点：

(10 - 6) * (5 + 4) = 24

所以，通过上述运算，可以得到24点。


In [10]:
print(gpt_3_5_turbo.chat("你知道24点吗，请一步一步算出4 5 6 10的24点"))

开始请求模型gpt-3.5-turbo
当给定数字4、5、6、10时，可以通过以下步骤计算出24点：

1. 6 ÷ (1 - (5 ÷ 10)) = 24

解释：首先计算5 ÷ 10 = 0.5，然后用1减去0.5得到0.5，再将6除以0.5得到24。

因此，通过上述步骤可以得到24点。


In [11]:
 !pip install tree-of-thoughts-llm

Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Collecting openai==0.27.7 (from tree-of-thoughts-llm)
  Using cached http://mirrors.tencentyun.com/pypi/packages/35/c3/de7124146c3edbe8fd8163028d9ac998f2fd5dcda9225655f1d4ed684bbc/openai-0.27.7-py3-none-any.whl (71 kB)
Collecting tqdm==4.65.0 (from tree-of-thoughts-llm)
  Using cached http://mirrors.tencentyun.com/pypi/packages/e6/02/a2cff6306177ae6bc73bc0665065de51dfb3b9db7373e122e2735faf0d97/tqdm-4.65.0-py3-none-any.whl (77 kB)
Installing collected packages: tqdm, openai
  Attempting uninstall: tqdm
    Found existing installation: tqdm 4.66.1
    Uninstalling tqdm-4.66.1:
      Successfully uninstalled tqdm-4.66.1
  Attempting uninstall: openai
    Found existing installation: openai 2.8.1
    Uninstalling openai-2.8.1:
      Successfully uninstalled openai-2.8.1
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dep

In [12]:
# 运行后重启内核
! pip uninstall -y openai
! pip install openai==0.27.7

Found existing installation: openai 0.27.7
Uninstalling openai-0.27.7:
  Successfully uninstalled openai-0.27.7
Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Collecting openai==0.27.7
  Using cached http://mirrors.tencentyun.com/pypi/packages/35/c3/de7124146c3edbe8fd8163028d9ac998f2fd5dcda9225655f1d4ed684bbc/openai-0.27.7-py3-none-any.whl (71 kB)
Installing collected packages: openai
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
dspy-ai 2.4.10 requires openai<2.0.0,>=0.28.1, but you have openai 0.27.7 which is incompatible.
langchain-openai 0.3.16 requires openai<2.0.0,>=1.68.2, but you have openai 0.27.7 which is incompatible.
paper-qa 3.13.0 requires pydantic<2, but you have pydantic 2.11.6 which is incompatible.
promptbench 0.0.2 requires openai==1.3.7, but you have openai 0.27.7 which is incompatible.
promptbench 0.0.2 requires tqdm==

``` python
def solve(args, task, idx, to_print=True):
    # 声明gpt为全局变量，并根据参数配置gpt函数。
    global gpt
    gpt = partial(gpt, model=args.backend, temperature=args.temperature)
    print(gpt)  # 打印当前配置的gpt函数，以便了解其设置。

    # 根据给定的索引从任务中获取输入数据。
    x = task.get_input(idx)
    
    # 初始化输出候选列表，开始时只包含一个空字符串。
    ys = ['']
    
    # 用于记录每步的信息。
    infos = []
    
    # 对于任务定义的每一步骤进行循环。
    for step in range(task.steps):
        # 根据参数args.method_generate选择生成方法。
        if args.method_generate == 'sample':
            # 如果方法为'sample'，则对每个候选y生成新的候选列表。
            new_ys = [get_samples(task, x, y, args.n_generate_sample, prompt_sample=args.prompt_sample, stop=task.stops[step]) for y in ys]
        elif args.method_generate == 'propose':
            # 如果方法为'propose'，则获取提案。
            new_ys = [get_proposals(task, x, y) for y in ys]
        # 将所有新候选列表合并为一个列表。
        new_ys = list(itertools.chain(*new_ys))

        # 准备评估新候选。
        ids = list(range(len(new_ys)))
        if args.method_evaluate == 'vote':
            # 如果评估方法为'vote'，则通过投票获取每个新候选的评分。
            values = get_votes(task, x, new_ys, args.n_evaluate_sample)
        elif args.method_evaluate == 'value':
            # 如果评估方法为'value'，则直接获取每个新候选的值评估。
            values = get_values(task, x, new_ys, args.n_evaluate_sample)

        # 根据评分选择新的候选。
        if args.method_select == 'sample':
            # 如果选择方法为'sample'，通过概率抽样选择候选。
            ps = np.array(values) / sum(values)
            select_ids = np.random.choice(ids, size=args.n_select_sample, p=ps).tolist()
        elif args.method_select == 'greedy':
            # 如果选择方法为'greedy'，则贪心选择最高评分的候选。
            select_ids = sorted(ids, key=lambda x: values[x], reverse=True)[:args.n_select_sample]
        select_new_ys = [new_ys[select_id] for select_id in select_ids]

        # 如果需要，打印每步的详细信息。
        if to_print:
            sorted_new_ys, sorted_values = zip(*sorted(zip(new_ys, values), key=lambda x: x[1], reverse=True))
            print(f'-- new_ys --: {sorted_new_ys}\n-- sol values --: {sorted_values}\n-- choices --: {select_new_ys}\n')
        
        # 记录这一步的信息。
        infos.append({'step': step, 'x': x, 'ys': ys, 'new_ys': new_ys, 'values': values, 'select_new_ys': select_new_ys})
        # 更新当前输出候选为选择的新候选。
        ys = select_new_ys
    
    # 打印最终选择的候选解决方案。
    if to_print:
        print(ys)
    # 返回最终的候选解决方案及过程信息。
    return ys, {'steps': infos}


In [13]:
def solve(args, task, idx, to_print=True):
    # 声明gpt为全局变量，并根据参数配置gpt函数。
    global gpt
    gpt = partial(gpt, model=args.backend, temperature=args.temperature)
    print(gpt)  # 打印当前配置的gpt函数，以便了解其设置。

    # 根据给定的索引从任务中获取输入数据。
    x = task.get_input(idx)
    
    # 初始化输出候选列表，开始时只包含一个空字符串。
    ys = ['']
    
    # 用于记录每步的信息。
    infos = []
    
    # 对于任务定义的每一步骤进行循环。
    for step in range(task.steps):
        # 根据参数args.method_generate选择生成方法。
        if args.method_generate == 'sample':
            # 如果方法为'sample'，则对每个候选y生成新的候选列表。
            new_ys = [get_samples(task, x, y, args.n_generate_sample, prompt_sample=args.prompt_sample, stop=task.stops[step]) for y in ys]
        elif args.method_generate == 'propose':
            # 如果方法为'propose'，则获取提案。
            new_ys = [get_proposals(task, x, y) for y in ys]
        # 将所有新候选列表合并为一个列表。
        new_ys = list(itertools.chain(*new_ys))

        # 准备评估新候选。
        ids = list(range(len(new_ys)))
        if args.method_evaluate == 'vote':
            # 如果评估方法为'vote'，则通过投票获取每个新候选的评分。
            values = get_votes(task, x, new_ys, args.n_evaluate_sample)
        elif args.method_evaluate == 'value':
            # 如果评估方法为'value'，则直接获取每个新候选的值评估。
            values = get_values(task, x, new_ys, args.n_evaluate_sample)

        # 根据评分选择新的候选。
        if args.method_select == 'sample':
            # 如果选择方法为'sample'，通过概率抽样选择候选。
            ps = np.array(values) / sum(values)
            select_ids = np.random.choice(ids, size=args.n_select_sample, p=ps).tolist()
        elif args.method_select == 'greedy':
            # 如果选择方法为'greedy'，则贪心选择最高评分的候选。
            select_ids = sorted(ids, key=lambda x: values[x], reverse=True)[:args.n_select_sample]
        select_new_ys = [new_ys[select_id] for select_id in select_ids]

        # 如果需要，打印每步的详细信息。
        if to_print:
            sorted_new_ys, sorted_values = zip(*sorted(zip(new_ys, values), key=lambda x: x[1], reverse=True))
            print(f'-- new_ys --: {sorted_new_ys}\n-- sol values --: {sorted_values}\n-- choices --: {select_new_ys}\n')
        
        # 记录这一步的信息。
        infos.append({'step': step, 'x': x, 'ys': ys, 'new_ys': new_ys, 'values': values, 'select_new_ys': select_new_ys})
        # 更新当前输出候选为选择的新候选。
        ys = select_new_ys
    
    # 打印最终选择的候选解决方案。
    if to_print:
        print(ys)
    # 返回最终的候选解决方案及过程信息。
    return ys, {'steps': infos}

```python
import argparse
from tot.methods.bfs import solve
from tot.tasks.game24 import Game24Task

args = argparse.Namespace(backend='gpt-4', temperature=0.7, task='game24', naive_run=False, prompt_sample=None, method_generate='propose', method_evaluate='value', method_select='greedy', n_generate_sample=1, n_evaluate_sample=3, n_select_sample=5)

task = Game24Task()
ys, infos = solve(args, task, 900)
print(ys[0])

In [5]:
import argparse
from tot.methods.bfs import solve
from tot.tasks.game24 import Game24Task

args = argparse.Namespace(backend='gpt-4', temperature=0.7, task='game24', naive_run=False, prompt_sample=None, method_generate='propose', method_evaluate='value', method_select='greedy', n_generate_sample=1, n_evaluate_sample=3, n_select_sample=5)

task = Game24Task()
ys, infos = solve(args, task, 900)
print(ys[0])

functools.partial(<function gpt at 0x7f0cc70c5360>, model='gpt-4', temperature=0.7)
-- new_ys --: ('4 + 5 = 9 (left: 6 9 10)\n', '10 - 4 = 6 (left: 5 6 6)\n', '10 / 5 = 2 (left: 2 4 6)\n', '6 / 4 = 1.5 (left: 1.5 5 10)\n', '10 - 5 = 5 (left: 4 5 6)\n', '4 * 5 = 20 (left: 6 10 20)\n', '5 + 6 = 11 (left: 4 10 11)\n', '6 - 4 = 2 (left: 2 5 10)\n', '6 * 5 = 30 (left: 4 10 30)\n', '10 * 6 = 60 (left: 4 5 60)\n', '4 * 6 = 24 (left: 5 10 24)\n', '10 * 4 = 40 (left: 5 6 40)\n')
-- sol values --: (3.0, 3.0, 3.0, 3.0, 3.0, 3.0, 2.001, 2.001, 2.001, 2.001, 2.001, 1.002)
-- choices --: ['4 + 5 = 9 (left: 6 9 10)\n', '10 - 4 = 6 (left: 5 6 6)\n', '10 / 5 = 2 (left: 2 4 6)\n', '6 / 4 = 1.5 (left: 1.5 5 10)\n', '10 - 5 = 5 (left: 4 5 6)\n']

-- new_ys --: ('10 - 4 = 6 (left: 5 6 6)\n5 * 6 = 30 (left: 30 6)\n', '4 + 5 = 9 (left: 6 9 10)\n6 + 9 = 15 (left: 10 15)\n', '4 + 5 = 9 (left: 6 9 10)\n9 - 6 = 3 (left: 3 10)\n', '4 + 5 = 9 (left: 6 9 10)\n10 - 6 = 4 (left: 4 9)\n', '4 + 5 = 9 (left: 6 9 10)\n10

https://github.com/princeton-nlp/tree-of-thought-llm

### GoT Graph of Thought(思维图)

<img src="image/GoT对比.png" width = "900" alt="eot" align=center />

在实际思考过程人类的思维实际上会形成一个更复杂的思想网络。例如，人们可以探索某个推理链，回溯并开始一个新的推理链，然后意识到前一个推理链中的某个想法可以与当前探索的想法相结合，并将它们合并成一个新的解决方案，利用优点并消除缺点。当应用于 LLM 思想时，相应的图形转换有望带来更强大的提示，但它们不能用 CoT 或 ToT 来表达。

https://github.com/spcl/graph-of-thoughts

### Algorithm of Thought 思维算法

<img src="image/AoT.png" width = "600" alt="eot" align=center />

ToT,GoT这些增强的LLM方法并非没有缺点。一个显著的缺点是查询数量和计算需求的大幅增加。每次查询在线LLM API都会产生金钱开销，但也会导致延迟，这是实时应用中的一个重大限制。这些查询造成的累积延迟可能会损害解决方案的效率。从基础设施方面来看，持续的交互可能会给系统带来压力，导致潜在的带宽限制和模型可用性降低。

- **分解为子问题**：构建一个划分可行推理路径的搜索树本身就是一项艰巨任务，还未涉及实际解决问题的部分。分解时不仅要考虑子任务之间的相互关系，还要考虑单独解决每个子任务的难易程度。以多位数加法为例，虽然对计算机来说将数字转换为二进制可能更高效，但人类通常发现十进制算术更直观。此外，即使子问题不变，执行方式可能各不相同。直觉可能带来解决步骤之间的快捷方式，而缺乏直觉时可能需要更详细的步骤。制定合适的提示，考虑到这些细微差别是关键，它决定了LLM为可靠性能所需的最少Token数。这不仅对于适应LLM的上下文限制至关重要，而且对于效率也是关键，因为我们期望LLM能够使用类似的令牌量解决与其上下文相关的问题。

- **提出子问题的解决方案**：主要方法涉及直接从LLM令牌输出概率中采样。尽管这种方法对于一次性回答有效，但在需要将一系列样本集成或在后续提示中评估的场景中，这种方法显示出局限性。为了最小化模型查询，我们采用了一个连续不断的解决方案创建过程。所有生成的解决方案都存在于一个共享的上下文中，因此不需要对每个解决方案评估进行单独的模型查询。孤立的令牌或令牌组概率可能并不总是产生有意义的选择。当生成保持不间断时，得到的序列是正确的。这种方法指向了序列建模中的限制性，强调了对于顺序任务，LLM更擅长生成整个序列，而不是间歇性地暂停和重新启动令牌采样过程。

- **评估子问题的前景**：现有技术依赖于额外的提示来辨识树节点的潜力，帮助决定探索方向。我们的观察表明，如果最有前景的路径被包含在上下文示例中，LLM天生就会优先考虑这些有前景的候选者。这减少了复杂提示工程的需要，并允许加入复杂的启发式方法，无论是基于直觉还是知识。我们的方法中缺少分离的提示，允许立即评估候选者的可行性。

- **回溯到更佳的节点**：决定接下来探索哪个节点（包括回溯到之前的节点）取决于选择的树搜索算法。我们的设计主要采用深度优先搜索方法并辅以剪枝，目的是保持共享同一父节点的节点之间的接近性，鼓励LLM优先考虑局部特征。我们依赖于模型从上下文示例中获取洞见的能力，避免了需要额外的、定制的机制。

``` python
def solve(self):
    """使用AoT提示和DFS搜索算法解决问题"""
    try:
        # 运行DFS
        self.dfs(self.initial_prompt, 1)  # 基于初始提示执行深度优先搜索，1可能表示从某个初始深度开始搜索

        # 检查是否生成了任何思路
        if not self.output:  # 如果没有输出（即没有找到有效的思路）
            logger.error("在DFS期间没有生成有效的思路")  # 记录错误日志
            return None  # 没有思路则返回None

        # 找到最佳思路及其值
        best_state, best_value = max(self.output, key=lambda x: x[1])  # 从输出中找到最佳思路及其评分值

        # 缓存最佳思路
        self.thought_cache["accepted"][best_state] = best_value  # 将最佳思路及其评分值存入缓存

        # 根据最佳思路生成最终解决方案
        solution = self.model.generate_solution(self.initial_prompt, best_state)  # 使用模型根据最佳思路生成解决方案

        # 显示并返回解决方案
        print(f"解决方案是 {solution}")  # 打印解决方案

        # 将缓存写入JSON文件
        # 如果希望覆盖文件，请将模式改回'w'
        with open("./thought_cache.json", "a") as json_file:  # 以追加模式打开或创建缓存文件
            json.dump(self.thought_cache, json_file)  # 将缓存数据写入文件

        return solution if solution else best_state  # 如果有解决方案则返回解决方案，否则返回最佳状态

    except Exception as error:
        logger.error(f"在tot_dfs中发生错误: {error}")  # 记录发生的错误

        # 即使发生错误也将缓存写入JSON文件
        # 如果希望覆盖文件，请将模式改回'w'
        with open("./thought_cache_error.json", "a") as json_file:  # 以追加模式打开或创建错误缓存文件
            json.dump(self.thought_cache, json_file)  # 将缓存数据写入文件

        raise error  # 抛出错误


``` python
def dfs(self, state, step):
    """深度优先搜索算法"""
    if step > self.max_steps:
        # 超过最大步数限制时的处理
        if state in self.thought_cache["accepted"]:
            # 如果当前状态已经在“接受”的缓存中，则直接获取其值
            value = self.thought_cache["accepted"][state]
        elif state in self.thought_cache["pruned"]:
            # 如果当前状态在“剪枝”的缓存中，则直接返回不进行处理
            return
        else:
            # 否则，评估当前的思考（状态），并将其结果缓存
            thought, value = self.evaluate_thought(state)
            self.thought_cache["accepted"][state] = value

        # 记录当前状态及其评估值
        self.output.append((state, value))
        return

    # 在生成和过滤思考之前检查缓存
    if state in self.thought_cache["accepted"]:
        thoughts = [state]
    elif state in self.thought_cache["pruned"]:
        return
    else:
        # 生成和过滤当前状态的后续思考
        thoughts = self.generate_and_filter_thoughts(state)

    for next_state in thoughts:
        # 获取下一个状态的评估值，如果未评估则默认为0
        state_value = self.evaluated_thoughts.get(next_state, 0)
        print("Entering DFS with state: ", state, " and step: ", step)

        # 如果下一个状态的评估值低于阈值，则将其加入“剪枝”缓存并继续循环
        if state_value <= self.value_threshold:
            self.thought_cache["pruned"][next_state] = state_value
            continue

        # 继续进行深度优先搜索
        child = (
            (state, next_state) if isinstance(state, str) else (*state, next_state)
        )
        self.dfs(child, step + 1)

        # 回溯
        # 找出当前输出中的最大值
        best_value = max([value for _, value in self.output])

        # 如果最佳值低于回溯阈值，则从输出中移除最后一个元素并继续
        if best_value < self.backtracking_threshold:
            self.output.pop()
            continue


In [6]:
def solve(self):
    """使用AoT提示和DFS搜索算法解决问题"""
    try:
        # 运行DFS
        self.dfs(self.initial_prompt, 1)  # 基于初始提示执行深度优先搜索，1可能表示从某个初始深度开始搜索

        # 检查是否生成了任何思路
        if not self.output:  # 如果没有输出（即没有找到有效的思路）
            logger.error("在DFS期间没有生成有效的思路")  # 记录错误日志
            return None  # 没有思路则返回None

        # 找到最佳思路及其值
        best_state, best_value = max(self.output, key=lambda x: x[1])  # 从输出中找到最佳思路及其评分值

        # 缓存最佳思路
        self.thought_cache["accepted"][best_state] = best_value  # 将最佳思路及其评分值存入缓存

        # 根据最佳思路生成最终解决方案
        solution = self.model.generate_solution(self.initial_prompt, best_state)  # 使用模型根据最佳思路生成解决方案

        # 显示并返回解决方案
        print(f"解决方案是 {solution}")  # 打印解决方案

        # 将缓存写入JSON文件
        # 如果希望覆盖文件，请将模式改回'w'
        with open("./thought_cache.json", "a") as json_file:  # 以追加模式打开或创建缓存文件
            json.dump(self.thought_cache, json_file)  # 将缓存数据写入文件

        return solution if solution else best_state  # 如果有解决方案则返回解决方案，否则返回最佳状态

    except Exception as error:
        logger.error(f"在tot_dfs中发生错误: {error}")  # 记录发生的错误

        # 即使发生错误也将缓存写入JSON文件
        # 如果希望覆盖文件，请将模式改回'w'
        with open("./thought_cache_error.json", "a") as json_file:  # 以追加模式打开或创建错误缓存文件
            json.dump(self.thought_cache, json_file)  # 将缓存数据写入文件

        raise error  # 抛出错误

In [7]:
def dfs(self, state, step):
    """深度优先搜索算法"""
    if step > self.max_steps:
        # 超过最大步数限制时的处理
        if state in self.thought_cache["accepted"]:
            # 如果当前状态已经在“接受”的缓存中，则直接获取其值
            value = self.thought_cache["accepted"][state]
        elif state in self.thought_cache["pruned"]:
            # 如果当前状态在“剪枝”的缓存中，则直接返回不进行处理
            return
        else:
            # 否则，评估当前的思考（状态），并将其结果缓存
            thought, value = self.evaluate_thought(state)
            self.thought_cache["accepted"][state] = value

        # 记录当前状态及其评估值
        self.output.append((state, value))
        return

    # 在生成和过滤思考之前检查缓存
    if state in self.thought_cache["accepted"]:
        thoughts = [state]
    elif state in self.thought_cache["pruned"]:
        return
    else:
        # 生成和过滤当前状态的后续思考
        thoughts = self.generate_and_filter_thoughts(state)

    for next_state in thoughts:
        # 获取下一个状态的评估值，如果未评估则默认为0
        state_value = self.evaluated_thoughts.get(next_state, 0)
        print("Entering DFS with state: ", state, " and step: ", step)

        # 如果下一个状态的评估值低于阈值，则将其加入“剪枝”缓存并继续循环
        if state_value <= self.value_threshold:
            self.thought_cache["pruned"][next_state] = state_value
            continue

        # 继续进行深度优先搜索
        child = (
            (state, next_state) if isinstance(state, str) else (*state, next_state)
        )
        self.dfs(child, step + 1)

        # 回溯
        # 找出当前输出中的最大值
        best_value = max([value for _, value in self.output])

        # 如果最佳值低于回溯阈值，则从输出中移除最后一个元素并继续
        if best_value < self.backtracking_threshold:
            self.output.pop()
            continue

In [9]:
! pip install aot-x

Looking in indexes: http://mirrors.tencentyun.com/pypi/simple
Collecting Pillow==9.4.0 (from swarms->aot-x)
  Using cached http://mirrors.tencentyun.com/pypi/packages/69/6d/17f0ee189732bd16def91c0b440203c829b71e3af24f569cb22d831760cb/Pillow-9.4.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.3 MB)
Collecting attrs==22.2.0 (from swarms->aot-x)
  Using cached http://mirrors.tencentyun.com/pypi/packages/fb/6e/6f83bf616d2becdf333a1640f1d463fef3150e2e926b7010cb0f81c95e88/attrs-22.2.0-py3-none-any.whl (60 kB)
Collecting httpx==0.24.1 (from swarms->aot-x)
  Using cached http://mirrors.tencentyun.com/pypi/packages/ec/91/e41f64f03d2a13aee7e8c819d82ee3aa7cdc484d18c0ae859742597d5aa0/httpx-0.24.1-py3-none-any.whl (75 kB)
Collecting langchain==0.0.333 (from swarms->aot-x)
  Using cached http://mirrors.tencentyun.com/pypi/packages/c2/25/ad6a5b6e3f40f0783d76ac43e9e5660927f48e9d67a87182d9e1000a5ca1/langchain-0.0.333-py3-none-any.whl (2.0 MB)
Collecting openai==0.28.0 (from swarms->aot-

In [11]:
from aot.main import AoT
import os

task = """

Use numbers and basic arithmetic operations (+ - * /) to obtain 24. When
considering the next steps, do not choose operations that will result in a
negative or fractional number. In order to help with the calculations, the
numbers in the parenthesis represent the numbers that are left after the
operations and they are in descending order.
Another thing we do is when there are only two numbers left in the parenthesis, we
check whether we can arrive at 24 only by using basic arithmetic operations
(+ - * /). Some examples regarding this idea:
(21 2) no
since 21 + 2 = 23, 21 - 2 = 19, 21 * 2 = 42, 21 / 2 = 10.5, none of which is equal
to 24.
(30 6) 30 - 6 = 24 yes
(8 3) 8 * 3 = 24 yes
(12 8) no
(48 2) 48 / 2 = 24 yes
Most importantly, do not give up, all the numbers that will be given has indeed a
solution.

5 6 10 4
"""
os.environ['OPENAI_API_MODEL'] = 'gpt-4'


dfs = AoT(
    num_thoughts=5,
    max_steps=10, 
    value_threshold=0.3,
    initial_prompt=task,
)

result = dfs.solve()
print(result)

Using custom api_base http://20.212.241.119:80/v1/
Using api_model gpt-4
New state generating thought: 

Use numbers and basic arithmetic operations (+ - * /) to obtain 24. When
considering the next steps, do not choose operations that will result in a
negative or fractional number. In order to help with the calculations, the
numbers in the parenthesis represent the numbers that are left after the
operations and they are in descending order.
Another thing we do is when there are only two numbers left in the parenthesis, we
check whether we can arrive at 24 only by using basic arithmetic operations
(+ - * /). Some examples regarding this idea:
(21 2) no
since 21 + 2 = 23, 21 - 2 = 19, 21 * 2 = 42, 21 / 2 = 10.5, none of which is equal
to 24.
(30 6) 30 - 6 = 24 yes
(8 3) 8 * 3 = 24 yes
(12 8) no
(48 2) 48 / 2 = 24 yes
Most importantly, do not give up, all the numbers that will be given has indeed a
solution.

5 6 10 4
 


We receive a state of type <class 'str'> For state:  Here is the d

2025-05-30 22:54:22,443 - ERROR - No valid thoughts were generated during DFS


Evaluated Thought Value: 0.2
filtered_thoughts: []
None


``` python
from aot.main import AoT
import os

task = """

Use numbers and basic arithmetic operations (+ - * /) to obtain 24. When
considering the next steps, do not choose operations that will result in a
negative or fractional number. In order to help with the calculations, the
numbers in the parenthesis represent the numbers that are left after the
operations and they are in descending order.
Another thing we do is when there are only two numbers left in the parenthesis, we
check whether we can arrive at 24 only by using basic arithmetic operations
(+ - * /). Some examples regarding this idea:
(21 2) no
since 21 + 2 = 23, 21 - 2 = 19, 21 * 2 = 42, 21 / 2 = 10.5, none of which is equal
to 24.
(30 6) 30 - 6 = 24 yes
(8 3) 8 * 3 = 24 yes
(12 8) no
(48 2) 48 / 2 = 24 yes
Most importantly, do not give up, all the numbers that will be given has indeed a
solution.

5 6 10 4
"""
os.environ['OPENAI_API_MODEL'] = 'gpt-4'


dfs = AoT(
    num_thoughts=5,
    max_steps=10, 
    value_threshold=1,
    initial_prompt=task,
)

result = dfs.solve()
print(result)

https://github.com/kyegomez/Algorithm-Of-Thoughts