In [None]:
import os
from dotenv import load_dotenv
import openai
from dataclasses import dataclass, field
from typing import List
import json
from system_prompts import SYSTEM_PROMPT_FIRST_SEARCH, SYSTEM_PROMPT_FIRST_SUMMARY, SYSTEM_PROMPT_REFLECTION

### 加载环境变量和预定义函数及数据结构

In [3]:
load_dotenv()

@dataclass
class Search:
    url: str = ""
    content: str = ""
    
@dataclass
class Research:
    search_history: List[Search] = field(default_factory=list)
    latest_summary: str = ""
    reflection_iteration: int = 0

@dataclass
class Paragraph:
    title: str = ""
    content: str = ""
    research: Research = field(default_factory=Research)

@dataclass
class State:
    report_title: str = ""
    paragraphs: List[Paragraph] = field(default_factory=list)


def clean_json_tags(json_str):
    return json_str.replace("```json", "").replace("```", "").strip()

def update_state_with_search_results(search_results, idx_paragraph, state):

    for search_result in search_results["results"]:
        search = Search(url=search_result["url"], content=search_result["content"])
        state.paragraphs[idx_paragraph].research.search_history.append(search)
    return state



### 初始化状态

In [4]:
STATE = State()

### 报告大纲智能体

In [5]:
class ReportStructureAgent:
    def __init__(self):
        self.llm = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

    def get_system_prompt(self):        
        output_schema_report_structure = {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "title": {"type": "string"},
                        "content": {"type": "string"}
                    }
                }
            }

        example_output_report_structure = """
```json
[
{
    "title": "智能体的定义",
    "content": "智能体是具有感知、决策、执行和学习能力的自主系统。"
},
{
    "title": "智能体的分类",
    "content": "智能体可以分为以下几类："
}
]
```
"""

        system_prompt = f"""
你是一个深度调研助手。针对一个查询任务，请规划一份报告的结构以及应包含的段落内容。
请确保段落的排列顺序合理。
结构制定完成后，你将获得工具来分别为每个部分进行网页搜索和反思。
请按照以下 JSON 格式定义的格式输出结果：

<OUTPUT JSON SCHEMA>
{json.dumps(output_schema_report_structure, indent=2)}
</OUTPUT JSON SCHEMA>

标题（title）和内容（content）属性将用于后续的深入研究。
请确保输出是一个符合上述 JSON 格式定义的 JSON 对象。
只返回 JSON 对象，不要附加任何解释或额外文本。

<EXAMPLE OUTPUT>
{example_output_report_structure}
</EXAMPLE OUTPUT>
"""

        return system_prompt
        
    def run(self, input):
        response = self.llm.chat.completions.create(
            model="gpt-4o-2024-08-06",
            messages=[
                {"role": "system", "content": self.get_system_prompt()},
                {"role": "user", "content": input}
            ],
            stream=False
        )

        report_structure = json.loads(clean_json_tags(response.choices[0].message.content))

        return report_structure

In [6]:
research_structure_agent = ReportStructureAgent()

research_input = "请帮我调研一下web3.0的开发"

report_structure = research_structure_agent.run(research_input)
for paragraph in report_structure:
    STATE.paragraphs.append(Paragraph(title=paragraph["title"], content=paragraph["content"]))

print("报告大纲：")
for i, paragraph in enumerate(STATE.paragraphs):
    print(f"第{i}个段落标题: {paragraph.title}") 
    print(f"第{i}个段落内容: {paragraph.content}")

报告大纲：
第0个段落标题: Web3.0的定义和背景
第0个段落内容: 介绍Web3.0的概念及其起源，区分其与Web1.0和Web2.0的差异，强调去中心化和用户自主权的重要性。
第1个段落标题: Web3.0的关键技术
第1个段落内容: 探讨区块链、智能合约、去中心化应用（DApps）、分布式共识机制等Web3.0的核心技术及其运作方式。
第2个段落标题: Web3.0的开发工具和框架
第2个段落内容: 列举支持Web3.0开发的主要工具和框架，如Truffle、React、Web3.js等，并说明其功能和使用场景。
第3个段落标题: 开发Web3.0应用的流程
第3个段落内容: 介绍如何从概念到实现进行Web3.0应用开发的基本流程，包括需求分析、智能合约编写、前后端集成等步骤。
第4个段落标题: Web3.0的安全性和隐私
第4个段落内容: 分析Web3.0在安全性和隐私保护方面的挑战和对策，探讨常见的安全漏洞及如何防范。
第5个段落标题: Web3.0的行业应用场景
第5个段落内容: 展示Web3.0技术在金融、供应链、社交媒体、数字身份等行业的应用案例，分析其带来的创新和优势。
第6个段落标题: Web3.0开发的挑战与机遇
第6个段落内容: 讨论目前Web3.0在开发过程中面临的技术、法律、用户体验等挑战，以及其带来的市场机遇和未来趋势。
第7个段落标题: 如何学习和加入Web3.0社区
第7个段落内容: 提供学习Web3.0开发的资源和机会，介绍相关的社区、论坛和培训课程，帮助开发者快速上手和深度参与。


### 搜索智能体

In [33]:
import tavily

class SearchAgent:
    def __init__(self):
        self.llm = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"))
        self.search_tool = tavily.TavilyClient(api_key=os.getenv("TAVILY_API_KEY")
    )

    def get_system_prompt(self):
        

        input_schema_first_search = {
                    "type": "object",
                    "properties": {
                        "title": {"type": "string"},
                        "content": {"type": "string"}
                    }
                }

        output_schema_first_search = {
                    "type": "object",
                    "properties": {
                        "search_query": {"type": "string"},
                        "reasoning": {"type": "string"}
                    }
                }


        system_prompt = f"""
你是一个深度研究助手。你将会被提供一段报告中的段落、它的标题以及期望内容，格式如下的 JSON 格式定义：

<INPUT JSON SCHEMA>
{json.dumps(input_schema_first_search, indent=2)}
</INPUT JSON SCHEMA>

你可以使用一个网页搜索工具，该工具接受一个 search_query 作为参数。
你的任务是对该主题进行思考，并提供一个最优的网页搜索查询（请使用中文），以丰富你当前的知识。
请按照以下的 JSON 格式定义来格式化你的输出：

<OUTPUT JSON SCHEMA>
{json.dumps(output_schema_first_search, indent=2)}
</OUTPUT JSON SCHEMA>

请确保你的输出是一个符合上述输出 JSON 架构定义的 JSON 对象。
只返回 JSON 对象，不要附加任何解释或其他文本。
"""

        return system_prompt

    def run(self, input):                
        response = self.llm.chat.completions.create(
            model="gpt-4o-2024-08-06",
            messages=[
                {"role":"system","content":self.get_system_prompt()},
                {"role":"user","content":json.dumps(input)}
                ],
            temperature=1
            )
        
        search_arguments = json.loads(clean_json_tags(response.choices[0].message.content))

        return search_arguments
    
    def search(self, search_query, include_raw_content=True, max_results=5):
        search_results = self.search_tool.search(
                query=search_query,
                include_raw_content=include_raw_content,
                max_results=max_results
                )
        return search_results


In [32]:
search_agent = SearchAgent()

search_input = {
    "title": STATE.paragraphs[0].title,
    "content": STATE.paragraphs[0].content
}


search_arguments = search_agent.run(search_input)
print(search_arguments["search_query"])

search_results = search_agent.search(search_arguments["search_query"])

STATE = update_state_with_search_results(search_results, 0, STATE)

for search in STATE.paragraphs[0].research.search_history:
    print(search.url)
    print(search.content)
    break


Web3.0 定义 起源 与 Web1.0 Web2.0 的区别 去中心化 用户自主权
https://www.cnblogs.com/listen80/p/18304967
Web1.0：虽然内容由少数人创建，但平台的中心化程度相对较低。 · Web2.0：高度中心化，平台拥有绝对的控制权和规则制定权。 · Web3.0：去中心化的架构，减少了对


### 段落输出智能体

In [59]:
class WritingAgent:
    def __init__(self):
        self.llm = openai.OpenAI(api_key=os.getenv("DEEPSEEK_API_KEY"), base_url="https://api.deepseek.com")

    def get_system_prompt(self):
                
        input_schema_first_summary = {
            "type": "object",
            "properties": {
                "title": {"type": "string"},
                "content": {"type": "string"},
                "search_query": {"type": "string"},
                "search_results": {
                    "type": "array",
                    "items": {"type": "string"}
                    }
                }
            }

        output_schema_first_summary ={
            "type": "object",
            "properties": {
                "paragraph_latest_state": {"type": "string"}
                }
        }

        system_prompt = f"""
你是一个深度研究助手。你将会获得一个搜索查询、一组搜索结果，以及一份报告中的段落（需要你撰写），格式如下所示的 JSON 架构定义：

<INPUT JSON SCHEMA>
{json.dumps(input_schema_first_summary, indent=2)}
</INPUT JSON SCHEMA>

你的任务是：作为研究者，使用这些搜索结果来撰写该段落，使其内容与段落主题一致，并具有良好的结构，可以直接纳入到报告中。
请将输出格式化为以下 JSON 格式定义：

<OUTPUT JSON SCHEMA>
{json.dumps(output_schema_first_summary, indent=2)}
</OUTPUT JSON SCHEMA>

确保输出是一个符合上述输出 JSON 格式定义的 JSON 对象。
只返回 JSON 对象，不要附加解释或额外文本。
"""
        return system_prompt

    def run(self, input):
        
        print("deepseek 运行 ...")
        response = self.llm.chat.completions.create(
            model="deepseek-chat",
            messages=[
                {"role":"system","content":self.get_system_prompt()},
                {"role":"user","content":json.dumps(input)}
                ],
            temperature=1
            )
        print("deepseek 运行结束 ...")
        paragraph = json.loads(clean_json_tags(response.choices[0].message.content))

        return paragraph


In [43]:
writing_agent = WritingAgent()

input_search_results = {
    "title": STATE.paragraphs[0].title,
    "content": STATE.paragraphs[0].content,
    "search_query": search_arguments["search_query"],
    "search_results": [ result["raw_content"] for result in search_results["results"] if result["raw_content"]]
}

paragraph = writing_agent.run(input_search_results)

print(paragraph["paragraph_latest_state"])

Web3.0是互联网发展的一个里程碑，标志着从集中化向去中心化的重大转变。Web3.0的概念起源于对Web1.0和Web2.0的反思与创新。Web1.0主要以静态网页为主，人们通过浏览器获取信息，但缺乏与内容创作者的互动。Web2.0引入了用户生成内容的理念，社交媒体和平台经济的兴起，让用户得以参与内容的创建。然而，Web2.0也因其集中化的特性带来了隐私泄露和数据滥用的问题。Web3.0克服了这些不足，通过区块链技术实现了去中心化，给用户带来了更高的自主权和隐私保护。在Web3.0的世界中，数据和内容的所有权回归用户自身，智能合约和去中心化应用（DApps）通过区块链运行，不再依赖中心化的服务器和机构。这一新的范式不仅提升了安全性，还为用户提供了更公平和透明的网络环境。


### 反思智能体

In [None]:
class ReflectionAgent:
    def __init__(self):
        self.llm = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

    def get_system_prompt(self):
        
        input_schema_reflection = {
            "type": "object",
            "properties": {
                "title": {"type": "string"},
                "content": {"type": "string"},
                "paragraph_latest_state": {"type": "string"}
                }
            }

        output_schema_reflection = {
            "type": "object",
            "properties": {
                "search_query": {"type": "string"},
                "reasoning": {"type": "string"}
                }
            }

        system_prompt = f"""
你是一位深度研究助理，负责为研究报告撰写全面的段落内容。你将会被提供以下内容：段落标题、计划撰写的内容摘要，以及你此前已经撰写的最新段落状态，所有这些信息都遵循以下 JSON 模式定义：

<INPUT JSON SCHEMA>
{json.dumps(input_schema_reflection, indent=2)}
</INPUT JSON SCHEMA>

你可以使用一个接受 search_query 参数的网页搜索工具。
你的任务是对当前段落的文本状态进行反思，思考是否遗漏了该主题中的某些关键方面，并提供一个最优的网页搜索查询，以丰富当前段落内容。
请使用以下的 JSON 模式格式化输出结果：

<OUTPUT JSON SCHEMA>
{json.dumps(output_schema_reflection, indent=2)}
</OUTPUT JSON SCHEMA>

请确保输出是一个符合上述输出 JSON 模式定义的 JSON 对象。
只返回该 JSON 对象，不要包含任何解释或额外文字。
始终输出中文内容。
"""
        return system_prompt

    def run(self, input):
        response = self.llm.chat.completions.create(
            model="gpt-4o-2024-08-06",
            messages=[
                {"role":"system","content":self.get_system_prompt()},
                {"role":"user","content":json.dumps(input)}
                ],
            temperature=1
            )
        
        reflection = json.loads(response.choices[0].message.content)

        return reflection


In [None]:
reflection_agent = ReflectionAgent()

input_json_reflection = {
    "title": STATE.paragraphs[0].title,
    "content": STATE.paragraphs[0].content,
    "paragraph_latest_state": paragraph["paragraph_latest_state"]
}

    
reflection = reflection_agent.run(input_json_reflection)

print(reflection["search_query"])


In [None]:
writing_agent = WritingAgent()

num_reflection = 2
for i in range(num_reflection):

    print(f"反思次数: {i+1}")

    search_arguments = reflection
    print(search_arguments["search_query"])
    search_results = search_agent.search(search_arguments["search_query"], max_results=2)

    # Write
    input_search_results = {
        "title": STATE.paragraphs[0].title,
        "content": STATE.paragraphs[0].content,
        "search_query": search_arguments["search_query"],
        "search_results": [ result["raw_content"] for result in search_results["results"] if result["raw_content"]]
    }
    print(input_search_results)
    paragraph = writing_agent.run(input_search_results)
    
    # Reflection
        
    input_json_reflection = {
        "title": STATE.paragraphs[0].title,
        "content": STATE.paragraphs[0].content,
        "paragraph_latest_state": paragraph["paragraph_latest_state"]
    }

        
    reflection = reflection_agent.run(input_json_reflection)

    print(reflection["search_query"])   
        

反思次数: 1
Web3.0特点以及去中心化技术的影响
{'title': 'Web3.0的定义和背景', 'content': '介绍Web3.0的概念及其起源，区分其与Web1.0和Web2.0的差异，强调去中心化和用户自主权的重要性。', 'search_query': 'Web3.0特点以及去中心化技术的影响', 'search_results': ['# å\x8e»ä¸\xadå¿\x83å\x8c\x96ç\x9a\x84 Web3.0ï¼\x8cä¼\x9aæ\x88\x90ä¸ºä¸\x8bä¸\x80ä¸ªä¸\xadå¿\x83å\x90\x97ï¼\x9f\n\n### \n\næ\x9d¥æº\x90ï¼\x9aäººæ°\x91é\x82®ç\x94µæ\x8a¥\næ\x97¶é\x97´ï¼\x9a2022-07-01 16:31:28\nä½\x9cè\x80\x85ï¼\x9aå\x90´å\x8f¯æ\x99´ æ\x96¹æ\xad£æ¢\x81 å¼\xa0é¸£ æ\x9d\x8eç\x8e¥\n\nã\x80\x80ã\x80\x80Web3.0ï¼\x8cå\x8d³ç¬¬ä¸\x89ä»£äº\x92è\x81\x94ç½\x91ï¼\x8cæ\x98¯å\x9fºäº\x8eå\x8cºå\x9d\x97é\x93¾ç\x9a\x84å\x8e»ä¸\xadå¿\x83å\x8c\x96ç½\x91ç»\x9cï¼\x8cè¢«ä¸\x9aç\x95\x8cè®¤ä¸ºæ\x98¯é©±å\x8a¨å\x85\x83å®\x87å®\x99ç\x9a\x84å\x9fºç¡\x80å»ºè®¾æ\x8a\x80æ\x9c¯ã\x80\x82\n\nã\x80\x80ã\x80\x80å\x9c¨Web3.0ä¸\x96ç\x95\x8cé\x87\x8cï¼\x8cæ\x89\x80æ\x9c\x89æ\x9d\x83å\x92\x8cæ\x8e\x8cæ\x8e§æ\x9d\x83é\x83½æ\x98¯å\x8e»ä¸\xadå¿\x83å\x8c\x96ã\x80\x82ç\x90\x86è®ºä¸\x8aï¼\x8cå»ºè®¾è\x80\x85å\x92\x8cç\x94¨æ\x88·é\x83½å\x8

In [53]:
input_search_results

{'title': 'Web3.0的定义和背景',
 'content': '介绍Web3.0的概念及其起源，区分其与Web1.0和Web2.0的差异，强调去中心化和用户自主权的重要性。',
 'search_query': 'Web3.0 定义 历史背景 关键特性',
 'search_results': ['![](../../images/QRcode.png)\n![](../../images/b4a17c1f-39fb-4d03-a261-2fb513cc49fd.png)\n\n# Web3.0æ\x98¯æ¿\x80å\x8f\x91ç¾¤ä½\x93æ\x99ºè\x83½ç\x9a\x84ä¸\x8bä¸\x80ä»£äº\x92è\x81\x94ç½\x91\n\n2022-06-24\n\n![](/__local/5/1A/03/B8F307440C3F857DB42E0E1D238_04F914F3_32C6.jpg)\n\n![](/__local/5/1A/03/B8F307440C3F857DB42E0E1D238_04F914F3_32C6.jpg)\n\næ¸\x85å\x8d\x8eå¤§å\xad¦äº\x92è\x81\x94ç½\x91äº§ä¸\x9aç\xa0\x94ç©¶é\x99¢\n\nä¸\x80\n\nä¸ºä»\x80ä¹\x88Web2.0è¦\x81è¿\x9bå\x8c\x96å\x88°Web3.0\n\näº\x8c\n\nâ\x80\x8dä»\x80ä¹\x88æ\x98¯Web3.0\n\nä¸\x89\n\nWeb2.0å\x88°Web3.0ç\x9a\x84æ¼\x94è¿\x9b\n\nå\x9b\x9b\n\nWeb3.0æ\x8f\x90ä¾\x9bäº\x86å¼\x80æ\x94¾å\x88\x9bæ\x96°ç\x9a\x84ç\x8e¯å¢\x83\n\näº\x94\n\nWeb3.0å¼\x80æ\x94¾å\x88\x9bæ\x96°ç\x9a\x84åº\x94ç\x94¨å\x9cºæ\x99¯\n\nç¼\x96è¾\x91ï½\x9cæ®µæ\x96\x87ç§\x80\n\nå®¡æ\xa0¸ã\x80\x81è´£ç¼\x96ï½\x9cæ\x9d¨å