项目名称：AI流程图匠——智能可视化协作平台
Slogan： "用自然语言定义流程，让AI为您绘制世界！"

In [None]:
%pip install mermaid-py

### mermaid 环境测试


In [2]:
import mermaid as md
from mermaid.graph import Graph

render = md.Mermaid("""
graph TD
    subgraph "财务票据数据采集与预处理"
        A["文件输入 (图片, PDF, Word 等)"] --> B["转换为图片格式"];
        B --> C["PaddleOCR进行文本处理"];
    end
    subgraph "结构化与提示词工程"
        C --> D["大模型结构化OCR识别结果"];
        D --> E["大模型进行规则判断"];
        E --> F["输出判断结果"];
    end
""")

In [None]:
render 

In [None]:
render.to_png("work/output/test.png")

### 大模型调用测试

In [6]:
api_key = "ae467bfa991e56e0e996a60820b93e9455f7e6bd"

In [7]:

import os
from openai import OpenAI

client = OpenAI(
     api_key=api_key,  # 含有 AI Studio 访问令牌的环境变量，https://aistudio.baidu.com/account/accessToken,
     base_url="https://aistudio.baidu.com/llm/lmapi/v3",  # aistudio 大模型 api 服务域名
)

chat_completion = client.chat.completions.create(
    messages=[
        {'role': 'system', 'content': '你是 AI Studio 实训AI开发平台的开发者助理，你精通开发相关的知识，负责给开发者提供搜索帮助建议。'},
        {'role': 'user', 'content': '你好，请介绍一下AI Studio'}
    ],
    model="ernie-3.5-8k",
)

print(chat_completion.choices[0].message.content)

你好！AI Studio 是百度飞桨深度学习平台推出的一个集在线编程、实训项目、竞赛、交流社区于一体的实训 AI 开发平台。以下是一些 AI Studio 的主要特点和功能介绍：

### 主要特点

1. **在线编程环境**：
   - 提供云端 Jupyter Notebook 编程环境，无需在本地安装复杂的开发环境。
   - 支持多种编程语言，特别是 Python，以及深度学习框架如 PaddlePaddle。

2. **免费算力资源**：
   - 为用户提供免费的 GPU 算力资源，支持深度学习模型的训练和推理。
   - 根据用户的使用情况和贡献，可以提供更多的算力资源奖励。

3. **丰富的实训项目**：
   - 提供涵盖计算机视觉、自然语言处理、推荐系统等多个领域的实训项目。
   - 每个项目都包含详细的教程、代码示例和数据集，帮助用户快速上手。

4. **竞赛平台**：
   - 定期举办各种 AI 竞赛，涵盖不同的应用场景和技术挑战。
   - 提供竞赛数据集、评估标准和排行榜，鼓励用户参与并提升自己的技能。

5. **交流社区**：
   - 拥有活跃的开发者社区，用户可以在其中提问、分享经验、交流想法。
   - 提供论坛、博客、问答等多种形式的交流平台。

### 功能介绍

1. **代码编辑与运行**：
   - 支持代码自动补全、语法高亮、多行编辑等高级编辑功能。
   - 可以直接在云端运行代码，查看输出结果和日志。

2. **数据集管理**：
   - 提供数据集上传、下载、管理功能，方便用户处理自己的数据集。
   - 支持多种数据格式，如 CSV、JSON、图像等。

3. **模型训练与部署**：
   - 支持使用 PaddlePaddle 框架进行模型训练，提供训练日志、模型保存和加载功能。
   - 提供模型部署工具，可以将训练好的模型部署到云端或本地服务器。

4. **版本管理**：
   - 支持代码和数据集的版本管理，方便用户追踪和回滚到之前的版本。
   - 提供协作功能，多个用户可以一起开发同一个项目。

### 适用人群

- AI 初学者：通过实训项目和教程，快速入门深度学习。
- 开发者：利用在线编程环境和免费算力资源，进行深度学习模型的开发和优化。
- 数据科学家：处理和分析大规模

## 智能体搭建

In [1]:
import asyncio
import os
from google.adk.agents import LoopAgent, LlmAgent, BaseAgent, SequentialAgent
from google.genai import types
from google.adk.runners import InMemoryRunner
from google.adk.sessions import InMemorySessionService, DatabaseSessionService, Session
from google.adk.runners import Runner
from google.adk.models.lite_llm import LiteLlm # 用于多模型支持
from google.adk.agents.invocation_context import InvocationContext
from google.adk.tools.tool_context import ToolContext
from typing import AsyncGenerator, Optional
from google.adk.events import Event, EventActions

In [2]:
# --- Constants ---
APP_NAME = "draw_picture_v3" # New App Name
USER_ID = "dev_user_01"
SESSION_ID_BASE = "draw_picture_v3" # New Base Session ID
MODEL = "ernie-4.5-turbo-32k"

In [3]:
import os
from google.adk.models.lite_llm import LiteLlm

ernie_model = LiteLlm(
    model=f"openai/{MODEL}",
    base_url="https://aistudio.baidu.com/llm/lmapi/v3",
    api_key="ae467bfa991e56e0e996a60820b93e9455f7e6bd"
)

In [4]:
# --- Tool Definition ---
def exit_loop(tool_context: ToolContext):
  """当成功生成图表时，调用该工具，表明迭代结束"""
  print(f"  [Tool Call] exit_loop triggered by {tool_context.agent_name}")
  tool_context.actions.escalate = True
  # Return empty dict as tools should typically return JSON-serializable output
  return {}

In [5]:
code_prompt = """
# 角色定位
你是一位专业的 Mermaid 图表架构师，擅长将复杂流程转化为清晰、专业的可视化图表。你精通各类图表语法，并能根据需求选择最合适的图表类型。


# 工作流程
1. 需求分析
   - 仔细理解用户描述的业务场景和需求
   - 识别关键实体、流程和关系
   - 确定图表的核心目标和展示重点

2. 图表选型
   - 根据需求选择最合适的图表类型：
     * flowchart：适合展示流程、决策和分支
     * sequenceDiagram：适合展示时序和交互
     * gantt：适合展示项目计划和进度
     * mindmap：适合展示思维导图和层级关系
     * classDiagram：适合展示类图和对象关系
     * erDiagram：适合展示实体关系
   - 说明选择理由和图表优势

3. 代码生成
   - 编写结构清晰、注释完整的 Mermaid 代码
   - 遵循最佳实践和命名规范
   - 确保代码的可读性和可维护性
   - 优化图表布局和视觉效果

4. 交付规范
   - 仅提供完整的 Mermaid 代码
   - 不包含额外的文字说明
   - 确保代码可直接复制使用

# 注意事项
1. 保持代码简洁，避免过度复杂的嵌套
2. 使用清晰的命名和注释
3. 确保图表逻辑完整，不遗漏关键步骤
4. 适当使用子图(subgraph)组织复杂流程

需求如下：
{demand_analysis_result}
"""

In [6]:
code_agent = LlmAgent(
    name = "code_agent",
    model = ernie_model,
    description = "根据用户描述，生成 Mermaid 代码",
    instruction = code_prompt,
    tools = [exit_loop],
    output_key = "generated_code",
    )

In [7]:
render_prompt = """
# 角色定位
你是一位专业的 Mermaid 图表渲染工程师，精通各类图表的渲染和优化技术。你的主要职责是将 Mermaid 代码转换为高质量的可视化图表。

代码如下：
```mermaid
{generated_code}
```

# 工作流程
1. 调用 render_mermaid 工具对代码进行渲染
2. 验证渲染结果
3. 如果渲染成功，则调用 exit_loop 工具，退出迭代并返回图表图片的保存路径

"""

In [20]:
import mermaid as md
from mermaid.graph import Graph

def render_mermaid(code: str, path="D:/WORK/workspace/aisell/aisell_dev/logs/mermaid.png"):
    """
    根据code_agent生成的代码，渲染出图表。
    Args:
        code: str, Mermaid 代码
        path: str, 图表图片的保存路径
    Returns:
        dict, 如果保存成功则返回图表图片的保存路径，如果失败则返回错误信息
    """
    try:
        render = md.Mermaid(code).to_png(path)
        return {
        "status": "success",
        "path": path
    }
    except Exception as e:
        return {
            "status": "error",
            "message": str(e)
        }
    

In [9]:
render_agent = LlmAgent(
    name = "render_agent",
    model = ernie_model,
    description = "根据code_agent生成的代码，渲染出图表",
    instruction = render_prompt,
    tools = [exit_loop, render_mermaid],
    output_key = "rendered_picture_path",
    )

In [10]:
flow_picture_loop = LoopAgent(
    name = "flow_picture_loop",
    sub_agents = [code_agent, render_agent],
    max_iterations=5 # Limit loops
    )

In [11]:
demand_analysis_prompt = """
# 角色定位
你是一位专业的流程图需求分析师，擅长通过对话深入理解用户的业务需求，并将其转化为清晰的图表需求规格。

# 核心能力
1. 需求挖掘与分析
   - 通过提问引导用户明确需求
   - 识别业务场景中的关键流程和节点
   - 理解业务规则和约束条件

2. 需求结构化
   - 将用户描述转化为结构化的需求
   - 识别流程中的关键实体和关系
   - 明确流程的起点和终点

3. 需求验证
   - 确认需求理解的准确性
   - 识别潜在的问题和风险
   - 提出优化建议

# 工作流程
1. 需求收集
   - 通过开放式问题了解用户意图
   - 收集业务流程的基本信息
   - 确认关键业务场景

2. 需求分析
   - 识别核心业务流程
   - 确定关键决策点
   - 明确业务规则和约束

3. 需求传递
   - 将分析结果传递给代码生成智能体
   - 确保需求描述的准确性和完整性

"""

In [12]:
demand_analysis_agent = LlmAgent(
    name = "demand_analysis_agent",
    model = ernie_model,
    description = "根据用户描述，分析需求",
    instruction = demand_analysis_prompt,
    output_key = "demand_analysis_result",
    )

In [13]:
root_agent = SequentialAgent(
    name = "root_agent",
    sub_agents = [demand_analysis_agent, flow_picture_loop],
    description = "根据用户描述，生成流程图",
)

In [14]:
async def call_agent_async(query, runner, user_id, session_id):
    """Sends a query to the agent and prints the final response."""
    print(f"User Query: {query}")

    # Prepare the user's message in ADK format
    content = types.Content(role='user', parts=[types.Part(text=query)])

    final_response_text = "智能体没有产生最终响应。" # 默认值

    # 关键概念：run_async 执行智能体逻辑并产生事件。
    # 我们遍历事件以找到最终答案。
    async for event in runner.run_async(user_id=user_id, session_id=session_id, new_message=content):
        # 你可以取消注释下面的行以查看执行期间的*所有*事件
        print(f"  [事件] 作者：{event.author}，类型：{type(event).__name__}，最终：{event.is_final_response()}，内容：{event.content}")

        # 关键概念：is_final_response() 标记轮次的结束消息。
        if event.is_final_response():
            if event.content and event.content.parts:
                # 假设第一部分中的文本响应
                final_response_text = event.content.parts[0].text
            elif event.actions and event.actions.escalate: # 处理潜在错误/升级
                final_response_text = f"智能体升级：{event.error_message or '无特定消息。'}"
                # 如果需要，在这里添加更多检查（例如，特定错误代码）
            break # 找到最终响应后停止处理事件
    print(f"Agent Response: {final_response_text}")
    return final_response_text

In [15]:
# 创建会话服务，为了使智能体能够记住对话历史，我们需要创建一个会话服务。将聊天存到内存当中
session_service = InMemorySessionService()

await session_service.create_session(app_name=APP_NAME, user_id=USER_ID, session_id=SESSION_ID_BASE)

Session(id='draw_picture_v3', app_name='draw_picture_v3', user_id='dev_user_01', state={}, events=[], last_update_time=1749785911.2398827)

In [16]:
root_runner = Runner(
    agent = root_agent,
    app_name = APP_NAME,
    session_service = session_service
    )

In [17]:
await call_agent_async("帮我画一个RAG的流程图",root_runner, USER_ID, SESSION_ID_BASE)

User Query: 帮我画一个RAG的流程图
  [事件] 作者：demand_analysis_agent，类型：Event，最终：True，内容：parts=[Part(video_metadata=None, thought=None, inline_data=None, file_data=None, thought_signature=None, code_execution_result=None, executable_code=None, function_call=None, function_response=None, text='好的！为了更精准地为您设计RAG（Retrieval-Augmented Generation，检索增强生成）流程图，我需要进一步了解一些关键信息。以下是几个引导性问题，帮助我们明确需求：\n\n---\n\n### **需求收集阶段**\n1. **核心场景**  \n   - 您的RAG流程具体应用于哪个领域？（如智能问答、文档摘要、知识库检索等）  \n   - 是否有特定的输入/输出要求？（例如用户输入问题，输出结构化答案）\n\n2. **流程细节**  \n   - **检索阶段**：  \n     - 使用的检索技术是什么？（如向量相似度检索、关键词匹配、BM25等）  \n     - 检索的数据源是什么？（数据库、文档库、API等）  \n     - 是否有过滤或排序规则？（如时间、相关性、权重）  \n   - **增强阶段**：  \n     - 如何将检索结果与生成模型结合？（如直接拼接、加权融合、多轮迭代）  \n     - 是否需要人工干预或后处理？（如答案校验、格式化）  \n   - **生成阶段**：  \n     - 使用的生成模型是什么？（如GPT-4、LLaMA、自定义模型）  \n     - 输出格式是否有要求？（如JSON、自然语言、图表）  \n\n3. **关键约束**  \n   - 是否有性能要求？（如响应时间、并发量）  \n   - 是否有安全或合规性限制？（如数据脱敏、访问控制）  \n   - 是否有异常处理需求？（如检索失败、生成结果不可用时的回退策略）\n\n---\n\n### **需求分析阶段**\n基于您的回答，我会进一步提炼以下内

'好的！为了更精准地为您设计RAG（Retrieval-Augmented Generation，检索增强生成）流程图，我需要进一步了解一些关键信息。以下是几个引导性问题，帮助我们明确需求：\n\n---\n\n### **需求收集阶段**\n1. **核心场景**  \n   - 您的RAG流程具体应用于哪个领域？（如智能问答、文档摘要、知识库检索等）  \n   - 是否有特定的输入/输出要求？（例如用户输入问题，输出结构化答案）\n\n2. **流程细节**  \n   - **检索阶段**：  \n     - 使用的检索技术是什么？（如向量相似度检索、关键词匹配、BM25等）  \n     - 检索的数据源是什么？（数据库、文档库、API等）  \n     - 是否有过滤或排序规则？（如时间、相关性、权重）  \n   - **增强阶段**：  \n     - 如何将检索结果与生成模型结合？（如直接拼接、加权融合、多轮迭代）  \n     - 是否需要人工干预或后处理？（如答案校验、格式化）  \n   - **生成阶段**：  \n     - 使用的生成模型是什么？（如GPT-4、LLaMA、自定义模型）  \n     - 输出格式是否有要求？（如JSON、自然语言、图表）  \n\n3. **关键约束**  \n   - 是否有性能要求？（如响应时间、并发量）  \n   - 是否有安全或合规性限制？（如数据脱敏、访问控制）  \n   - 是否有异常处理需求？（如检索失败、生成结果不可用时的回退策略）\n\n---\n\n### **需求分析阶段**\n基于您的回答，我会进一步提炼以下内容：  \n1. **核心流程**：  \n   - 输入 → 检索 → 增强 → 生成 → 输出  \n2. **关键节点**：  \n   - 检索算法选择、结果过滤、生成模型调用、输出格式化  \n3. **业务规则**：  \n   - 检索结果的阈值、生成模型的超参数、异常处理逻辑  \n\n---\n\n### **需求验证**\n在最终确认前，我会与您核对以下内容：  \n1. 流程图是否覆盖了所有关键业务场景？  \n2. 是否有遗漏的决策点或分支逻辑？  \n3. 是否需要补充技术实现细节（如API调用、数据库查询）？  \n\n---\

In [18]:
await call_agent_async("智能问答，向量相似度检索，API，相关性，加权融合，不需要人工干预，自定义模型，自然语言 没有约束",root_runner, USER_ID, SESSION_ID_BASE)

User Query: 智能问答，向量相似度检索，API，相关性，加权融合，不需要人工干预，自定义模型，自然语言 没有约束
  [事件] 作者：demand_analysis_agent，类型：Event，最终：True，内容：parts=[Part(video_metadata=None, thought=None, inline_data=None, file_data=None, thought_signature=None, code_execution_result=None, executable_code=None, function_call=None, function_response=None, text='非常感谢您提供的详细信息！根据您的描述，我已经对智能问答系统的RAG流程图需求进行了结构化分析。以下是针对您需求的流程图规格说明：\n\n---\n\n### **RAG流程图需求规格说明**\n\n#### **1. 流程起点**\n- **用户输入**：自然语言形式的问题（例如：“如何申请信用卡？”）。\n\n#### **2. 检索阶段**\n- **向量相似度检索**：\n  - **输入**：用户问题经过文本向量化处理（如使用BERT、Sentence-BERT等模型生成向量）。\n  - **检索**：调用向量数据库（如FAISS、Pinecone等）的API，基于向量相似度（如余弦相似度）检索与问题最相关的Top-K文档或知识片段。\n  - **输出**：返回相关性排序后的文档列表（例如：Top-5文档及其相关性分数）。\n\n#### **3. 增强阶段**\n- **相关性评估与加权融合**：\n  - **相关性评估**：根据预设的相关性阈值，过滤掉相关性低于阈值的文档（例如：仅保留相关性分数>0.7的文档）。\n  - **加权融合**：\n    - 将用户问题与筛选后的文档内容按相关性分数加权拼接（例如：问题占30%，相关性最高的文档占50%，次高占20%）。\n    - 生成完整的Prompt，供生成模型使用。\n\n#### **4. 生成阶段**\n- **自定义模型调用**：\n  - **输入**：加权融合后的Prompt。\n  - **模型**：调用自定义的生成模型（如基于LLaMA、GPT等微调

'非常感谢您提供的详细信息！根据您的描述，我已经对智能问答系统的RAG流程图需求进行了结构化分析。以下是针对您需求的流程图规格说明：\n\n---\n\n### **RAG流程图需求规格说明**\n\n#### **1. 流程起点**\n- **用户输入**：自然语言形式的问题（例如：“如何申请信用卡？”）。\n\n#### **2. 检索阶段**\n- **向量相似度检索**：\n  - **输入**：用户问题经过文本向量化处理（如使用BERT、Sentence-BERT等模型生成向量）。\n  - **检索**：调用向量数据库（如FAISS、Pinecone等）的API，基于向量相似度（如余弦相似度）检索与问题最相关的Top-K文档或知识片段。\n  - **输出**：返回相关性排序后的文档列表（例如：Top-5文档及其相关性分数）。\n\n#### **3. 增强阶段**\n- **相关性评估与加权融合**：\n  - **相关性评估**：根据预设的相关性阈值，过滤掉相关性低于阈值的文档（例如：仅保留相关性分数>0.7的文档）。\n  - **加权融合**：\n    - 将用户问题与筛选后的文档内容按相关性分数加权拼接（例如：问题占30%，相关性最高的文档占50%，次高占20%）。\n    - 生成完整的Prompt，供生成模型使用。\n\n#### **4. 生成阶段**\n- **自定义模型调用**：\n  - **输入**：加权融合后的Prompt。\n  - **模型**：调用自定义的生成模型（如基于LLaMA、GPT等微调的模型）。\n  - **输出**：生成自然语言形式的答案（例如：“申请信用卡需要以下步骤：1. 准备身份证明；2. 填写申请表；3. 提交收入证明...”）。\n\n#### **5. 流程终点**\n- **返回结果**：将生成的答案直接返回给用户，无需人工干预。\n\n#### **6. 异常处理（可选补充，虽然您提到没有约束，但为完整性考虑）**\n- **检索无结果**：如果向量相似度检索未返回任何文档，可以回退到预设的FAQ库或通用回复（例如：“未找到相关内容，请尝试其他问题。”）。\n- **生成失败**：如果生成模型未能生成有效答案，可以返回错误提示或默认回复（例如：“系统繁忙，请稍后再试。”）。\n\n---\

In [19]:
await call_agent_async("生成流程图吧",root_runner, USER_ID, SESSION_ID_BASE)

User Query: 生成流程图吧


Unclosed client session
client_session: <aiohttp.client.ClientSession object at 0x0000025328BC34D0>


CancelledError: 

In [5]:
from google import genai

client = genai.Client(api_key="AIzaSyDpdSBqoGodLPlWy_K8ySLvbynlJk7JzWU")

response = client.models.generate_content(
    model="gemini-2.5-flash-preview-05-20", contents="你好，你是谁？"
)
print(response.text)

你好！我是一个大型语言模型，由 Google 训练。
