# 一个完整的业务解决方案

## 现在，我们将把第一天的项目提升到一个新的水平

### 业务挑战：

创建一个产品，为公司制作宣传册，供潜在客户、投资者和潜在员工使用。

我们将获得一个公司名称及其主网站。

请参阅本笔记本末尾的真实世界业务应用示例。


In [1]:
# 导入库
# 如果这些导入失败，请检查您是否在命令提示符中带有 (llms) 的“已激活”环境中运行

import os
import requests
import json
from typing import List
from dotenv import load_dotenv
from bs4 import BeautifulSoup
from IPython.display import Markdown, display, update_display
from openai import OpenAI

In [2]:
# 初始化和常量

load_dotenv(override=True)
api_key = os.getenv('OPENAI_API_KEY')

if api_key and api_key.startswith('sk-proj-') and len(api_key)>10:
    print("API 密钥目前看起来没问题")
else:
    print("您的 API 密钥可能有问题？请查看故障排除笔记本！")
    
MODEL = 'gpt-4o-mini'
openai = OpenAI()

API 密钥目前看起来没问题


In [3]:
# 一个表示网页的类

# 抓取某些网站时需要使用正确的请求头：
headers = {
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}

class Website:
    """
    一个工具类，用于表示我们抓取的网站，现在包含链接
    """

    def __init__(self, url):
        self.url = url
        response = requests.get(url, headers=headers)
        self.body = response.content
        soup = BeautifulSoup(self.body, 'html.parser')
        self.title = soup.title.string if soup.title else "未找到标题"
        if soup.body:
            for irrelevant in soup.body(["script", "style", "img", "input"]):
                irrelevant.decompose()
            self.text = soup.body.get_text(separator="\n", strip=True)
        else:
            self.text = ""
        links = [link.get('href') for link in soup.find_all('a')]
        self.links = [link for link in links if link]

    def get_contents(self):
        return f"网页标题：\n{self.title}\n网页内容：\n{self.text}\n\n"

In [4]:
ed = Website("https://iloveaws.cn")
ed.links

['https://www.iloveaws.cn',
 'https://www.iloveaws.cn/all-courses',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/01-%e5%bc%80%e5%a7%8b%e8%af%be%e7%a8%8b',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/02-%e8%ba%ab%e4%bb%bd%e4%b8%8e%e8%81%94%e5%90%88%e8%ba%ab%e4%bb%bd%e9%aa%8c%e8%af%81',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/03-%e8%ae%a1%e7%ae%97%e4%b8%8e%e8%b4%9f%e8%bd%bd%e5%9d%87%e8%a1%a1',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/04-%e5%ad%98%e5%82%a8',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/05-%e6%95%b0%e6%8d%ae%e5%ba%93',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/06-%e7%bc%93%e5%ad%98',
 'https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/07-vpc',
 'https://

## 第一步：让 GPT-4o-mini 找出哪些链接是相关的

### 调用 gpt-4o-mini 来读取网页上的链接，并以结构化的 JSON 格式响应。
它应该判断哪些链接是相关的，并将相对链接（如“/about”）替换为“https://company.com/about”。
我们将使用“单样本提示”（one shot prompting），即在提示中提供一个它应该如何响应的示例。

这是一个 LLM 的绝佳用例，因为它需要细致的理解。想象一下，如果没有 LLM，试图通过解析和分析网页来编写代码——这将非常困难！

旁注：有一种更高级的技术叫做“结构化输出”，我们要求模型根据规范进行响应。我们将在第 8 周的自主 Agentic AI 项目中介绍这项技术。

In [5]:
link_system_prompt = "您将收到一个在网页上找到的链接列表。\
您需要判断哪些链接最适合包含在公司宣传册中， \
例如指向“关于我们”页面、公司页面或“职业/工作”页面的链接。\n"
link_system_prompt += "您应该像此示例一样以 JSON 格式响应："
link_system_prompt += """
{
    "links": [
        {"type": "about page", "url": "https://full.url/goes/here/about"},
        {"type": "careers page": "url": "https://another.full.url/careers"}
    ]
}
"""

In [9]:
print(link_system_prompt)

您将收到一个在网页上找到的链接列表。您需要判断哪些链接最适合包含在公司宣传册中， 例如指向“关于我们”页面、公司页面或“职业/工作”页面的链接。
您应该像此示例一样以 JSON 格式响应：
{
    "links": [
        {"type": "about page", "url": "https://full.url/goes/here/about"},
        {"type": "careers page": "url": "https://another.full.url/careers"}
    ]
}



In [10]:
def get_links_user_prompt(website):
    user_prompt = f"这是网站 {website.url} 上的链接列表 - "
    user_prompt += "请判断哪些是与公司宣传册相关的网页链接，并以 JSON 格式返回完整的 https URL。\
不要包含服务条款、隐私政策、电子邮件链接。\n"
    user_prompt += "链接（其中一些可能是相对链接）：\n"
    user_prompt += "\n".join(website.links)
    return user_prompt

In [11]:
print(get_links_user_prompt(ed))

这是网站 https://iloveaws.cn 上的链接列表 - 请判断哪些是与公司宣传册相关的网页链接，并以 JSON 格式返回完整的 https URL。不要包含服务条款、隐私政策、电子邮件链接。
链接（其中一些可能是相对链接）：
https://www.iloveaws.cn
https://www.iloveaws.cn/all-courses
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/01-%e5%bc%80%e5%a7%8b%e8%af%be%e7%a8%8b
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/02-%e8%ba%ab%e4%bb%bd%e4%b8%8e%e8%81%94%e5%90%88%e8%ba%ab%e4%bb%bd%e9%aa%8c%e8%af%81
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/03-%e8%ae%a1%e7%ae%97%e4%b8%8e%e8%b4%9f%e8%bd%bd%e5%9d%87%e8%a1%a1
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/04-%e5%ad%98%e5%82%a8
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/05-%e6%95%b0%e6%8d%ae%e5%ba%93
https://www.iloveaws.cn/category/%e9%80%9a%e8%bf%87aws-sap%e8%ae%a4%e8%af%81/06-%e7%bc%93%e5%ad%98
https://www.ilo

In [12]:
def get_links(url):
    website = Website(url)
    response = openai.chat.completions.create(
        model=MODEL,
        messages=[
            {"role": "system", "content": link_system_prompt},
            {"role": "user", "content": get_links_user_prompt(website)}
      ],
        response_format={"type": "json_object"}
    )
    result = response.choices[0].message.content
    return json.loads(result)

In [13]:
# Anthropic 的网站变得更难抓取，所以我改用 https://www.volcengine.com..

huggingface = Website("https://www.volcengine.com")
huggingface.links

['//www.volcengine.com',
 'https://www.volcengine.com/docs',
 'https://www.volcengine.com/beian',
 'https://console.volcengine.com',
 '//console.volcengine.com/auth/login?redirectURI=%2F%2Fwww.volcengine.com',
 '//console.volcengine.com/auth/signup?redirectURI=%2F%2Fwww.volcengine.com',
 'https://www.volcengine.com/event/force-2506',
 'https://www.volcengine.com/live/event/force-2506',
 'https://exp.volcengine.com',
 'https://exp.volcengine.com',
 'https://exp.volcengine.com',
 '/activity/new',
 '/activity/new',
 'https://console.volcengine.com/ark/region:ark+cn-beijing/model?vendor=Bytedance&view=LIST_VIEW',
 'https://exp.volcengine.com/ark?model=doubao-seed-1-6-250615',
 'https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision',
 'https://exp.volcengine.com/ark?model=doubao-1-5-thinking-vision-pro-250428',
 'https://console.volcengine.com/ark/region:ark+cn-beijing/experience/voice?type=RealTime',
 'https://console.volcengine.com/ark/region:ark+cn-beijing/experience

In [14]:
get_links("https://www.volcengine.com")

{'links': [{'type': 'company page', 'url': 'https://www.volcengine.com'},
  {'type': 'about page', 'url': 'https://www.volcengine.com/docs'},
  {'type': 'careers page', 'url': 'https://developer.volcengine.com/'},
  {'type': 'partner page', 'url': 'https://partner.volcengine.com/'},
  {'type': 'contact page',
   'url': 'https://www.volcengine.com/contact/doubao?t=豆包大模型'}]}

## 第二步：制作宣传册！

将所有细节整合到另一个发送给 GPT-4o 的提示中

In [None]:
def get_all_details(url):
    result = "着陆页：\n"
    result += Website(url).get_contents()
    links = get_links(url)
    print("找到的链接：", links)
    for link in links["links"]:
        result += f"\n\n{link['type']}\n"
        result += Website(link["url"]).get_contents()
    return result

In [None]:
print(get_all_details("https://www.volcengine.com"))

In [None]:
system_prompt = "你是一个助手，负责分析公司网站上几个相关页面的内容，\
并为潜在客户、投资者和应聘者创建一份关于公司的简短宣传册。请以 markdown 格式回应。\
如果信息可用，请包含公司文化、客户和职业/工作等细节。"

# 或者取消下面几行的注释以获得更幽默的宣传册 - 这展示了融入“语气”是多么容易：

#system_prompt = "你是一个助手，负责分析公司网站上几个相关页面的内容，\
#并为潜在客户、投资者和应聘者创建一份关于公司的简短、幽默、有趣的宣传册。请以 markdown 格式回应。\
#如果信息可用，请包含公司文化、客户和职业/工作等细节。"

In [None]:
def get_brochure_user_prompt(company_name, url):
    user_prompt = f"你正在查看的公司是：{company_name}\n"
    user_prompt += f"这是其着陆页和其他相关页面的内容；请使用这些信息以 markdown 格式为该公司制作一份简短的宣传册。\n"
    user_prompt += get_all_details(url)
    user_prompt = user_prompt[:5_000] # 如果超过 5000 个字符则截断
    return user_prompt

In [None]:
get_brochure_user_prompt("豆包大模型", "https://www.volcengine.com")

In [None]:
def create_brochure(company_name, url):
    response = openai.chat.completions.create(
        model=MODEL,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": get_brochure_user_prompt(company_name, url)}
          ],
    )
    result = response.choices[0].message.content
    display(Markdown(result))

In [None]:
create_brochure("豆包大模型", "https://www.volcengine.com")

## 最后 - 一个小改进

通过一个小小的调整，我们可以让结果从 OpenAI 以流式传输回来，
并带有熟悉的打字机动画效果

In [None]:
def stream_brochure(company_name, url):
    stream = openai.chat.completions.create(
        model=MODEL,
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": get_brochure_user_prompt(company_name, url)}
          ],
        stream=True
    )
    
    response = ""
    display_handle = display(Markdown(""), display_id=True)
    for chunk in stream:
        response += chunk.choices[0].delta.content or ''
        response = response.replace("```","").replace("markdown", "")
        update_display(Markdown(response), display_id=display_handle.display_id)

In [None]:
stream_brochure("豆包大模型", "https://www.volcengine.com")

In [None]:
# 尝试在为 豆包大模型 制作宣传册时，将系统提示更改为幽默版本：

stream_brochure("豆包大模型", "https://www.volcengine.com")

<table style="margin: 0; text-align: left;">
    <tr>
        <td style="width: 150px; height: 150px; vertical-align: middle;">
            <img src="../business.jpg" width="150" height="150" style="display: block;" />
        </td>
        <td>
            <h2 style="color:#181;">业务应用</h2>
            <span style="color:#181;">在本练习中，我们扩展了第一天的代码，以进行多次 LLM 调用并生成文档。

这可能是 Agentic AI 设计模式的第一个例子，因为我们组合了对 LLM 的多次调用。这将在第 2 周更多地出现，然后我们将在第 8 周构建完全自主的 Agent 解决方案时，再次大规模地回归 Agentic AI。

以这种方式生成内容是最常见的用例之一。与摘要一样，这可以应用于任何业务垂直领域。撰写营销内容，根据规范生成产品教程，创建个性化电子邮件内容等等。探索如何将内容生成应用于您的业务，并尝试为自己制作一个概念验证原型。</span>
        </td>
    </tr>
</table>