# 你的第一个实验
### 请阅读本节。这对你做好准备非常有价值，即使阅读起来较长，但这些内容很重要。

## 你的第一个 Frontier LLM 项目

让我们在几分钟内构建一个有用的 LLM 解决方案。

在本课程结束时，你将构建一个具有 7 个代理（Agent）的自主智能体 AI 解决方案，这些代理将协同解决一个业务问题。一切都会水到渠成！我们将从更小的东西开始...

我们的目标是编写一种新型的网页浏览器。给它一个 URL，它将返回一个摘要。

开始之前，你应该已经完成了 [PC](../SETUP-PC.md) 或 [Mac](../SETUP-mac.md) 的设置，并且最好是在项目根目录内启动了此 Jupyter Lab，并激活了你的环境。

## 如果你是 Jupyter Lab 新手

欢迎来到数据科学实验的精彩世界！一旦你使用过 Jupyter Lab，你会想知道之前没有它你是怎么工作的。只需单击带有代码的每个“单元格”（例如此文本正下方的单元格），然后按 Shift+Return 执行该单元格。如果你愿意，可以使用工具栏中的 + 按钮添加一个单元格，打印变量的值，或尝试各种变体。  

我写了一个名为 [Guide to Jupyter](Guide%20to%20Jupyter.ipynb) 的笔记本，以帮助你更熟悉 Jupyter Labs，包括添加 Markdown 注释，使用 `!` 运行 shell 命令，以及使用 `tqdm` 显示进度。

In [12]:
# 导入库

import os
import requests
from dotenv import load_dotenv
from bs4 import BeautifulSoup
from IPython.display import Markdown, display
from openai import OpenAI

# 如果运行此单元格时出错，请前往此文件夹中的故障排除笔记本进行查看！

# 连接到 OpenAI

下一个单元格是加载你的 `.env` 文件中的环境变量并连接到 OpenAI 的地方。

## 如果遇到问题请进行故障排除：

前往此文件夹中的 [故障排除](troubleshooting.ipynb) 笔记本，其中包含逐步代码以识别根本原因并进行修复！

如果你进行了更改，尝试通过 Kernel 菜单 >> Restart Kernel and Clear Outputs of All Cells 重启“内核”（此笔记本背后的 Python 进程）。然后从本笔记本顶部开始重新运行单元格。

担心 API 成本吗？请查看 README 中的说明 - 成本应该非常低，而且你可以在每个环节控制。你也可以使用 Ollama 作为免费替代方案，我们会在第 2 天讨论它。

In [13]:
# 从名为 .env 的文件中加载环境变量

load_dotenv(override=True)
api_key = os.getenv('OPENAI_API_KEY')

# 检查 API 密钥

if not api_key:
    print("未找到 API 密钥 - 请前往此文件夹中的故障排除笔记本进行识别和修复！")
elif not api_key.startswith("sk-proj-"):
    print("找到了 API 密钥，但它不是以 sk-proj- 开头；请检查你是否使用了正确的密钥 - 请参阅故障排除笔记本")
elif api_key.strip() != api_key:
    print("找到了 API 密钥，但它看起来开头或结尾可能包含空格或制表符 - 请删除它们 - 请参阅故障排除笔记本")
else:
    print("API 密钥已找到，目前看起来不错！")


API 密钥已找到，目前看起来不错！


In [14]:
openai = OpenAI()

# 如果这不起作用，请尝试 Kernel 菜单 >> Restart Kernel and Clear Outputs Of All Cells，然后从本笔记本顶部开始运行单元格。
# 如果仍然不起作用（天哪！），请参阅此文件夹中的故障排除笔记本以获取完整说明

# 让我们快速调用一下 Frontier 模型作为预览！

In [15]:
# 为了给你一个预览 -- 用这些消息调用 OpenAI 就是如此简单。如有任何问题，请前往故障排除笔记本。

message = "你好，GPT！这是我发给你的第一条消息！你好！"
response = openai.chat.completions.create(model="gpt-4o-mini", messages=[{"role":"user", "content":message}])
print(response.choices[0].message.content)

你好！很高兴收到你的消息！有什么我可以帮助你的吗？


## 好的，继续我们的第一个项目

In [16]:
# 用于表示网页的类

# 一些网站在抓取时需要使用正确的请求头：
headers = {
 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36"
}

class Website:

    def __init__(self, url):
        """
        使用 BeautifulSoup 库从给定的 url 创建此 Website 对象
        """
        self.url = url
        response = requests.get(url, headers=headers)
        soup = BeautifulSoup(response.content, 'html.parser')
        self.title = soup.title.string if soup.title else "未找到标题"
        for irrelevant in soup.body(["script", "style", "img", "input"]):
            irrelevant.decompose()
        self.text = soup.body.get_text(separator="\n", strip=True)

In [8]:
# 让我们试一个。更改网站并添加 print 语句来跟踪。

ed = Website("https://iloveaws.cn")
print(ed.title)
print(ed.text)

顶云AWS爱好者 – AWS中文视频在线课程 – 打造您的云端技能 获取AWS认证 成为AWS专家
首页
全部课程
通过AWS SAP认证（博客）
01-开始课程
02-身份与联合身份验证
03-计算与负载均衡
04-存储
05-数据库
06-缓存
07-VPC
08-安全
09-监控
10-成本控制
11-部署与实例管理
12-其他
AWS知识点
成本优化
灾难恢复
捐助本站
Login
Sign Up
LOGIN
Forgot Password
Remember Me
Sign Up
首页
全部课程
通过AWS SAP认证（博客）
01-开始课程
02-身份与联合身份验证
03-计算与负载均衡
04-存储
05-数据库
06-缓存
07-VPC
08-安全
09-监控
10-成本控制
11-部署与实例管理
12-其他
AWS知识点
成本优化
灾难恢复
捐助本站
为您打造卓越的AWS云端技能，成就非凡的云端梦想，照亮辉煌的云端未来
获取AWS认证，成为AWS专家，掌握云端领域的核心知识和技能
全面：中文在线课程，从基础到高级，掌握AWS核心知识和技能
专业：AWS认证专家和行业布道者讲授，分享实用示例和最佳实践
更新：内容与AWS平台和认证考试同步更新，拥有持续的AWS知识体系
灵活：在线课程随时随地学习，按自己节奏学习，适合初学者和专业人士
捐助开通课程
全部课程
轻松入门AWS云计算2025
私人
818
学习人工智能 |通过 AWS AI 从业者 AIF-C01 考试！
私人
228
AWS解决方案架构师认证助理级(SAA-C03)中文视频培训课程2025
私人
1613
AWS Bedrock实战精通-2小时掌握企业级生成式AI服务
私人
99
AWS解决方案架构师认证 Professional(SAP-C02)中文视频培训课程2025
私人
2794
Terraform - 从初级到高级
私人
900
捐助开通课程
课程常见问题
课程是否完结？是否是最新的内容？
是的！
目前只有AIF- C01课程在持续更新中（持续更新的课程在该课程主页有明确的标注）。
本站课程均是最新内容，最新版本。
认证课程完全贴合现有认证考试内容。如认证考试内容有更新，我们课程也会进行更新。
开通课程后有有效期吗？
永久有效！永久观看！
目前课程开通后均永久有效，您可以观看现有课

## 提示词类型

你可能已经知道这一点 - 但如果不知道，你很快就会非常熟悉它！

像 GPT4o 这样的模型已经被训练成以特定方式接收指令。

它们期望接收：

**一个系统提示（System Prompt）**，告诉模型它正在执行什么任务以及应使用什么语气

**一个用户提示（User Prompt）** -- 实际对话本身

In [17]:
# 定义我们的系统提示 - 你可以在稍后进行实验，将最后一句话更改为 '以英文的 markdown 格式回复。"

system_prompt = "你是一个分析网站内容并提供简短摘要的助手，忽略可能与导航相关的文本。\
请以 markdown 格式回复。"

In [18]:
# 一个用于编写请求网站摘要的用户提示的函数：

def user_prompt_for(website):
    user_prompt = f"你正在查看一个标题为 {website.title} 的网站"
    user_prompt += "\n此网站的内容如下；请以 markdown 格式提供此网站的简短摘要。\
如果网站包含新闻或公告，也请一并进行摘要。\n\n"
    user_prompt += website.text
    return user_prompt

In [19]:
print(user_prompt_for(ed))

你正在查看一个标题为 顶云AWS爱好者 – AWS中文视频在线课程 – 打造您的云端技能 获取AWS认证 成为AWS专家 的网站
此网站的内容如下；请以 markdown 格式提供此网站的简短摘要。如果网站包含新闻或公告，也请一并进行摘要。

首页
全部课程
通过AWS SAP认证（博客）
01-开始课程
02-身份与联合身份验证
03-计算与负载均衡
04-存储
05-数据库
06-缓存
07-VPC
08-安全
09-监控
10-成本控制
11-部署与实例管理
12-其他
AWS知识点
成本优化
灾难恢复
捐助本站
Login
Sign Up
LOGIN
Forgot Password
Remember Me
Sign Up
首页
全部课程
通过AWS SAP认证（博客）
01-开始课程
02-身份与联合身份验证
03-计算与负载均衡
04-存储
05-数据库
06-缓存
07-VPC
08-安全
09-监控
10-成本控制
11-部署与实例管理
12-其他
AWS知识点
成本优化
灾难恢复
捐助本站
为您打造卓越的AWS云端技能，成就非凡的云端梦想，照亮辉煌的云端未来
获取AWS认证，成为AWS专家，掌握云端领域的核心知识和技能
全面：中文在线课程，从基础到高级，掌握AWS核心知识和技能
专业：AWS认证专家和行业布道者讲授，分享实用示例和最佳实践
更新：内容与AWS平台和认证考试同步更新，拥有持续的AWS知识体系
灵活：在线课程随时随地学习，按自己节奏学习，适合初学者和专业人士
捐助开通课程
全部课程
轻松入门AWS云计算2025
私人
818
学习人工智能 |通过 AWS AI 从业者 AIF-C01 考试！
私人
228
AWS解决方案架构师认证助理级(SAA-C03)中文视频培训课程2025
私人
1613
AWS Bedrock实战精通-2小时掌握企业级生成式AI服务
私人
99
AWS解决方案架构师认证 Professional(SAP-C02)中文视频培训课程2025
私人
2794
Terraform - 从初级到高级
私人
900
捐助开通课程
课程常见问题
课程是否完结？是否是最新的内容？
是的！
目前只有AIF- C01课程在持续更新中（持续更新的课程在该课程主页有明确的标注）。
本站课程均是最新内容，最新版本。
认证课程完全贴合现有认证

## 消息

来自 OpenAI 的 API 希望以特定的结构接收消息。
许多其他 API 也共享此结构：

```
[
    {"role": "system", "content": "系统消息在这里"},
    {"role": "user", "content": "用户消息在这里"}
]

为了给你一个预览，接下来的 2 个单元格进行了一个相当简单的调用 - 我们（暂时！）不会挑战强大的 GPT

In [20]:
# 一个简单的消息列表

messages = [
    {"role": "system", "content": "你是一个喜欢挖苦人的助手"},
    {"role": "user", "content": "2 + 2 等于多少？"}
]

In [21]:
# 为了给你一个预览 -- 调用 OpenAI 并使用系统和用户消息：

response = openai.chat.completions.create(model="gpt-4o-mini", messages=messages)
print(response.choices[0].message.content)

哇，你问的这个问题真是让人惊讶。2 + 2 当然是 4，不过我想你可能是想问 "这是怎样的一种数学挑战" 吧？


## 现在让我们使用函数为 GPT-4o-mini 构建有用的消息

In [22]:
# 看看这个函数是如何创建上面那种格式的

def messages_for(website):
    return [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt_for(website)}
    ]

In [23]:
# 试试这个，然后尝试一些其他网站

messages_for(ed)

[{'role': 'system',
  'content': '你是一个分析网站内容并提供简短摘要的助手，忽略可能与导航相关的文本。请以 markdown 格式回复。'},
 {'role': 'user',
  'content': '你正在查看一个标题为 顶云AWS爱好者 – AWS中文视频在线课程 – 打造您的云端技能 获取AWS认证 成为AWS专家 的网站\n此网站的内容如下；请以 markdown 格式提供此网站的简短摘要。如果网站包含新闻或公告，也请一并进行摘要。\n\n首页\n全部课程\n通过AWS SAP认证（博客）\n01-开始课程\n02-身份与联合身份验证\n03-计算与负载均衡\n04-存储\n05-数据库\n06-缓存\n07-VPC\n08-安全\n09-监控\n10-成本控制\n11-部署与实例管理\n12-其他\nAWS知识点\n成本优化\n灾难恢复\n捐助本站\nLogin\nSign Up\nLOGIN\nForgot Password\nRemember Me\nSign Up\n首页\n全部课程\n通过AWS SAP认证（博客）\n01-开始课程\n02-身份与联合身份验证\n03-计算与负载均衡\n04-存储\n05-数据库\n06-缓存\n07-VPC\n08-安全\n09-监控\n10-成本控制\n11-部署与实例管理\n12-其他\nAWS知识点\n成本优化\n灾难恢复\n捐助本站\n为您打造卓越的AWS云端技能，成就非凡的云端梦想，照亮辉煌的云端未来\n获取AWS认证，成为AWS专家，掌握云端领域的核心知识和技能\n全面：中文在线课程，从基础到高级，掌握AWS核心知识和技能\n专业：AWS认证专家和行业布道者讲授，分享实用示例和最佳实践\n更新：内容与AWS平台和认证考试同步更新，拥有持续的AWS知识体系\n灵活：在线课程随时随地学习，按自己节奏学习，适合初学者和专业人士\n捐助开通课程\n全部课程\n轻松入门AWS云计算2025\n私人\n818\n学习人工智能 |通过 AWS AI 从业者 AIF-C01 考试！\n私人\n228\nAWS解决方案架构师认证助理级(SAA-C03)中文视频培训课程2025\n私人\n1613\nAWS Bedrock实战精通-2小时掌握企业级生成式AI服务\n私人\n99\n

## 是时候将它们结合起来了 - OpenAI 的 API 非常简单！

In [24]:
# 现在：调用 OpenAI API。你会非常熟悉这个的！

def summarize(url):
    website = Website(url)
    response = openai.chat.completions.create(
        model = "gpt-4o-mini",
        messages = messages_for(website)
    )
    return response.choices[0].message.content

In [25]:
summarize("https://iloveaws.cn")

'# 顶云AWS爱好者网站摘要\n\n## 概述\n顶云AWS爱好者提供全面的中文在线课程，旨在帮助用户掌握AWS云计算技能，并获得相关认证。课程内容涵盖从基础到高级的AWS核心知识，适合初学者和专业人士。用户通过捐助支持课程的开通，课程内容则会随着AWS的更新而不断升级。\n\n## 课程内容\n- **核心课程**: 包括身份与联合身份验证、计算与负载均衡、存储、数据库、缓存、VPC、安全、监控等主题。\n- **认证备考**: 提供与AWS认证考试相匹配的课程内容，帮助用户为考试做准备。\n- **学习灵活性**: 课程为录播形式，用户可随时随地按照自己的节奏学习。\n\n## 用户评价\n学员纷纷表示课程质量高，内容实用，成功帮助他们通过了AWS认证考试，并提升了在云计算领域的职业能力。\n\n## 捐助信息\n用户可通过微信和支付宝捐助以开通所需课程，捐助后课程永久有效，包含相应的练习题用于考试准备。\n\n## 更新信息\n现有课程会根据AWS平台和认证考试的最新内容进行更新，确保学员学习到最新的知识和技能。\n\n## 联系方式\n学员可通过网站提供的信息获取更多课程相关的问题解答和学习支持。'

In [26]:
# 一个函数用于使用 markdown 在 Jupyter 输出中漂亮地显示摘要

def display_summary(url):
    summary = summarize(url)
    display(Markdown(summary))

In [27]:
display_summary("https://iloveaws.cn")

# 顶云AWS爱好者网站摘要

该网站提供全面的AWS中文在线课程，旨在帮助用户获得AWS认证并提升云计算技能。课程由AWS认证专家授课，内容紧跟AWS平台的最新动态，适用于初学者和专业人士。

## 课程特色
- **内容全面**：涵盖从基础到高级的AWS核心知识与技能。
- **灵活学习**：支持随时随地在线学习，可按个人节奏进行。
- **长效保障**：所有课程永久有效，用户可长期访问更新内容。
- **考试准备**：包括模拟题库，提升认证考试的备考效率。

## 课程示例
- AWS解决方案架构师认证助理级(SAA-C03)
- AWS Bedrock实战精通
- Terraform - 从初级到高级

## 学员评价
学员们普遍表示课程内容干货丰富，帮助他们顺利通过认证考试并提升求职竞争力。

## 捐助与支付
课程通过捐助方式开通，支持多种支付方式，如微信和支付宝。课程价格将随着报名人数逐步上升。

通过此平台，用户能够系统地学习AWS相关技术，为云计算领域打下坚实基础。

# 让我们尝试更多网站

注意，这仅适用于可以使用这种简单方法抓取的网站。

使用 Javascript 渲染的网站（如 React 应用）将无法显示。请参阅 community-contributions 文件夹，其中有 Selenium 的实现可以解决这个问题。你需要查阅如何安装 Selenium（问问 ChatGPT！）。

此外，使用 CloudFront（及类似服务）保护的网站可能会返回 403 错误 

但许多网站会正常工作！

In [28]:
display_summary("http://www.people.com.cn")

# 人民网_网上的人民日报 摘要

人民网是《人民日报》建设的一个大型网络平台，致力于提供各类政治、经济、文化及社会新闻。网站内容涵盖党政新闻、国际动态、军事、经济科技、社会法治、健康生活等多个领域，同时还有评论和分析。

## 最新动态
- **习近平与普京会谈**: 习近平强调中俄合作的重要性，双方就多项合作协议进行签署。
- **食品安全监管**: 相关部门启动食品安全法执法检查，强化监管能力。
- **天气预警**: 中央气象台发布暴雨、大风和强对流天气警报。
- **民营经济促进法**: 该法将于2025年5月施行，被视为重要的法治里程碑。

## 深度分析
- 近年来各地路跑赛事的增长促进了全民健身和科技应用发展。
- 通过科技赋能，推动农业现代化。
- 民营经济促进法回应了对民营经济发展的多方关切。

相关内容还包括全国教育招聘信息、国际对中国新政策的反应、文化旅游新动向等，展示了人民网的综合性与权威性。

In [29]:
display_summary("https://anthropic.com")

# Anthropic Website Summary

Anthropic focuses on developing AI technologies, emphasizing safety and responsible creation. The site features various AI models, including the latest **Claude 3.7 Sonnet**, highlighting its capabilities and applications.

## Key Offerings
- **Claude AI**: A range of AI models designed for diverse applications, including chatbots and coding support.
- **APIs and Developer Tools**: Resources for building AI-powered applications.
- **Learning and Support**: Guides, customer stories, and educational resources through Anthropic Academy.

## Recent Announcements
- **ISO 42001 Certification**: A notable certification underscoring their commitment to safety and standards in AI development.

## Research Focus
- Emphasizes the societal impacts of AI, ongoing research into AI safety, and the responsibility surrounding AI deployment.

---

This summary reflects the site's commitment to safe AI development and its offerings related to Claude AI and educational resources.

In [None]:
# 步骤 1：创建你的提示

system_prompt = "这里写一些内容"
user_prompt = """
    很多文本
    可以在这里粘贴
"""

# 步骤 2：创建消息列表

messages = [] # 在这里填写

# 步骤 3：调用 OpenAI

response =

# 步骤 4：打印结果

print(

## 对于喜欢网页抓取的人的额外练习

你可能会注意到，如果你尝试 `display_summary("https://openai.com")` - 它不起作用！那是因为 OpenAI 有一个使用 Javascript 的高级网站。有很多方法可以绕过这个问题，其中一些你可能已经熟悉。例如，Selenium 是一个非常流行的框架，它在后台运行浏览器，渲染页面，并允许你查询它。如果你有 Selenium、Playwright 或类似工具的经验，请随时改进 Website 类来使用它们。