# <center>使用SerperAPI做实时联网检索

&emsp;&emsp;基于大模型的问答系统做联网实时检索是一个比较先进的应用场景。在这种场景中，系统不仅利用预先训练的知识，还能实时访问互联网或特定的数据库来检索信息，以回答用户的问题。这种方式可以极大地扩展问答系统的应用范围和准确性。

&emsp;&emsp;一般来说，这种实时检索问答系统包括以下几个关键组件：

1. **用户查询解析**：解析用户的问题，理解其意图和关键信息。
2. **实时检索**：根据解析得到的关键词或查询意图，系统会实时从互联网或指定的数据库中检索相关信息。
3. **信息整合与回答生成**：将检索到的信息与大模型的预训练知识结合，生成准确且信息丰富的答案。

&emsp;&emsp;这种系统通常需要强大的后端支持，包括网络数据的实时访问、数据处理和安全措施，以及高效的信息检索和自然语言处理算法。而**要做联网检索问答的链路，需要借助一个可供实时搜索的外部API。**

&emsp;&emsp;这里我们推荐Serper，该服务是一个高性能的 Google 搜索 API，提供快速且成本效益高的方式访问 Google 搜索结果。在目前的应用落地产品中广泛被用于增强聊天机器人、进行搜索引擎优化（SEO）分析和简化金融科技项目等多种场景。该API具备：
- 执行实时搜索
- 自定义查询位置
- 快速访问 Google 的搜索引擎结果——通常在1-2秒内

&emsp;&emsp;以上特性使其特别适用于需要立即检索最新网络数据的应用。

# 1. 注册Serper账户

&emsp;&emsp;SerperAPI官方地址：https://serper.dev/ 。进入后先进行注册：

<div align=center><img src="https://muyu001.oss-cn-beijing.aliyuncs.com/img/image-20240704095802473.png" width=80%></div>

&emsp;&emsp;登入账户后，在如下位置获取有效的API Key：

<div align=center><img src="https://muyu001.oss-cn-beijing.aliyuncs.com/img/image-20240704095955954.png" width=80%></div>

&emsp;&emsp;新用户注册会免费赠送2500条免费请求，即可通过该API Key 查询2500次 Google Search 服务。

<div align=center><img src="https://muyu001.oss-cn-beijing.aliyuncs.com/img/image-20240704095925517.png" width=80%></div>

&emsp;&emsp;获取到API Key后，我们可以使用 Python 的 requests 库来调用 Serper API 进行连通性测试，如下是示例代码：

In [1]:
 ! pip install requests

Looking in indexes: http://mirrors.aliyun.com/pypi/simple


In [1]:
# requests 库用于发起网络请求
import requests
import json

params = {
    'api_key': 'xxxx',  # 验证请求的 API 密钥, 请替换成自己的
    'q': '2024赛季NBA的总冠军是哪支球队？',    # 查询参数，表示要搜索的问题。
    'num': 3          # 这个参数指定了返回结果的数量，这里设置为3，意味着 API 将返回三个相关的搜索结果。         
}


# 使用 requests.get() 方法发起一个 GET 请求到 Serper API 的 endpoint。这个请求包含了上述设置的参数。
api_result = requests.get('https://google.serper.dev/search', params)

search_data = api_result.json()

print(search_data)

{'searchParameters': {'q': '2024赛季NBA的总冠军是哪支球队？', 'type': 'search', 'num': 3, 'engine': 'google'}, 'answerBox': {'title': '2023–24 NBA season / Champion', 'answer': 'Boston Celtics'}, 'knowledgeGraph': {'title': '2023–24 NBA season (2023–24 NBA赛季)', 'imageUrl': 'https://encrypted-tbn0.gstatic.com/images?q=tbn:ANd9GcSw9rjb_2TbaCDxztDgrnL8hUnOETN7q68qE8v9ZT029-vRHdbbd7m-nOs&s=0', 'description': 'The 2023–24 NBA season was the 78th season of the National Basketball Association. The regular season began on October 24, 2023, and ended on April 14, 2024.', 'descriptionSource': 'Wikipedia', 'descriptionLink': 'https://en.wikipedia.org/wiki/2023%E2%80%9324_NBA_season', 'attributes': {'Start date': 'October 24, 2023', 'Champion': 'Boston Celtics', 'Location': 'United States and Canada', 'Eastern runners-up': 'Indiana Pacers', 'Finals MVP': 'Jaylen Brown (Boston)', 'League': 'National Basketball Association', 'Number of games': '82'}}, 'organic': [{'title': '2024年NBA总决赛- 维基百科，自由的百科全书', 'link': '

&emsp;&emsp;如果能够正常接收到Serper API 返回的数据，则说明调用成功，可以继续进行接下来的代码实践。

&emsp;&emsp;这里我们可以借助pprint 格式化输出。pprint 是 Python 的一个库，它的全称是 "Pretty Printer"。这个库提供了一个函数 pprint()，可以将 Python 对象以一种格式化和易于阅读的方式打印出来。使用 pprint 打印数据结构，尤其是在处理嵌套结构或包含多个字段的大型数据时，可以极大地提高可读性。

In [2]:
# 导入pprint函数
from pprint import pprint  

# 设置缩进为2，宽度为100字符
pprint(search_data, indent=2, width=100)  

{ 'answerBox': {'answer': 'Boston Celtics', 'title': '2023–24 NBA season / Champion'},
  'credits': 1,
  'knowledgeGraph': { 'attributes': { 'Champion': 'Boston Celtics',
                                      'Eastern runners-up': 'Indiana Pacers',
                                      'Finals MVP': 'Jaylen Brown (Boston)',
                                      'League': 'National Basketball Association',
                                      'Location': 'United States and Canada',
                                      'Number of games': '82',
                                      'Start date': 'October 24, 2023'},
                      'description': 'The 2023–24 NBA season was the 78th season of the National '
                                     'Basketball Association. The regular season began on October '
                                     '24, 2023, and ended on April 14, 2024.',
                      'descriptionLink': 'https://en.wikipedia.org/wiki/2023%E2%80%9324_NBA_season'

&emsp;&emsp;我们要从上述返回的JSON 数据中提取 "organic" 键对应的值，其内容代表了搜索引擎返回的自然（非广告）搜索结果。

In [3]:
items = search_data.get("organic", [])

In [4]:
items

[{'title': '2024年NBA总决赛- 维基百科，自由的百科全书',
  'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E7%B8%BD%E6%B1%BA%E8%B3%BD',
  'snippet': '2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...',
  'position': 1},
 {'title': '2024年NBA季后赛- 维基百科',
  'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD',
  'snippet': '赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).',
  'position': 2},
 {'title': '2024年NBA总冠军是哪支球队? - 搜狐',
  'link': 'https://www.sohu.com/a/745482265_121124692',
  'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...',
  'date': 'Dec 20, 2023',
  'position': 3}]

&emsp;&emsp;接下来，我们需要进行进一步处理，增加两个新的属性：一个是用于唯一标识每个搜索结果的 UUID，另一个是初始化搜索结果的得分。其中：
1. 使用 hashlib.md5() 生成基于搜索结果链接的 MD5 哈希值。这里，对每个结果的 link 字段进行编码并哈希处理，用于生成一个唯一的标识符（UUID）。MD5 哈希用于确保每个搜索结果都有一个独一无二的标识码。
2. 给每个搜索结果添加一个 "score" 键，并初始化其值为 0.00。这个得分用于后续的评分算法，目的是在进入RAG过程前做进一步的筛选。

In [5]:
import hashlib

def md5(data: str):
    _md5 = hashlib.md5()
    _md5.update(data.encode("utf-8"))
    _hash = _md5.hexdigest()

    return _hash

In [6]:
results = []

for item in items:
    # 为每个搜索结果生成 UUID（MD5 哈希）
    item["uuid"] = hashlib.md5(item["link"].encode()).hexdigest()
    # 初始化搜索结果的得分
    item["score"] = 0.00
    results.append(item)

In [7]:
results

[{'title': '2024年NBA总决赛- 维基百科，自由的百科全书',
  'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E7%B8%BD%E6%B1%BA%E8%B3%BD',
  'snippet': '2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...',
  'position': 1,
  'uuid': '07ec36227ed79525b4c7d82434e8a3e6',
  'score': 0.0},
 {'title': '2024年NBA季后赛- 维基百科',
  'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD',
  'snippet': '赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).',
  'position': 2,
  'uuid': '6b138b6ae7861f7cdc5ed6f98e42f9ba',
  'score': 0.0},
 {'title': '2024年NBA总冠军是哪支球队? - 搜狐',
  'link': 'https://www.sohu.com/a/745482265_121124692',
  'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...',
  'date': 'Dec 20, 2023',
  'position': 3,
  'uuid': 'a7f003569458780cec0816a8cbd330ec',
  'score': 0.0}]

&emsp;&emsp;进一步转换成 Document 对象，并存储在一个列表中，包含了一个文档的内容及其元数据。

In [8]:
import langchain
from langchain.docstore.document import Document


documents = []

for result in results:
    
    if "uuid" in result:
        uuid = result["uuid"]
    else:
        uuid = md5(result["link"])
    
    text = result["snippet"]
    
    document = Document(
        page_content=text,
        metadata={
            "uuid": uuid,
            "title": result["title"],
            "snippet": result["snippet"],
            "link": result["link"],
        },
    )

    documents.append(document)

In [9]:
documents

[Document(metadata={'uuid': '07ec36227ed79525b4c7d82434e8a3e6', 'title': '2024年NBA总决赛- 维基百科，自由的百科全书', 'snippet': '2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...', 'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E7%B8%BD%E6%B1%BA%E8%B3%BD'}, page_content='2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...'),
 Document(metadata={'uuid': '6b138b6ae7861f7cdc5ed6f98e42f9ba', 'title': '2024年NBA季后赛- 维基百科', 'snippet': '赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).', 'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD'}, page_content='赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).'),
 Document(metadata={'uuid': 'a7f003569458780cec0816a8cbd330ec', 'title': '2024年NBA总冠军是哪支球队? - 搜狐', 'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...', 'link': 'https://www.sohu.com/a/74

&emsp;&emsp;在信息检索和问答系统中，用户期待快速且准确的回答。所以我们在拿到检索到的网页后，要先进一步预筛选。具体来说：
1. 计算相似度：我们需要通过某种相似度计算方法，去衡量检索到的网页和用户实际提出的query是不是相关的。
2. 排序：根据计算得到的相似度分数，对所有文档进行排序，得分最高的文档被认为与查询最相关。
3. 选择：选取得分最高的一定数量的文档进行深入处理。具体数量可以根据系统需求和性能考虑进行调整。

&emsp;&emsp;这一步，一个比较直接的方法是用 NormalizedLevenshtein 来计算每个文档内容（page_content）与用户查询的相似度。这个值反映了每个文档与查询的匹配程度。

> strsim：https://pypi.org/project/strsim/

In [13]:
 ! pip install strsimpy

Looking in indexes: http://mirrors.aliyun.com/pypi/simple
Collecting strsimpy
  Downloading http://mirrors.aliyun.com/pypi/packages/fc/90/bd55a4b18f4b75a76e32f444975d2c869d692eb23897d116d47122f88d1a/strsimpy-0.2.1-py3-none-any.whl (45 kB)
[K     |████████████████████████████████| 45 kB 1.3 MB/s eta 0:00:01
[?25hInstalling collected packages: strsimpy
Successfully installed strsimpy-0.2.1


&emsp;&emsp;对于每个检索到的网页，使用 normalizedLevenshtein.similarity() 方法计算query与网页摘要 (x.page_content) 的相似度。

In [10]:
from strsimpy.normalized_levenshtein import NormalizedLevenshtein

normal = NormalizedLevenshtein()

for x in documents:
    #对于每个文档，使用 normalizedLevenshtein.similarity() 方法计算查询与文档内容 (x.page_content) 的相似度。
    x.metadata["score"] = normal.similarity("这几天，保罗乔治加盟了哪一支NBA球队？", x.page_content)
documents.sort(key=lambda x: x.metadata["score"], reverse=True)

In [15]:
documents

[Document(metadata={'uuid': 'a7f003569458780cec0816a8cbd330ec', 'title': '2024年NBA总冠军是哪支球队? - 搜狐', 'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...', 'link': 'https://www.sohu.com/a/745482265_121124692', 'score': 0.04878048780487809}, page_content='2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...'),
 Document(metadata={'uuid': '6b138b6ae7861f7cdc5ed6f98e42f9ba', 'title': '2024年NBA季后赛- 维基百科', 'snippet': '赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).', 'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD', 'score': 0.033333333333333326}, page_content='赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).'),
 Document(metadata={'uuid': '07ec36227ed79525b4c7d82434e8a3e6', 'title': '2024年NBA总决赛- 维基百科，自由的百科全书', 'snippet': '2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...', 'link': 'https://zh.wikipedia.

&emsp;&emsp;标准化后的距离值（Score）介于 0（完全不相似）和 1（完全相同）之间。

In [11]:
documents_docs = documents[:3]

In [12]:
documents_docs

[Document(metadata={'uuid': 'a7f003569458780cec0816a8cbd330ec', 'title': '2024年NBA总冠军是哪支球队? - 搜狐', 'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...', 'link': 'https://www.sohu.com/a/745482265_121124692', 'score': 0.04878048780487809}, page_content='2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...'),
 Document(metadata={'uuid': '6b138b6ae7861f7cdc5ed6f98e42f9ba', 'title': '2024年NBA季后赛- 维基百科', 'snippet': '赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).', 'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD', 'score': 0.033333333333333326}, page_content='赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).'),
 Document(metadata={'uuid': '07ec36227ed79525b4c7d82434e8a3e6', 'title': '2024年NBA总决赛- 维基百科，自由的百科全书', 'snippet': '2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...', 'link': 'https://zh.wikipedia.

In [18]:
documents_docs.sort(key=lambda x: x.metadata["score"], reverse=True)

In [13]:
documents_docs

[Document(metadata={'uuid': 'a7f003569458780cec0816a8cbd330ec', 'title': '2024年NBA总冠军是哪支球队? - 搜狐', 'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...', 'link': 'https://www.sohu.com/a/745482265_121124692', 'score': 0.04878048780487809}, page_content='2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...'),
 Document(metadata={'uuid': '6b138b6ae7861f7cdc5ed6f98e42f9ba', 'title': '2024年NBA季后赛- 维基百科', 'snippet': '赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).', 'link': 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD', 'score': 0.033333333333333326}, page_content='赛季, 2023–24 ; 冠军, 波士顿凯尔特人 (18次总冠军) ; 失利球队, 达拉斯独行侠队 (2次进入决赛).'),
 Document(metadata={'uuid': '07ec36227ed79525b4c7d82434e8a3e6', 'title': '2024年NBA总决赛- 维基百科，自由的百科全书', 'snippet': '2024年NBA总决赛（英语：2024 NBA Finals）是2023–24 NBA赛季的冠军系列赛，将由2024年6月6日至6月17日进行，由东部第一种子波士顿凯尔特人对战西部第五种子达拉斯独行侠， ...', 'link': 'https://zh.wikipedia.

&emsp;&emsp;然后，我们可以根据 score 的分数决定要对Top N 篇文档进行提取页面主体信息-切分chunks-存入向量数据-检索与query最相关的chunks等一系列后续数据处理工作。那么首先要做的就是：提取URL列表，用于获取页面内容。

In [20]:
 ! pip install html2text

Looking in indexes: http://mirrors.aliyun.com/pypi/simple
Collecting html2text
  Downloading http://mirrors.aliyun.com/pypi/packages/1a/43/e1d53588561e533212117750ee79ad0ba02a41f52a08c1df3396bd466c05/html2text-2024.2.26.tar.gz (56 kB)
[K     |████████████████████████████████| 56 kB 5.0 MB/s eta 0:00:011
[?25hBuilding wheels for collected packages: html2text
  Building wheel for html2text (setup.py) ... [?25ldone
[?25h  Created wheel for html2text: filename=html2text-2024.2.26-py3-none-any.whl size=33082 sha256=a425670c3cb3fc808cfd4d53594ac41abff64250f31a640611c26be53038cfe3
  Stored in directory: /root/.cache/pip/wheels/2b/1f/cd/70be944dac0faada16aceb7e45a7f9d983baf78189d45905de
Successfully built html2text
Installing collected packages: html2text
Successfully installed html2text-2024.2.26


&emsp;&emsp;第一步，我们需要提取出每个网页信息的metadata字典里的link键对应的值。

In [14]:
url_list = [document.metadata['link'] for document in documents_docs if 'link' in document.metadata]

url_list

['https://www.sohu.com/a/745482265_121124692',
 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E5%AD%A3%E5%BE%8C%E8%B3%BD',
 'https://zh.wikipedia.org/zh-hans/2024%E5%B9%B4NBA%E7%B8%BD%E6%B1%BA%E8%B3%BD']

&emsp;&emsp;第二步，遍历url_list列表中的每一个URL，使用requests.get(url)函数向每个URL发送HTTP GET请求。

In [15]:
## 学术资源加速
import subprocess
import os

result = subprocess.run('bash -c "source /etc/network_turbo && env | grep proxy"', shell=True, capture_output=True, text=True)
output = result.stdout
for line in output.splitlines():
    if '=' in line:
        var, value = line.split('=', 1)
        os.environ[var] = value

In [16]:
html_reponse = []
for url in url_list:
    html = requests.get(url)
    reponse = html.text     # 获取响应的内容，即网页的HTML代码
    html_reponse.append(reponse)

&emsp;&emsp;最终，html_reponse列表包含了从每个访问的链接返回的HTML响应。

In [17]:
html_reponse[0]

'<!DOCTYPE html>\n    <html data-log-pv=\'{"mpc":17}\'>\n    <head>\n        <title>2024年NBA总冠军是哪支球队?_防守_进攻_赛季</title>\n        <meta http-equiv="Cache-Control" content="no-transform" />\n<meta http-equiv="Cache-Control" content="no-siteapp" />\n<meta name="copyright" content="Copyright © 2017 Sohu.com Inc. All Rights Reserved." />\n<meta name="mediaid" content="法海说体育"/>\n<meta property="og:type" content="news"/>\n<meta property="og:image" content="//p9.itc.cn/q_70/images03/20231220/be796abfc59d48959f8bc07792f1a924.jpeg"/>\n<meta property="og:url" content="www.sohu.com/a/745482265_121124692"/>\n<meta property="og:release_date" content="2023-12-20 08:31"/>\n<meta itemprop="dateUpdate" content="2023-12-20 08:31" />\n<meta itemprop="datePublished" content="2023-12-20 08:31" />\n<link rel="canonical" href="https://www.sohu.com/a/745482265_121124692"/>\n<link rel="alternate" media="only screen and(max-width: 640px)" href="m.sohu.com/a/745482265_121124692"/>\n\n<meta name="keywords" content=

&emsp;&emsp;第三步，将HTML响应转换成Markdown格式，并对最终的Markdown文本进行一些额外的格式化处理

In [18]:
from html2text import HTML2Text
import re

markdown_reponse = []

for html in html_reponse:
    converter = HTML2Text()
    converter.ignore_links = True    # 忽略HTML中的链接
    converter.ignore_images = True   # 忽略HTML中的图像
    markdown = converter.handle(html)   # 将HTML转换为Markdown格式
    
    # 将Markdown文本中连续的三个或更多换行符替换为两个换行符。这个步骤是为了美化文本，保持格式的整洁和一致性，避免过多的空白行。
    markdown = re.sub(r'\n{3,}', '\n\n', markdown)
    
    markdown_reponse.append(markdown)

In [19]:
markdown_reponse

['  *   * 新闻\n  * 体育\n  * 汽车\n  * 房产\n  * 旅游\n  * 教育\n  * 时尚\n  * 科技\n  * 财经\n  * 娱乐\n  * 更多 __\n\n母婴 健康 历史 军事 美食 文化 星座 专题 游戏 搞笑 动漫 宠物\n\n无障碍 关怀版\n\n####  法海说体育\n\n由内容质量、互动评论、分享传播等多维度分值决定，勋章级别越高(  )，代表其在平台内的综合表现越好。\n\n    __文章\n    __总阅读\n\n查看TA的文章>\n\n评论\n\n     __\n\n#  2024年NBA总冠军是哪支球队?\n\n2023-12-20 08:31\n\n发布于：山西省\n\n**关于篮球的一切 关注才是热爱**\n\n纸面实力是纸面实力，最终能否夺冠，还有很多因素。\n\n2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。\n\n**掘金：板凳薄弱**\n\n卫冕冠军掘金的首发依然是联盟顶级，赛季至今，掘金的先发组合百回合净胜分联盟第三，这其中，还要考虑到穆雷因伤缺阵3场。不过，掘金的板凳席确实不怎么样，休赛期走了布鲁斯-\n布朗、杰夫-格林，如今只能靠布劳恩、沃特森等人撑起。赛季至今，掘金的板凳百回合净胜分联盟第21。\n\n**太阳：巨头尚未齐，控卫悬缺**\n\n休赛期组成三巨头的太阳队，至今三巨头没能合体出战过。布克打了2场又歇了，比尔刚复出打了3场，只能靠35岁的杜兰特一场出战36.7分钟，伤病隐患也会很大。首发有三巨头进攻实力足够，但轮换阵容没有一个控卫，一旦遭遇压迫式防守，进攻就很挣扎，只能看布克回归后能否调整。\n\n**勇士：先发与板凳倒置**\n\n上赛季，勇士的先发是联盟前三，本赛季先发百回合净胜分仅列联盟第19。克莱铁，维金斯进攻端和防守端都很低迷，勇士如今进攻全靠库里抡。赛季至今，除了库里，竟只有萨里奇曾单场得分20+过。勇士的板凳倒是在保罗的带领下打出不错的表现，百回合净胜分联盟第三。\n\n**湖人：三分铁如故，攻防皆下**\n\n原本以为上赛季赛季中期交易后，湖人的三分不再是大问题，没想到，赛季初三分铁成了湖人的BUFF。赛季至今，湖人三分命中率30.4%，联盟倒数第二。

&emsp;&emsp;将两个列表（url_list 和 markdown_response）组合成一个列表，其中每个元素都是包含 URL 和其对应 Markdown 内容的元组，可以使用 Python 的 zip 函数。这样做将“拉链”这两个列表，把对应的元素配对。

In [20]:
combined_list = list(zip(url_list, markdown_reponse))

In [21]:
combined_list

[('https://www.sohu.com/a/745482265_121124692',
  '  *   * 新闻\n  * 体育\n  * 汽车\n  * 房产\n  * 旅游\n  * 教育\n  * 时尚\n  * 科技\n  * 财经\n  * 娱乐\n  * 更多 __\n\n母婴 健康 历史 军事 美食 文化 星座 专题 游戏 搞笑 动漫 宠物\n\n无障碍 关怀版\n\n####  法海说体育\n\n由内容质量、互动评论、分享传播等多维度分值决定，勋章级别越高(  )，代表其在平台内的综合表现越好。\n\n    __文章\n    __总阅读\n\n查看TA的文章>\n\n评论\n\n     __\n\n#  2024年NBA总冠军是哪支球队?\n\n2023-12-20 08:31\n\n发布于：山西省\n\n**关于篮球的一切 关注才是热爱**\n\n纸面实力是纸面实力，最终能否夺冠，还有很多因素。\n\n2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。\n\n**掘金：板凳薄弱**\n\n卫冕冠军掘金的首发依然是联盟顶级，赛季至今，掘金的先发组合百回合净胜分联盟第三，这其中，还要考虑到穆雷因伤缺阵3场。不过，掘金的板凳席确实不怎么样，休赛期走了布鲁斯-\n布朗、杰夫-格林，如今只能靠布劳恩、沃特森等人撑起。赛季至今，掘金的板凳百回合净胜分联盟第21。\n\n**太阳：巨头尚未齐，控卫悬缺**\n\n休赛期组成三巨头的太阳队，至今三巨头没能合体出战过。布克打了2场又歇了，比尔刚复出打了3场，只能靠35岁的杜兰特一场出战36.7分钟，伤病隐患也会很大。首发有三巨头进攻实力足够，但轮换阵容没有一个控卫，一旦遭遇压迫式防守，进攻就很挣扎，只能看布克回归后能否调整。\n\n**勇士：先发与板凳倒置**\n\n上赛季，勇士的先发是联盟前三，本赛季先发百回合净胜分仅列联盟第19。克莱铁，维金斯进攻端和防守端都很低迷，勇士如今进攻全靠库里抡。赛季至今，除了库里，竟只有萨里奇曾单场得分20+过。勇士的板凳倒是在保罗的带领下打出不错的表现，百回合净胜分联盟第三。\n\n**湖人：三分铁如故，攻防皆下**\n\n原本以为上赛季赛季中期交易后，湖人的三分不再是

&emsp;&emsp;构建content_maps字典。这个字典现在包含了键为URL和值为对应Markdown格式化内容的键值对。这样做的好处是可以通过URL快速查找到相应的Markdown内容，提高数据检索的效率，尤其在需要根据URL快速获取或显示内容的应用中非常有用。

In [22]:
content_maps = {}
for url, content in combined_list:
    content_maps[url] = content

In [23]:
content_maps

{'https://www.sohu.com/a/745482265_121124692': '  *   * 新闻\n  * 体育\n  * 汽车\n  * 房产\n  * 旅游\n  * 教育\n  * 时尚\n  * 科技\n  * 财经\n  * 娱乐\n  * 更多 __\n\n母婴 健康 历史 军事 美食 文化 星座 专题 游戏 搞笑 动漫 宠物\n\n无障碍 关怀版\n\n####  法海说体育\n\n由内容质量、互动评论、分享传播等多维度分值决定，勋章级别越高(  )，代表其在平台内的综合表现越好。\n\n    __文章\n    __总阅读\n\n查看TA的文章>\n\n评论\n\n     __\n\n#  2024年NBA总冠军是哪支球队?\n\n2023-12-20 08:31\n\n发布于：山西省\n\n**关于篮球的一切 关注才是热爱**\n\n纸面实力是纸面实力，最终能否夺冠，还有很多因素。\n\n2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。\n\n**掘金：板凳薄弱**\n\n卫冕冠军掘金的首发依然是联盟顶级，赛季至今，掘金的先发组合百回合净胜分联盟第三，这其中，还要考虑到穆雷因伤缺阵3场。不过，掘金的板凳席确实不怎么样，休赛期走了布鲁斯-\n布朗、杰夫-格林，如今只能靠布劳恩、沃特森等人撑起。赛季至今，掘金的板凳百回合净胜分联盟第21。\n\n**太阳：巨头尚未齐，控卫悬缺**\n\n休赛期组成三巨头的太阳队，至今三巨头没能合体出战过。布克打了2场又歇了，比尔刚复出打了3场，只能靠35岁的杜兰特一场出战36.7分钟，伤病隐患也会很大。首发有三巨头进攻实力足够，但轮换阵容没有一个控卫，一旦遭遇压迫式防守，进攻就很挣扎，只能看布克回归后能否调整。\n\n**勇士：先发与板凳倒置**\n\n上赛季，勇士的先发是联盟前三，本赛季先发百回合净胜分仅列联盟第19。克莱铁，维金斯进攻端和防守端都很低迷，勇士如今进攻全靠库里抡。赛季至今，除了库里，竟只有萨里奇曾单场得分20+过。勇士的板凳倒是在保罗的带领下打出不错的表现，百回合净胜分联盟第三。\n\n**湖人：三分铁如故，攻防皆下**\n\n原本以为上赛季赛季中期交易后，湖人的三分不再是大问题

&emsp;&emsp;更新搜索结果，为每个结果添加对应的内容。

In [24]:
# 更新搜索结果，为每个结果添加对应的内容
for result in documents_docs:
    if result.metadata['link'] in content_maps:
        result.metadata['content'] = content_maps[result.metadata['link']]

In [25]:
documents_docs

[Document(metadata={'uuid': 'a7f003569458780cec0816a8cbd330ec', 'title': '2024年NBA总冠军是哪支球队? - 搜狐', 'snippet': '2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。 掘金： ...', 'link': 'https://www.sohu.com/a/745482265_121124692', 'score': 0.04878048780487809, 'content': '  *   * 新闻\n  * 体育\n  * 汽车\n  * 房产\n  * 旅游\n  * 教育\n  * 时尚\n  * 科技\n  * 财经\n  * 娱乐\n  * 更多 __\n\n母婴 健康 历史 军事 美食 文化 星座 专题 游戏 搞笑 动漫 宠物\n\n无障碍 关怀版\n\n####  法海说体育\n\n由内容质量、互动评论、分享传播等多维度分值决定，勋章级别越高(  )，代表其在平台内的综合表现越好。\n\n    __文章\n    __总阅读\n\n查看TA的文章>\n\n评论\n\n     __\n\n#  2024年NBA总冠军是哪支球队?\n\n2023-12-20 08:31\n\n发布于：山西省\n\n**关于篮球的一切 关注才是热爱**\n\n纸面实力是纸面实力，最终能否夺冠，还有很多因素。\n\n2023-24赛季打了差不多一些比赛，东西部以争冠为目标的球队无非就是绿军、雄鹿、76人、热火；掘金、勇士、太阳、湖人、快船，或许还可以加上独行侠。\n\n**掘金：板凳薄弱**\n\n卫冕冠军掘金的首发依然是联盟顶级，赛季至今，掘金的先发组合百回合净胜分联盟第三，这其中，还要考虑到穆雷因伤缺阵3场。不过，掘金的板凳席确实不怎么样，休赛期走了布鲁斯-\n布朗、杰夫-格林，如今只能靠布劳恩、沃特森等人撑起。赛季至今，掘金的板凳百回合净胜分联盟第21。\n\n**太阳：巨头尚未齐，控卫悬缺**\n\n休赛期组成三巨头的太阳队，至今三巨头没能合体出战过。布克打了2场又歇了，比尔刚复出打了3场，只能靠35岁的杜兰特一场出战36.7分钟，伤病隐患也会很大。首发有三巨头进攻

&emsp;&emsp;对于联网检索的预处理工作，至此已经完成。目前，我们已获取了与查询最相关的网页链接，并将这些网页的完整内容转换成了Document格式。这一格式化步骤为接下来的RAG处理流程奠定了基础。

&emsp;&emsp;接下来，我们进入到fufan-chat-api系统中，看一下如何在系统代码架构下异步的接入实时检索流程。