In [1]:
conda env list

# conda environments:
#
TimeGPT                  D:\Python\envs\TimeGPT
baichuan                 D:\Python\envs\baichuan
py2                      D:\Python\envs\py2
py310                    D:\Python\envs\py310
so-vits-svc              D:\Python\envs\so-vits-svc
torch                 *  D:\Python\envs\torch
root                     D:\Python


Note: you may need to restart the kernel to use updated packages.


# 背景介绍
本次活动参赛选手以大模型为中心制作一个问答系统，回答用户的汽车相关问题。参赛选手需要根据问题，在文档中定位相关信息的位置，并根据文档内容通过大模型生成相应的答案。涉及的问题主要围绕汽车使用、维修、保养等方面。

问题1：怎么打开危险警告灯？
答案1：危险警告灯开关在方向盘下方，按下开关即可打开危险警告灯。

问题2：车辆如何保养？
答案2：为了保持车辆处于最佳状态，建议您定期关注车辆状态，包括定期保养、洗车、内部清洁、外部清洁、轮胎的保养、低压蓄电池的保养等。

问题3：靠背太热怎么办？
答案3：您好，如果您的座椅靠背太热，可以尝试关闭座椅加热功能。在多媒体显示屏上依次点击空调开启按键→座椅→加热，在该界面下可以关闭座椅加热。

任务地址： https://coggle.club/blog/30days-of-ml-202401

# 任务1：初识RAG
- 任务说明：了解到现有大模型的缺陷和RAG的优点和流程
- 任务要求：
    - 了解大模型现有的缺点
    - 理解RAG的流程和实现步骤
    - 清楚RAG的需要的技术
- 打卡要求：阅读LangChain与RAG的文章和LangChain的官方文档，列举LangChain能实现的功能。

> 大模型的局限性

大模型现存问题     |      大模型语言的局限性

问题1.1                模型幻觉问题

问题1.2                时效性问题

问题1.3                数据安全问题

> RAG和SFT的对比

![image.png](attachment:image.png)

# 【✅内容完整】任务2：ChatGPT/GLM API使用

- 任务说明：了解ChatGPT/GLM API使用方法和逻辑
- 任务要求：
    - 能使用API进行对话
    - 能使用API进行文本嵌入
    - 能使用API进行function call
- 打卡要求：使用ChatGPT/GLM API分别完成对话、嵌入和function call，对比两个API的速度和完成效果。

In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
api_key = os.getenv("ZHIPUAI_API_KEY")

api_key


'acf4f9247da5e232fbe056b14b35fd9b.uWW0WvWqwWUYjhzQ'

## 2.1 chatGLM 调用

In [2]:

import time
import jwt
import requests

# 鉴权
def generate_token(apikey: str, exp_seconds: int):
    try:
        id, secret = apikey.split(".")
    except Exception as e:
        raise Exception("invalid apikey", e)

    payload = {
        "api_key": id,
        "exp": int(round(time.time() * 1000)) + exp_seconds * 1000,
        "timestamp": int(round(time.time() * 1000)),
    }

    return jwt.encode(
        payload,
        secret,
        algorithm="HS256",
        headers={"alg": "HS256", "sign_type": "SIGN"},
    )
            

url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
headers = {
  'Content-Type': 'application/json',
  'Authorization': generate_token(api_key, 1000)
}

data = {
    "model": "glm-3-turbo",
    "messages": [{"role": "user", "content": """你好"""}]
}

response = requests.post(url, headers=headers, json=data)

print("Status Code", response.status_code)
print("JSON Response ", response.json())

Status Code 200
JSON Response  {'choices': [{'finish_reason': 'stop', 'index': 0, 'message': {'content': '你好👋！我是人工智能助手智谱清言（ChatGLM），很高兴见到你，欢迎问我任何问题。', 'role': 'assistant'}}], 'created': 1717720370, 'id': '8726260290078686048', 'model': 'glm-3-turbo', 'request_id': '8726260290078686048', 'usage': {'completion_tokens': 30, 'prompt_tokens': 6, 'total_tokens': 36}}


## 2.2 chatGLM embedding

In [3]:
url = "https://open.bigmodel.cn/api/paas/v4/embeddings"
    
    
headers = {
  'Content-Type': 'application/json',
  'Authorization': generate_token(api_key, 1000)
}

data = {
  "model": "embedding-2",
  "input": "测试文本，今天很开心。"
}

response = requests.post(url, headers=headers, json=data)

print("Status Code", response.status_code)
print("JSON Response ", response.json())

Status Code 200
JSON Response  {'data': [{'embedding': [-0.013835697, 0.050954152, -0.016063735, -0.023181366, 0.010977901, -0.008424259, -0.041766364, -0.017280843, 0.0052943598, 0.06776837, 0.028277794, 0.0072972127, 0.012077494, 0.0526254, -0.04144142, -0.010772325, 0.01116619, 0.010397863, 0.044309095, -0.043672863, 0.025935285, 0.03629188, 0.003932388, -0.022119235, -0.0015485083, -0.055648625, -0.031008061, -0.019807167, 0.014237415, -0.032744803, -0.008259112, -0.01648684, 0.003036481, 0.01926033, -0.004390685, -0.0049477173, -0.013957062, 0.027064638, -0.04921111, -0.018320847, 0.030484457, -0.03427086, 0.015841391, -0.039438188, 0.064536035, -0.0017872016, 0.056649268, 0.0566655, -0.011526211, -0.008781068, 0.032953124, 0.027952807, 0.0037815017, 0.01993278, -0.0030228575, -0.019435877, -0.019275606, 0.012551262, -0.000667525, 0.028361192, 0.013508539, 0.01735705, 0.011349885, 0.0005106468, 0.009151309, -0.0026133808, -0.03834604, -0.009163394, -0.03669703, 0.004636448, 0.0108

## 2.3 chatGLM function call

In [5]:
url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
headers = {
  'Content-Type': 'application/json',
  'Authorization': generate_token(api_key, 1000)
}

data = {
    "model": "glm-3-turbo",
    "messages": [{"role": "user", "content": """你能帮我查询2024年4月9日从北京南站到上海的火车票吗？"""}],
    "tools":  [
        {
            "type": "function",
            "function": {
                "name": "query_train_info",
                "description": "根据用户提供的信息，查询对应的车次",
                "parameters": {
                    "type": "object",
                    "properties": {
                        "departure": {
                            "type": "string",
                            "description": "出发城市或车站",
                        },
                        "destination": {
                            "type": "string",
                            "description": "目的地城市或车站",
                        },
                        "date": {
                            "type": "string",
                            "description": "要查询的车次日期",
                        },
                    },
                    "required": ["departure", "destination", "date"],
                },
            }
        }
    ],
}

response = requests.post(url, headers=headers, json=data)

print("Status Code", response.status_code)
print("JSON Response ", response.json())

Status Code 200
JSON Response  {'choices': [{'finish_reason': 'stop', 'index': 0, 'message': {'content': '很抱歉，作为一个AI，我无法直接访问实时的火车票预订系统来查询特定日期的火车票情况。但是，我可以提供一些一般性的指导和建议。\n\n要查询2024年4月9日从北京南站到上海虹桥站（假设这是您要前往的终点站）的火车票情况，您可以采取以下步骤：\n\n1. **使用12306官方网站**：中国铁路客户服务中心官方网站（12306.cn）是购买火车票的主要平台。您可以在网站上注册账户，然后登录进行票务查询和预订。\n\n2. **使用火车票预订APP**：您可以下载并使用“12306”手机应用程序，它提供了与网站相同的服务，便于您随时随地进行票务操作。\n\n3. **电话订票**：您还可以通过拨打12306的客服电话进行票务查询和预订。\n\n4. **火车站售票窗口**：如果条件允许，您也可以前往北京南站或上海的火车站售票窗口购买或咨询。\n\n通常，火车票的预售期为15天，但是火车票的具体售卖时间可能会根据实际情况有所调整。因此，建议您在火车票开售前关注12306官方发布的具体预售时间通知，并尽早进行预订，尤其是在春运期间或节假日等高峰期出行时。\n\n由于您提到的日期不在春运期间，通常来说票源会比较充足，但是否能买到票也受到您选择的车型（如高速动车组G字头、城际动车组C字头等）、座位类型（如二等座、一等座、商务座等）以及购票时间的制约。\n\n最后，我建议您在购票前密切关注12306官方网站或相关通知，以获取最新的票务信息和购票指南。', 'role': 'assistant'}}], 'created': 1717722663, 'id': '8726255410995624863', 'model': 'glm-3-turbo', 'request_id': '8726255410995624863', 'usage': {'completion_tokens': 382, 'prompt_tokens': 237, 'total_tokens': 619}}


# 3. 读取汽车问答知识
- 任务说明：理解数据集背景和读取数据集
- 任务要求：
    - 下载数据集文件
    - 使用工具解析PDF内容
- 打卡要求：使用代码解析PDF文档内容，并能解析PDF内容

In [6]:
import json
import pdfplumber

# 问题
questions = json.load(open('./dataset/questions.json', encoding='utf-8'))
print(questions[0])

# 数据集
pdf = pdfplumber.open('./dataset/初赛训练数据集.pdf')
print(len(pdf.pages))  # 页数
pdf.pages[0].extract_text()  # 初赛训练数据集.pdf


{'question': '“前排座椅通风”的相关内容在第几页？', 'answer': '', 'reference': ''}
354


'欢迎\n感谢您选择了具有优良安全性、舒适性、动力性和经济性的Lynk&Co领克汽车。\n首次使用前请仔细、完整地阅读本手册内容，将有助于您更好地了解和使用车辆。\n本手册中的所有资料均为出版时的最新资料，但本公司将对产品进行不断的改进和优化，您所购的车辆可能与本手册中的描述有所不同，请以实际\n接收的车辆为准。\n如您有任何问题，或需要预约服务，请拨打电话4006-010101联系我们。您也可以开车前往Lynk&Co领克中心。\n在抵达之前，请您注意驾车安全。\n©领克汽车销售有限公司'

> 读取所有页内容

In [7]:
# 构造页数和内容词典
pdf_content = []
for page_idx in range(len(pdf.pages)):
    pdf_content.append({
        'page': 'page_' + str(page_idx + 1),
        'content': pdf.pages[page_idx].extract_text()
    })

# 任务4：文本索引与答案检索
- 任务说明：文本文本索引的实现逻辑
- 任务要求：
    - 理解倒排索引
    - 实现TFIDF和BM25的编码与检索
- 打卡要求：使用TFIDF和BM25进行检索，使用question检索到答案的reference页面位置页面位置

> 文本检索流程索流程。


文本检索是一个多步骤的过程，其核心是构建倒排索引以实现高效的文本检索：

- 步骤1（文本预处理）：在文本预处理阶段，对原始文本进行清理和规范化，包括去除停用词、标点符号等噪声，并将文本统一转为小写。接着，采用词干化或词形还原等技术，将单词转换为基本形式，以减少词汇的多样性，为后续建立索引做准备。
  
* 步骤2（文本索引）：构建倒排索引是文本检索的关键步骤。通过对文档集合进行分词，得到每个文档的词项列表，并为每个词项构建倒排列表，记录包含该词项的文档及其位置信息。这种结构使得在查询时能够快速找到包含查询词的文档，为后续的文本检索奠定了基础。
+ 步骤3（文本检索）：接下来是查询处理阶段，用户查询经过预处理后，与建立的倒排索引进行匹配。计算查询中每个词项的权重，并利用检索算法（如TFIDF或BM25）对文档进行排序，将相关性较高的文档排在前面。
  
在实际应用中，倒排索引的构建和维护需要考虑性能问题，采用一些优化技术来提高检索效率，如压缩倒排索引、分布式索引等。这些步骤共同构成了一个有序而逻辑完整的文本检索流程。

> 文本检索与语义检索

![image.png](attachment:a13252c4-6923-4741-b18e-19c616b130cf.png)|检索效果

![image.png](attachment:a9920283-3790-4334-b373-dcba2f5ef873.png)


In [17]:
import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import normalize

# 对提问和pdf内容进行分词
question_words = [' '.join(jieba.lcut(x['question'])) for x in questions]
pdf_content_words = [' '.join(jieba.lcut(x['content'])) for x in pdf_content]

tfidf = TfidfVectorizer()
tfidf.fit(question_words + pdf_content_words)

# 提取TFIDF
question_feat = tfidf.transform(question_words)
pdf_content_feat = tfidf.transform(pdf_content_words)

# 归一化
# 进行归一化
question_feat = normalize(question_feat)
pdf_content_feat = normalize(pdf_content_feat)



Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\HOUHAI~1\AppData\Local\Temp\jieba.cache
Loading model cost 0.512 seconds.
Prefix dict has been built successfully.


In [8]:

# 对检索进行排序
for query_idx, feat in enumerate(question_feat):
    score = feat @ pdf_content_feat.T  # 矩阵乘法，计算每个question和所有内容的相似度，选择最相似作为结果
    score = score.toarray()[0]
    # argsort()函数的作用是将数组按照从小到大的顺序排序，并按照对应的索引值输出。
    # 找出score最大的索引，page_idx从1开始，这里需要+1
    max_score_page_idx = score.argsort()[-1] + 1
    questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx)


# 生成提交结果
# https://competition.coggle.club/
with open('submit_tfidf.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)

NameError: name 'question_feat' is not defined

> BM25

![image.png](attachment:57bc3c15-cf0a-49a6-afa5-b993dfe78a93.png)

In [9]:
!pip install rank_bm25

from rank_bm25 import BM25Okapi

pdf_content_words = [jieba.lcut(x['content']) for x in pdf_content]
bm25 = BM25Okapi(pdf_content_words)

for query_idx in range(len(questions)):
    doc_scores = bm25.get_scores(jieba.lcut(questions[query_idx]["question"]))
    max_score_page_idx = doc_scores.argsort()[-1] + 1
    questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx)

with open('submit_bm25.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)



NameError: name 'jieba' is not defined

# 任务5：文本嵌入与向量检索检索结果

- 任务说明：对文本进行编码，并进行语义检索
- 任务要求：
    - 加载文本编码模型
    - 对提问和文档进行编码，并进行检索
- 打卡要求：加载三个编码模型，计算检索结果

> 语义检索流程

![image.png](attachment:d1f3b0b0-f6fd-47a8-b19e-d1fd6cb15350.png)

> 文本编码模型

- M3E文本编码模型

In [None]:
# pip install sentence_transformers

from sentence_transformers import SentenceTransformer
model = SentenceTransformer('D:/code/models/M3E/xrunda/m3e-base')

question_sentences = [x['question'] for x in questions]
pdf_content_sentences = [x['content'] for x in pdf_content]

print(len(question_sentences), question_sentences[0].shape)
print(len(pdf_content_sentences), pdf_content_sentences[0].shape)

question_embeddings = model.encode(question_sentences, normalize_embeddings=True)
pdf_embeddings = model.encode(pdf_content_sentences, normalize_embeddings=True)

print(question_embeddings.shape)
print(pdf_embeddings.shape)

for query_idx, feat in enumerate(question_embeddings):
    score = feat @ pdf_embeddings.T
    max_score_page_idx = score.argsort()[-1] + 1
    questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx)

with open('submit_m3e.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)

> 文本切分方法

文本的长度是另一个关键因素，影响了文本编码的结果。短文本和长文本在编码成向量时可能表达不同的语义信息。即使两者包含相同的单词或有相似的语义，由于上下文的不同，得到的向量也会有所不同。因此，当在语义检索中使用短文本来检索长文本时，或者反之，可能导致一定的误差。针对文本长度的差异，有些系统采用截断或填充等方式处理，以保持一致的向量表示。

更多阅读资料：

- https://chunkviz.up.railway.app/
- https://python.langchain.com/docs/modules/data_connection/document_transformers/.app/

![image.png](attachment:657c7c40-3f32-4e92-90e6-ebe612a020a0.png)

# 任务6：文本多路召回与重排序

- 任务说明：实现多种文本编码和检索逻辑，并进行重排序
- 任务要求：
    - 结合文本索引和向量检索结果
    - 加载重排序模型，对检索进行重排序
- 打卡要求：完成多路召回与重排序，与任务5 多路召回逻辑路召回逻辑

> 多路召回逻辑

多路召回逻辑是在文本检索中常用的一种策略，其目的是通过多个召回路径（或方法）综合获取候选文档，以提高检索的全面性和准确性。单一的召回方法可能由于模型特性或数据特点而存在局限性，多路召回逻辑引入了多个召回路径，每个路径采用不同的召回方法。

- 实现方法1：将BM25的检索结果 和 语义检索结果 按照排名进行加权
- 实现方法2：按照段落、句子、页不同的角度进行语义编码进行检索，综合得到检索结果

> 重排序逻辑(BM25 +BGE Rerank)

重排序逻辑是文本检索领域中一种重要的策略，主要用于优化原有文本检索方法返回的候选文档顺序，以提高最终的检索效果。在传统的文本检索方法中，往往采用打分的逻辑，如计算BERT嵌入向量之间的相似度。而重排序逻辑引入了更为复杂的文本交叉方法，通过特征交叉得到更进一步的打分，从而提高排序的准确性

![image.png](attachment:01122828-ec98-4ea9-a241-32e4ae3cbc41.png)

- 重排序逻辑常常使用更为强大的模型，如交叉编码器（cross-encoder）模型。这类模型能够更好地理解文本之间的交叉关系，捕捉更复杂的语义信息。- 
首先通过传统的嵌入模型获取初始的Top-k文档，然后使用重排序逻辑对这些文档进行重新排序。这样可以在保留初步筛选文档的基础上，更精确地排列它们的顺序

In [18]:
import jieba, json, pdfplumber
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import normalize
from rank_bm25 import BM25Okapi

In [22]:
questions = json.load(open('./dataset/questions.json', encoding='utf-8'))

In [23]:
questions[:10]

[{'question': '“前排座椅通风”的相关内容在第几页？', 'answer': '', 'reference': ''},
 {'question': '"关于车辆的儿童安全座椅固定装置，在哪一页可以找到相关内容？"',
  'answer': '',
  'reference': ''},
 {'question': '“打开前机舱盖”的相关信息在第几页？', 'answer': '', 'reference': ''},
 {'question': '“打开前机舱盖”这个操作在哪一页？', 'answer': '', 'reference': ''},
 {'question': '“查看行车记录仪视频”这一项内容在第几页？', 'answer': '', 'reference': ''},
 {'question': '请问Lynk&Co领克汽车的事件数据记录系统（EDR）主要记录哪些信息？',
  'answer': '',
  'reference': ''},
 {'question': '问题：事件数据记录系统（EDR）中的数据是否可以被黑客利用进行恶意攻击？',
  'answer': '',
  'reference': ''},
 {'question': '问题：在国家环保法要求下，哪些情况下需要对车辆进行报废处理？', 'answer': '', 'reference': ''},
 {'question': '请问，如果车辆报废后，原车主是否还能使用该车辆的智能互联服务？',
  'answer': '',
  'reference': ''},
 {'question': '如何确保用车前的准备工作万无一失？', 'answer': '', 'reference': ''}]

In [25]:
pdf = pdfplumber.open('./dataset/初赛训练数据集.pdf')
pdf_content = []
for page_idx in range(len(pdf.pages)):
    pdf_content.append({
        'page': 'page_' + str(page_idx),
        'content': pdf.pages[page_idx].extract_text()
    })

In [26]:
pdf_content[0]

{'page': 'page_0',
 'content': '欢迎\n感谢您选择了具有优良安全性、舒适性、动力性和经济性的Lynk&Co领克汽车。\n首次使用前请仔细、完整地阅读本手册内容，将有助于您更好地了解和使用车辆。\n本手册中的所有资料均为出版时的最新资料，但本公司将对产品进行不断的改进和优化，您所购的车辆可能与本手册中的描述有所不同，请以实际\n接收的车辆为准。\n如您有任何问题，或需要预约服务，请拨打电话4006-010101联系我们。您也可以开车前往Lynk&Co领克中心。\n在抵达之前，请您注意驾车安全。\n©领克汽车销售有限公司'}

In [27]:
# 加载重排序模型
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('bge-reranker-base')
rerank_model = AutoModelForSequenceClassification.from_pretrained('')
rerank_model.cuda()

pdf_content_words = [jieba.lcut(x['content']) for x in pdf_content]
bm25 = BM25Okapi(pdf_content_words)

for query_idx in range(len(questions)):
    # 首先进行BM25检索
    doc_scores = bm25.get_scores(jieba.lcut(questions[query_idx]['question']))
    max_score_page_idxs = doc_socres.argsort()[-3:]

    #top3重排序
    pairs = []
    for idx in max_score_page_idxs:
        pairs.append([questions[query_idx]['question'], pdf_content[idx]['content']])

    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    with torch.no_grad():
        inputs = {key: inputs[key].cuda() for key in inputs.keys()}
        scores = rerank_model(**inputs, return_dict=True).logits.view(-1, ).float()

    max_score_page_idx = max_score_page_idxs[scores.cpu().numpy().argmax()]
    questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx + 1)

    with open('submit_rerank.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)

IndentationError: expected an indented block after 'with' statement on line 30 (291693248.py, line 31)

# 任务7：文本问答Prompt优化

- 任务说明：将检索结果结合问题构造promot，完成问答
- 任务要求：
    - 构造prompt
    - 调用API进行问答
- 打卡要求：完成RAG完整流程，并提交结果进行打分进行打分

In [38]:

import time
import jwt
import requests

# 鉴权
def generate_token(apikey: str, exp_seconds: int):
    try:
        id, secret = apikey.split(".")
    except Exception as e:
        raise Exception("invalid apikey", e)

    payload = {
        "api_key": id,
        "exp": int(round(time.time() * 1000)) + exp_seconds * 1000,
        "timestamp": int(round(time.time() * 1000)),
    }

    return jwt.encode(
        payload,
        secret,
        algorithm="HS256",
        headers={"alg": "HS256", "sign_type": "SIGN"},
    )
            
def ask_glm(content):
    url = "https://open.bigmodel.cn/api/paas/v4/chat/completions"
    headers = {
      'Content-Type': 'application/json',
      'Authorization': generate_token(api_key, 1000)
    }
    
    data = {
        "model": "glm-3-turbo",
        "messages": [{"role": "user", "content": content}]
    }
    
    response = requests.post(url, headers=headers, json=data)

    return response.json()

pdf_content_words = [jieba.lcut(x['content']) for x in pdf_content]
bm25 = BM25Okapi(pdf_content_words)

for query_idx in range(len(questions)):
    # 首先bm25找top3
    doc_scores = bm25.get_scores(jieba.lcut(questions[query_idx]["question"]))
    max_score_page_idxs = doc_scores.argsort()[-3:]

    #其次rerank重排序，找到最相似
    pairs = []
    for idx in max_score_page_idxs:
        pairs.append([questions[query_idx]["question"], pdf_content[idx]['content']])

    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    with torch.no_grad():
        inputs = {key: inputs[key].cuda() for key in inputs.keys()}
        scores = rerank_model(**inputs, return_dict=True).logits.view(-1, ).float()
    max_score_page_idx = max_score_page_idxs[scores.cpu().numpy().argmax()]
    questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx + 1)

    # 设计prompt结合大模型
    prompt = '''你是一个汽车专家，帮我结合给定的资料，回答一个问题。如果问题无法从资料中获得，请输出结合给定的资料，无法回答问题。
资料：{0}

问题：{1}
    '''.format(
        pdf_content[max_score_page_idx]['content'],
        questions[query_idx]["question"]
    )
    answer = ask_glm(prompt)['choices'][0]['message']['content']
    questions[query_idx]['answer'] = answer

    print(questions[query_idx])
    break

NameError: name 'tokenizer' is not defined

# 任务8：问题意图识别(进阶)
- 任务说明：使用文本相似度和prompt进行意图识别
- 任务要求：
    - 计算提问与现有文档的相似度
    - 构造prompt完成意图识别
- 打卡要求：完成RAG完整流程，并提交结果进行打分进行打分

![image.png](attachment:9cc64b44-35be-4b44-916d-e3c7a88dc8e5.png)

通过这种方式，意图识别允许系统更加灵活地适应用户的多样化需求。它允许系统在不同的上下文中识别用户意图，从而提供更准确、定制的回答。这种方法的优势在于通过使用专门的模型来处理特定领域的问题，可以提高系统的准确性和用户体验

> 文本相似度进行判断

- 步骤1：提取用户提问的嵌入向量
- 步骤2：提取文档所有的嵌入向量
- 步骤3：判断提问向量与文档向量的最低相似度，结合相似度大小进行判断

> prompt意图识别

你是一个汽车维修和汽车销售的专家，请判断下面的提问是否与汽车使用相关。

{用户提问}

输出：相关 / 不相关

In [42]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('D:/code/models/M3E/xrunda/m3e-base')

# step1：prompt意图识别，判断提问是否和汽车相关
for query_idx in range(len(questions)):
    question = questions[query_idx]['question']

    prompt = '''请判断下面的提问是否与汽车使用相关。

用户提问：{0}

输出：相关 / 不相关
    '''.format(question)

    answer = ask_glm(prompt)['choices'][0]['message']['content']

    if answer == '相关':
        # step2：RAG流程
        ### 语义相似识别
        pdf_content_sentences = [x['content'] for x in pdf_content]
        
        question_embeddings = model.encode(question, normalize_embeddings=True)
        pdf_embeddings = model.encode(pdf_content_sentences, normalize_embeddings=True)
        
        score = question_embeddings @ pdf_embeddings.T
        max_score_page_idx = score.argsort()[-1] + 1
        questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx)

        prompt = '''你是一个汽车专家，帮我结合给定的资料，回答一个问题。如果问题无法从资料中获得，请输出结合给定的资料，无法回答问题。
        资料：{0}
        
        问题：{1}
            '''.format(
                pdf_content[max_score_page_idx]['content'],
                questions[query_idx]["question"]
            )
        answer = ask_glm(prompt)['choices'][0]['message']['content']
        questions[query_idx]['answer'] = answer
    else:  # step3: 问题和汽车不相关，直接走LLM
        prompt = '''你是一个汽车专家，根据以下问题进行简短回答，要求输出不超过50字。
        问题：{0}
            '''.format(
                questions[query_idx]["question"]
            )
        answer = ask_glm(prompt)['choices'][0]['message']['content']
        questions[query_idx]['answer'] = answer

    print(questions)
    break

with open('submit_task8.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)

[{'question': '“前排座椅通风”的相关内容在第几页？', 'answer': '根据给定资料，关于“前排座椅通风”的相关内容在第4页。', 'reference': 'page_116'}, {'question': '"关于车辆的儿童安全座椅固定装置，在哪一页可以找到相关内容？"', 'answer': '', 'reference': ''}, {'question': '“打开前机舱盖”的相关信息在第几页？', 'answer': '', 'reference': ''}, {'question': '“打开前机舱盖”这个操作在哪一页？', 'answer': '', 'reference': ''}, {'question': '“查看行车记录仪视频”这一项内容在第几页？', 'answer': '', 'reference': ''}, {'question': '请问Lynk&Co领克汽车的事件数据记录系统（EDR）主要记录哪些信息？', 'answer': '', 'reference': ''}, {'question': '问题：事件数据记录系统（EDR）中的数据是否可以被黑客利用进行恶意攻击？', 'answer': '', 'reference': ''}, {'question': '问题：在国家环保法要求下，哪些情况下需要对车辆进行报废处理？', 'answer': '', 'reference': ''}, {'question': '请问，如果车辆报废后，原车主是否还能使用该车辆的智能互联服务？', 'answer': '', 'reference': ''}, {'question': '如何确保用车前的准备工作万无一失？', 'answer': '', 'reference': ''}, {'question': '装载货物时，车内有哪些储物空间可以利用？', 'answer': '', 'reference': ''}, {'question': '请问车辆手套箱的容量大小是多少？', 'answer': '', 'reference': ''}, {'question': '如何合理安排前排的储物空间以提高实用性？', 'answer': '', 'reference': ''}, {'question': '请问

# 任务9：问答关键词提取(进阶)

- 任务说明：对用户的提问提取关键词
- 任务要求：
    - 计算提问与现有文档的相似度
    - 构造prompt完成意图识别
- 打卡要求：完成RAG完整流程，并提交结果进行打分进行打分

文本关键词抽取是自然语言处理领域的一项重要任务，其目标是从给定的文本中提取出最具代表性和有意义的单词或短语。这些关键词通常反映了文本的主题、内容或重要信息。常见的步骤包括分词、词性标注、停用词移除、计算词语权重以及关键词抽取算法等过程。

> 方法1：TF-IDF

1. 分词（Tokenization）： 将文本拆分为单词或短语。这一步骤将文本转换为基本的语言单元，为后续的处理做准。

2. 移除通用词（Stopword Removal）： 剔除常见的停用词，如"and"、"the"、"is"等，这些词在文本中普遍出现但往往没有实际的信息价值。这样做可以减少噪音，使关键词更集中在文本的内容性汇上。

3. 计算逆文档频率（IDF）： 对于每个单词，计算其逆文档频率。逆文档频率是一个衡量单词重要性的指标，它通过对整个文本集合中包含该词的文档数取数来计算。

4. 计算TF-IDF得分： 对于每个单词，计算其TF-IDF得分，即词频（TF）与逆文档频率（IDF）的乘积。TF表示单词在当前文中的出现频率。

5. 排序和选取关键词： 根据计算得到的TF-IDF得分对单词进行排序，选择排名前几的单词作为关键词。排名越高的单词表示在当前文档中具有更高的重要性。有更高的重要性。

> 方法2：KeyBERT模型

![image.png](attachment:5775d5c5-ec9f-4782-81ed-9d2b012f9888.png)![image.png](attachment:b3c5bf68-b8ea-4b99-9c17-f9bb861ecf7c.png)

1. Embedding文本： 首先，KEYBERT使用预训练的BERT模型，例如distilbert-base-nli-mean-tokens，将输入的文本嵌入到一个高维的向量空间中。BERT模型能够学习丰富的语义表示，因此生成的向量能够捕捉文本的语义信息。

2. 计算余弦相似度： 然后，KEYBERT计算文档中每个候选关键词或关键短语与整个文档之间的余弦相似度。余弦相似度是一种衡量两个向量之间夹角的度量，它在这里用于度量嵌入向量之间的相似性。

3. 排序关键词： 最后，根据计算得到的余弦相似度值，KEYBERT将关键词或关键短语排序，从而形成最终的关键词列表。余弦相似度越高，表示关键词与文档的语义相似度越大，因此在排序中位置越靠前。越靠前。

> 方法3：Prompt关键词提取

你是一个专业的文本理解专家，现在请你识别下面内容中的关键词，将关键词使用空格隔开：

{输入文本}