## 任务1：读取汽车问答数据

In [19]:
import json
import pdfplumber

questions = json.load(open("../data/Coggle比赛数据/汽车知识问答/questions.json",encoding='utf-8'))
print(questions[0])

pdf = pdfplumber.open("../data/Coggle比赛数据/汽车知识问答/初赛训练数据集.pdf")
pdf.pages[0].extract_text() # 可复制的PDF
pdf.pages[0]

{'question': '“前排座椅通风”的相关内容在第几页？', 'answer': '', 'reference': ''}


<Page:1>

In [20]:
# 将pdf内容存放在列表里
pdf_content=[]

# 将page页数和内容放在一个字典里
for page_idx in range(len(pdf.pages)):
    pdf_content.append({
        'page':'page_'+str(page_idx+1),
        'content':pdf.pages[page_idx].extract_text()
    })
pdf_content[0]


{'page': 'page_1',
 'content': '欢迎\n感谢您选择了具有优良安全性、舒适性、动力性和经济性的Lynk&Co领克汽车。\n首次使用前请仔细、完整地阅读本手册内容，将有助于您更好地了解和使用车辆。\n本手册中的所有资料均为出版时的最新资料，但本公司将对产品进行不断的改进和优化，您所购的车辆可能与本手册中的描述有所不同，请以实际\n接收的车辆为准。\n如您有任何问题，或需要预约服务，请拨打电话4006-010101联系我们。您也可以开车前往Lynk&Co领克中心。\n在抵达之前，请您注意驾车安全。\n©领克汽车销售有限公司'}

In [21]:
questions[:10]

[{'question': '“前排座椅通风”的相关内容在第几页？', 'answer': '', 'reference': ''},
 {'question': '"关于车辆的儿童安全座椅固定装置，在哪一页可以找到相关内容？"',
  'answer': '',
  'reference': ''},
 {'question': '“打开前机舱盖”的相关信息在第几页？', 'answer': '', 'reference': ''},
 {'question': '“打开前机舱盖”这个操作在哪一页？', 'answer': '', 'reference': ''},
 {'question': '“查看行车记录仪视频”这一项内容在第几页？', 'answer': '', 'reference': ''},
 {'question': '请问Lynk&Co领克汽车的事件数据记录系统（EDR）主要记录哪些信息？',
  'answer': '',
  'reference': ''},
 {'question': '问题：事件数据记录系统（EDR）中的数据是否可以被黑客利用进行恶意攻击？',
  'answer': '',
  'reference': ''},
 {'question': '问题：在国家环保法要求下，哪些情况下需要对车辆进行报废处理？', 'answer': '', 'reference': ''},
 {'question': '请问，如果车辆报废后，原车主是否还能使用该车辆的智能互联服务？',
  'answer': '',
  'reference': ''},
 {'question': '如何确保用车前的准备工作万无一失？', 'answer': '', 'reference': ''}]

## 任务2：文本索引与答案检索
## TFIDF

In [22]:
import jieba
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import normalize

In [23]:
# 对文本进行分词
question_words=[f''.join(jieba.lcut(x['question'])) for x in questions]
pdf_content_words=[''.join(jieba.lcut(x['content'])) for x in pdf_content]

In [24]:
# TFIDF倒排序
tfidf=TfidfVectorizer()
tfidf.fit(question_words+pdf_content_words)

question_feat = tfidf.transform(question_words) # 转换成矩阵
pdf_content_feat=tfidf.transform(pdf_content_words) # 转换成矩阵

# 归一化，方便后面相似度的一个打分,得到一个归一化的矩阵
question_feat=normalize(question_feat)
pdf_content_feat=normalize(pdf_content_feat)

In [25]:
# 通过TFIDF进行检索
for quer_idx,feat in enumerate(question_feat):

    # 对每个提问与每页PDF进行打分
    score = feat @ pdf_content_feat.T
    score = score.toarray()[0]

    max_score_page_idx = score.argsort()[::-1][0]+1
    questions[quer_idx]["reference"] = 'page_'+str(max_score_page_idx)

In [26]:
# 保存检索完成的数据集
with open('../data/Coggle比赛数据/汽车知识问答/submit_tfidf.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)

## BM25

In [27]:
from rank_bm25 import BM25Okapi

pdf_content_words = [jieba.lcut(x['content']) for x in pdf_content]
bm25 = BM25Okapi(pdf_content_words)

In [28]:
for query_idx in range(len(questions)):
    doc_scores = bm25.get_scores(jieba.lcut(questions[query_idx]["question"]))
    max_score_page_idx = doc_scores.argsort()[-1] + 1
    questions[query_idx]['reference'] = 'page_' + str(max_score_page_idx)

In [29]:
with open('../data/Coggle比赛数据/汽车知识问答/submit_bm25.json', 'w', encoding='utf8') as up:
    json.dump(questions, up, ensure_ascii=False, indent=4)