### 3.1 QA

&emsp;&emsp;QA是问答的意思，Q表示Question，A表示Answer，QA是NLP非常基础和常用的任务。简单来说，就是当用户提出一个问题时，我们能从已有的问题库中找到一个最相似的，并把它的答案返回给用户。这里有两个关键点：

1. 事先需要有一个QA库。
2. 用户提问时，系统要能够在QA库中找到一个最相似的。

&emsp;&emsp;ChatGPT（或生成方式）做这类任务相对有点麻烦，尤其是当：

- QA库非常庞大时
- 给用户的答案是固定的，不允许自由发挥时

&emsp;&emsp;生成方式做起来是事倍功半。但是Embedding确实天然的非常适合，因为该任务的核心就是在一堆文本中找出给定文本最相似的。简单来说，其实就是个相似度计算问题。

&emsp;&emsp;我们使用Kaggle提供的Quora数据集：[FAQ Kaggle dataset! | Data Science and Machine Learning](https://www.kaggle.com/general/183270)，先把它给读进来。

In [3]:
import pandas as pd

In [4]:
%pwd

'd:\\常用文件\\CQU\\就业\\深度学习\\Datawhale\\2023-4\\医疗问答'

In [5]:
question_pd = pd.read_csv("./cMedQA-master/questions.csv/questions.csv")
answer_pd=pd.read_csv("./cMedQA-master/answers.csv/answers.csv")

In [6]:
print(question_pd.shape)
print(answer_pd.shape)

(60000, 6)
(112987, 3)


In [7]:
question_pd.head()

Unnamed: 0,que_id,content,big_cate,small_cate,big_cate_code,small_cate_code
0,57511271,病情描述发病时间、主要症状、症状变化等）：经常腰疼，双腿无力，没有精神，手淫频繁，射精太快，...,外科,早泄,297,736
1,42382084,"颈3/4,4/5,5/6,6/7椎肩盘突出，脊髓受压变形，腰椎肩盘突出，相应水平黄韧带肥厚，...",外科,颈椎病,297,740
2,16085263,往裤子里滴尿是怎么回事，吃点什么药,内科,内科其它,272,653
3,7275365,我是女人睡醒后上半身出汗，不知道是什么原因？,内科,内科其它,272,653
4,11811302,全部症状：半夜老打身边的人，他又不知道，问他他说是在做梦打架发病时间及原因：有五六年了，原因...,内科,神经内科,272,279


&emsp;&emsp;这里，我们就把Link当做答案构造数据对。基本的流程如下：

- 对每个Question计算Embedding
- 存储Embedding，同时存储每个Question对应的答案
- 从存储的地方检索最相似的Question

In [8]:
answer_pd.head(100)

Unnamed: 0,ans_id,que_id,content
0,0,29238500,你好！从描述来看目前胎儿存在脐带绕颈及胎位不正的情况。建议：在医生的指导下进行胎位矫正，如果...
1,1,14401304,作为女性一生中最幸福的事莫过于孕育下一代，然而不排卵疾病的出现让多数女性失去了当妈妈的资格，...
2,2,14401304,您好，吃促排卵药物一般都是因为不孕症才会有这种治疗方案的，当然也是会对卵巢功能有一定影响的，...
3,3,19085143,你好你的情况多考虑手淫过度导致的肾虚，神经衰弱的症状，戒除手淫，服用六味地黄丸和安神补脑液进...
4,4,9299748,"意见建议:祛除诱因,防止再次接触.轻者可内服抗组织胺类药如扑尔敏;赛庚啶.也可进行局部治疗：..."
...,...,...,...
95,95,69162485,你好，你说的这种情况，一般的小便痛和有分泌物，考虑是泌尿系炎症感染，一般的是尿道炎的可能性较...
96,96,69162485,根据你的描述考虑你是否是因为饮食辛辣生冷肥厚或是因为有细菌感染导致的泌尿系统的感染或是生殖系...
97,97,69162485,您好，从您所描述的症状考虑存在尿路感染。黄色分泌物常见于淋病、前列腺炎等。一般表现为尿频，尿...
98,98,42770531,到医院抽血检查HIV抗体，通常第二天就有结果，不必坐等猜测而造成心理负担。


In [9]:
QA_dataset=pd.merge(question_pd,answer_pd,on='que_id')

In [10]:
pd.set_option("display.max_columns",None)
QA_dataset

Unnamed: 0,que_id,content_x,big_cate,small_cate,big_cate_code,small_cate_code,ans_id,content_y
0,57511271,病情描述发病时间、主要症状、症状变化等）：经常腰疼，双腿无力，没有精神，手淫频繁，射精太快，...,外科,早泄,297,736,13047,这种情况可能是由于手淫过度，导致的肾精不足，肾阴亏虚的问题建议使用中药治疗，常用的药物有六味...
1,42382084,"颈3/4,4/5,5/6,6/7椎肩盘突出，脊髓受压变形，腰椎肩盘突出，相应水平黄韧带肥厚，...",外科,颈椎病,297,740,86992,您好！建议您可以到正规医院采用微创针刀治疗，效果不错。
2,16085263,往裤子里滴尿是怎么回事，吃点什么药,内科,内科其它,272,653,34621,你好，您的情况主要考虑是前列腺炎的可能，主要症状是尿后滴白，建议您去医院做下检查，确诊疾病，...
3,7275365,我是女人睡醒后上半身出汗，不知道是什么原因？,内科,内科其它,272,653,65756,主要考虑与气虚有关，建议适当的锻炼和服用玉屏风散，
4,11811302,全部症状：半夜老打身边的人，他又不知道，问他他说是在做梦打架发病时间及原因：有五六年了，原因...,内科,神经内科,272,279,61934,人们习惯说的梦游症，医学上称“睡行症”。是指一种在睡眠过程中尚未清醒而起床在室内或户外行走，...
...,...,...,...,...,...,...,...,...
112982,54138661,我眼睛有倒睫，角膜炎，结膜炎，干眼症，左眼视力只有0.3左右！右眼还好怎么办曾经治疗情况和效...,五官科,眼科炎症,292,722,21677,指导意见：建议你滴无环鸟苷眼药水和氟哌酸眼药水交替使用，2小时一次，洗脸帕必须每天煮沸消毒2...
112983,62274741,咳嗽引起的低烧37.1度需要喝安乃近吗？咳嗽引起的低烧怎么治疗？,内科,呼吸内科,272,280,62887,"您好，考虑病毒引起的,我认为您是着凉后机体抵抗力降低引起的，我建议您口服罗红霉素和双黄连口服..."
112984,62274741,咳嗽引起的低烧37.1度需要喝安乃近吗？咳嗽引起的低烧怎么治疗？,内科,呼吸内科,272,280,62888,您好，您的情况考虑是上呼吸道病毒感染引起的，建议您在临床医生指导下使用安乃近、甘草片，阿莫西...
112985,62274741,咳嗽引起的低烧37.1度需要喝安乃近吗？咳嗽引起的低烧怎么治疗？,内科,呼吸内科,272,280,62889,"您好，考虑病毒引起的,我认为您是着凉后机体抵抗力降低引起的，我建议您口服罗红霉素和双黄连口服..."


In [11]:
QA_dataset.dropna()
QA_dataset.shape

(112987, 8)

In [12]:
QA_dataset=QA_dataset[["content_x","content_y"]]

In [13]:
QA_dataset.rename(columns={'content_x':'question','content_y':'answer'},inplace=True)
QA_dataset.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  QA_dataset.rename(columns={'content_x':'question','content_y':'answer'},inplace=True)


Unnamed: 0,question,answer
0,病情描述发病时间、主要症状、症状变化等）：经常腰疼，双腿无力，没有精神，手淫频繁，射精太快，...,这种情况可能是由于手淫过度，导致的肾精不足，肾阴亏虚的问题建议使用中药治疗，常用的药物有六味...
1,"颈3/4,4/5,5/6,6/7椎肩盘突出，脊髓受压变形，腰椎肩盘突出，相应水平黄韧带肥厚，...",您好！建议您可以到正规医院采用微创针刀治疗，效果不错。
2,往裤子里滴尿是怎么回事，吃点什么药,你好，您的情况主要考虑是前列腺炎的可能，主要症状是尿后滴白，建议您去医院做下检查，确诊疾病，...
3,我是女人睡醒后上半身出汗，不知道是什么原因？,主要考虑与气虚有关，建议适当的锻炼和服用玉屏风散，
4,全部症状：半夜老打身边的人，他又不知道，问他他说是在做梦打架发病时间及原因：有五六年了，原因...,人们习惯说的梦游症，医学上称“睡行症”。是指一种在睡眠过程中尚未清醒而起床在室内或户外行走，...


&emsp;&emsp;第一步我们将借助OpenAI的Embedding接口，但是后两步得看实际情况了。如果Question的数量比较少，比如只有几万条甚至几千条，那我们可以把计算好的Embedding直接存储成文件，每次服务启动时直接加载到内存或缓存里就好了。使用时，挨个计算输入问题和存储的所有问题的相似度，然后给出最相似的问题的答案。

In [1]:
from openai.embeddings_utils import get_embedding, cosine_similarity
import openai
import numpy as np
OPENAI_API_KEY = "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"      #"填入专属的API key"
openai.api_key = OPENAI_API_KEY

&emsp;&emsp;为了快速演示，我们只取前5个句子为例：

In [14]:
for i in QA_dataset.head().itertuples():
    print(i)

Pandas(Index=0, question='病情描述发病时间、主要症状、症状变化等）：经常腰疼，双腿无力，没有精神，手淫频繁，射精太快，这是肾虚吗？', answer='这种情况可能是由于手淫过度，导致的肾精不足，肾阴亏虚的问题建议使用中药治疗，常用的药物有六味地黄汤，左归丸等，平时注意休息，尽量戒除手淫')
Pandas(Index=1, question='颈3/4,4/5,5/6,6/7椎肩盘突出，脊髓受压变形，腰椎肩盘突出，相应水平黄韧带肥厚，下腰段椎管狭窄。，下腿无力，走路不稳，无，怎么治疗', answer='您好！建议您可以到正规医院采用微创针刀治疗，效果不错。')
Pandas(Index=2, question='往裤子里滴尿是怎么回事，吃点什么药', answer='你好，您的情况主要考虑是前列腺炎的可能，主要症状是尿后滴白，建议您去医院做下检查，确诊疾病，对症治疗，平时注意饮食，合理休息')
Pandas(Index=3, question='我是女人睡醒后上半身出汗，不知道是什么原因？', answer='主要考虑与气虚有关，建议适当的锻炼和服用玉屏风散，')
Pandas(Index=4, question='全部症状：半夜老打身边的人，他又不知道，问他他说是在做梦打架发病时间及原因：有五六年了，原因不清楚治疗情况：没有治疗', answer='人们习惯说的梦游症，医学上称“睡行症”。是指一种在睡眠过程中尚未清醒而起床在室内或户外行走，或做一些简单活动的睡眠和清醒的混合状态。这类患者一般表现为反复发作的睡眠中起床行走，持续时间为数分钟至半小时。发作时，梦游者在睡眠中突然眼睛凝视起来，但不看东西，然后下床在意识朦胧不清的情况下进行某种活动。下床行走时，周围虽漆黑一片，但患者一般不会碰到什么东西，而且还行走自如。据了解，梦游者眼睛是半开或全睁着的，走路姿势与平时一样，甚至他们还能进行一些复杂的活动。梦游是一种奇异的意识状态，患者似乎只活在自己的世界中')


In [19]:
vec_base = []
for v in QA_dataset.head().itertuples():    #itertuples返回每一行作为一个Python元组对象1。它有两个参数：index和name。index表示是否返回索引作为元组的第一个元素，默认为True。name表示返回的元组的名称，默认为"Pandas"，如果为None则返回普通元组
    emb = get_embedding(v.question)
    im = {
        "question": v.question,
        "embedding": emb,
        "answer": v.answer
    }
    vec_base.append(im)

In [20]:
vec_base

[{'question': '病情描述发病时间、主要症状、症状变化等）：经常腰疼，双腿无力，没有精神，手淫频繁，射精太快，这是肾虚吗？',
  'embedding': [-0.008465057238936424,
   0.005747094284743071,
   -0.01211017556488514,
   -0.004950121510773897,
   -0.004664354491978884,
   0.03607016056776047,
   0.0017781065544113517,
   0.00549307931214571,
   -0.00028914076392538846,
   0.0034768334589898586,
   -0.009703381918370724,
   -0.0024210826959460974,
   0.0047373841516673565,
   -0.0011152855586260557,
   0.005747094284743071,
   0.0007021139608696103,
   -0.01446616742759943,
   -0.013107185252010822,
   -0.00649961456656456,
   0.005724868271499872,
   -0.004648478701710701,
   -0.007429945282638073,
   -0.006182095501571894,
   -0.0012661071959882975,
   -0.0013105598045513034,
   -0.0020162458531558514,
   0.0166252963244915,
   0.009931995533406734,
   -0.013437405228614807,
   -0.01294842641800642,
   -0.005378772504627705,
   0.016841210424900055,
   0.0031243872363120317,
   0.00014586030738428235,
   -0.006737753748893738,
   0.0017241283

&emsp;&emsp;然后给定输入，比如："is kaggle alive?"，我们先获取它的Embedding，然后逐个遍历`vec_base`计算相似度，并取最高的作为响应。

In [25]:
query = "经常腰疼，双腿无力，没有精神,射精太快"
q_emb = get_embedding(query)

In [26]:
sims = [cosine_similarity(q_emb, v["embedding"]) for v in vec_base]

In [27]:
sims

[0.8432241693181044,
 0.7816829353774691,
 0.8101603149976555,
 0.7622628133670878,
 0.7565553791301624]

&emsp;&emsp;我们返回最相似的：

In [28]:
vec_base[1]["question"], vec_base[1]["answer"]

('颈3/4,4/5,5/6,6/7椎肩盘突出，脊髓受压变形，腰椎肩盘突出，相应水平黄韧带肥厚，下腰段椎管狭窄。，下腿无力，走路不稳，无，怎么治疗',
 '您好！建议您可以到正规医院采用微创针刀治疗，效果不错。')