# LangChain & Extraction

LangChain是大型语言模型(LLM)的应用框架,

LangChain可以直接与 OpenAI 的 text-davinci-003、gpt-3.5-turbo 模型以及 Hugging Face 的各种开源语言模如 Google 的 flan-t5等模型集成。

通过使用LangChain可以开发出更为强大和高效的LLM的各种应用。

## 信息抽取

我们给LLM提供一篇文章，我们希望LLM能帮我们把文章的主要内容罗列出来，文字尽量精简，简明扼要，

如果想达到这样的目的，通过调用 LLM 提供的 API 似乎也能实现，但是 Prompt 可能会比较复杂，要把 prompt 写清楚，让 LLM 能够理解您的意图，可能也不是一件容易的事情。

此时如果我们使用 Langchain 的 prompt 模板可以轻松完成类似的工作。

## 首先安装必要的python包

In [None]:
!pip -q install openai langchain

In [1]:

from langchain.prompts import PromptTemplate
from langchain.llms import OpenAIChat
from langchain.chains import LLMChain
import os
#你申请的openai的api key
os.environ['OPENAI_API_KEY'] = 'sk-'

这里我们有一段关于阿尔茨海默病的文本描述，我们希望llmn能够从中提炼出有价值的信息，

为此我们需要定义一个prompt模板，将文本信息作为一个变量存储在模板中，

这样我们每次只要更换不同的文本信息就可以就可以实现让llm从中提取关键信息的功能,

而不必每次都要告诉llm它应该做什么事情。

In [2]:
text="阿尔茨海默病(Alzheimer's disease, AD),俗称老年痴呆症,是一种全身性神经退行性疾病，它是由大脑神经退行性变性引起的，\
主要表现为记忆力减退、思维能力减退、行为变化等。阿尔茨海默病的原因尚不十分清楚，但是研究表明，阿尔茨海默病可能与遗传因素、环境因素、\
营养不良、压力过大、不良生活习惯等有关。根据世界卫生组织的统计数据，全球有超过4700万人患有阿尔茨海默病，其中美国有超过600万人患有阿尔茨海默病，\
欧洲有超过1000万人患有阿尔茨海默病，亚洲有超过2500万人患有阿尔茨海默病，其中中国有超过1000万人患有阿尔茨海默病。阿尔茨海默病的发病率与年龄有关，\
随着年龄的增长而增加，65岁以上的人群为主要受害群体，占比高达80%，其中45-65岁的人群占比为15%，20-45岁的人群占比为5%。65岁以上的人群发病率约为10%，\
75岁以上的人群发病率约为20%，85岁以上的人群发病率约为30%。根据统计，男性患病率高于女性，男性患病比例为1.4：1，即男性患病率比女性高出40%。\
根据统计，阿尔茨海默病在不同的人种中分布情况也有所不同。白人患病率最高，占总患病率的70%，黑人患病率次之，占总患病率的20%，\
其他少数民族患病率最低，占总患病率的10%。阿尔茨海默病在不同的饮食习惯中分布情况也有所不同。维生素B12缺乏的人群患病率更高，\
而均衡膳食的人群患病率较低。阿尔茨海默病不仅会给患者带来记忆力减退、思维能力减退、行为变化等症状，还会给患者的家庭带来巨大的心理负担。\
因此，患者应尽快就医，及时进行治疗。治疗阿尔茨海默病的方法有药物治疗、行为治疗、认知行为治疗等，具体治疗方案要根据患者的具体情况而定。"
 
 
#加载openai的llm
llm = OpenAIChat(model_name="gpt-3.5-turbo")
 
#创建模板
fact_extraction_prompt = PromptTemplate(
    input_variables=["text_input"],
    template="从下面的本文中提取关键事实。尽量使用文本中的统计数据来说明事实:\n\n {text_input}"
)
 
#定义chain
fact_extraction_chain = LLMChain(llm=llm, prompt=fact_extraction_prompt)
facts = fact_extraction_chain.run(text)
print(facts)



1. 阿尔茨海默病是全身性神经退行性疾病，主要表现为记忆力减退、思维能力减退、行为变化等。
2. 阿尔茨海默病可能与遗传因素、环境因素、营养不良、压力过大、不良生活习惯等有关。
3. 全球有超过4700万人患有阿尔茨海默病，其中美国有超过600万人患有阿尔茨海默病，欧洲有超过1000万人患有阿尔茨海默病，亚洲有超过2500万人患有阿尔茨海默病，其中中国有超过1000万人患有阿尔茨海默病。
4. 阿尔茨海默病的发病率随着年龄的增长而增加，65岁以上的人群为主要受害群体，占比高达80%，其中45-65岁的人群占比为15%，20-45岁的人群占比为5%。
5. 男性患病率高于女性，男性患病比例为1.4：1，即男性患病率比女性高出40%。
6. 白人患病率最高，占总患病率的70%，黑人患病率次之，占总患病率的20%，其他少数民族患病率最低，占总患病率的10%。
7. 维生素B12缺乏的人群患病率更高，而均衡膳食的人群患病率较低。
8. 阿尔茨海默病不仅会给患者带来记忆力减退、思维能力减退、行为变化等症状，还会给患者的家庭带来巨大的心理负担。
9. 治疗阿尔茨海默病的方法有药物治疗、行为治疗、认知行为治疗等，具体治疗方案要根据患者的具体情况而定。


## 给出治疗方案

我们让 llm 从一大堆文本信息中抽取了关键信息，

我们让 llm 根据这些关键信息给出治疗建议,

下面我们需要再建一个 prompt 模板，

把提取的关键信息作为变量存储在该模板中。

In [3]:
doctor_prompt = PromptTemplate(
    input_variables=["facts"],
    template="你是神经内科医生。根据以下阿尔茨海默病的事实统计列表，为您的病人写一个简短的预防阿尔茨海默病的建议。 不要遗漏关键信息：\n\n {facts}"
)
 
## 定义chain
doctor_chain = LLMChain(llm=llm, prompt=doctor_prompt)
doctor_suggest = doctor_chain.run(facts)
print(doctor_suggest)

建议您加强平时的身体锻炼，多进行智力活动，保持健康的饮食习惯和充足的睡眠时间，减轻心理压力，避免吸烟和饮酒等不良生活习惯，预防阿尔茨海默病的发生。另外，人群中存在维生素B12缺乏的情况，建议适当摄入维生素B12，保持营养均衡。如果觉得自己存在记忆力减退等症状，请及时就医，选择适当的治疗方法，以延缓病情的发展。


## 把不同的Chain整合在一起

前面我们定义了两个Chain，

一个用来从文本中抽取关键信息，

另一个根据抽取的关键信息给出治疗建议，

这里我们还可以把这两个Chain整合在一起，

让它可以自动完成这两个工作：

In [4]:
from langchain.chains import SimpleSequentialChain, SequentialChain
#定义SimpleSequentialChain
full_chain = SimpleSequentialChain(chains=[fact_extraction_chain, doctor_chain], 
                                   verbose=True)
response = full_chain.run(text)



[1m> Entering new SimpleSequentialChain chain...[0m
[36;1m[1;3m1. 阿尔茨海默病是一种全身性神经退行性疾病，主要表现为记忆力减退、思维能力减退、行为变化等。
2. 全球有超过4700万人患有阿尔茨海默病，其中美国有超过600万人患有阿尔茨海默病，欧洲有超过1000万人患有阿尔茨海默病，亚洲有超过2500万人患有阿尔茨海默病，其中中国有超过1000万人患有阿尔茨海默病。
3. 阿尔茨海默病的发病率与年龄有关，65岁以上的人群为主要受害群体，发病率约为10%。
4. 男性患病率高于女性，男性患病比例为1.4：1，即男性患病率比女性高出40%。
5. 白人患病率最高，占总患病率的70%，黑人患病率次之，占总患病率的20%，其他少数民族患病率最低，占总患病率的10%。
6. 维生素B12缺乏的人群患病率更高，均衡膳食的人群患病率较低。
7. 阿尔茨海默病会给患者的家庭带来巨大的心理负担，因此，患者应尽快就医，及时进行治疗。
8. 治疗阿尔茨海默病的方法有药物治疗、行为治疗、认知行为治疗等，具体治疗方案要根据患者的具体情况而定。[0m
[33;1m[1;3m为预防阿尔茨海默病，建议您注意以下几点： 饮食均衡，摄入足够的维生素B12。保持良好的心理状态，减少压力。定期进行身体运动和智力训练。及时就医，接受合适的治疗。尤其是年龄超过65岁的男性群体和白人群体，要特别注意预防。[0m

[1m> Finished chain.[0m


## API Chain

我们知道像ChatGPT这样的大型语言模型是非常强大的，

不过由于它们目前学到的都是2022年之前的知识，

对于2022年之后发生的事情它们可能一无所知，

所以仍然有一些简单的基础性问题它也无法回答，

比如您问ChatGPT当前的时间，当前的天气情况等，它仍然无法给出正确答案，

不过LangChain和LLm集成以后，可以通过访问第三方提供的 API 来获取我们需要的信息，

并把这些信息喂给 llm，这样 llm 就可以从中提炼出我们需要的内容和格式输出给我们。

下面我们通过一个例子来说明如何让 Langchain 调用第三方机构的 api,并返回结果给 ChatGPT，

最后 ChatGPT 按照正确的格式输出我们想要的内容。

这里,我们向ChatGPT询问上海当前的温度，一般情况下 ChatGPT 是无法给出正确的答案。

In [5]:
from langchain.llms import OpenAIChat
from langchain.chains.api.prompt import API_RESPONSE_PROMPT
from langchain.chains import APIChain
from langchain.prompts.prompt import PromptTemplate
from langchain.chains.api import open_meteo_docs
 
llm = OpenAIChat(model_name="gpt-3.5-turbo")
chain_new = APIChain.from_llm_and_api_docs(llm,open_meteo_docs.OPEN_METEO_DOCS,verbose=True)
 
#我们向ChatGPT询问上海当前的温度
chain_new.run('上海现在的温度是多少摄氏度？')



[1m> Entering new APIChain chain...[0m
[32;1m[1;3mhttps://api.open-meteo.com/v1/forecast?latitude=31.2304&longitude=121.4737&hourly=temperature_2m&temperature_unit=celsius&current_weather=true[0m
[33;1m[1;3m{"latitude":31.25,"longitude":121.5,"generationtime_ms":0.18799304962158203,"utc_offset_seconds":0,"timezone":"GMT","timezone_abbreviation":"GMT","elevation":5.0,"current_weather":{"temperature":21.8,"windspeed":5.7,"winddirection":72.0,"weathercode":0,"is_day":1,"time":"2023-05-09T03:00"},"hourly_units":{"time":"iso8601","temperature_2m":"°C"},"hourly":{"time":["2023-05-09T00:00","2023-05-09T01:00","2023-05-09T02:00","2023-05-09T03:00","2023-05-09T04:00","2023-05-09T05:00","2023-05-09T06:00","2023-05-09T07:00","2023-05-09T08:00","2023-05-09T09:00","2023-05-09T10:00","2023-05-09T11:00","2023-05-09T12:00","2023-05-09T13:00","2023-05-09T14:00","2023-05-09T15:00","2023-05-09T16:00","2023-05-09T17:00","2023-05-09T18:00","2023-05-09T19:00","2023-05-09T20:00","2023-05-09T21:00","

'The current temperature in Shanghai is 21.8°C.'

 我们可以看到 langchain 的 APIChain 首先访问了第三方( open-meteo.com )的天气预报API,
 
 然后返回一大堆天气预报的信息,但是信息需要通过 ChatGPT 来解析后再返回给用户他们需要的内容：

API 调用地址：https://api.open-meteo.com/v1/forecast?latitude=31.2304&longitude=121.4737&hourly=temperature_2m&current_weather=true&temperature_unit=celsius

API 返回信息：

In [6]:
import requests

url = "https://api.open-meteo.com/v1/forecast?latitude=31.2304&longitude=121.4737&hourly=temperature_2m&current_weather=true&temperature_unit=celsius"
response = requests.get(url)
data = response.json()
print(data)

{'latitude': 31.25, 'longitude': 121.5, 'generationtime_ms': 0.1710653305053711, 'utc_offset_seconds': 0, 'timezone': 'GMT', 'timezone_abbreviation': 'GMT', 'elevation': 5.0, 'current_weather': {'temperature': 21.8, 'windspeed': 5.7, 'winddirection': 72.0, 'weathercode': 0, 'is_day': 1, 'time': '2023-05-09T03:00'}, 'hourly_units': {'time': 'iso8601', 'temperature_2m': '°C'}, 'hourly': {'time': ['2023-05-09T00:00', '2023-05-09T01:00', '2023-05-09T02:00', '2023-05-09T03:00', '2023-05-09T04:00', '2023-05-09T05:00', '2023-05-09T06:00', '2023-05-09T07:00', '2023-05-09T08:00', '2023-05-09T09:00', '2023-05-09T10:00', '2023-05-09T11:00', '2023-05-09T12:00', '2023-05-09T13:00', '2023-05-09T14:00', '2023-05-09T15:00', '2023-05-09T16:00', '2023-05-09T17:00', '2023-05-09T18:00', '2023-05-09T19:00', '2023-05-09T20:00', '2023-05-09T21:00', '2023-05-09T22:00', '2023-05-09T23:00', '2023-05-10T00:00', '2023-05-10T01:00', '2023-05-10T02:00', '2023-05-10T03:00', '2023-05-10T04:00', '2023-05-10T05:00', '2