# LangChain的组件（components）

In [1]:
from dotenv import load_dotenv
load_dotenv()

# import os
# 接下来我们需要使用Google生成式AI 以及Google Search API，请自行申请，并将对应的 API Key 配置在.env中。
# Google Generative AI - https://aistudio.google.com/app/apikey
# os.environ["SERPAPI_API_KEY"]
# Google Search API - https://serpapi.com/
# os.environ['GOOGLE_API_KEY']

True

## 模型（Models）和 提示词（Prompts）

In [7]:
import os
os.environ["GOOGLE_API_KEY"]
from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型
llm = GoogleGenerativeAI(model="gemini-1.5-pro")

print(
    llm.invoke(
        "说个笑话给我听"
    )
)

为什么树木很难相处？

因为他们总是起冲突！ 
 
你喜欢那个吗？我可以再讲一个笑话。 



In [10]:
from langchain import PromptTemplate

template = """句子: {sentence}
翻译成 {language}:"""
prompt = PromptTemplate(template=template, input_variables=["sentence", "language"])

print(prompt.format(sentence = "桌子上趴着一只猫", language = "西班牙语"))

句子: 桌子上趴着一只猫
翻译成 西班牙语:


## 数据连接（Data Connections）

### Document loaders

In [13]:
import csv

# Sample data
data = [
    ['姓名', '年龄', '居住地'],
    ['大姐姐', 25, 'New York'],
    ['二妹子', 28, 'Los Angeles'],
    ['三老板', 22, 'Chicago']
]

# File name
file_name = 'sample.csv'

# Write data to CSV file
with open(file_name, 'w', newline='') as csvfile:
    csvwriter = csv.writer(csvfile)
    csvwriter.writerows(data)

print(f'已生成示例 CSV 文件“{file_name}” 并保存。')


已生成示例 CSV 文件“sample.csv” 并保存。


In [14]:
from langchain.document_loaders.csv_loader import CSVLoader

loader = CSVLoader(file_path='sample.csv')
data = loader.load()
print(data)

[Document(page_content='姓名: 大姐姐\n年龄: 25\n居住地: New York', metadata={'source': 'sample.csv', 'row': 0}), Document(page_content='姓名: 二妹子\n年龄: 28\n居住地: Los Angeles', metadata={'source': 'sample.csv', 'row': 1}), Document(page_content='姓名: 三老板\n年龄: 22\n居住地: Chicago', metadata={'source': 'sample.csv', 'row': 2})]


### Document splitters

In [22]:
# 关于山脉和自然的例句
content = """宁静的景色中，巍峨的山脉如同雄伟的守护者，守护着大自然的美丽。
清新的山间空气中弥漫着宁静的气息，沙沙作响的树叶谱写着荒野的交响乐。
大自然的调色板为山川披上了绿色和棕色的外衣，构成了一幅令人叹为观止的景象。
当太阳升起时，它为山峰披上了一层金色的光芒，照亮了一个未经触碰的狂野世界。"""

# 文件名
file_name = 'mountain.txt'

# 将内容写入文本文件
with open(file_name, 'w') as txtfile:
    txtfile.write(content)

#print(f'已生成示例文本文件“{file_name}”并保存。')


with open('mountain.txt') as f:
    mountain = f.read()

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(

    chunk_size = 100,
    chunk_overlap  = 20,
    length_function = len
)

texts = text_splitter.create_documents([mountain])
print(texts[0])
print(texts[1])

page_content='宁静的景色中，巍峨的山脉如同雄伟的守护者，守护着大自然的美丽。\n清新的山间空气中弥漫着宁静的气息，沙沙作响的树叶谱写着荒野的交响乐。'
page_content='大自然的调色板为山川披上了绿色和棕色的外衣，构成了一幅令人叹为观止的景象。\n当太阳升起时，它为山峰披上了一层金色的光芒，照亮了一个未经触碰的狂野世界。'


### Text embedding models

In [30]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings

from dotenv import load_dotenv
load_dotenv()
os.environ["GOOGLE_API_KEY"]

# 使用 Google 的 embedding-001 模型创建嵌入模型
embeddings_model = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

# 对一些句子进行嵌入
embeddings = embeddings_model.embed_documents(
    [
        "早上好！",
        "哦，你好！",
        "我想投诉一个商家",
        "听到这个消息我很难过。请问您叫什么名字？",
        "我叫孙悟空。"
    ]
)

# 打印嵌入信息
print("嵌入文档：")
print(f"向量数量：{len(embeddings)}；每个向量的维度：{len(embeddings[0])}")

# 对查询语句进行嵌入
embedded_query = embeddings_model.embed_query("对话中提到的名字是什么？")

# 打印查询嵌入信息
print("嵌入查询：")
print(f"向量的维度：{len(embedded_query)}")
print(f"向量的前 5 个元素示例：{embedded_query[:5]}")

嵌入文档：
向量数量：5；每个向量的维度：768
嵌入查询：
向量的维度：768
向量的前 5 个元素示例：[0.04111874, -0.012125608, -0.060324237, -0.016665619, 0.06735335]


In [31]:
# 将对话保存到txt文件中
# 对话行的列表
dialogue_lines = [
    "早上好！",
    "哦，你好！",
    "我想投诉一个商家",
    "听到这个消息我很难过。请问您叫什么名字？",
    "我叫孙悟空。"
]

# 文件名
file_name = 'dialogue.txt'

# 将对话行写入文本文件
with open(file_name, 'w') as txtfile:
    for line in dialogue_lines:
        txtfile.write(line + '\n')

print(f'已生成对话文本文件“{file_name}”并保存。')

已生成对话文本文件“dialogue.txt”并保存。


### Vector stores

In [33]:
from langchain.document_loaders import TextLoader
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS

from dotenv import load_dotenv
load_dotenv()
os.environ["GOOGLE_API_KEY"]

# 加载文档，将其分割成块，嵌入每个块并将其加载到向量存储中。

# 1. 加载文档
raw_documents = TextLoader('dialogue.txt').load()  

# 2. 分割文档
text_splitter = CharacterTextSplitter(chunk_size=50, chunk_overlap=0, separator = "\n")
documents = text_splitter.split_documents(raw_documents)

# 3. 创建向量数据库并嵌入文档
# 使用 Google 的 embedding-001 模型进行嵌入
db = FAISS.from_documents(documents, GoogleGenerativeAIEmbeddings(model="models/embedding-001"))

In [34]:
# 设置查询语句
query = "打电话的原因是什么？" 

# 在向量数据库中进行相似性搜索
docs = db.similarity_search(query)

# 打印最相似文档的内容
print(docs[0].page_content)

早上好！
哦，你好！
我想投诉一个商家
听到这个消息我很难过。请问您叫什么名字？
我叫孙悟空。


In [37]:
print(documents[0])

page_content='早上好！\n哦，你好！\n我想投诉一个商家\n听到这个消息我很难过。请问您叫什么名字？\n我叫孙悟空。' metadata={'source': 'dialogue.txt'}


### Retrievers

In [40]:
import os
os.environ["GOOGLE_API_KEY"]
from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型
llm = GoogleGenerativeAI(model="gemini-1.5-pro")

from langchain.chains import RetrievalQA

retriever = db.as_retriever()

In [42]:
qa = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever)

query = "打电话的原因是什么？"
qa.invoke(query)

{'query': '打电话的原因是什么？', 'result': '孙悟空打电话的原因是想投诉一个商家。 \n'}

## Memory

In [51]:
import os
os.environ["GOOGLE_API_KEY"]
from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型
llm = GoogleGenerativeAI(model="gemini-1.5-pro",temperature=0)

from langchain.memory import ConversationSummaryMemory

# 创建 ConversationSummaryMemory 对象，用于存储和管理对话历史
memory = ConversationSummaryMemory(llm=llm)

# 保存一段对话历史到内存中
memory.save_context({"input": "你好，我正在寻找一些关于人工智能论文写作的主题"}, {"output": "你好，写大型语言模型怎么样？"})

# 从内存中加载对话历史
memory.load_memory_variables({})

{'history': 'Current summary:\n\n\nNew lines of conversation:\nHuman: 你好，我正在寻找一些关于人工智能论文写作的主题\nAI: 你好，写大型语言模型怎么样？\n\nNew summary:\nThe human greets the AI and asks for topics to write about for a paper on artificial intelligence. The AI greets the human back and suggests writing about large language models. \n'}

In [52]:
ConversationSummaryMemory.save_context?

[0;31mSignature:[0m
[0mConversationSummaryMemory[0m[0;34m.[0m[0msave_context[0m[0;34m([0m[0;34m[0m
[0;34m[0m    [0mself[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0minputs[0m[0;34m:[0m [0;34m'Dict[str, Any]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m    [0moutputs[0m[0;34m:[0m [0;34m'Dict[str, str]'[0m[0;34m,[0m[0;34m[0m
[0;34m[0m[0;34m)[0m [0;34m->[0m [0;34m'None'[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m Save context from this conversation to buffer.
[0;31mFile:[0m      /usr/local/lib/python3.11/site-packages/langchain/memory/summary.py
[0;31mType:[0m      function

## Chains

### Simple Chain

In [53]:
import os
os.environ["GOOGLE_API_KEY"]

from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型
llm = GoogleGenerativeAI(model="gemini-1.5-pro")

from langchain import PromptTemplate, LLMChain

template = """句子: {sentence}
翻译成 {language}:"""
prompt = PromptTemplate(template=template, input_variables=["sentence", "language"])

llm_chain = LLMChain(prompt=prompt, llm=llm)

llm_chain.predict(sentence="桌上趴着一只猫", language="法语")

'The Spanish translation of the sentence "桌上趴着一只猫" depends on how you want to describe the cat\'s position. Here are a few options:\n\n**Option 1: General position**\n\n* **Hay un gato en la mesa.** (There is a cat on the table.) - This is the most general translation and doesn\'t specify the cat\'s posture.\n\n**Option 2: Emphasizing lying down**\n\n* **Un gato está acostado sobre la mesa.** (A cat is lying on the table.) - This translation emphasizes that the cat is lying down.\n\n**Option 3: Specifying "趴着"**\n\n* **Un gato está echado sobre la mesa.** (A cat is sprawled/lying on the table.) - This translation uses "echado" which can imply a more relaxed or spread-out posture, closer to the meaning of "趴着".\n\nThe best option depends on the specific context and the nuance you want to convey. \n'

### Router chain

In [57]:
import os
os.environ["GOOGLE_API_KEY"]

from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型
llm = GoogleGenerativeAI(model="gemini-1.5-pro")

from langchain.chains.router import MultiPromptChain

from langchain.chains import ConversationChain
from langchain.chains.llm import LLMChain
from langchain.prompts import PromptTemplate
from langchain.chains.router.llm_router import LLMRouterChain, RouterOutputParser
from langchain.chains.router.multi_prompt_prompt import MULTI_PROMPT_ROUTER_TEMPLATE

# 定义行程规划助手的提示模板
itinerary_template = """你是一个旅行行程规划助手。\
你会帮助客户找到最佳的目的地和行程。\
你会根据客户的喜好帮助他们创建优化的行程。

这是一个问题：
{input}"""

# 定义餐厅预订助手的提示模板
restaurant_template = """你是一个餐厅预订助手。\
你会与客户确认用餐人数和食物偏好。\
你会注意是否有需要考虑的特殊情况。

这是一个问题：
{input}"""

# 存储提示信息
prompt_infos = [
    {
        "name": "itinerary",
        "description": "擅长创建行程",
        "prompt_template": itinerary_template,
    },
    {
        "name": "restaurant",
        "description": "擅长帮助客户预订餐厅",
        "prompt_template": restaurant_template,
    },
]

# 为每个提示信息创建对应的 LLMChain
destination_chains = {}
for p_info in prompt_infos:
    name = p_info["name"]
    prompt_template = p_info["prompt_template"]
    prompt = PromptTemplate(template=prompt_template, input_variables=["input"])
    chain = LLMChain(llm=llm, prompt=prompt)
    destination_chains[name] = chain

# 创建默认的对话链
default_chain = ConversationChain(llm=llm, output_key="text")

# 创建路由器的提示信息
destinations = [f"{p['name']}: {p['description']}" for p in prompt_infos]
destinations_str = "\n".join(destinations)
router_template = MULTI_PROMPT_ROUTER_TEMPLATE.format(destinations=destinations_str)

# 创建路由器
router_prompt = PromptTemplate(
    template=router_template,
    input_variables=["input"],
    output_parser=RouterOutputParser(),
)
router_chain = LLMRouterChain.from_llm(llm, router_prompt)

# 创建多提示链
chain = MultiPromptChain(
    router_chain=router_chain,
    destination_chains=destination_chains,
    default_chain=default_chain,
    verbose=True,
)

In [58]:
print(chain.run("我计划从巴黎开车去里昂。我可以在中途参观什么地方？"))



[1m> Entering new MultiPromptChain chain...[0m




itinerary: {'input': '我计划从巴黎开车去里昂。我可以在中途参观什么地方？'}
[1m> Finished chain.[0m
太棒了！从巴黎开车到里昂是一次很棒的旅行，沿途有很多值得一看的地方。为了更好地帮助你规划行程，请告诉我你对什么样的中途停留感兴趣。 

例如：

* **你想走哪条路线？** 你更喜欢风景优美的路线，即使这意味着要开更长时间，还是想走最快的路线？
* **你想在途中停留多久？** 是一天，还是更长时间？
* **你对什么感兴趣？** 历史遗迹？风景优美的地方？品酒？其他什么？ 

一旦我了解了你的喜好，我就可以推荐一些很棒的中途停留地点，并帮助你规划完美的行程！ 



In [59]:
print(chain.run("我想预订今晚的法国餐厅"))



[1m> Entering new MultiPromptChain chain...[0m




restaurant: {'input': '我想预订今晚的法国餐厅'}
[1m> Finished chain.[0m
太好了！我很乐意帮您预订法国餐厅。 

首先，我想问您几个问题，以确保我能找到最适合您的餐厅。

1. **您想预订几位？**
2. **您有特别想去的法国餐厅吗？**
3. **您希望几点用餐？**
4. **您们有什么食物过敏或饮食要求吗？** 
5. **这是一个特殊的场合吗？例如生日或周年纪念日？**

请提供以上信息，以便我为您找到最完美的餐厅！ 



### Sequential Chain

In [60]:
import os
os.environ["GOOGLE_API_KEY"]

from langchain_google_genai import GoogleGenerativeAI

# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型，并将 temperature 设置为 0
llm = GoogleGenerativeAI(model="gemini-1.5-pro", temperature=0)

from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate

# 创建一个 LLMChain，用于根据给定的主题生成笑话
template = """你是一位喜剧演员。请根据以下主题 {topic} 生成一个笑话：
笑话："""
prompt_template = PromptTemplate(input_variables=["topic"], template=template)
joke_chain = LLMChain(llm=llm, prompt=prompt_template)

# 创建另一个 LLMChain，用于将文本翻译成指定语言
template = """你是一位翻译员。请将输入文本翻译成 {language}：
翻译："""
prompt_template = PromptTemplate(input_variables=["language"], template=template)
translator_chain = LLMChain(llm=llm, prompt=prompt_template)

In [61]:
# 创建一个总链，依次运行笑话生成链和翻译链
from langchain.chains import SimpleSequentialChain
overall_chain = SimpleSequentialChain(chains=[joke_chain, translator_chain], verbose=True)
translated_joke = overall_chain.run("猫猫和狗狗")



[1m> Entering new SimpleSequentialChain chain...[0m
[36;1m[1;3m[0m
[33;1m[1;3m请提供您需要翻译的文本，以及您希望翻译的目标语言。

例如：

**输入文本：** Bonjour, comment allez-vous ?
**目标语言：** 中文

我会将您的文本翻译成：“你好，你好吗？” 
[0m

[1m> Finished chain.[0m


### Transformation chain

In [62]:
# 导入字符串模块
import string

# 定义函数
def rename_cat(inputs: dict) -> dict:
  # 获取输入文本
  text = inputs["text"]
  # 将文本中的 "cat" 替换为 "Silvester the Cat"
  new_text = text.replace('cat', 'Silvester the Cat')
  # 返回替换后的文本
  return {"output_text": new_text}

In [64]:
import os
os.environ["GOOGLE_API_KEY"]

from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型，并将 temperature 设置为 0
llm = GoogleGenerativeAI(model="gemini-1.5-pro", temperature=0)

from langchain.chains import TransformChain, LLMChain, SimpleSequentialChain
from langchain.prompts import PromptTemplate

with open("Cats&Dogs.txt") as f:
    cats_and_dogs = f.read()

transform_chain = TransformChain(
    input_variables=["text"], output_variables=["output_text"], transform=rename_cat
)

template = """总结这段文本:

{output_text}

总结:"""
prompt = PromptTemplate(input_variables=["output_text"], template=template)
llm_chain = LLMChain(llm=llm, prompt=prompt)

sequential_chain = SimpleSequentialChain(chains=[transform_chain, llm_chain])

sequential_chain.run(cats_and_dogs)

'一只狡猾的猫和一只忠诚的狗住在一起，但相处得并不好，经常吵架。有一天，猫用毛线球捉弄狗，把毛线球绑在狗的尾巴上。狗很生气，追赶猫，他们打了起来。他们的主人被吵醒了，她很生气，训斥了他们，让他们和好。猫和狗都感到羞愧，向对方和主人道歉。从那天起，他们成了朋友，学会了尊重彼此，过上了幸福的生活。'

## Agents

In [65]:
import os
os.environ["GOOGLE_API_KEY"]

from langchain_google_genai import GoogleGenerativeAI
# 初始化语言模型，使用 Google 的 gemini-1.5-pro 模型，并将 temperature 设置为 0
llm = GoogleGenerativeAI(model="gemini-1.5-pro", temperature=0)

from langchain import SerpAPIWrapper
from langchain.agents import AgentType, initialize_agent
from langchain.tools import BaseTool, StructuredTool, Tool, tool

from dotenv import load_dotenv
load_dotenv()

os.environ["SERPAPI_API_KEY"]

search = SerpAPIWrapper()

In [66]:
tools = [Tool.from_function(
        func=search.run,
        name="Search",
        description="当你需要回答有关时事的问题时很有用"
    )]

# 初始化agent，使用零样本反应描述代理
agent = initialize_agent(tools, llm = llm, agent=AgentType.ZERO_SHOT_REACT_DESCRIPTION, verbose=True)

# 运行agent，询问静岭的上映时间
agent.run("寂静岭是什么时候上映的？")

  warn_deprecated(




[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mQuestion: 寂静岭是什么时候上映的？
Thought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;1m[1;3mThought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;1m[1;3mThought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;1m[1;3mThought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;1m[1;3mThought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;1m[1;3mThought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;1m[1;3mThought: 我需要搜索寂静岭的上映日期。
Action: Search
Action Input: 寂静岭 上映日期[0m
Observation: [36;1m[1;3mApril 21, 2006[0m
Thought:[32;

'Agent stopped due to iteration limit or time limit.'

# Start working with LLMs in Hugging Face Hub

In [79]:
#!pip install python-dotenv   #installing the required package
#!pip install huggingface_hub

#option 1: get your tokens from the .env file

import os
from dotenv import load_dotenv
load_dotenv()
os.environ["HUGGINGFACEHUB_API_TOKEN"]


'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'

In [1]:
#option 2: get the token with the getpass function

from getpass import getpass

HUGGINGFACEHUB_API_TOKEN = getpass()
HUGGINGFACEHUB_API_TOKEN

In [82]:
from langchain import PromptTemplate
from langchain import HuggingFaceHub

# 定义问题
question = "第一部法国电影是什么？？"

# 定义提示模板
template = """问题：{question}

答案：给出直接的答案"""

# 创建提示模板对象
prompt = PromptTemplate(template=template, input_variables=["question"])

In [81]:
repo_id = "tiiuae/falcon-7b-instruct"  
llm = HuggingFaceHub(
    repo_id=repo_id, model_kwargs={"temperature": 0.5, "max_length": 1000}
)
print(llm("第一部法国电影是什么？"))

第一部法国电影是什么？
法国电影是什么
法国电影是什么
法国电影是什么
法国电影是什么
法国电影是什么
法国电影是什么
法国电影是什么
法国电影


In [84]:
llm_chain = LLMChain(llm=llm, prompt=prompt)
print(llm_chain)

prompt=PromptTemplate(input_variables=['question'], template='问题：{question}\n\n答案：给出直接的答案') llm=HuggingFaceHub(client=<InferenceClient(model='tiiuae/falcon-7b-instruct', timeout=None)>, repo_id='tiiuae/falcon-7b-instruct', task='text-generation', model_kwargs={'temperature': 0.5, 'max_length': 1000})
