# 从初学者开始——Lanchain笔记

## 简介
Lanchain是一个开源的LLM开发框架，它提供了一个简单易用的接口，用于构建和训练LLM模型。本文将介绍Lanchain的基本原理和使用方法。

## 核心功能

### 1. LLM 调用能力
- 支持多种模型接口：OpenAI、Hugging Face、AzureOpenAI 等
- Fake LLM 支持，用于测试
- 支持流模式输出（逐字返回，类似打字效果）

### 2. 缓存与记录
- 多种缓存支持：
  - 内存缓存 (in-mem)
  - SQLite
  - Redis
  - SQL
- 用量记录功能

### 3. Prompt 相关
- 灵活的 Prompt 管理
- 支持各种自定义模板

### 4. 文档处理
- 多样化文档加载器：
  - Email
  - Markdown
  - PDF
  - Youtube
  等
- 文档分割器
- 索引支持

### 5. 向量处理
- 文本向量化
- 向量存储与搜索支持：
  - Chroma
  - Pinecone
  - Qdrand

### 6. Chains
- LLMChain
- 各种工具 Chain
- LangChainHub 支持

### 简单接入
#### 火山引擎——Deepseek R1模型接入
使用火山引擎提供的openai sdk接入Deepseek R1模型。

目前火山引擎每个月有免费的额度，可以到下面的网址领取：https://www.volcengine.com/

In [None]:
import os
from openai import OpenAI
os.environ["DSR1_API_KEY"] = 'your apikey'

# 
client = OpenAI(
    api_key = os.environ.get("DSR1_API_KEY"),
    base_url = "https://ark.cn-beijing.volces.com/api/v3",
)


print("----- standard request -----")
completion = client.chat.completions.create(
    model = "deepseek-r1-250120",  # your model endpoint ID
    messages = [
        {"role": "system", "content": "你是人工智能助手"},
        {"role": "user", "content": "常见的十字花科植物有哪些？"},
    ],
)
print(completion.choices[0].message.content)

# Streaming:
print("----- streaming request -----")
stream = client.chat.completions.create(
    model = "deepseek-r1-250120",  # your model endpoint ID
    messages = [
        {"role": "system", "content": "你是人工智能助手"},
        {"role": "user", "content": "常见的十字花科植物有哪些？"},
    ],
    stream=True
)

for chunk in stream:
    if not chunk.choices:
        continue
    print(chunk.choices[0].delta.content, end="")
print()


----- standard request -----


十字花科（Brassicaceae，旧称Cruciferae）植物种类繁多，许多是重要的蔬菜、油料作物或观赏植物。以下是常见的十字花科植物：

---

### **1. 常见蔬菜类**
- **西兰花**（*Brassica oleracea var. italica*）：富含维生素和膳食纤维。
- **花椰菜**（*Brassica oleracea var. botrytis*）：白色或彩色的花球是主要食用部分。
- **卷心菜（包菜）**（*Brassica oleracea var. capitata*）：叶片包裹成球形。
- **羽衣甘蓝**（*Brassica oleracea var. sabellica*）：叶片卷曲，常用于健康饮食。
- **芥蓝**（*Brassica oleracea var. alboglabra*）：中国常见绿叶蔬菜。
- **大头菜（芜菁）**（*Brassica rapa*）：根部膨大，可食用。
- **白萝卜**（*Raphanus sativus*）：根茎类蔬菜，生熟皆可食用。
- **芥菜**（*Brassica juncea*）：包括叶用芥菜（如雪里蕻）和榨菜（茎用芥菜）。
- **芝麻菜（火箭菜）**（*Eruca sativa*）：带有辛辣味的沙拉菜。

---

### **2. 油料作物**
- **油菜**（*Brassica napus*）：种子可榨油（菜籽油），也用于观赏（油菜花田）。
- **芥菜型油菜**（*Brassica juncea* var. *tumida*）：部分品种用于榨油。

---

### **3. 调味品及香料**
- **辣根**（*Armoracia rusticana*）：根部磨碎后制成辣根酱，味道辛辣。
- **芥末**：原料包括黑芥（*Brassica nigra*）和黄芥（*Sinapis alba*）的种子。

---

### **4. 观赏植物**
- **紫罗兰**（*Matthiola incana*）：花朵芳香，常用于园艺。
- **香雪球**（*Lobularia maritima*）：小型花卉，适合花坛或盆栽。

---

### **5. 野生或野菜类**
- **荠菜**（*Ca

#### 用Openai SDK的方式调用doubao的api

相关示例来自火山引擎的官方文档

In [None]:
import os
from openai import OpenAI

os.environ["Doubao_API_KEY"] = 'your_api_key'
# 请确保您已将 API Key 存储在环境变量 ARK_API_KEY 中
# 初始化Openai客户端，从环境变量中读取您的API Key
client = OpenAI(
    # 此为默认路径，您可根据业务所在地域进行配置
    base_url="https://ark.cn-beijing.volces.com/api/v3",
    # 从环境变量中获取您的 API Key
    api_key=os.environ.get("Doubao_API_KEY"),
)

# Non-streaming:
print("----- standard request -----")
completion = client.chat.completions.create(
    # 指定您创建的方舟推理接入点 ID，此处已帮您修改为您的推理接入点 ID
    model="doubao-1-5-lite-32k-250115",
    messages=[
        {"role": "system", "content": "你是人工智能助手"},
        {"role": "user", "content": "常见的十字花科植物有哪些？"},
    ],
)
print(completion.choices[0].message.content)

# Streaming:
print("----- streaming request -----")
stream = client.chat.completions.create(
    # 指定您创建的方舟推理接入点 ID，此处已帮您修改为您的推理接入点 ID
    model="doubao-1-5-lite-32k-250115",
    messages=[
        {"role": "system", "content": "你是人工智能助手"},
        {"role": "user", "content": "常见的十字花科植物有哪些？"},
    ],
    # 响应内容是否流式返回
    stream=True,
)
for chunk in stream:
    if not chunk.choices:
        continue
    print(chunk.choices[0].delta.content, end="")
print()

----- standard request -----
十字花科植物种类繁多，在日常生活中较为常见的有以下这些：
1. **蔬菜类**
    - **白菜**：包括大白菜、小白菜等多个品种，营养丰富，是人们餐桌上常见的蔬菜。
    - **萝卜**：品种多样，如白萝卜、青萝卜、胡萝卜等，可生食、熟食或腌制。
    - **甘蓝**：有结球甘蓝（圆白菜）、羽衣甘蓝等。结球甘蓝口感脆嫩，羽衣甘蓝则常作为观赏植物种植，也可食用。
    - **花椰菜**：又称菜花，其花球可供食用，富含维生素和膳食纤维。
    - **西兰花**：同样是十字花科蔬菜，营养成分与花椰菜相似，但颜色为绿色，近年来深受消费者喜爱。
2. **油料作物**
    - **油菜**：是重要的油料作物之一，种子可榨油，菜籽油是常见的食用油。同时，油菜花在春季盛开时，形成美丽的花海景观。
3. **观赏植物**
    - **紫罗兰**：花朵色彩丰富，有紫色、白色等，花形优美，常被用于花坛、花境的布置或盆栽观赏。
    - **桂竹香**：花色鲜艳，有橙黄、橙红等颜色，具有较高的观赏价值，常种植于庭院、公园等地。
4. **药用植物**
    - **菘蓝**：其根（板蓝根）和叶（大青叶）是常用的中药材，具有清热解毒、凉血利咽等功效。
    - **荠菜**：全草可入药，有和脾、利水、止血、明目的功效，是一种常见的野菜，也可作为蔬菜食用。 
----- streaming request -----
十字花科植物种类繁多，以下是一些常见的十字花科植物：
1. **白菜类**：如大白菜、小白菜、菜薹等。
2. **甘蓝类**：包括结球甘蓝（圆白菜）、花椰菜（菜花）、青花菜、球茎甘蓝等。
3. **芥菜类**：例如榨菜、雪里蕻、大头菜等。
4. **萝卜**：各种萝卜品种，如白萝卜、胡萝卜等。
5. **油菜**：包括油用油菜和观赏用的羽衣甘蓝等。
6. **荠菜**：常见的野菜。
7. **紫罗兰**：常作为观赏花卉。 


#### 用langchain的方法简单调用doubao的api

In [None]:
import os
from typing import Any, List, Optional, Dict
from langchain.llms.base import LLM
from langchain.callbacks.manager import CallbackManagerForLLMRun
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from openai import OpenAI
# 设置API密钥，os是设置环境变量
os.environ["Doubao_API_KEY"] = 'your_api_key'

# 自定义豆包 LLM 类
class DoubaoLLM(LLM):
    model_name: str = "doubao-1-5-lite-32k-250115"
    
    def __init__(self):
        super().__init__()
        self._client = OpenAI(
            base_url="https://ark.cn-beijing.volces.com/api/v3",
            api_key=os.environ.get("Doubao_API_KEY")
        )
    
    @property
    def client(self) -> Any:
        return self._client

    @client.setter
    def client(self, value: Any):
        self._client = value

    def _call(self, prompt: str, **kwargs) -> str:
        completion = self.client.chat.completions.create(
            model=self.model_name,
            messages=[
                {"role": "user", "content": prompt}
            ]
        )
        return completion.choices[0].message.content

    @property
    def _llm_type(self) -> str:
        return "doubao"

# 创建LLM实例
llm = DoubaoLLM()

# 创建提示模板
prompt = PromptTemplate(
    input_variables=["question"],
    template="请回答下面的问题：{question}"
)

# 创建链
chain = LLMChain(llm=llm, prompt=prompt)

# 使用示例
response = chain.run("常见的十字花科植物有哪些？")
print("通过Chain调用的结果：")
print(response)
print("\n")

# 直接使用LLM
direct_response = llm("请介绍一下人工智能")
print("直接调用LLM的结果：")
print(direct_response)


# del os.environ["变量名"]

通过Chain调用的结果：
十字花科植物种类繁多，以下是一些常见的十字花科植物：
1. **白菜类**：包括大白菜、小白菜、菜薹等。
2. **甘蓝类**：如结球甘蓝（圆白菜）、花椰菜（菜花）、青花菜、球茎甘蓝等。
3. **芥菜类**：像叶用芥菜（雪里蕻）、茎用芥菜（榨菜）、根用芥菜等。
4. **萝卜**：各种萝卜品种。
5. **油菜**：包括白菜型油菜、甘蓝型油菜、芥菜型油菜等。
6. **荠菜**：常见的野菜。
7. **紫罗兰**：观赏植物。
8. **二月兰**：常见的野花。 


直接调用LLM的结果：
人工智能（Artificial Intelligence，简称AI）是一门研究如何使计算机系统能够模拟人类智能的学科。它旨在让计算机具备感知、理解、学习、推理和决策等能力，以实现智能化的任务执行。

人工智能涵盖了多个领域和技术，以下是一些主要方面的介绍：

### 发展历程
人工智能的概念最早可以追溯到20世纪50年代。达特茅斯会议被广泛认为是人工智能作为一门独立学科正式诞生的标志。此后，经历了多个发展阶段，在不同时期取得了不同程度的进展，包括早期的理论探索、后来专家系统的兴起，以及近年来深度学习推动下的快速发展。

### 关键技术
- **机器学习**：这是人工智能的核心技术之一，它使计算机能够自动从数据中学习模式和规律，无需明确的编程指令。常见的机器学习算法包括监督学习（用于分类和回归问题）、无监督学习（用于数据聚类和降维）和强化学习（通过与环境交互并获得奖励来学习最优行为）。
- **深度学习**：是机器学习的一个分支领域，它基于人工神经网络，特别是深度神经网络，如多层感知机、卷积神经网络（CNN）、循环神经网络（RNN）及其变体（如长短期记忆网络LSTM和门控循环单元GRU）。深度学习在图像识别、语音识别、自然语言处理等领域取得了巨大成功。
- **自然语言处理（NLP）**：致力于使计算机能够理解、处理和生成人类语言。这包括文本分类、机器翻译、问答系统、语音合成等任务。NLP技术利用机器学习和深度学习方法来处理语言数据，理解语义和语法结构。
- **计算机视觉**：专注于让计算机理解和解释图像和视频内容。它涉及目标检测、图像分割、人脸识别、视频分析等应用。通过卷积神经网络等技术，计算机视觉系统能够识别图像中的物体、场景和动作。

###

### 通过langchain实现一个简单的问答机器人,