# 1、获取大模型

In [1]:
# 导入 dotenv 库的 load_dotenv 函数，用于加载环境变量文件（.env）中的配置
import dotenv
from langchain_openai import ChatOpenAI
import os

dotenv.load_dotenv() # 加载当前目录下的 .env 文件

os.environ['OPENAI_API_KEY'] = os.getenv('DEEPSEEK_API_KEY')
os.environ['OPENAI_BASE_URL'] = os.getenv('DEEPSEEK_API_URL')

# 创建大模型实例
llm = ChatOpenAI(model="deepseek-chat") # 默认使用 gpt-3.5-turbo

# 直接提供问题，并调用llm
response = llm.invoke("什么是大模型？")
print(response)

content='大模型（Large Language Model，简称LLM）是指**参数量巨大、训练数据海量、计算资源消耗庞大的深度学习模型**，通常指基于Transformer架构的自然语言处理模型。以下是其核心特点的总结：\n\n---\n\n### **1. 核心特征**\n- **参数量巨大**：通常包含**数十亿到数万亿**参数（例如GPT-3有1750亿参数，GPT-4达约1.8万亿）。\n- **海量训练数据**：使用互联网规模的文本数据（如网页、书籍、论文等）进行训练。\n- **强大泛化能力**：无需针对特定任务重新训练，即可通过提示（Prompt）完成多种任务（翻译、写作、代码生成等）。\n- **涌现能力**：当模型规模超过临界点，会表现出小模型不具备的能力（如复杂推理、上下文学习）。\n\n---\n\n### **2. 关键技术原理**\n- **Transformer架构**：依赖自注意力机制（Self-Attention）捕捉长距离依赖关系。\n- **预训练+微调范式**：\n  - **预训练**：通过无监督学习从海量文本中学习语言规律。\n  - **微调/提示工程**：用少量标注数据或指令调整模型以适应具体任务。\n- **缩放定律（Scaling Laws）**：模型性能随参数、数据、计算量的增加而可预测提升。\n\n---\n\n### **3. 典型代表模型**\n- **GPT系列**（OpenAI）：生成式预训练模型，代表有ChatGPT、GPT-4。\n- **BERT系列**（Google）：双向编码模型，适用于理解类任务。\n- **Gemini**（Google）：多模态大模型，支持文本、图像、音频。\n- **LLaMA系列**（Meta）：开源模型，推动社区发展（如Alpaca、Vicuna等衍生模型）。\n- **Claude**（Anthropic）：注重安全性与对齐的对话模型。\n- **国内模型**：百度文心一言、阿里通义千问、讯飞星火、智谱GLM等。\n\n---\n\n### **4. 应用场景**\n- **内容生成**：文本创作、代码编写、营销文案。\n- **智能问答**：客服助手、知识库问答。\n- **多模态交互**：图像描述、视频分析、语音合成。\n- **科学研究**：文献摘要

# 2、使用提示词模板

In [15]:
from langchain_core.prompts import ChatPromptTemplate

# 需要注意的一点是，这里需要指明具体的role，在这里是system和用户
prompt = ChatPromptTemplate.from_messages([
    ("system","你是世界级的技术文档编写者"),
    ("user","{input}") # {input}为变量
])

# 我们可以把prompt和具体llm的调用和在一起
chain = prompt | llm
message = chain.invoke({"input":"大模型中的LangChain是什么？"})
print(message)

# print(type(message))

content='**LangChain** 是一个用于构建**基于大语言模型（LLM）的应用**的开源框架。它不是一个模型本身，而是一个强大的“工具箱”和“脚手架”，旨在帮助开发者更轻松、更高效地将大语言模型（如GPT-4、Llama等）连接到各种数据源，并构建出功能强大、可交互的应用程序。\n\n简单来说，LangChain解决了大模型应用中的几个核心难题：**数据连接、序列化调用、记忆能力和复杂任务分解**。\n\n### LangChain的核心价值与主要组件\n\n你可以把LangChain想象成连接大模型与现实世界应用的“桥梁”和“粘合剂”。它的主要组成部分包括：\n\n1. **组件与链**\n    *   **组件**： 提供各种模块化工具，例如：\n        *   **模型I/O**： 与不同LLM（OpenAI、Anthropic、开源模型等）和嵌入模型交互的统一接口。\n        *   **数据连接**： 从文档（PDF、Word、网页）、数据库、API等加载、转换、查询和存储数据。核心是**检索增强生成**。\n        *   **记忆**： 为对话或多次交互提供短期/长期记忆能力（如记住之前的聊天内容）。\n        *   **代理**： LLM的“大脑”，可以决定调用哪些工具（如计算器、搜索引擎、数据库查询）来完成任务。\n    *   **链**： 将多个组件（或链）按特定顺序组合起来，完成一个复杂任务。例如，“加载文档 -> 分割文本 -> 创建向量索引 -> 根据问题检索 -> 生成答案”就是一个典型的检索链。\n\n2. **检索增强生成**\n    *   这是LangChain最核心的应用场景之一。它通过以下步骤解决大模型“知识陈旧”和“幻觉”问题：\n        1.  将你的私有或最新数据（如公司文档、知识库）进行处理和向量化存储。\n        2.  当用户提问时，先从你的数据中检索出最相关的信息片段。\n        3.  将这些信息片段作为上下文，连同问题一起发送给大模型，让它生成基于这些可靠信息的答案。\n    *   这样，模型就能回答其训练数据之外的最新或特定领域的问题。\n\n3. **代理**\n    *   代理让LLM具备了**使用工具**的能力。