获取大模型

In [20]:
#导入 dotenv 库的 load_dotenv 函数，用于加载环境变量文件（.env）中的配置
from dotenv import load_dotenv
from langchain_openai import ChatOpenAI
import os

dotenv.load_dotenv()  
#加载当前目录下的 .env 文件
os.environ['OPENAI_API_KEY'] = os.getenv("DASHSCOPE_API_KEY")
os.environ['OPENAI_BASE_URL'] = os.getenv("DASHSCOPE_BASE_URL")

#创建大模型实例
llm = ChatOpenAI(model="qwen-turbo") 
# 直接提供问题，并调用llm
response = llm.invoke("什么是大模型？")
print(response)

content='“大模型”通常指的是**大规模机器学习模型**，特别是在人工智能（AI）领域，尤其是**深度学习**中，指参数量非常庞大、训练数据量也非常大的模型。这些模型能够捕捉更复杂的模式，具有更强的表达能力和泛化能力。\n\n---\n\n### 一、什么是“大模型”？\n\n**大模型**（Large Model）一般是指：\n\n- **参数量巨大**：比如超过10亿（1B）、100亿（10B）、甚至数千亿（1T）个参数。\n- **训练数据量庞大**：使用海量文本、图像或其他数据进行训练。\n- **具备强大的通用性**：可以在多种任务上表现良好，而不仅仅是特定任务。\n\n---\n\n### 二、大模型的主要特点\n\n| 特点 | 说明 |\n|------|------|\n| 参数量大 | 比传统模型多出几个数量级，如GPT-3有1750亿参数 |\n| 训练数据多 | 使用数TB到PB级别的数据进行训练 |\n| 表达能力强 | 能理解和生成自然语言、代码、图像等复杂内容 |\n| 通用性强 | 不仅能做特定任务（如分类），还能处理多种任务（如问答、翻译、推理） |\n| 需要强大算力 | 训练和推理都需要高性能计算资源（如GPU/TPU集群） |\n\n---\n\n### 三、常见类型的大模型\n\n#### 1. **语言模型（Language Models）**\n- 如：GPT系列（GPT-3, GPT-4）、BERT、T5、Qwen（通义千问）、ChatGLM、LLaMA 等\n- 功能：文本生成、问答、对话、翻译、代码生成等\n\n#### 2. **视觉模型（Vision Models）**\n- 如：CLIP、ViT（Vision Transformer）\n- 功能：图像识别、图像生成、图文理解等\n\n#### 3. **多模态模型（Multimodal Models）**\n- 如：GPT-4（支持图文输入）、CLIP、Flamingo\n- 功能：同时处理文本、图像、音频等多种信息\n\n#### 4. **代码生成模型**\n- 如：Codex、GitHub Copilot、CodeLlama\n- 功能：根据自然语言生成代码、代码补全、代码解释等\n\n---\n\n### 四、大模型的应用场景\n\n- **

2、使用提示词模板

In [21]:
from langchain_core.prompts import ChatPromptTemplate

# 需要注意的一点是，这里需要指明具体的role，在这里是system和用户
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者"),
    ("user", "{input}")  # {input}为变量
])

# 我们可以把prompt和具体llm的调用和在一起。
chain = prompt | llm
message = chain.invoke({"input": "大模型中的LangChain是什么?"})
print(message)

# print(type(message))

content='LangChain 是一个用于构建 **基于大语言模型（LLM）** 应用程序的框架，它提供了一套工具、库和接口，使开发者能够更高效地设计、训练和部署基于大模型的系统。LangChain 不仅仅是一个简单的 API 调用封装，而是一个全面的开发平台，支持从数据处理、模型集成到应用构建的全流程。\n\n---\n\n## 一、LangChain 的核心概念\n\n### 1. **Chain（链）**\n- Chain 是 LangChain 中的核心抽象，表示一系列操作的组合。\n- 每个 Chain 可以是：\n  - 一个单独的 LLM 操作\n  - 一个提示模板 + LLM 的组合\n  - 多个 Chain 的组合（例如：将用户输入通过多个步骤处理）\n\n#### 示例：\n```python\nfrom langchain.chains import LLMChain\nfrom langchain.prompts import PromptTemplate\nfrom langchain.llms import OpenAI\n\nprompt = PromptTemplate.from_template("What is the {subject} of {object}?")\nllm = OpenAI(temperature=0)\nchain = LLMChain(llm=llm, prompt=prompt)\n\nresponse = chain.run(subject="color", object="sky")\nprint(response)\n```\n\n### 2. **Prompt（提示）**\n- Prompt 是 LLM 的输入，通常由模板生成。\n- LangChain 提供了多种 Prompt 模板类型（如 `PromptTemplate`, `FewShotPromptTemplate` 等），方便构造复杂的输入。\n\n### 3. **Memory（记忆）**\n- Memory 用于在多个 Chain 之间传递状态或上下文信息。\n- 常见的 Memory 类型包括：\n  - `SimpleMemory`\n  - `ConversationBufferMemory`\n  - `Vect

3、 使用输出解析器

In [22]:
from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser,JsonOutputParser

# 初始化模型
llm = ChatOpenAI(model="qwen-turbo")

# 创建提示模板
prompt = ChatPromptTemplate.from_messages([
    ("system", "你是世界级的技术文档编写者。"),
    ("user", "{input}")
])

# 使用输出解析器
# output_parser = StrOutputParser()
output_parser = JsonOutputParser()

# 将其添加到上一个链中
# chain = prompt | llm
chain = prompt | llm | output_parser

# 调用它并提出同样的问题。答案是一个字符串，而不是ChatMessage
# chain.invoke({"input": "LangChain是什么?"})
chain.invoke({"input": "LangChain是什么? 用JSON格式回复，问题用question，回答用answer"})

{'question': 'LangChain是什么?',
 'answer': 'LangChain 是一个用于构建基于语言模型的应用程序的框架，它提供了一系列工具和库，帮助开发者更高效地集成和操作大型语言模型（LLM）。LangChain 支持多种语言模型，并提供了数据连接、链式处理、代理等功能，使开发者能够轻松构建复杂的自然语言处理应用。'}

4、使用向量存储

In [28]:
# 导入和使用 WebBaseLoader
from langchain_community.document_loaders import WebBaseLoader
import bs4

loader = WebBaseLoader(
        web_path="https://www.gov.cn/zhengce/content/202512/content_7050164.htm",
        bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
    )
docs = loader.load()
# print(docs)

# 对于嵌入模型，这里通过 API调用
from langchain_openai import OpenAIEmbeddings

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")


from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 使用分割器分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
documents = text_splitter.split_documents(docs)
print(len(documents))
# 向量存储  embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
vector = FAISS.from_documents(documents, embeddings)

6


NotFoundError: Error code: 404 - {'error': {'message': 'The model `text-embedding-ada-002` does not exist or you do not have access to it.', 'type': 'invalid_request_error', 'param': None, 'code': 'model_not_found'}, 'request_id': '6bb90920-1420-4138-918f-25ef1be1b606'}

In [65]:
import os
from openai import OpenAI

input_text = "衣服的质量杠杠的"

client = OpenAI(
    # 若没有配置环境变量，请用阿里云百炼API Key将下行替换为：api_key="sk-xxx",
    # 新加坡和北京地域的API Key不同。获取API Key：https://help.aliyun.com/zh/model-studio/get-api-key
    api_key=os.getenv("DASHSCOPE_API_KEY"),  
    # 以下是北京地域base-url，如果使用新加坡地域的模型，需要将base_url替换为：https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"
)

from langchain_community.document_loaders import WebBaseLoader
import bs4

loader = WebBaseLoader(
        web_path="https://www.gov.cn/zhengce/content/202512/content_7050164.htm",
        bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
    )
docs = loader.load()
# print(docs)
document_texts = [doc.page_content for doc in docs]
# print(document_texts)

completion = client.embeddings.create(
    model="text-embedding-v4",
    input=document_texts
)

# print(completion.model_dump_json())


from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
documents = text_splitter.split_documents(document_texts)
print(len(documents))
# 向量存储  embeddings 会将 documents 中的每个文本片段转换为向量，并将这些向量存储在 FAISS 向量数据库中
vector = FAISS.from_documents(documents, embeddings)


AttributeError: 'str' object has no attribute 'page_content'

In [68]:
import os
from openai import OpenAI
from langchain_community.document_loaders import WebBaseLoader
import bs4
from langchain.schema import Document  # 引入 Document 类
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

# 设置 API 密钥
client = OpenAI(
    api_key=os.getenv("DASHSCOPE_API_KEY"),
    base_url="https://dashscope.aliyuncs.com/compatible-mode/v1"  # 阿里云百炼的 base URL
)

# 加载网页内容
loader = WebBaseLoader(
    web_path="https://www.gov.cn/zhengce/content/202512/content_7050164.htm",
    bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
)
docs = loader.load()

# 提取文本内容
document_texts = [doc.page_content for doc in docs]

# 创建 Document 对象列表，确保每个文档包含 'page_content'
documents = [Document(page_content=text) for text in document_texts]

# 生成嵌入（embeddings）
completion = client.embeddings.create(
    model="text-embedding-v4",  # 使用百炼嵌入模型
    input=document_texts  # 输入文本列表
)

# 获取嵌入向量
embeddings = [embedding.embedding for embedding in completion.data]

# 分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
split_documents = text_splitter.split_documents(documents)

# 确保我们传递的是纯文本字符串
split_texts = [doc.page_content for doc in split_documents]

# 使用阿里云百炼支持的嵌入模型
embeddings = OpenAIEmbeddings(model="text-embedding-v4")  # 替换为你可用的有效模型
print(embeddings)

# 将文本嵌入存储到 FAISS 向量数据库
vector_store = FAISS.from_texts(split_texts, embeddings)


client=<openai.resources.embeddings.Embeddings object at 0x000001DF0F23C950> async_client=<openai.resources.embeddings.AsyncEmbeddings object at 0x000001DF0F0D8860> model='text-embedding-v4' dimensions=None deployment='text-embedding-ada-002' openai_api_version=None openai_api_base=None openai_api_type=None openai_proxy=None embedding_ctx_length=8191 openai_api_key=SecretStr('**********') openai_organization=None allowed_special=None disallowed_special=None chunk_size=1000 max_retries=2 request_timeout=None headers=None tiktoken_enabled=True tiktoken_model_name=None show_progress_bar=False model_kwargs={} skip_empty=False default_headers=None default_query=None retry_min_seconds=4 retry_max_seconds=20 http_client=None http_async_client=None check_embedding_ctx_length=True


BadRequestError: Error code: 400 - {'error': {'message': '<400> InternalError.Algo.InvalidParameter: Value error, contents is neither str nor list of str.: input.contents', 'type': 'InvalidParameter', 'param': None, 'code': 'InvalidParameter'}, 'id': 'dbf6a226-55f8-4419-b892-dc883788c0c4', 'request_id': 'dbf6a226-55f8-4419-b892-dc883788c0c4'}

In [6]:
from langchain_community.embeddings import DashScopeEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_core.example_selectors import SemanticSimilarityExampleSelector
import os
import dotenv

dotenv.load_dotenv()

# 创建阿里云的嵌入模型实例
embeddings_model = DashScopeEmbeddings(
    model="text-embedding-v4",  # 选择适当的模型，例如 text-embedding-v4
    dashscope_api_key=os.getenv("DASHSCOPE_API_KEY"),
    # base_url=os.getenv("DASHSCOPE_API_KEY")
)

from langchain_community.document_loaders import WebBaseLoader
import bs4

# 加载网页内容
loader = WebBaseLoader(
    web_path="https://www.gov.cn/zhengce/content/202512/content_7050164.htm",
    bs_kwargs=dict(parse_only=bs4.SoupStrainer(id="UCAP-CONTENT"))
)
docs = loader.load()
# print(docs)

# 提取文本内容
document_texts = [doc.page_content for doc in docs]
# print(document_texts)

# example_selector = SemanticSimilarityExampleSelector.from_examples(
#     docs,
#     embeddings_model,  # 使用阿里云的嵌入模型
#     Chroma,
#     k=1,
# )


question = "这个网址内容说了什么?"
selected_examples = example_selector.select_examples({"question": question})
print(f"与输入最相似的示例：{selected_examples}")


TypeError: 'Document' object is not subscriptable

5 RAG(检索增强生成)

In [None]:
from langchain_core.prompts import PromptTemplate

retriever = vector.as_retriever()
retriever.search_kwargs = {"k": 3}
docs = retriever.invoke("建设用地使用权是什么？")

# for i,doc in enumerate(docs):
#     print(f"⭐第{i+1}条规定：")
#     print(doc)

# 6.定义提示词模版
prompt_template = """
你是一个问答机器人。
你的任务是根据下述给定的已知信息回答用户问题。
确保你的回复完全依据下述已知信息。不要编造答案。
如果下述已知信息不足以回答用户的问题，请直接回复"我无法回答您的问题"。

已知信息:
{info}

用户问：
{question}

请用中文回答用户问题。
"""
# 7.得到提示词模版对象
template = PromptTemplate.from_template(prompt_template)

# 8.得到提示词对象
prompt = template.format(info=docs, question='最近发生的新闻是什么？')

## 9. 调用LLM
response = llm.invoke(prompt)
print(response.content)

6、使用Agent

In [None]:
from langchain.tools.retriever import create_retriever_tool

# 检索器工具
retriever_tool = create_retriever_tool(
    retriever,
    "CivilCodeRetriever",
    "搜索有关中华人民共和国民法典的信息。关于中华人民共和国民法典的任何问题，您必须使用此工具!",
)

tools = [retriever_tool]

from langchain import hub
from langchain.agents import create_openai_functions_agent
from langchain.agents import AgentExecutor

# https://smith.langchain.com/hub
prompt = hub.pull("hwchase17/openai-functions-agent")

agent = create_openai_functions_agent(llm, tools, prompt)
agent_executor = AgentExecutor(agent=agent, tools=tools, verbose=True)

# 运行代理
agent_executor.invoke({"input": "最近发生的新闻是什么？"})

OLLAMA-Test

In [14]:
from langchain.embeddings import BaseEmbedding
import requests

class OllamaEmbedding(BaseEmbedding):
    def __init__(self, model_name="llama", api_url="http://localhost:11434/v1/complete"):
        self.model_name = model_name
        self.api_url = api_url

    def embed_query(self, query: str):
        """
        调用 Ollama API 生成查询的嵌入。
        """
        data = {
            "model": self.model_name,
            "prompt": query,
            "max_tokens": 100,  # 可根据需要调整
        }
        response = requests.post(self.api_url, json=data)
        if response.status_code == 200:
            return response.json()['choices'][0]['text']
        else:
            raise Exception(f"Error: {response.status_code}, {response.text}")

    def embed_documents(self, documents: list):
        """
        批量调用 Ollama API 生成文档的嵌入。
        """
        return [self.embed_query(doc) for doc in documents]


ImportError: cannot import name 'BaseEmbedding' from 'langchain.embeddings' (D:\zy\software\Miniconda3\install\envs\myenv\Lib\site-packages\langchain\embeddings\__init__.py)

In [13]:
from langchain.vectorstores import FAISS
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from langchain.agents import initialize_agent, Tool, AgentType

# 创建 Ollama 嵌入模型实例
ollama_embedding = OllamaEmbedding(model_name="llama", api_url="http://localhost:11434/v1/complete")

# 示例文档
documents = [
    "Ollama is a framework for large language models.",
    "LangChain integrates with different LLMs for various NLP tasks.",
    "FAISS is a library for efficient similarity search and clustering of dense vectors."
]

# 使用 Ollama 嵌入模型生成文档的嵌入
document_embeddings = ollama_embedding.embed_documents(documents)

# 创建 FAISS 向量存储
faiss_store = FAISS.from_texts(documents, ollama_embedding)

# 创建查询模板
query_prompt = PromptTemplate(
    input_variables=["query"],
    template="Find the most relevant document for the following query: {query}"
)

# 设置用于检索的检索链
retriever = faiss_store.as_retriever()

# 创建问答链
qa_chain = RetrievalQA.from_chain_type(
    llm=ollama_embedding,
    retriever=retriever,
    return_source_documents=True
)

# 测试查询
query = "What is Ollama?"
response = qa_chain.run(query)

print(response)


Error: 404 404 page not found
