In [1]:
import os
from dotenv import load_dotenv

# 加载 .env 文件中的OpenAI API环境变量
load_dotenv()

True

# 一、通过Langchain中的HypotheticalDocumentEmbedder来实现HyDE

In [2]:
from langchain.chains import HypotheticalDocumentEmbedder, LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import OpenAI, OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document

In [3]:
# 测试数据
documents = [
    Document(page_content="Python 是一种高级编程语言，广泛用于数据科学和机器学习。"),
    Document(page_content="机器学习是人工智能的一个分支，专注于算法和统计模型。"),
    Document(page_content="深度学习是机器学习的一个子领域，使用神经网络进行建模。"),
]
query = "Python 在数据科学中的应用"

In [4]:
# 初始化基础嵌入模型
base_embeddings = OpenAIEmbeddings()
# 初始化语言模型
llm = OpenAI()

# 使用web_search提示加载HyDE
embeddings = HypotheticalDocumentEmbedder.from_llm(llm, base_embeddings, "web_search")

# 现在我们可以像使用任何嵌入类一样使用它
result = embeddings.embed_query(query)
result

[0.004511809907853603,
 0.007541260682046413,
 0.013308868743479252,
 -0.03086414746940136,
 -0.009172503836452961,
 0.0002251454716315493,
 -0.006036245264112949,
 -0.00874527357518673,
 0.009573840536177158,
 -0.03032039850950241,
 -0.0023481480311602354,
 0.014046811498701572,
 -0.009269600734114647,
 0.007586573250591755,
 -0.01202070526778698,
 -0.0013181023532524705,
 0.023601233959197998,
 -0.029983794316649437,
 0.0025617629289627075,
 0.01237673033028841,
 -0.0055572292767465115,
 0.013865563087165356,
 -7.56679946789518e-06,
 -0.00642787292599678,
 -0.02344587631523609,
 0.043240878731012344,
 0.003751210868358612,
 -0.01677849516272545,
 -0.018345007672905922,
 -0.003942169714719057,
 0.017697688192129135,
 -0.00937317218631506,
 -0.01613117754459381,
 -0.014694130048155785,
 -0.021244993433356285,
 -0.0018950249068439007,
 -0.011360440403223038,
 -0.0020633277017623186,
 0.0032851414289325476,
 0.004337034188210964,
 0.04953281208872795,
 0.017671795561909676,
 -0.002857911

In [5]:
docsearch1 = FAISS.from_documents(documents, embeddings)
similar_docs = docsearch1.similarity_search(query, k=2)
similar_docs

[Document(id='9bafd541-665d-4b4c-b4bd-4e5cb53ecb94', metadata={}, page_content='Python 是一种高级编程语言，广泛用于数据科学和机器学习。'),
 Document(id='0f3b5ba5-fd67-43c1-a153-f433acff3ada', metadata={}, page_content='深度学习是机器学习的一个子领域，使用神经网络进行建模。')]

## 生成多文档

In [6]:
# 初始化返回多个结果的语言模型
multi_llm = OpenAI(n=4, best_of=4)

# 使用多生成语言模型加载HyDE
multi_embeddings = HypotheticalDocumentEmbedder.from_llm(
    multi_llm, base_embeddings, "web_search"
)

# 嵌入查询
multi_result = multi_embeddings.embed_query("Python 在数据科学中的应用")
multi_result

[0.00030847577727399766,
 0.001642765593715012,
 0.0253218375146389,
 -0.03774215281009674,
 -0.019846493378281593,
 -0.004408886656165123,
 -0.0027945709880441427,
 -0.004642987158149481,
 0.0016793437534943223,
 -0.037430018186569214,
 0.0021426670718938112,
 0.0029230008367449045,
 -0.008824276737868786,
 0.0032123748678714037,
 -0.024515490978956223,
 0.008401595987379551,
 0.01792166940867901,
 -0.02264269068837166,
 -0.003895167028531432,
 0.020470760762691498,
 -0.0111587755382061,
 0.02952263504266739,
 -0.0028303363360464573,
 -0.00014549976913258433,
 -0.030537068843841553,
 0.04512931406497955,
 0.008999851532280445,
 -0.020223654806613922,
 -0.014449183829128742,
 -0.005901275668293238,
 0.028118032962083817,
 -0.018207792192697525,
 -0.013012068346142769,
 -0.019014136865735054,
 -0.020236659795045853,
 -0.0035277598071843386,
 -0.011015714146196842,
 0.0022385830525308847,
 -0.0033489333000034094,
 -0.00622966606169939,
 0.03683176264166832,
 0.02149820141494274,
 -0.0001

In [7]:
docsearch = FAISS.from_documents(documents, multi_embeddings)

In [8]:
similar_docs = docsearch.similarity_search(query, k=2)
similar_docs

[Document(id='d8430b9a-788e-4887-93e0-6d909844c4e8', metadata={}, page_content='Python 是一种高级编程语言，广泛用于数据科学和机器学习。'),
 Document(id='8bfff4df-f0ea-4f88-8c47-4dbe50e3e396', metadata={}, page_content='机器学习是人工智能的一个分支，专注于算法和统计模型。')]

# 二、通过自定义Prompt来实现HyDE

In [11]:
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain_openai import OpenAI
from langchain_openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
from langchain.schema import Document

# 1. 定义生成假设性文档的 Prompt
hyde_prompt = PromptTemplate(
    input_variables=["query"],
    template="请根据以下问题生成一个假设性文档，描述可能的答案内容：\n问题：{query}\n假设性文档："
)

# 2. 初始化 LLM 和 Embeddings
llm = OpenAI()  # 用于生成假设性文档
embeddings = OpenAIEmbeddings()  # 用于文档嵌入

# 3. 构建生成假设性文档的链
hyde_chain = hyde_prompt | llm

# 4. 定义检索器（假设已有文档库）
documents = [
    Document(page_content="Python 是一种高级编程语言，广泛用于数据科学和机器学习。"),
    Document(page_content="机器学习是人工智能的一个分支，专注于算法和统计模型。"),
    Document(page_content="深度学习是机器学习的一个子领域，使用神经网络进行建模。"),
]
vectorstore = FAISS.from_documents(documents, embeddings)  # 构建向量存储
retriever = vectorstore.as_retriever(search_kwargs={"k": 2})  # 检索 Top-3 文档

# 5. 实现 HyDE 流程
def hyde_retrieval(query):
    # 生成假设性文档
    hypothetical_document = hyde_chain.invoke(query)
    print(f"生成的假设性文档：{hypothetical_document}")

    # 使用假设性文档进行检索
    relevant_docs = retriever.invoke(hypothetical_document)
    print(f"检索到的相关文档：{relevant_docs}")

    return relevant_docs

# 6. 测试 HyDE
query = "Python 在数据科学中的应用"
relevant_docs = hyde_retrieval(query)

生成的假设性文档：
标题：Python在数据科学中的应用

简介：
Python是一种流行的编程语言，广泛应用于各种领域，包括数据科学。它的简洁性、易用性和强大的数据处理能力使其成为数据科学家们的首选工具。本文将介绍Python在数据科学中的应用，包括数据处理、数据分析和机器学习等方面。

数据处理：
Python拥有丰富的数据处理库，例如NumPy、Pandas和SciPy等。这些库可以帮助数据科学家们高效地处理大量数据，进行数据清洗、转换和整理。此外，Python还支持多种数据格式，如CSV、JSON和SQL数据库，使得数据科学家们可以轻松地读取、写入和操作不同类型的数据。

数据分析：
Python在数据分析方面也有很强的表现。其主要库之一是Matplotlib，
检索到的相关文档：[Document(id='b38d5dcb-e15a-4e92-9c3f-94d21fab8ea4', metadata={}, page_content='Python 是一种高级编程语言，广泛用于数据科学和机器学习。'), Document(id='e13b0d92-e8f0-4cbe-874e-553bc9bbb8e2', metadata={}, page_content='机器学习是人工智能的一个分支，专注于算法和统计模型。')]
