In [1]:
# -q: 这是pip的一个可选参数，表示"quiet"（安静模式）。它会减少命令执行时输出的信息量，使安装过程更加简洁清晰。
# -U: 这是pip的另一个可选参数，表示"upgrade"（升级）。它将确保安装的是指定包的最新版本，如果已经安装了旧版本，它将会把旧版本升级到最新版本。
# !pip install firecrawl-py faiss-cpu -q -U

In [2]:
from langchain_community.document_loaders import FireCrawlLoader


In [3]:
from langchain_huggingface import HuggingFaceEmbeddings

model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}
embeddings_hf = HuggingFaceEmbeddings(
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

  from tqdm.autonotebook import tqdm, trange


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]



1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [27]:
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import CharacterTextSplitter


def build_vector_retriever(firecrawl_api_key, scrape_url):
    loader = FireCrawlLoader(api_key=firecrawl_api_key, url=scrape_url, mode="scrape")
    documents = loader.load()
    text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=100)
    docs = text_splitter.split_documents(documents)
    db = FAISS.from_documents(docs, embeddings_hf)

    return db.as_retriever()

In [15]:
import os

os.environ["FIRECRAWL_API_URL"] = 'http://localhost:3002'
firecrawl_api_key = os.getenv('FIRECRAWL_API_URL')
print(firecrawl_api_key)

http://localhost:3002


In [28]:
FIRECRAWL_API_KEY = os.getenv('FIRECRAWL_API_URL')

retriever = build_vector_retriever("FIRECRAWL_API_KEY", "https://www.youxiake.com/lines.html?id=53455&spm=eyJmcm9tIjoxMDgwLCJvcmlnaW5hbF9pZCI6MH0")


Created a chunk of size 2424, which is longer than the specified 500
Created a chunk of size 600, which is longer than the specified 500
Created a chunk of size 743, which is longer than the specified 500
Created a chunk of size 559, which is longer than the specified 500
Created a chunk of size 688, which is longer than the specified 500
Created a chunk of size 549, which is longer than the specified 500
Created a chunk of size 544, which is longer than the specified 500
Created a chunk of size 805, which is longer than the specified 500
Created a chunk of size 1246, which is longer than the specified 500
Created a chunk of size 1724, which is longer than the specified 500
Created a chunk of size 1193, which is longer than the specified 500
Created a chunk of size 513, which is longer than the specified 500


In [29]:
from dotenv import load_dotenv
import os
from langchain_openai import ChatOpenAI

# 加载当前目录下的.env文件
# load_dotenv()
# load_dotenv(override=True) 会重新读取.env
load_dotenv(override=True)

# 现在可以像访问普通环境变量一样访问.env文件中的变量了
api_key = os.getenv('OPENAI_API_KEY')
base_url = os.getenv('OPENAI_API_BASE')

print(api_key)
print(base_url)

model = ChatOpenAI(
    openai_api_base=base_url,
    openai_api_key=api_key,
    model_name="moonshot-v1-8k",
    temperature=0.7,
)

sk-UGVpjuTwo2Q8pewoqUDfckw1A0pbSDli9ElFMeS9WareKknG
https://api.moonshot.cn/v1/


In [30]:
from langchain_core.runnables import RunnableParallel, RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.output_parsers import StrOutputParser


def build_qa_chain(retriever):
    prompt = ChatPromptTemplate.from_template(
        "Using the context below to answer user's question. If you can't find information within the context, simply answer I don't know.\n\n {context} {question}")

    chain = {"context": retriever, "question": RunnablePassthrough()} | prompt | model | StrOutputParser()

    return chain

In [31]:
chain = build_qa_chain(retriever=retriever)

chain.invoke("游侠客有哪些线路？")

'根据提供的网页内容，游侠客提供的主题旅行线路包括户外、摄影、亲子、深度人文、休闲度假和体育等。这些线路覆盖了不同的旅游目的地和活动类型，具体线路的详细信息没有在文档中列出。如果需要更详细的线路信息，可能需要访问游侠客的官方网站或与他们联系以获取更多信息。'

In [21]:
chain.invoke("请推荐一下特惠线路有哪些？")

'在提供的文本中，没有关于特惠线路的具体信息。因此，我无法推荐特惠线路。如果你想了解特惠线路，建议直接访问游侠客官方网站或联系客服获取最新信息。'

In [22]:
chain.invoke("腾格里五胡连穿，50KM沙漠徒步的旅游线路多少钱？")

"I don't know."

In [32]:
chain.invoke("瑜伽行·阴性之光一阶·8.6清迈阴瑜伽工作坊的具体行程是什么？")

'瑜伽行·阴性之光一阶·8.6清迈阴瑜伽工作坊的具体行程如下：\n\n天数：6天5晚\n出发：全国出发\n到达：清迈\n解散：清迈\n\nD1 第1天 各地-清迈\n- 全天：今天是自由集合的一天。组织方会根据大家当天的航班时间接机，入住清迈美好的静修中心静思之园（Suan Sati），开启6天5晚沉浸式工作坊。\n- 如果提前抵达了清迈，组织方也会在下午14点集体安排用车从清迈古城接大家到静修中心。\n- 熟悉静修中心环境，自由放松。晚上篝火聊天。\n\n重要提示：以上行程仅为参考，具体以实际签订合同为准。'

In [33]:
chain.invoke("瑜伽行·阴性之光一阶·8.6清迈阴瑜伽工作坊的第一天行程是什么，第一天住在哪里呢？")

'第一天的行程概述是自由集合的一天。根据大家的航班时间接机，入住清迈美好的静修中心静思之园（Suan Sati），开启6天5晚沉浸式工作坊。如果提前抵达了清迈，下午14点会集体安排用车从清迈古城接大家到静修中心。第一天晚上有篝火聊天的活动。所以，第一天住在清迈的静修中心静思之园（Suan Sati）。'

In [34]:
chain.invoke("据说第二天会有课程？具体有啥课程呢")

'第二天的课程安排如下：\n\n- 06:00～08:15：自我练习或参加静修中心内的瑜伽课。\n- 08:45：早餐。\n- 10:00～11:30：序列练习。\n- 11:30～12:30：理论研习，包括筋膜、阴阳、五气、疗愈原理等主题。\n- 13:00：午餐。\n- 14:30～16:30：每一个阴性体式的精讲与调整手法。\n- 16:30～17:15：教学语言与序列编排。\n- 17:17～17:30：瑜伽唱诵。\n- 18:00：晚餐。\n\n此外，课程还包括经典阴瑜伽体系的概述、身体疗愈的范围与概念、阴阳理论与呼吸法等内容。'