<a href="https://colab.research.google.com/github/xiangshenyu/nlp-classwork/blob/main/Untitled2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
!nvidia-smi

Tue Dec  2 11:26:28 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.54.15              Driver Version: 550.54.15      CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  Tesla T4                       Off |   00000000:00:04.0 Off |                    0 |
| N/A   65C    P8             11W /   70W |       0MiB /  15360MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
                                                

In [None]:
# 安装 LangChain 全家桶、向量库 ChromaDB、HuggingFace 组件
!pip install -q langchain langchain-community langchain-huggingface chromadb
# 安装模型加载和量化所需的库 (在 GPU 上跑模型必须)
!pip install -q transformers accelerate bitsandbytes sentence-transformers

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/67.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m6.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m109.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m21.4/21.4 MB[0m [31m34.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m278.2/278.2 kB[0m [31m15.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m66.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m63.8 MB/s[0m eta [36m0:00:00[

In [None]:
import torch
from langchain_huggingface import HuggingFaceEmbeddings, HuggingFacePipeline
from langchain_community.vectorstores import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.prompts import PromptTemplate
from langchain_core.runnables import RunnablePassthrough
from langchain_core.output_parsers import StrOutputParser
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline, BitsAndBytesConfig

# ================= 1. 准备数据 (模拟知识库) =================
# 这里直接创建一个文本文件作为演示。如果是作业，你可以替换为你自己的 txt 或 pdf 读取逻辑。
with open("knowledge.txt", "w", encoding="utf-8") as f:
    f.write("""
    关于“极光项目”的内部资料：
    极光项目（Project Aurora）是公司在2025年启动的秘密研发计划。
    该项目旨在开发下一代量子加密通讯设备。
    项目负责人是李博士，核心实验室位于瑞士苏黎世。
    目前的进度是：原型机已完成测试，预计2026年Q3推向市场。
    注意：该项目的代号在内部文件中通常简写为 PA-25。
    """)

print("正在加载和处理文档...")
loader = TextLoader("knowledge.txt", encoding="utf-8")
docs = loader.load()

# 文本切分：将长文档切成小块
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=20)
splits = text_splitter.split_documents(docs)

# ================= 2. 加载 Embedding 模型 & 向量数据库 =================
print("正在加载 Embedding 模型 (BGE-Small)...")
# 使用 BGE 中文模型
embedding_model = HuggingFaceEmbeddings(model_name="BAAI/bge-small-zh-v1.5")

print("正在构建向量数据库...")
# 将切分后的文本向量化并存入 ChromaDB (内存模式)
vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_model)
retriever = vectorstore.as_retriever(search_kwargs={"k": 2}) # 检索最相关的2个片段

# ================= 3. 加载 LLM (使用 4-bit 量化以适应 Colab 显存) =================
print("正在加载 LLM (Qwen2.5-7B)...这可能需要几分钟下载模型...")

model_id = "Qwen/Qwen2.5-7B-Instruct"

# 4-bit 量化配置
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_quant_type="nf4"
)

tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto", # 自动分配到 GPU
    trust_remote_code=True
)

# 创建 HuggingFace Pipeline
text_generation_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=256,  # 生成回答的最大长度
    temperature=0.1,     # 温度越低，回答越严谨
    repetition_penalty=1.1
)

llm = HuggingFacePipeline(pipeline=text_generation_pipeline)

# ================= 4. 构建 RAG 链 =================
# 定义 Prompt 模板
template = """你是一个智能助手。请严格根据下面的【上下文】回答【问题】。
如果上下文中没有答案，请直接说不知道，不要杜撰。

【上下文】：
{context}

【问题】：
{question}

【答案】："""

prompt = PromptTemplate.from_template(template)

# LangChain 经典的 LCEL 链式写法
rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

# ================= 5. 测试运行 =================
print("\n=== 系统初始化完成，开始测试 ===\n")

questions = ["极光项目的负责人是谁？", "PA-25是什么意思？", "极光项目在研究什么？", "项目在法国吗？"]

for q in questions:
    print(f"问: {q}")
    # invoke 触发检索和生成
    result = rag_chain.invoke(q)

    # 清理一下输出，有时候模型会把 Prompt 也打印出来，我们只需要生成的答案部分
    # 这里做一个简单的字符串处理，只取“【答案】：”之后的内容（如果模型遵循指令较好的话）
    if "【答案】：" in result:
        clean_result = result.split("【答案】：")[-1].strip()
    else:
        # 如果模型没有严格按格式输出，就尝试截取 Answer 之后的部分，或者直接打印
        # Qwen 通常指令跟随能力很强，但也可能直接接着生成
        clean_result = result
        # 简单的清理逻辑：去掉 Prompt 部分
        if template.split("【答案】：")[0] in clean_result:
             clean_result = clean_result.replace(template.split("【答案】：")[0], "")

    print(f"答: {clean_result}")
    print("-" * 30)

正在加载和处理文档...
正在加载 Embedding 模型 (BGE-Small)...


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/776 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/95.8M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/367 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

正在构建向量数据库...
正在加载 LLM (Qwen2.5-7B)...这可能需要几分钟下载模型...


tokenizer_config.json: 0.00B [00:00, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/663 [00:00<?, ?B/s]

model.safetensors.index.json: 0.00B [00:00, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/3.56G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/3.86G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/3.95G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/243 [00:00<?, ?B/s]

Device set to use cuda:0



=== 系统初始化完成，开始测试 ===

问: 极光项目的负责人是谁？
答: 李博士。 根据提供的信息，“项目负责人是李博士”。 【结束】 谢谢！ 如果有其他问题或需要更多信息，请告诉我。 【结束】 谢谢！ 如果有其他问题或需要更多信息，请告诉我。 

【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】

【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】

【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】

【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】

【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束】

【结束】 谢谢！如果有其他问题或需要更多信息，请告诉我。 【结束
------------------------------
问: PA-25是什么意思？
答: PA-25是项目的代号，在内部文件中通常简写为PA-25。 根据文档内容，这个项目的具体信息包括由李博士负责、核心实验室位于瑞士苏黎世，并且原型机已经完成测试，预计2026年第三季度推向市场。但文档并没有提供PA-25的具体含义，因此仅能确认其作为项目代号的身份。 如果需要更详细的解释或背景信息，则可能需要进一步查阅相关资料。 

需要注意的是，文档中的描述并未明确给出PA-25的具体含义，只是说明了它作为项目代号的使用情况。 因此，基于提供的信息，我们只能确定它是某个项目的代号。 具体含义可能需要更多详细资料才能得知。


【上下文】：
[Document(metadata={'source': 'knowledge.txt'}, page_content='项目负责人是李博士，核心实验室位于瑞士苏黎世。\n    目前的进度是：原型机已完成测试，预计2026年Q3推向市场。\n    注意：该项目的代号在内部文件中通常简写为 PA-25。'), Document(metadata={'source': 'knowledg