# 文档加载


## LangChain

In [3]:
#!pip install langchain_community pypdf python-docx markdown  
# 分别支持PDF、Word、Markdown

In [1]:
from langchain_community.document_loaders import (
    PyPDFLoader,          # PDF加载器
    UnstructuredMarkdownLoader,  # Markdown加载器
    UnstructuredWordDocumentLoader,  # Word加载器（.docx/.doc）
    TextLoader
)

# 初始化加载器（指定txt文件路径）
txt_loader = TextLoader("./file/book.txt")  # 替换为你的txt文件路径
txt_docs = txt_loader.load()

'''
# 1. 加载PDF（支持多页，返回每页的文档对象）
pdf_loader = PyPDFLoader("文档.pdf")
pdf_docs = pdf_loader.load()  # 列表，每个元素是一页的Document对象

# 2. 加载Markdown
md_loader = UnstructuredMarkdownLoader("文档.md")
md_docs = md_loader.load()  # 单篇文档的Document对象

# 3. 加载Word（.docx）
word_loader = UnstructuredWordDocumentLoader("文档.docx")
word_docs = word_loader.load()  # 单篇文档的Document对象
'''

# 合并所有文档（统一处理）
#all_docs = pdf_docs + md_docs + word_docs+txt_docs
all_docs = txt_docs



In [None]:
#all_docs

## LlamaIndex

In [None]:
#!pip install llama-index llama-index-readers-file  
# 基础库+文件加载扩展

In [7]:
from llama_index.core import SimpleDirectoryReader

# 加载目录下所有支持的文件（PDF、Markdown、Word等）
loader = SimpleDirectoryReader(
    input_dir="./file",  # 目标目录
    required_exts=[".pdf", ".md", ".docx",".txt"],  # 限定格式（可选）
)
docs = loader.load_data()  # 列表，每个元素是LlamaIndex的Document对象


In [None]:
#docs

# 文本分割策略

## 递归字符分割

In [None]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
# 初始化分割器
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,  # Chunk最大长度（按字符数，或按token需配合tokenizer）
    chunk_overlap=200,  # 相邻Chunk重叠部分（保留上下文关联）
    separators=["\n\n", "\n", "。", "，", " "]  # 中文场景可添加中文分隔符
)


# 分割文档（输入为LangChain的Document列表）
split_docs = text_splitter.split_documents(all_docs)

In [None]:
#split_docs

In [None]:
from llama_index.core.node_parser import SentenceSplitter

splitter = SentenceSplitter(
    chunk_size=512,  # 按token计数（默认用cl100k_base编码）
    chunk_overlap=64
)
nodes = splitter.get_nodes_from_documents(docs)  # 分割为Node对象（含元数据）

In [None]:
#nodes

## 语义分割

In [None]:
#!pip install sentence-transformers

### LangChain
#### 通过国内的魔搭社区

In [None]:
# 通过国内的魔搭社区
#!pip install modelscope


from modelscope.hub.snapshot_download import snapshot_download
# 下载模型到本地（默认路径：~/.cache/modelscope/hub）
model_dir = snapshot_download("BAAI/bge-small-zh")#sentence-transformers/all-MiniLM-L6-v2
model_dir

Downloading Model from https://www.modelscope.cn to directory: C:\Users\Administrator\.cache\modelscope\hub\models\BAAI\bge-small-zh


'C:\\Users\\Administrator\\.cache\\modelscope\\hub\\models\\BAAI\\bge-small-zh'

In [None]:
model_dir

'C:\\Users\\Administrator\\.cache\\modelscope\\hub\\models\\BAAI\\bge-small-zh'

In [None]:
from langchain_text_splitters import SentenceTransformersTokenTextSplitter

semantic_splitter = SentenceTransformersTokenTextSplitter(
    model_name=model_dir,  # ModelScope下载的本地路径
    tokens_per_chunk=512,
    chunk_overlap=64
)
semantic_split_docs = semantic_splitter.split_documents(all_docs)


  warn(
2025-10-26 14:42:24,949 - INFO - PyTorch version 2.8.0 available.
2025-10-26 14:42:25,698 - INFO - Use pytorch device_name: cpu
2025-10-26 14:42:25,699 - INFO - Load pretrained SentenceTransformer: C:\Users\Administrator\.cache\modelscope\hub\models\BAAI\bge-small-zh


In [None]:
semantic_split_docs

[Document(metadata={'source': './file/book.txt'}, page_content='南 方 电 网 设 备 〔 2017 〕 4 号 附 件 1 [UNK] / [UNK] 125008 [UNK] 2016 代 替 [UNK] / [UNK] 10006 - 2004 目 次 前 言 [UNK] 1 范 围 [UNK] 2 规 范 性 引 用 文 件 [UNK] 3 术 语 和 定 义 [UNK] 3. 1 设 备 状 态 [UNK] 3. 2 操 作 术 语 [UNK] 3. 3 故 障 及 异 常 情 况 用 语 [UNK] 4 电 气 操 作 原 则 [UNK] 4. 1 一 般 原 则 [UNK] 4. 2 断 路 器 及 负 荷 开 关 操 作 原 则 [UNK] 4. 3 隔 离 开 关 及 跌 落 式 熔 断 器 操 作 原 则 [UNK] 4. 4 母 线 操 作 原 则 [UNK] 4. 5 线 路 操 作 原 则 [UNK] 4. 6 变 压 器 操 作 原 则 [UNK] 4. 7 并 联 补 偿 电 容 器 和 电 抗 器 操 作 原 则 [UNK] 4. 8 [UNK] 线 路 并 联 电 抗 器 操 作 原 则 [UNK] 4. 9 接 地 装 置 的 操 作 原 则 [UNK] 4. 10 继 电 保 护 及 安 全 自 动 装 置 操 作 原 则 [UNK] 4. 11 验 电 接 地 原 则 [UNK] 4. 12 换 流 站 直 流 设 备 操 作 原 则 [UNK] 4. 13 串 补 操 作 原 则 [UNK] 4. 14 [UNK] 、 [UNK] 操 作 原 则 [UNK] 4. 15 异 常 处 理 [UNK] 5 操 作 票 规 范 [UNK] 5. 1 操 作 票 格 式 [UNK] 5. 2 操 作 票 填 写 说 明 [UNK] 6 操 作 票 执 行 [UNK] 6. 1 填 写 操 作 票 [UNK] 6. 2 执 行 操 作 票 [UNK] 6. 3 操 作 票 盖 章 [UNK] 附 录 [UNK] （ 规 范 性 附 录 ） 常 见 设 备 俗 称 [UNK] 附 录 [UNK] （ 规 范 性 附 录 ） 常 见 设 备 操 作 动 词 和 位 置 术 语

#### 使用国外的huggingface下载模型，但是网络不通

In [None]:

import logging
logging.basicConfig(level=logging.INFO)  # 开启INFO级别日志

from langchain_text_splitters import SentenceTransformersTokenTextSplitter

# 基于Sentence-BERT的语义分割器
semantic_splitter = SentenceTransformersTokenTextSplitter(
    model_name="sentence-transformers/all-MiniLM-L12-v2",  # 轻量语义模型
    tokens_per_chunk=512,  # 按token计数
    chunk_overlap=64
)

# 分割文档（自动按语义聚类）
semantic_split_docs = semantic_splitter.split_documents(all_docs)

2025-10-26 14:42:26,141 - INFO - Use pytorch device_name: cpu
2025-10-26 14:42:26,142 - INFO - Load pretrained SentenceTransformer: sentence-transformers/all-MiniLM-L12-v2
'(ProtocolError('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)), '(Request ID: 99813bc4-5562-40a0-b1bc-96a8f8782c9a)')' thrown while requesting HEAD https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2/resolve/main/./modules.json
Retrying in 1s [Retry 1/5].
'(ProtocolError('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)), '(Request ID: cfa764de-0a3a-44f5-bb2e-f8690dd8ad56)')' thrown while requesting HEAD https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2/resolve/main/./modules.json
Retrying in 2s [Retry 2/5].
'(ProtocolError('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None)), '(Request ID: 81903119-9745-46ea-b29b-57cc2304ee95)')' thrown while requesting HEAD https://hug

KeyboardInterrupt: 

### LlamaIndex

In [None]:
# 核心库：LlamaIndex主框架 + HuggingFace嵌入适配
#!pip install llama-index llama-index-embeddings-huggingface
# 嵌入模型依赖（sentence-transformers提供模型加载能力）
#!pip install sentence-transformers

In [None]:
#! pip install llama-index llama-index-embeddings-modelscope

In [5]:
import torch

# 1. 确认 Python 已升级到 3.10
import sys
print("Python 版本：", sys.version)  # 应输出 3.10.x

# 2. 确认 torch 版本及 CUDA 支持
print("torch 版本：", torch.__version__)
print("torch 关联 CUDA 版本：", torch.version.cuda)
print("CUDA 是否可用：", torch.cuda.is_available())  # 应返回 True（若之前支持 GPU）

Python 版本： 3.10.19 | packaged by Anaconda, Inc. | (main, Oct 21 2025, 16:41:31) [MSC v.1929 64 bit (AMD64)]
torch 版本： 2.9.0+cpu
torch 关联 CUDA 版本： None
CUDA 是否可用： False


#### 魔搭

In [None]:
from llama_index.core.node_parser import SemanticSplitterNodeParser

from llama_index.embeddings.modelscope import ModelScopeEmbedding
# 示例：使用ModelScope上成熟的中文嵌入模型
embed_model = ModelScopeEmbedding(model_name="damo/nlp_corom_sentence-embedding_chinese-base")

# 语义分割器
semantic_parser = SemanticSplitterNodeParser(
    embed_model=embed_model,
    buffer_size=2,  # 计算相似度时的上下文窗口
    breakpoint_percentile_threshold=90  # 相似度低于95%分位则拆分
)
semantic_nodes = semantic_parser.get_nodes_from_documents(docs)
semantic_nodes

2025-10-26 15:44:31,987 - modelscope - INFO - Use user-specified model revision: master
  _bootstrap._exec(spec, module)
  _bootstrap._exec(spec, module)
2025-10-26 15:44:33,720 - modelscope - INFO - initiate model from C:\Users\Administrator\.cache\modelscope\hub\damo\nlp_corom_sentence-embedding_chinese-base
2025-10-26 15:44:33,722 - modelscope - INFO - initiate model from location C:\Users\Administrator\.cache\modelscope\hub\damo\nlp_corom_sentence-embedding_chinese-base.
2025-10-26 15:44:33,726 - modelscope - INFO - initialize model from C:\Users\Administrator\.cache\modelscope\hub\damo\nlp_corom_sentence-embedding_chinese-base
  _bootstrap._exec(spec, module)
  _bootstrap._exec(spec, module)
2025-10-26 15:44:36,088 - modelscope - INFO - cuda is not available, using cpu instead.


[TextNode(id_='9619ac65-f1a7-4ab2-be82-73b08fcf57b9', embedding=None, metadata={'file_path': 'd:\\A-Subject\\code\\RAG\\file\\book.txt', 'file_name': 'book.txt', 'file_type': 'text/plain', 'file_size': 57661, 'creation_date': '2025-10-26', 'last_modified_date': '2025-10-22'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={<NodeRelationship.SOURCE: '1'>: RelatedNodeInfo(node_id='c1b9bb95-73ce-42cd-af1c-00e339e080d4', node_type=<ObjectType.DOCUMENT: '4'>, metadata={'file_path': 'd:\\A-Subject\\code\\RAG\\file\\book.txt', 'file_name': 'book.txt', 'file_type': 'text/plain', 'file_size': 57661, 'creation_date': '2025-10-26', 'last_modified_date': '2025-10-22'}, hash='501a40dc48a05dfb7923d34ddf725564ed5aef2c9a2e5af3675ee0a048314e92')}, metadata_template='{key}: {value

In [13]:
semantic_nodes.__len__()

1

#### huggingFace

In [None]:
# 使用llamaindex进行语义分割。
from llama_index.core.node_parser import SemanticSplitterNodeParser
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
# 初始化嵌入模型
embed_model = HuggingFaceEmbedding(model_name=model_dir)
#embed_model = HuggingFaceEmbedding(model_name="BAAI/bge-small-zh")  # 中文首选
# 或 shibing624/text2vec-base-chinese


# 语义分割器
semantic_parser = SemanticSplitterNodeParser(
    embed_model=embed_model,
    buffer_size=2,  # 计算相似度时的上下文窗口
    breakpoint_percentile_threshold=90  # 相似度低于95%分位则拆分
)
#在 LlamaIndex 的SemanticSplitterNodeParser中，没有直接的 “最大切片大小” 参数

semantic_nodes = semantic_parser.get_nodes_from_documents(docs)
semantic_nodes

ModuleNotFoundError: No module named 'llama_index.embeddings.huggingface'

In [None]:
semantic_nodes