In [1]:
import os
import numpy as np

In [2]:
import os
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings, StorageContext
from llama_index.vector_stores.milvus import MilvusVectorStore
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from pymilvus import connections, utility

In [3]:
from langchain.agents import Tool, initialize_agent
# from langchain_community.chat_models import ChatOllama
from langchain_ollama import OllamaLLM, ChatOllama
from llama_index.llms.ollama import Ollama
from pymilvus import CollectionSchema, FieldSchema, DataType, Collection

In [4]:
# from llama_index.readers.file import PDFReader  # 重要修正点
# from pdfminer import text_encoding
from llama_index.readers.file import PyMuPDFReader
from time import time

In [5]:
def iniDeepSeek():
    model: str = "deepseek-r1:7b",
    base_url: str = "http://localhost:11434"
    return OllamaLLM(
                model=model,
                base_url=base_url,
                streaming=False)

#### version 2
- 集合存在时加载，不存在时创建

In [6]:
# 配置 Milvus 本地連接
connections.connect("default", host="localhost", port="19530")

In [7]:
# 全局設定本地 LLM 模型 (重要修正點)
Settings.llm = Ollama(model="deepseek-r1:7b", temperature=0.2)
Settings.embed_model = HuggingFaceEmbedding(
    model_name="shibing624/text2vec-base-chinese",
    cache_folder="../../../../../Embedding_Models/",
    embed_batch_size=32,
    device="cpu"
)

In [8]:
def load_law_pdfs(pdf_dir: str):
    """强化版法律 PDF 加载器"""
    # 初始化 PDF 解析器
    pdf_parser = PyMuPDFReader()
    
    # 配置文件读取器
    law_reader = SimpleDirectoryReader(
        input_dir=pdf_dir,
        file_extractor={
            ".pdf": pdf_parser  # 正确使用解析器实例
        },
        required_exts=[".pdf"],
        exclude_hidden=True,
        filename_as_id=True  # 重要参数
    )
    
    try:
        # 尝试标准解析
        return law_reader.load_data()
    except Exception as e:
        print(f"标准解析失败 ({str(e)}), 启用备援模式...")
        # 备援文本提取流程
        return backup_pdf_loader(pdf_dir)

def backup_pdf_loader(pdf_dir: str):
    """备援 PDF 文本提取方案"""
    from PyPDF2 import PdfReader
    import os
    
    documents = []
    for filename in os.listdir(pdf_dir):
        if filename.endswith(".pdf"):
            filepath = os.path.join(pdf_dir, filename)
            try:
                with open(filepath, "rb") as f:
                    pdf = PdfReader(f)
                    text = ""
                    for page in pdf.pages:
                        text += page.extract_text() + "\n"
                    # 使用低阶 API 创建文档
                    doc = StringIterableReader(text).load_data()[0]
                    doc.metadata = {
                        "file_name": filename,
                        "file_type": "application/pdf"
                    }
                    documents.append(doc)
            except Exception as e:
                print(f"文件 {filename} 处理失败: {str(e)}")
    return documents

# 在 RAG 流程中使用
legal_docs = load_law_pdfs("../../../misc/law/")

In [9]:
# 新增功能：检查集合存在性并智能加载
def get_milvus_store(collection_name: str) -> MilvusVectorStore:
    """智能获取 Milvus 存储实例"""
    # 检查集合是否存在
    if utility.has_collection(collection_name):
        collection = Collection(collection_name)
        collection.load()  # 重要：显式加载集合
        print(f"集合 {collection_name} 已存在，直接加载")
        # 检查是否为空
        if collection.num_entities > 0:
            print(f"集合包含 {collection.num_entities} 条数据")
        else:
            print("集合存在但为空")
            
        return MilvusVectorStore(
            uri="http://localhost:19530",
            collection_name=collection_name,
            dim=768,
            overwrite=False
        )
    else:
        print(f"创建新集合 {collection_name}")
        return MilvusVectorStore(
            uri="http://localhost:19530",
            collection_name=collection_name,
            dim=768,
            overwrite=True,
            index_config={
                "metric_type": "L2",
                "index_type": "IVF_FLAT",
                "params": {"nlist": 1024}
            }
        )

def build_milvus_rag(pdf_dir: str, collection_name: str = "taiwan_law"):
    """增强版 RAG 建置流程"""
    # 初始化存储
    vector_store = get_milvus_store(collection_name)
    storage_context = StorageContext.from_defaults(vector_store=vector_store)
    
    # 通过 Milvus API 检查数据量
    collection = Collection(collection_name)
    """强化版法律PDF加载器"""
        
    if collection.is_empty:
        print("集合为空，开始处理新文件...")
        # 处理新文件
        # 初始化并配置PDF解析器
        pdf_parser = PyMuPDFReader()
        legal_reader = SimpleDirectoryReader(
            input_dir=pdf_dir,
            file_extractor={".pdf": pdf_parser},
            required_exts=[".pdf"],
            filename_as_id=True,  # 自动生成文档ID
            file_metadata=lambda x: {"source": os.path.basename(x)}  # 保留文件名
        )
        # legal_docs = legal_reader.load_data()
        # 加载并处理文件
        try:
            legal_docs = legal_reader.load_data()
            print(f"成功加载 {len(legal_docs)} 份法律文件")
        except Exception as e:
            print(f"文件加载失败: {str(e)}")
            raise
        
        # 建立索引
        legal_index = VectorStoreIndex.from_documents(
            documents=legal_docs,
            storage_context=storage_context,
            show_progress=True
        )
        
        # 持久化元数据
        storage_context.persist(persist_dir=f"./storage/{collection_name}")
    else:
        print(f"检测到现有数据 ({collection.num_entities} 条)，跳过文件处理")
        legal_index = VectorStoreIndex.from_vector_store(
            vector_store=vector_store,
            storage_context=storage_context
        )
    
    return legal_index.as_query_engine(similarity_top_k=3, llm=Settings.llm)


In [10]:
def run():
    # 初始化 RAG 系統
    query_engine = build_milvus_rag(
        pdf_dir="/home/mapleleaf/LCJRepos/projects/DQE_RAG_APP/misc/law/",
        collection_name="taiwan_law"
    )
    # LangChain 整合範例
    legal_tool = Tool(
        name="台灣法律檢索",
        func=lambda q: str(query_engine.query(q)),
        description="用於查詢台灣現行民法、刑法等法律條文與司法解釋"
    )
    agent = initialize_agent(
        tools=[legal_tool],
        llm=ChatOllama(model="deepseek-r1:7b", temperature=0.2),
        agent="structured-chat-zero-shot-react-description",
        verbose=True
    )
    # 使用範例
    start_time = time()
    response = agent.invoke("請解釋台灣民法中的不可抗力條款，並列出相關法條編號")
    print(response)
    end_time = time()
    print(f"query time:{end_time-start_time}")

In [11]:
run()

2025-04-15 15:52:09,928 [DEBUG][_create_connection]: Created new connection using: 500f999d248b481fa9dd1debbdf2d144 (async_milvus_client.py:600)


集合 taiwan_law 已存在，直接加载
集合包含 475 条数据
检测到现有数据 (475 条)，跳过文件处理


[1m> Entering new AgentExecutor chain...[0m


  agent = initialize_agent(


[32;1m[1;3m<think>
好，我现在需要解释台湾民法中的不可抗力条款，并列出相关法律条文编号。首先，我应该明确“不可抗力”在民法中的定义和适用范围。

不可抗力通常指的是不能预见、无法避免且不属于当事人所能控制的外部事件。根据台湾地区的相关法律规定，这类事件一旦发生，双方的义务可能会有所减轻或免除。

接下来，我需要找到具体的法律条文。回想一下，民法典中应该有关于不可抗力的规定，可能在第584条附近。具体来说，第584条提到“不可抗力”这一概念，并规定了在这种情况下，双方的义务如何调整。

此外，关于责任免除的部分，可能在第603条中有详细说明。这条法条规定了在不可抗力事件发生时，双方的责任和义务是如何减轻或免除的。

最后，我需要确保引用的是正确的条文编号，因为不同的版本可能会有所不同。因此，在提供最终答案前，最好确认一下当前民法典的具体条文位置。
</think>

Action:```$JSON_BLOB`[0m

[1m> Finished chain.[0m
{'input': '請解釋台灣民法中的不可抗力條款，並列出相關法條編號', 'output': '<think>\n好，我现在需要解释台湾民法中的不可抗力条款，并列出相关法律条文编号。首先，我应该明确“不可抗力”在民法中的定义和适用范围。\n\n不可抗力通常指的是不能预见、无法避免且不属于当事人所能控制的外部事件。根据台湾地区的相关法律规定，这类事件一旦发生，双方的义务可能会有所减轻或免除。\n\n接下来，我需要找到具体的法律条文。回想一下，民法典中应该有关于不可抗力的规定，可能在第584条附近。具体来说，第584条提到“不可抗力”这一概念，并规定了在这种情况下，双方的义务如何调整。\n\n此外，关于责任免除的部分，可能在第603条中有详细说明。这条法条规定了在不可抗力事件发生时，双方的责任和义务是如何减轻或免除的。\n\n最后，我需要确保引用的是正确的条文编号，因为不同的版本可能会有所不同。因此，在提供最终答案前，最好确认一下当前民法典的具体条文位置。\n</think>\n\nAction:```$JSON_BLOB`'}
query time:18.587438821792603
