# Enviroment

In [None]:
# ========================================
# 系统级依赖安装 (需root权限)
# ========================================
!apt-get install antiword -qq

# ========================================
# 核心Python包安装
# ========================================
!pip install pymupdf nltk chromadb sentence-transformers gradio -q

# ========================================
# NLP工具初始化
# ========================================
import nltk
nltk.download('punkt_tab')

# ========================================
# 可选组件安装
# ========================================
# 如需Elasticsearch支持可取消注释
# !pip install elasticsearch

# ========================================
# 中文处理扩展
# ========================================
!pip install rank_bm25 jieba

Selecting previously unselected package antiword.
(Reading database ... 126102 files and directories currently installed.)
Preparing to unpack .../antiword_0.37-16_amd64.deb ...
Unpacking antiword (0.37-16) ...
Setting up antiword (0.37-16) ...
Processing triggers for man-db (2.10.2-1) ...
Processing triggers for mailcap (3.70+nmu1ubuntu1) ...
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.0/20.0 MB[0m [31m108.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m18.9/18.9 MB[0m [31m108.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m94.9/94.9 kB[0m [31m8.8 MB/s[0m eta [36m0:00:00[0m

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Collecting rank_bm25
  Downloading rank_bm25-0.2.2-py3-none-any.whl.metadata (3.2 kB)
Downloading rank_bm25-0.2.2-py3-none-any.whl (8.6 kB)
Installing collected packages: rank_bm25
Successfully installed rank_bm25-0.2.2


In [None]:
# ========================================
# 标准库导入
# ========================================
import os
import re
import sys
import time
import datetime
import hashlib
from pathlib import Path
from threading import Thread, Lock
from typing import List, Dict, Tuple
from concurrent.futures import ThreadPoolExecutor, as_completed

# ========================================
# 文件/文档处理
# ========================================
import fitz  # PyMuPDF

# ========================================
# NLP/ML相关库
# ========================================
import nltk
from nltk.tokenize import sent_tokenize
import jieba
import numpy as np
import torch
from torch import cuda
from rank_bm25 import BM25Okapi
from sentence_transformers import SentenceTransformer, CrossEncoder

# ========================================
# 向量数据库/存储
# ========================================
import chromadb
from chromadb.utils import embedding_functions

# ========================================
# 接口/可视化
# ========================================
import gradio as gr
from tqdm import tqdm

# ========================================
# 第三方服务/API
# ========================================
from openai import OpenAI
from tenacity import retry, stop_after_attempt, wait_exponential

# ========================================
# 调试/工具
# ========================================
import traceback

# ========================================
# 已注释的备用依赖
# ========================================
# from elasticsearch import Elasticsearch

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Config

In [None]:
# =============================
# 配置参数（统一管理）
# =============================
class Config:
    # 多线程配置
    NUM_WORKERS = 20
    USE_MULTITHREAD = True

    # 路径配置
    UPLOAD_DIR = "/content/drive/MyDrive/513"
    DB_PATH = "/content/drive/MyDrive/513/chroma_db"

    # 文件配置
    SUPPORTED_EXTS = [".pdf", ".PDF"]  # 支持的文件扩展名
    MAX_FILE_SIZE = 100 * 1024 * 1024  # 100MB文件大小限制

    # 处理参数
    CHUNK_SIZE = 300
    OVERLAP = 50
    TOP_K = 100        # 初始检索数量
    TOP_K_FINAL = 5   # 最终返回数量
    BATCH_SIZE = 16

    # 模型配置
    EMBEDDING_MODEL = "BAAI/bge-m3"
    RERANKER_MODEL = "BAAI/bge-reranker-large"
    API_KEY = "c8bc2c37-95f2-4202-b12d-f9392185408f"
    BASE_URL = "https://ark.cn-beijing.volces.com/api/v3"
    MAX_SEQ_LENGTH = 512

    # 数据库配置
    COLLECTION_NAME = "DocumentDB"
    INSERT_BATCH = 500

    MODELS = {
      "DeepSeek_R1": "deepseek-r1-250120",
      "DeepSeek_V3": "deepseek-v3-250324"
    }
    MAX_TOKENS = 3000
    TEMPERATURE=0.7


# File Processor

## PDF Processor

In [None]:
# %% ##########################
# PDF处理模块
###############################
class PDFProcessor:
    @staticmethod
    def pdf_to_text(file_path: str) -> str:
        """将PDF文件转换为纯文本"""
        try:
            text = []
            with fitz.open(file_path) as doc:
                for page in doc:
                    text.append(page.get_text())
            return "\n".join(text)
        except Exception as e:
            print(f"PDF解析失败：{file_path}\n错误：{str(e)}")
            return ""

    @staticmethod
    def clean_text(text: str) -> str:
        """文本清洗处理"""
        text = re.sub(r'\n+', ' ', text)  # 合并换行符
        text = re.sub(r'\s+', ' ', text)  # 合并多余空格
        return text.strip()

    @staticmethod
    def batch_process_pdfs(folder_path: str) -> Dict[str, str]:
        """批量处理指定文件夹中的所有PDF文件"""
        pdf_texts = {}
        folder_path = Path(folder_path)

        if not folder_path.is_dir():
            raise ValueError(f"无效的文件夹路径: {folder_path}")

        # 支持递归遍历（可选）
        for pdf_file in folder_path.glob("**/*.pdf"):
            try:
                text = PDFProcessor.pdf_to_text(str(pdf_file))
                cleaned = PDFProcessor.clean_text(text)
                pdf_texts[pdf_file.name] = cleaned
                print(f"成功处理: {pdf_file.name}")
            except Exception as e:
                print(f"处理失败 {pdf_file.name}: {str(e)}")
                continue

        return pdf_texts

### Test

In [None]:
text_from_pdf = PDFProcessor.pdf_to_text("/content/drive/MyDrive/513/Maotai_2024.pdf")

In [None]:
text_from_pdf_cleaned = PDFProcessor.clean_text(text_from_pdf)

## Text Chunker

In [None]:
# %% ##########################
# 文本分块模块
###############################
class TextChunker:

    @staticmethod
    def split_into_chunks(text: str, chunk_size: int) -> List[str]:
      """基于句子的分割"""
      sentences = sent_tokenize(text)
      chunks = []
      current_chunk = []
      current_length = 0

      for sent in sentences:
          sent_len = len(sent)

          # 处理超长单个句子
          if sent_len > chunk_size:
              if current_chunk:  # 先保存已有块
                  chunks.append(" ".join(current_chunk))
                  current_chunk = []
              # 强制分割长句
              chunks.extend([sent[i:i+chunk_size] for i in range(0, sent_len, chunk_size)])
              current_length = 0
              continue

          # 正常累加逻辑
          if current_length + sent_len > chunk_size:
              chunks.append(" ".join(current_chunk))
              # 智能重叠（保留完整句子）
              overlap = []
              overlap_len = 0
              while current_chunk and (overlap_len + len(current_chunk[-1])) <= chunk_size * 0.2:
                  overlap.insert(0, current_chunk.pop())
                  overlap_len += len(overlap[0])
              current_chunk = overlap
              current_length = overlap_len

          current_chunk.append(sent)
          current_length += sent_len

      if current_chunk:
          chunks.append(" ".join(current_chunk))

      return chunks


    # 在TextChunker类中可添加自适应分块算法

    @staticmethod
    def dynamic_chunking(text: str, min_size: int = 200, max_size: int = 500) -> List[str]:
        """
        优化的动态分块算法(支持中英文金融文档)
        Args:
            text: 输入文本(需预先清洗)
            min_size: 最小分块长度(建议200-300)
            max_size: 最大分块长度(建议500-800)
        Returns:
            List[str]: 符合长度限制的语义块列表
        """
        if not text:
            return []

        # 优先级排序的断点符号(分数，符号长度)
        BREAKERS = {
            '\n\n': (0.95, 2),   # 段落分隔
            '。': (0.85, 1),     # 句子结束
            '!': (0.8, 1), '?': (0.8, 1),  # 感叹/疑问
            '；': (0.7, 1), ';': (0.7, 1), # 分号
            '，': (0.5, 1), ',': (0.5, 1) # 逗号
        }

        chunks = []
        start = 0
        text_len = len(text)

        while start < text_len:
            # 计算当前窗口边界
            end = min(start + max_size, text_len)
            window = text[start:end]

            best_split = -1
            best_score = 0

            # 逆向扫描寻找最优断点
            for pos in range(len(window)-1, min_size-1, -1):
                # 获取当前位置上下文
                curr_char = window[pos]
                prev_char = window[pos-1] if pos > 0 else ''
                next_char = window[pos+1] if pos < len(window)-1 else ''

                # 评估所有可能的断点
                for br, (score, br_len) in BREAKERS.items():
                    # 匹配多字符断点
                    if br_len == 2 and pos >= 1:
                        if window[pos-1:pos+1] == br:
                            current_score = score
                            split_pos = pos + 1  # 包含断点符号
                            break
                    elif br_len == 1 and curr_char == br:
                        # 处理数字中的逗号(如1,000)
                        if br in [',', '，'] and next_char.isdigit():
                            continue
                        current_score = score
                        split_pos = pos + 1  # 包含断点符号
                        break
                else:
                    continue  # 未找到断点符号

                # 更新最佳分割点
                if current_score > best_score:
                    best_score = current_score
                    best_split = start + split_pos
                    if best_score >= 0.8:  # 高优先级断点立即确定
                        break

            # 确定最终分割位置
            if best_split > start + min_size:
                chunks.append(text[start:best_split].strip())
                start = best_split
            else:
                # 处理剩余文本不足min_size的情况
                if chunks and (len(window) < min_size):
                    chunks[-1] += window  # 合并到前一个块
                else:
                    chunks.append(window.strip())
                start = end

            # 动态重叠处理(不超过max_size的20%)
            overlap = min(int(max_size * 0.2), start - chunks[-1].rfind('\n\n') if '\n\n' in chunks[-1] else 50)
            start = max(start - overlap, 0)

        return [chunk for chunk in chunks if chunk]


### Test

In [None]:
text_chunks = TextChunker.split_into_chunks(text_from_pdf_cleaned, Config.CHUNK_SIZE)

In [None]:
print(len(text_chunks))

565


In [None]:
print(text_chunks[0])

贵州茅台酒股份有限公司2024 年年度报告 1 / 143 公司代码：600519 公司简称：贵州茅台 贵州茅台酒股份有限公司 2024 年年度报告 贵州茅台酒股份有限公司2024 年年度报告 2 / 143 重要提示 一、 本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性、准


In [None]:
dynamic_text_chunks = TextChunker.dynamic_chunking(text_from_pdf_cleaned)

In [None]:
print(len(dynamic_text_chunks))

In [None]:
print(dynamic_text_chunks[0])

# Vector DB

修改权限 防止无法对原来的数据库进行插入

In [None]:
!find /content/drive/MyDrive/513/chroma_db/ -name "*.lock" -delete

In [None]:
!chmod -R 775 /content/drive/MyDrive/513/chroma_db/

In [None]:
# %load_ext line_profiler

# %% ##########################
# 向量数据库模块
###############################
class VectorDBManager:
    #初始化模块
    def __init__(self):
        self.pdf_texter = PDFProcessor()
        self.chunker = TextChunker()
        self.client = self._init_client()
        self.embedder = self._init_embedder()
        self.collection = self._init_collection()
        self.insert_executor = ThreadPoolExecutor(max_workers=Config.NUM_WORKERS)

    def _init_embedder(self):
        """初始化嵌入模型（可并行优化点）"""
        model = SentenceTransformer(Config.EMBEDDING_MODEL)
        model.max_seq_length = Config.MAX_SEQ_LENGTH
        return model

    def _init_client(self):
        settings = chromadb.config.Settings(
          persist_directory=Config.DB_PATH,
          anonymized_telemetry=False,
          allow_reset=True,  # 允许重置数据库
          # enable_lock=False   # 禁用文件锁（针对Colab环境）
          )

        return chromadb.PersistentClient(settings=settings)


    def _init_collection(self):
        """初始化数据库集合"""


        embedding_func = embedding_functions.SentenceTransformerEmbeddingFunction(
            model_name=Config.EMBEDDING_MODEL,
            device="cuda",
            normalize_embeddings=True
        )
        return self.client.get_or_create_collection(
            name=Config.COLLECTION_NAME,
            embedding_function=embedding_func,
            metadata={"hnsw:space": "cosine"},
        )

    #生成向量
    def pdf_processor(self, pdf_path: str):
        # 步骤1：PDF转文本
        print("正在解析PDF...")
        raw_text = self.pdf_texter.pdf_to_text(pdf_path)
        if not raw_text:
          print("PDF解析失败，请检查文件格式")
          return

        # 步骤2：文本清洗和分块
        cleaned_text = self.pdf_texter.clean_text(raw_text)
        chunks = self.chunker.split_into_chunks(cleaned_text, Config.CHUNK_SIZE)
        chunks = [c for c in chunks if len(c.strip()) > 0]  # 过滤空块
        print(f"生成有效文本块：{len(chunks)} 个")

        # 步骤3：生成向量（可并行优化点）
        print("生成嵌入向量...")
        embeddings = []
        metadata = []
        doc_id = Path(pdf_path).stem  # 获取文件名（不含扩展名）

        if Config.USE_MULTITHREAD:
          #多线程版本
          print("多线程版本\n")
          # 修改后的向量生成部分
          def process_batch(batch, start_idx, doc_id):
              """单批次处理函数（线程安全）"""
              # 生成向量
              vectors = self.embedder.encode(
                  batch,
                  convert_to_tensor=True,
                  normalize_embeddings=True,
                  show_progress_bar=False
              ).cpu().numpy()

              # 构建元数据
              batch_meta = [{
                  "doc_id": doc_id,
                  "chunk_index": start_idx + idx,
                  "text_snippet": chunk[:100] + "...",
              } for idx, chunk in enumerate(batch)]

              return vectors, batch_meta

          with ThreadPoolExecutor(max_workers=Config.NUM_WORKERS) as executor:
            # 1. 准备任务队列
            futures = []
            for i in range(0, len(chunks), Config.BATCH_SIZE):
                batch = chunks[i:i+Config.BATCH_SIZE]
                # 提交任务（立即非阻塞）
                future = executor.submit(
                    process_batch,
                    batch=batch,
                    start_idx=i,
                    doc_id=doc_id
                )
                futures.append(future)

            # 2. 并行处理 + 进度跟踪
            for future in tqdm(as_completed(futures),
                              total=len(futures),
                              desc="多线程生成向量"):
                batch_vectors, batch_meta = future.result()
                embeddings.extend(batch_vectors)
                metadata.extend(batch_meta)
        else:
          #单线程版本
          print("单线程版本\n")
          for i in tqdm(range(0, len(chunks), Config.BATCH_SIZE), desc="向量生成"):
              batch = chunks[i:i+Config.BATCH_SIZE]

              # 生成向量
              vectors = self.embedder.encode(
                  batch,
                  convert_to_tensor=True,
                  normalize_embeddings=True,
                  show_progress_bar=False
              ).cpu().numpy()

              # 收集数据
              embeddings.extend(vectors)
              metadata.extend([{
                  "doc_id": doc_id,
                  "chunk_index": i + idx,
                  "text_snippet": chunk[:100] + "...",  # 截取前100字符
              } for idx, chunk in enumerate(batch)])

        # 步骤4：存储到数据库
        print("\n正在写入数据库...")

        if Config.USE_MULTITHREAD:
          self.insert_data_parallel(chunks, embeddings, metadata)
        else:
          self.insert_data(chunks, embeddings, metadata)

    #向量插入
    @retry(stop=stop_after_attempt(3),
           wait=wait_exponential(multiplier=1, min=2, max=10))
    def _insert_batch(self, batch: dict):
        try:
          self.collection.add(**batch)
          return True
        except Exception as e:
          print(f"插入重试中... 错误：{str(e)}")
          raise

    def insert_data(self, chunks: List[str], embeddings: List[np.ndarray], metadata: List[Dict]):
        """批量插入数据（包含完整文本内容）

        参数说明：
        - chunks: 文本块列表（原始文本内容）
        - embeddings: 对应的向量列表
        - metadata: 元数据列表（需包含doc_id等信息）
        """
        # 数据校验（确保三个列表长度一致）
        assert len(chunks) == len(embeddings) == len(metadata), "数据长度不一致"

        # 准备数据格式（关键修改点）
        ids = [f"{m['doc_id']}_{m['chunk_index']}" for m in metadata]  # 唯一ID
        documents = chunks  # 直接使用原始文本块作为文档内容

        # 分批次插入（显示进度条）
        for i in tqdm(range(0, len(ids), Config.INSERT_BATCH),
                    desc="数据库插入",
                    unit="batch"):
            batch = {
                "ids": ids[i:i+Config.INSERT_BATCH],
                "embeddings": embeddings[i:i+Config.INSERT_BATCH],
                "documents": documents[i:i+Config.INSERT_BATCH],  # 关键修改
                "metadatas": metadata[i:i+Config.INSERT_BATCH]
            }
            try:
                self.collection.add(**batch)
            except Exception as e:
                print(f"插入失败批次 {i}-{i+Config.INSERT_BATCH}: {str(e)}")

        print(f"插入完成，总数据量：{self.collection.count()}")

    def insert_data_parallel(self, chunks: List[str], embeddings: List[np.ndarray], metadata: List[Dict]):
        """并行化批量插入"""
        assert len(chunks) == len(embeddings) == len(metadata)

        # 准备所有批次数据（避免在并行中修改）
        batch_list = []
        ids = [f"{m['doc_id']}_{m['chunk_index']}" for m in metadata]
        for i in range(0, len(ids), Config.INSERT_BATCH):
            batch_list.append({
                "ids": ids[i:i+Config.INSERT_BATCH],
                "embeddings": embeddings[i:i+Config.INSERT_BATCH],
                "documents": chunks[i:i+Config.INSERT_BATCH],
                "metadatas": metadata[i:i+Config.INSERT_BATCH]
            })

        # 并行提交任务
        futures = []
        for batch in batch_list:
            futures.append(self.insert_executor.submit(self._insert_batch, batch))

        # 监控进度与错误
        success_count = 0
        with tqdm(as_completed(futures), total=len(batch_list), desc="并行插入") as pbar:
            for future in pbar:
                try:
                    if future.result():
                        success_count += 1
                    pbar.set_postfix_str(f"成功: {success_count}/{len(batch_list)}")
                except Exception as e:
                    print(f"\n永久插入失败: {str(e)}")

        print(f"插入完成 - 成功批次: {success_count}/{len(batch_list)}")

    def search(self, query: str, top_k: int = Config.TOP_K) -> List[Tuple[str, float, dict]]:
        """增强型向量搜索（返回完整元数据）"""
        results = self.collection.query(
            query_texts=[query],
            n_results=top_k,
            include=["documents", "distances", "metadatas"]
        )
        return list(zip(
            results["documents"][0],
            results["distances"][0],
            results["metadatas"][0]
        ))

    # 资源检查
    # def _check_resources(self):
    #     """系统资源检查"""
    #     # 存储空间检查
    #     free_space = psutil.disk_usage(Config.DB_PATH).free
    #     if free_space < 1 * 1024**3:  # 1GB
    #         raise RuntimeError("存储空间不足，需要至少1GB可用空间")

    #     # 内存检查
    #     mem = psutil.virtual_memory()
    #     if mem.available < 2 * 1024**3:  # 2GB
    #         raise RuntimeError("内存不足，需要至少2GB可用内存")

    def process_folder(self, folder_path: str):
        """批量处理文件夹中的PDF文件"""
        print(f"开始批量处理文件夹: {folder_path}")
        start_time = time.time()

        # 获取所有PDF文件
        pdf_files = [f for f in Path(folder_path).glob("*.pdf") if f.is_file()]
        if not pdf_files:
            raise FileNotFoundError("未找到PDF文件")

        # 使用线程池并行处理
        with ThreadPoolExecutor(max_workers=Config.NUM_WORKERS) as executor:
            futures = []
            for pdf_file in pdf_files:
                future = executor.submit(self.pdf_processor, str(pdf_file))
                futures.append(future)

            # 处理完成统计
            success = 0
            for future in tqdm(as_completed(futures), total=len(futures), desc="批量处理"):
                try:
                    future.result()
                    success += 1
                except Exception as e:
                    print(f"处理失败: {str(e)}")

        print(f"处理完成 成功: {success}/{len(pdf_files)}")
        print(f"总耗时: {time.time()-start_time:.2f}秒")


## Test

In [None]:
text_db = VectorDBManager()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/15.8k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

In [None]:
text_db.pdf_processor("/content/drive/MyDrive/513/Maotai_2024.pdf")

正在解析PDF...
生成有效文本块：565 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:18<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.20s/it, 成功: 2/2]

插入完成 - 成功批次: 2/2





In [None]:
def process_pdfs(folder_path: str):

    files = [f for f in os.listdir(folder_path)]

    for file in files:
            try:
                # 构建完整路径
                file_path = os.path.join(folder_path, file)
                text_db.pdf_processor(file_path)
            except Exception as e:
                print(f"处理失败：{file} | 错误：{str(e)}")

In [None]:
process_pdfs("/content/drive/MyDrive/513/A50_pdfs_named/")

正在解析PDF...
生成有效文本块：427 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:14<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：405 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:12<00:00,  2.06it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  1.19it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：345 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.99it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：782 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:25<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:02<00:00,  1.02s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：782 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:25<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:03<00:00,  1.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：867 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:28<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.26s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：346 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.27s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：247 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:07<00:00,  2.08it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.48s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：653 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:21<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.33s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：230 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  2.00it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：2 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00, 17.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  8.19it/s, 成功: 1/1]

插入完成 - 成功批次: 1/1
正在解析PDF...





生成有效文本块：252 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：454 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.43s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：219 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.22s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：290 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  2.03it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.69s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：776 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.73s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：726 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:24<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:03<00:00,  1.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：244 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.72s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：272 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.04s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：697 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:23<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:03<00:00,  1.84s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：873 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.37s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：808 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:27<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.31s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1031 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:35<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:07<00:00,  2.64s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：794 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:27<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.73s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：344 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.96it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.66s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：741 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:25<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.11s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：581 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:19<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.43s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：287 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.92s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1033 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:35<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:08<00:00,  2.95s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：346 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1095 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:38<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:13<00:00,  4.44s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：245 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.18s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：887 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:30<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.72s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：995 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:34<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：735 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:26<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：332 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.05s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1118 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 70/70 [00:39<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:12<00:00,  4.23s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：867 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.89s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1050 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 66/66 [00:36<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:10<00:00,  3.60s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：376 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.97it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：266 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.17s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：634 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.48s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1001 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:34<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:11<00:00,  3.94s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：888 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:29<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.97s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：931 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:31<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.25s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1007 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:34<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:11<00:00,  3.67s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：956 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:33<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.50s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：724 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:25<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.68s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：550 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.11s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：894 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：901 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.34s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：538 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.13s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：518 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.41s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：956 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:32<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.14s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：371 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.55s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：486 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.87s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：459 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:07<00:00,  7.28s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：769 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：667 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.58s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：375 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:13<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.96s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：486 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.22s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1024 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 64/64 [00:35<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:12<00:00,  4.22s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：615 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.32s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：582 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:21<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：495 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:08<00:00,  8.37s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1186 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 75/75 [00:43<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:14<00:00,  4.85s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：893 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：567 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.22s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：585 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.06s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：713 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.02s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：544 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：928 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:33<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.83s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：816 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.18s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：798 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.72s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：738 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:25<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.20s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：740 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:26<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.74s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：591 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:21<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.94s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：740 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:26<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.75s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：713 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：879 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.56s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：676 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：668 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.65s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：868 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.09s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：895 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.25s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：700 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：6 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  3.39it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  3.30it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：354 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 23/23 [00:11<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.73s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：220 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:08<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：354 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 23/23 [00:13<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.40s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：713 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:24<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.86s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：337 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:12<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：744 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:27<00:00,  1.70it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：349 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:12<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.04s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：512 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：243 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.95s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：370 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.55s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：470 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:09<00:00,  9.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：220 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.73s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：738 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:26<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：230 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.96s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：572 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：590 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.96s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：650 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：874 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.73s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：765 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:27<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.00s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：248 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.97s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：829 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：679 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.56s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：481 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:13<00:00, 13.30s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：596 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.07s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：749 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:27<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.73s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：597 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：511 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.41s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：430 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:14<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.97s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：634 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:23<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：607 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：625 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.54s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：530 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：539 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：532 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：648 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:23<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：660 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：489 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.93s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：920 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:33<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：658 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.37s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：576 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：611 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：7 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  3.40it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  3.37it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：378 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：981 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 62/62 [00:34<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.93s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：857 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:29<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.85s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：514 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:17<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：770 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:26<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.19s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：796 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:27<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：610 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:20<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.94s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：617 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：595 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.41s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：398 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:12<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.43s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：882 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:30<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.40s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：4 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  4.43it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00, 1819.65it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：243 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：576 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.96s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：271 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.62s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：897 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.65s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：665 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:22<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：602 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
MuPDF error: format error: No default Layer config

生成有效文本块：564 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：291 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:07<00:00,  7.35s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：664 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:22<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：474 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.13s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：686 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.48s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：582 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:19<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：445 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：666 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.10s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：349 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:12<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.19s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：398 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:07<00:00,  7.53s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：626 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.33s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：623 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.68s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：598 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：347 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.94s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：280 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.50s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：471 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.44s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：588 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：7 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  3.41it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  3.75it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：450 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.19s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：690 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:23<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：445 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.17s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：389 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.27s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：226 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.66s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：670 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.05s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：427 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:15<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.95s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：638 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.67s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：599 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.25s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：429 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:14<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.04s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：362 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 23/23 [00:11<00:00,  1.98it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.61s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1069 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:35<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.10s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1344 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 84/84 [00:43<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.11s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1069 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:35<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:13<00:00,  4.52s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1459 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 92/92 [00:48<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:16<00:00,  5.49s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1363 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 86/86 [00:45<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.16s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1021 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 64/64 [00:34<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:12<00:00,  4.13s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1008 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:33<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:14<00:00,  4.84s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1371 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 86/86 [00:45<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.30s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：275 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:08<00:00,  2.07it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.49s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：2 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  8.42it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00, 1346.05it/s, 成功: 1/1]

插入完成 - 成功批次: 1/1
正在解析PDF...





生成有效文本块：1117 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 70/70 [00:37<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:14<00:00,  4.97s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：372 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.82s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：317 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.01s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：758 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:25<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.27s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：947 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:31<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.98s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：735 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:23<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.54s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：299 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:08<00:00,  8.94s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：441 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:13<00:00, 13.17s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1427 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 90/90 [00:47<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:19<00:00,  6.37s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1394 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 88/88 [00:45<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:16<00:00,  5.63s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1245 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 78/78 [00:41<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.06s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：273 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.37s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：831 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：897 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:29<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.95s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：971 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:32<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.58s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：565 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.27s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：555 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：733 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:26<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.34s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：690 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:25<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.92s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：853 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:27<00:00,  1.97it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.57s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：812 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：591 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:21<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.53s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：815 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.14s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：805 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：770 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.15s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：833 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：622 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.09s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：891 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:30<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.93s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：660 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：884 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:30<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.34s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：606 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.07s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：815 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:29<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.89s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：848 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:31<00:00,  1.70it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：872 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.62s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：725 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:26<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.20s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：855 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:30<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.14s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：927 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.58s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：811 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.97s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：779 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:28<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.97s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：443 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:14<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.84s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：517 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.49s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：851 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:30<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.10s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：210 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:07<00:00,  7.61s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：764 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:27<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.55s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：590 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.99s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：526 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：378 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:13<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:13<00:00, 13.45s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：224 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:08<00:00,  8.88s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：277 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：271 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：841 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.22s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：797 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:27<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.63s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：415 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:18<00:00, 18.91s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：455 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.25s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：4 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  4.25it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00, 372.63it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：610 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：373 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:13<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.57s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：414 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.30s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：777 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：834 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:21<00:00, 10.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：266 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.65s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：381 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:13<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.26s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：546 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:20<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.44s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：573 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.04s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：563 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：691 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.20s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：569 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:21<00:00,  1.68it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.68s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：956 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:34<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.45s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：280 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:19<00:00, 19.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：872 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.47s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：937 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:33<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：872 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：804 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:29<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：467 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:17<00:00, 17.62s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：500 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:17<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.98s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1060 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:37<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:19<00:00,  6.48s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：999 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:36<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.49s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：481 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.80s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：839 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.98s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：878 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.02s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：712 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:24<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.40s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：834 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.45s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：743 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:26<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.58s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：812 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.89s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：706 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:26<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.77s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：842 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.32s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：694 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：857 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:30<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：683 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：638 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:23<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.53s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：680 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.76s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：707 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.47s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：784 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:28<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.44s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：890 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.87s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：642 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.51s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：844 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:30<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.48s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：720 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.72s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：606 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.50s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：517 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：260 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:18<00:00, 18.88s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：257 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:08<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.05s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：454 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.39s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：577 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.97s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：484 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:15<00:00,  1.97it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.54s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：461 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:15<00:00, 15.68s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：479 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：225 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  1.97it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.10s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：225 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.38s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：476 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.71s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：708 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:24<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：555 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:18<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.39s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：701 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.17s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：652 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:23<00:00, 11.62s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：469 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.20s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：500 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:16<00:00, 16.46s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：658 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：434 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:15<00:00, 15.74s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：661 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.47s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：254 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:19<00:00, 19.02s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：539 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:27<00:00, 13.56s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：529 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.55s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：571 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:23<00:00, 11.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：503 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:17<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.40s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：298 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:17<00:00, 17.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：529 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.39s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：587 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.67s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：581 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：591 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:21<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.86s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1108 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 70/70 [00:39<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:22<00:00,  7.48s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：826 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:21<00:00, 10.74s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1067 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:38<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:24<00:00,  8.28s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：493 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:07<00:00,  7.92s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1081 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 68/68 [00:38<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.67s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：795 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  8.00s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：568 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：698 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.05s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1034 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.07s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：641 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：618 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：609 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.99s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1078 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 68/68 [00:39<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.72s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：650 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：478 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.71s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：601 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.31s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：15 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  1.54it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  6.99it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：557 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.45s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：601 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：639 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.89s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：18 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 2/2 [00:00<00:00,  2.64it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  2.02it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：613 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.77s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：31 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 2/2 [00:01<00:00,  1.70it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  2.61it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：15 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  7.69it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：606 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.09s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：493 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:28<00:00, 28.77s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1029 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:35<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.68s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：930 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:32<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：621 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1061 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:37<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:25<00:00,  8.36s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：610 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.75s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：673 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：927 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.63s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：614 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：218 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：621 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:23<00:00, 11.67s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：995 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:34<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.00s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1111 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 70/70 [00:39<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:25<00:00,  8.45s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：205 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:07<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.99s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：615 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:20<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.26s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：665 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:24<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.29s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：859 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:31<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.91s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：338 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.25s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：632 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:23<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.39s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：668 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.67s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：829 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：371 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.61s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：806 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:29<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：683 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：623 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1135 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 71/71 [00:40<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:19<00:00,  6.37s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：273 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.48s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：295 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.76s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：574 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:21<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：598 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.99s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：935 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:32<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：428 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:13<00:00,  1.96it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:13<00:00, 13.75s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：971 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:34<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：411 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:16<00:00, 16.05s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：300 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：624 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：206 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:06<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:16<00:00, 16.04s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：890 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：370 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:12<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.51s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：848 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：447 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:18<00:00, 18.04s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：993 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:35<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：457 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:16<00:00, 16.89s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：919 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：448 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:14<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.74s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：867 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.19s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：724 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:24<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：841 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：854 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:29<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：875 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：770 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:26<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.85s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：870 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.48s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：745 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:25<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：839 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.04s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：923 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:30<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：825 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.11s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：834 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:28<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：761 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:26<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：851 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:30<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.53s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：924 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：857 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:30<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.37s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：501 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:17<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.39s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：369 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:13<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.24s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：531 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.46s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：13 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  2.31it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：277 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.48s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：834 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:28<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.96s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：790 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:27<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.86s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：540 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:23<00:00, 11.85s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：9 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  2.31it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  7.04it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：242 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:19<00:00, 19.08s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：778 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:26<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：484 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.99s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：841 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:23<00:00, 11.57s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：572 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：197 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:07<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.13s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：818 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:21<00:00, 10.84s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：859 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:29<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:23<00:00, 11.64s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：801 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:27<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：215 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.14s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：858 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:29<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.00s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：225 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.77s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：4 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  4.33it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00, 10.92it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：237 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.73s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：843 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：654 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:23<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：675 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：768 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:27<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.13s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：810 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.05s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：907 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：707 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.58s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：638 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:27<00:00, 13.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：736 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:26<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.10s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：826 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:27<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：904 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:30<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1389 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 87/87 [00:46<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:23<00:00,  7.87s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：488 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.88s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1102 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:38<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:24<00:00,  8.07s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：612 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.41s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：884 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:30<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：877 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:29<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:25<00:00, 12.76s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：840 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:28<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:34<00:00, 17.45s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：873 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:29<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.27s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：927 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:31<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1329 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 84/84 [00:43<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:24<00:00,  8.00s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1434 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 90/90 [00:47<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:26<00:00,  8.72s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：996 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:34<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：803 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:27<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:27<00:00, 13.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1435 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 90/90 [00:46<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:21<00:00,  7.03s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：939 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:32<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.63s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：664 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:22<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:25<00:00, 12.99s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：784 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：628 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:21<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.05s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：656 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:23<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.11s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：415 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.94s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：653 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:23<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:27<00:00, 13.62s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：757 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:26<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.76s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：401 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:13<00:00,  1.95it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:28<00:00, 28.56s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：620 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：453 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:30<00:00, 30.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：946 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:32<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.13s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：935 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:32<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:32<00:00, 16.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：558 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.98s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：712 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:24<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：706 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.98s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：502 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:17<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.39s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：743 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:26<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.47s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：871 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.29s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：413 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:19<00:00, 19.44s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：631 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:21<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.14s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：392 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:14<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.29s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：212 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.92s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：727 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:25<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.88s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：470 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:25<00:00, 25.34s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：617 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.00s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：234 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:18<00:00, 18.60s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：330 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:23<00:00, 23.39s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：281 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.74s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：335 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:12<00:00,  1.67it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:16<00:00, 16.90s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：551 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:21<00:00, 10.92s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：341 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:12<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.06s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：169 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 11/11 [00:05<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.71s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：212 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.62s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：455 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.92s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：182 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 12/12 [00:06<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.51s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：406 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.62s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：411 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:18<00:00, 18.95s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：324 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:27<00:00, 27.91s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：555 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:18<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.60s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：350 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:13<00:00,  1.67it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:19<00:00, 19.20s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：613 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：358 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 23/23 [00:12<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:18<00:00, 18.48s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：308 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:27<00:00, 27.46s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：241 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.49s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：143 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 9/9 [00:04<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.45s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：459 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.27s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：957 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:34<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：949 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:33<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:25<00:00, 12.76s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：565 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.87s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：901 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:32<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：994 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:35<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.20s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：948 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:33<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.18s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：795 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:25<00:00, 12.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：874 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.15s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：959 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:33<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.25s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：886 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：623 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：460 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.53s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：840 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:30<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.17s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：809 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:29<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.31s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：872 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：779 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:28<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：430 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:15<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:27<00:00, 27.43s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：766 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:27<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：406 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:25<00:00, 25.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：232 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.25s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：811 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:29<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.14s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：292 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.81s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：466 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：253 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:27<00:00, 27.19s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：784 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.40s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：795 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:35<00:00, 17.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：431 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:15<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:24<00:00, 24.39s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：406 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:32<00:00, 32.50s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：430 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:15<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.78s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：819 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:27<00:00, 13.85s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：620 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.13s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：272 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.86s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：543 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.46s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：472 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：725 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:26<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：454 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.67s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：476 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:22<00:00, 22.14s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：2 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  8.51it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00, 1155.46it/s, 成功: 1/1]

插入完成 - 成功批次: 1/1
正在解析PDF...





生成有效文本块：474 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:17<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:31<00:00, 31.81s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：616 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：587 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:31<00:00, 15.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：235 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.20s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：748 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:26<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:21<00:00, 10.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：469 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：666 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：532 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.37s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：236 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.52s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：773 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.43s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：892 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.54s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：716 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:24<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：436 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:14<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.79s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：967 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:34<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:18<00:00,  9.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：244 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.39s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：526 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.75s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：572 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.22s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：624 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.33s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：385 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.79s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：907 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1029 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:16<00:00,  5.45s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：629 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:21<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.58s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：951 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:33<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.91s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1002 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:35<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:14<00:00,  4.86s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：279 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:20<00:00, 20.03s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：881 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：789 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:27<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：764 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:26<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1071 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:37<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:23<00:00,  7.83s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：917 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:25<00:00, 12.74s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：803 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.27s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：825 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.32s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：946 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:33<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.37s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1039 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:37<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.06s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：534 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：916 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.40s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：848 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:30<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.93s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：616 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.96s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：690 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.27s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：438 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:31<00:00, 31.25s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：704 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:25<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.32s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：572 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1227 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 77/77 [00:43<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.93s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：535 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.88s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：798 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:29<00:00, 14.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1324 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 83/83 [00:46<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.20s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：596 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.93s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：900 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:32<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:31<00:00, 15.92s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：976 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:34<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.92s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：799 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:32<00:00, 16.02s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：649 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:32<00:00, 16.49s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：248 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.67s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：841 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 53/53 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：14 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  1.49it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  7.41it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：5 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  5.66it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00, 11.95it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：819 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：229 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:36<00:00, 36.33s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：270 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:08<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.80s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：334 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:26<00:00, 26.56s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：249 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:07<00:00,  2.05it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:28<00:00, 28.43s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：480 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.18s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：419 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:15<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.30s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：267 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.05s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：492 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.73s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：527 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：694 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.29s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：534 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:17<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：768 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:27<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:22<00:00, 11.18s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：530 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：823 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:25<00:00, 12.84s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：333 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.37s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：735 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:26<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:24<00:00, 12.45s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：829 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：247 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:29<00:00, 29.29s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：532 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.65s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：456 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:21<00:00, 21.64s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：385 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:31<00:00, 31.42s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：313 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.95s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：727 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:25<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.02s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：176 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 11/11 [00:06<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.65s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：307 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:24<00:00, 24.90s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：331 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:23<00:00, 23.82s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：242 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:31<00:00, 31.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：616 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.86s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：542 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:30<00:00, 15.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：128 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 8/8 [00:04<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.05s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：290 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:10<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:26<00:00, 26.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：157 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 10/10 [00:05<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.49s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：666 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:31<00:00, 15.74s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：232 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.17s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：5 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  3.68it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  3.59it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：142 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 9/9 [00:04<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.30s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：513 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:26<00:00, 13.31s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：313 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:37<00:00, 37.66s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：684 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.33s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：141 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 9/9 [00:05<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.98s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1418 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 89/89 [00:47<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:32<00:00, 10.76s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：427 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:14<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:37<00:00, 37.40s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1164 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 73/73 [00:39<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.21s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：629 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:21<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：633 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:21<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:39<00:00, 19.90s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：649 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:21<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：545 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:18<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:40<00:00, 20.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：942 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:31<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.92s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：288 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:10<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:37<00:00, 37.89s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1095 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:37<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.26s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1574 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 99/99 [00:53<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 4/4 [00:21<00:00,  5.29s/it, 成功: 4/4]


插入完成 - 成功批次: 4/4
正在解析PDF...
生成有效文本块：1368 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 86/86 [00:48<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:28<00:00,  9.48s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：482 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:15<00:00,  1.95it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.13s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：338 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.96it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1383 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 87/87 [00:47<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:21<00:00,  7.10s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：232 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.11s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1053 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 66/66 [00:35<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:26<00:00,  8.81s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1018 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 64/64 [00:34<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.92s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1363 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 86/86 [00:46<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:20<00:00,  6.96s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1121 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 71/71 [00:38<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:19<00:00,  6.36s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：738 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:25<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.54s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：5 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  3.51it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  3.00it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1469 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 92/92 [00:49<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:33<00:00, 11.15s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：451 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:14<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.39s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1120 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 70/70 [00:37<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:26<00:00,  8.79s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：582 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:33<00:00, 16.64s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：595 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:21<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：542 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:19<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:32<00:00, 16.04s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：598 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：453 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:33<00:00, 33.65s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：547 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  3.00s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：567 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:20<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:32<00:00, 16.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：554 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:18<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.72s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：309 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:11<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:28<00:00, 28.12s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：670 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:31<00:00, 15.88s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：779 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:35<00:00, 17.91s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：760 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:25<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.95s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：745 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 47/47 [00:25<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:34<00:00, 17.40s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：531 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:17<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:34<00:00, 17.30s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：548 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.78s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：756 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:26<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:35<00:00, 17.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：453 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.65s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：717 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:34<00:00, 17.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：536 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:17<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.63s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：253 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 16/16 [00:08<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:29<00:00, 29.70s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：342 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:37<00:00, 37.50s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：265 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.71s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：669 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:22<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:28<00:00, 14.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：294 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:09<00:00,  1.97it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:39<00:00, 39.31s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：645 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.25s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：229 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:33<00:00, 33.34s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：4 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  4.95it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  2.75it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：548 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:18<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:44<00:00, 22.15s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：461 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:08<00:00,  8.57s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：489 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:29<00:00, 29.91s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：444 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:39<00:00, 40.00s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：497 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:17<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.35s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：502 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.95s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：447 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:13<00:00, 13.44s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：469 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.77s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：492 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:18<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.92s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：490 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.36s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：452 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.20s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：491 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.35s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：441 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.76s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：497 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.12s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：509 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.52s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：503 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:17<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：546 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：278 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.80s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：826 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:30<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.47s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：281 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.75s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：326 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:11<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.49s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：167 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 11/11 [00:05<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.86s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：169 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 11/11 [00:05<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.66s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：509 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.53s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：324 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 21/21 [00:10<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.46s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：466 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.74s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：182 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 12/12 [00:06<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.72s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：764 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:27<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.02s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：337 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:12<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.58s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：538 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.68s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：365 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 23/23 [00:12<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.76s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：343 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:12<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.53s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：316 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.47s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：189 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 12/12 [00:06<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.60s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：197 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:06<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：615 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.60s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：169 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 11/11 [00:05<00:00,  1.98it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.22s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：924 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:33<00:00,  1.71it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1036 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.14s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：708 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 45/45 [00:25<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.86s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：789 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.78s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：591 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:21<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.14s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：6 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  2.97it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  1.90it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：511 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:18<00:00,  1.72it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:12<00:00,  6.38s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：985 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 62/62 [00:34<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.07s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：478 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:17<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:34<00:00, 34.37s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：822 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.76s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：971 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:34<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:42<00:00, 21.39s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1005 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:35<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:38<00:00, 12.88s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：476 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:17<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:33<00:00, 33.64s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：611 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:21<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:40<00:00, 20.47s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：868 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:30<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:42<00:00, 21.32s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：560 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 35/35 [00:19<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:04<00:00,  2.49s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：893 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 56/56 [00:31<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:42<00:00, 21.17s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：686 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.37s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：866 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:29<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:41<00:00, 20.61s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：996 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:35<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:41<00:00, 20.97s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1145 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 72/72 [00:38<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:38<00:00, 12.92s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1121 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 71/71 [00:38<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:37<00:00, 12.62s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1299 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 82/82 [00:44<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:38<00:00, 12.72s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1265 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 80/80 [00:43<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:48<00:00, 16.31s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1038 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:46<00:00, 15.47s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1254 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 79/79 [00:42<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:45<00:00, 15.06s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1181 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 74/74 [00:39<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:40<00:00, 13.44s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1006 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:35<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:37<00:00, 12.58s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1173 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 74/74 [00:40<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:39<00:00, 13.05s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：2480 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 155/155 [00:50<00:00,  3.08it/s]



正在写入数据库...


并行插入: 100%|██████████| 5/5 [00:46<00:00,  9.28s/it, 成功: 5/5]


插入完成 - 成功批次: 5/5
正在解析PDF...
生成有效文本块：1097 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:37<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:43<00:00, 14.55s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1143 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 72/72 [00:39<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:15<00:00,  5.14s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：991 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 62/62 [00:34<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.32s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1283 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 81/81 [00:43<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:45<00:00, 15.07s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1243 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 78/78 [00:42<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.26s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1149 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 72/72 [00:38<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  6.00s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1280 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 80/80 [00:43<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:25<00:00,  8.56s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1035 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:35<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.83s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1038 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.68s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：825 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:29<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1060 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:37<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:45<00:00, 15.19s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：909 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:30<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.62s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：908 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.49s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：855 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 54/54 [00:29<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：389 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:19<00:00, 19.94s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1099 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:39<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:30<00:00, 10.05s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1068 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 67/67 [00:38<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:25<00:00,  8.46s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1204 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 76/76 [00:41<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:27<00:00,  9.24s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：970 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:34<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:37<00:00, 18.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1280 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 80/80 [00:44<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:20<00:00,  6.90s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1143 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 72/72 [00:39<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.16s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1101 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:39<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.10s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：391 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.35s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：1037 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:40<00:00, 13.39s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：686 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.57s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1020 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 64/64 [00:36<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.95s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1359 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 85/85 [00:46<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:37<00:00, 12.40s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1339 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 84/84 [00:45<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:38<00:00, 12.80s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：514 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:42<00:00, 21.04s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：687 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1028 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:40<00:00, 13.51s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1426 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 90/90 [00:49<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:39<00:00, 13.23s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：697 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:42<00:00, 21.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1415 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 89/89 [00:48<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:21<00:00,  7.07s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1021 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 64/64 [00:36<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:16<00:00,  5.58s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1391 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 87/87 [00:48<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:21<00:00,  7.08s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：270 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:08<00:00,  1.98it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.89s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：914 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:32<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:45<00:00, 22.97s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：682 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:23<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：518 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:51<00:00, 25.80s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：447 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.80s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：476 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:39<00:00, 39.20s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：590 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:42<00:00, 21.36s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：587 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:19<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:48<00:00, 24.04s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：730 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 46/46 [00:25<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.56s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：276 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:49<00:00, 49.69s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：908 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.55s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：633 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:46<00:00, 23.34s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：832 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.28s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：226 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:07<00:00,  1.93it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.78s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：576 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.16s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：569 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:18<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:16<00:00,  8.04s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：875 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 55/55 [00:31<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：445 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.91s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：619 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.46s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：793 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.75it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.77s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：307 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.76s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：817 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.89s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：770 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.01s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：692 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：513 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:17<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.54s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：638 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:23<00:00,  1.73it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:14<00:00,  7.17s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：898 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 57/57 [00:31<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：686 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 43/43 [00:24<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：929 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:33<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.67s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：309 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.41s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：774 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 49/49 [00:27<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:15<00:00,  7.59s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：264 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 17/17 [00:09<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.71s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：942 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:33<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:17<00:00,  8.68s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：634 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:11<00:00,  5.56s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：237 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 15/15 [00:08<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.49s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：567 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:20<00:00, 10.24s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：535 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.12s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：282 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:10<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.56s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：304 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:10<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.98s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：520 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:18<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:08<00:00,  4.26s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：188 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 12/12 [00:06<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.81s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：491 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:17<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:17<00:00, 17.44s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：380 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 24/24 [00:13<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.65s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：392 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:13<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:07<00:00,  7.34s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：403 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:13<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:15<00:00, 15.40s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：213 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 14/14 [00:07<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.28s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：309 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:05<00:00,  5.42s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：13 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 1/1 [00:00<00:00,  1.70it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  2.91it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：304 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 19/19 [00:10<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.10s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：319 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:11<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:51<00:00, 51.35s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：457 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:15<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:08<00:00,  8.73s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：431 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:14<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:48<00:00, 48.32s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：207 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:07<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:12<00:00, 12.63s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：200 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:06<00:00,  1.95it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:03<00:00,  3.51s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：307 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.95it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:51<00:00, 51.01s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：288 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:49<00:00, 49.24s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：284 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:09<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:55<00:00, 55.83s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：340 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 22/22 [00:11<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.79s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：475 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:16<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:47<00:00, 47.71s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：312 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:10<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:14<00:00, 14.45s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：566 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.42s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：516 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:17<00:00,  1.94it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [01:01<00:00, 30.66s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：484 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.85s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：488 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 31/31 [00:16<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:45<00:00, 45.75s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：598 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 38/38 [00:20<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:54<00:00, 27.41s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：517 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:17<00:00,  1.92it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:55<00:00, 27.91s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：497 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:16<00:00,  1.99it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.94s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：569 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 36/36 [00:19<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:53<00:00, 26.96s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：667 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 42/42 [00:23<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.46s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：650 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:54<00:00, 27.08s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：535 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.74s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：497 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 32/32 [00:16<00:00,  1.91it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:53<00:00, 53.40s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：520 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 33/33 [00:17<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.18s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：539 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:57<00:00, 28.82s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：648 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:21<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.15s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：532 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:57<00:00, 28.79s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：432 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:14<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:04<00:00,  4.09s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：460 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:46<00:00, 46.81s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：171 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 11/11 [00:06<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:10<00:00, 10.86s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：151 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 10/10 [00:05<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:01<00:00,  1.45s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：702 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 44/44 [00:24<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:45<00:00, 22.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：537 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:58<00:00, 29.46s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：317 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 20/20 [00:09<00:00,  2.05it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.77s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：810 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:54<00:00, 27.23s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：617 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 39/39 [00:20<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:05<00:00,  2.98s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：456 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 29/29 [00:16<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:53<00:00, 53.55s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：938 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:31<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:09<00:00,  4.70s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：814 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 51/51 [00:28<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:19<00:00,  9.86s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：544 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 34/34 [00:18<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:31<00:00, 15.71s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：766 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 48/48 [00:26<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.81s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：798 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 50/50 [00:28<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:32<00:00, 16.48s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：469 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 30/30 [00:15<00:00,  1.90it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:28<00:00, 28.22s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：194 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 13/13 [00:06<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:11<00:00, 11.84s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：277 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 18/18 [00:08<00:00,  2.14it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:02<00:00,  2.60s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：437 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 28/28 [00:15<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:30<00:00, 30.68s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：398 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 25/25 [00:14<00:00,  1.78it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:37<00:00, 37.28s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：25 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 2/2 [00:00<00:00,  2.04it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:00<00:00,  3.19it/s, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：407 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 26/26 [00:14<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:06<00:00,  6.12s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：430 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 27/27 [00:15<00:00,  1.74it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:31<00:00, 31.74s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：648 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 41/41 [00:22<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:44<00:00, 22.21s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：186 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 12/12 [00:06<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 1/1 [00:35<00:00, 35.80s/it, 成功: 1/1]


插入完成 - 成功批次: 1/1
正在解析PDF...
生成有效文本块：990 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 62/62 [00:33<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:39<00:00, 19.98s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1031 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:34<00:00,  1.87it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:41<00:00, 13.92s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1297 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 82/82 [00:44<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:44<00:00, 14.83s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1225 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 77/77 [00:41<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:44<00:00, 14.69s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：968 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 61/61 [00:33<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:47<00:00, 23.57s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1181 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 74/74 [00:40<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:18<00:00,  6.26s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1474 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 93/93 [00:51<00:00,  1.81it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:24<00:00,  8.10s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1571 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 99/99 [00:55<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 4/4 [00:19<00:00,  4.83s/it, 成功: 4/4]


插入完成 - 成功批次: 4/4
正在解析PDF...
生成有效文本块：1091 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 69/69 [00:37<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:46<00:00, 15.45s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1553 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 98/98 [00:52<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 4/4 [00:46<00:00, 11.63s/it, 成功: 4/4]


插入完成 - 成功批次: 4/4
正在解析PDF...
生成有效文本块：625 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 40/40 [00:22<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:06<00:00,  3.35s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1010 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 64/64 [00:34<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:17<00:00,  5.74s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：993 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:34<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:51<00:00, 25.81s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：945 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 60/60 [00:31<00:00,  1.88it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.09s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1297 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 82/82 [00:44<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:55<00:00, 18.63s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1462 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 92/92 [00:49<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:23<00:00,  7.90s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：997 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 63/63 [00:33<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:13<00:00,  6.69s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：938 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 59/59 [00:31<00:00,  1.85it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:54<00:00, 27.03s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：921 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 58/58 [00:30<00:00,  1.89it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:51<00:00, 25.87s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：821 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 52/52 [00:28<00:00,  1.86it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.89s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1185 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 75/75 [00:41<00:00,  1.82it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:33<00:00, 11.01s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1132 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 71/71 [00:40<00:00,  1.77it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:20<00:00,  6.94s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1036 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 65/65 [00:36<00:00,  1.79it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:19<00:00,  6.47s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：987 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 62/62 [00:33<00:00,  1.84it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:10<00:00,  5.15s/it, 成功: 2/2]


插入完成 - 成功批次: 2/2
正在解析PDF...
生成有效文本块：1112 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 70/70 [00:38<00:00,  1.80it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:50<00:00, 16.72s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：1080 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 68/68 [00:38<00:00,  1.76it/s]



正在写入数据库...


并行插入: 100%|██████████| 3/3 [00:19<00:00,  6.60s/it, 成功: 3/3]


插入完成 - 成功批次: 3/3
正在解析PDF...
生成有效文本块：584 个
生成嵌入向量...
多线程版本



多线程生成向量: 100%|██████████| 37/37 [00:20<00:00,  1.83it/s]



正在写入数据库...


并行插入: 100%|██████████| 2/2 [00:07<00:00,  3.61s/it, 成功: 2/2]

插入完成 - 成功批次: 2/2





In [None]:
from google.colab import runtime
runtime.unassign()

In [None]:
answers = text_db.search("贵州茅台2024年净利润")

In [None]:
print(len(answers))

100


In [None]:
print(answers[0])

('贵州茅台酒股份有限公司2024 年年度报告 1 / 143 公司代码：600519 公司简称：贵州茅台 贵州茅台酒股份有限公司 2024 年年度报告 贵州茅台酒股份有限公司2024 年年度报告 2 / 143 重要提示 一、 本公司董事会、监事会及董事、监事、高级管理人员保证年度报告内容的真实性、准确性、 完整性，不存在虚假记载、误导性陈述或重大遗漏，并承担个别和连带的法律责任。 二、 公司全体董事出席董事会会议。 三、 天健会计师事务所(特殊普通合伙)为本公司出具了标准无保留意见的审计报告。 四、 公司负责人张德芹、主管会计工作负责人蒋焰及会计机构负责人（会计主管人员）蔡聪应声 明：保证年度报告中财务报告的真实、准确、完整。 五、 董事会决议通过的本报告期利润分配预案或公积金转增股本预案 公司拟以实施权益分派股权登记日登记的总股本扣除回购专用账户中的股份为基数，实施 2024年年度利润分配，向全体股东每10股派发现金红利276.24元（含税）。截至2025年3月31日， 公司总股本1,256,197,800股，回购专用证券账户中股份数1,082,700股，总股本扣除回购专用证 券账户中的股份数为1,255,115,100股，以此计算合计派发现金红利34,671,299,522.40元（含税 ）。在实施权益分派的股权登记日前公司总股本扣除回购专用证券账户内的股份数如发生变动的 ，将维持分配总额不变，相应调整每股分红比例。以上利润分配预案需提交公司股东大会审议通 过后实施。 六、 前瞻性陈述的风险声明 √适用 □不适用 本年度报告中所涉及的未来计划、发展战略等前瞻性陈述因存在不确定性，不构成本公司对 投资者的实质承诺，敬请投资者注意投资风险。 七、 是否存在被控股股东及其他关联方非经营性占用资金情况 否 八、 是否存在违反规定决策程序对外提供担保的情况 否 九、 是否存在半数以上董事无法保证公司所披露年度报告的真实性、准确性和完整性 否 十、 重大风险提示 本公司已在本年度报告中“公司关于公司未来发展的讨论与分析”章节阐述公司可能面对的 风险，敬请投资者予以关注。 十一、 其他 □适用 √不适用 贵州茅台酒股份有限公司2024 年年度报告 3 / 143 目录 第一节 释义 .............................................

# Retriever

In [None]:
# =============================
# 检索结果处理模块
# =============================
class RetrievalProcessor:
    """处理检索结果的重排序和过滤"""
    def __init__(self):
        try:
            self.reranker = CrossEncoder(Config.RERANKER_MODEL)
            self.bm25 = None  # 延迟初始化
        except Exception as e:
            print(f"RetrievalProcessor初始化错误:{str(e)}")
            raise

    def process_results(self, query: str, results: List[Tuple[str, float, dict]]):
        """
        处理检索结果的三阶段流程：
        1. BM25过滤 -> 2.重排序 -> 3.元数据过滤
        """
        # 阶段1：BM25过滤
        try:
            filtered_indices = self._bm25_filter(query, [r[0] for r in results])
            filtered_results = [results[i] for i in filtered_indices]  # 新增结果过滤
        except Exception as e:
            return f"处理检索结果的阶段1：BM25过滤错误:{str(e)}"

        # 阶段2：重排序
        try:
            # 修正点：传入原始结果和过滤后的索引
            reranked = self._rerank(query, filtered_results, filtered_indices)
        except Exception as e:
            return f"阶段2：重排序错误:{str(e)}"

        # 阶段3：元数据过滤
        try:
            final_results = self._metadata_filter(reranked)
        except Exception as e:
            return f"阶段3：元数据过滤错误:{str(e)}"

        return final_results[:Config.TOP_K_FINAL]

    def _bm25_filter(self, query: str, documents: List[str]) -> List[int]:
        """使用BM25进行关键词过滤"""
        # 初始化BM25
        try:
            # 添加空文档检查
            valid_docs = [doc for doc in documents if len(doc.strip()) > 0]
            if not valid_docs:
                return []

            tokenized_docs = [jieba.lcut_for_search(doc) for doc in valid_docs]
            self.bm25 = BM25Okapi(tokenized_docs)
        except Exception as e:
            raise Exception(f"初始化BM25错误:{str(e)}")

        # 提取查询关键词
        try:
            query_terms = jieba.lcut_for_search(query.strip())
            if not query_terms:
                return []
        except Exception as e:
            raise Exception(f"提取查询关键词错误:{str(e)}")

        # 获取BM25分数
        try:
            scores = self.bm25.get_scores(query_terms)
        except Exception as e:
            raise Exception(f"获取BM25分数错误:{str(e)}")

        # 选取前50%的文档（修正索引映射）
        threshold = np.percentile(scores, 50)
        return [i for i, s in enumerate(scores) if s >= threshold]

    def _rerank(self, query: str, filtered_results: List[Tuple], indices: List[int]) -> List[Tuple]:
        """使用重排序模型优化结果"""
        # 修正点：使用过滤后的结果数据
        pairs = [(query, res[0]) for res in filtered_results]  # ✅ 使用传入的filtered_results
        try:
            scores = self.reranker.predict(pairs, batch_size=32)
        except Exception as e:
            raise Exception(f"重排序模型预测错误:{str(e)}")

        # 组合结果时保留原始元数据
        reranked = sorted(
            zip(filtered_results, scores),
            key=lambda x: -x[1]
        )
        return reranked

    def _metadata_filter(self, results: List[Tuple]) -> List[Tuple]:
        """基于元数据的过滤（修正文本长度检查）"""
        # 修正点：正确访问文本内容
        return [r for r in results if len(r[0][0].strip()) >= 50]  # ✅ r[0][0]对应原始文本内容

## Test

In [None]:
test_retriever = RetrievalProcessor()

config.json:   0%|          | 0.00/801 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/443 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/279 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/34.0k [00:00<?, ?B/s]

In [None]:
final_answers = test_retriever.process_results("贵州茅台2024年净利润", answers)

In [None]:
print(len(final_answers))

1


In [None]:
print(final_answers[:])

[(('事项描述 相关信息披露详见审计报告财务报表附注三(二十)和五(二)1。 贵州茅台酒股份有限公司2024 年年度报告 56 / 143 贵州茅台公司的营业收入主要来自于茅台酒及系列酒的生产及销售。2024 年度，贵州茅台 公司的营业收入为人民币17,089,915.23 万元。其中主营业务收入为人民币17,061,183.81 万 元，占营业收入的99.83%。 由于营业收入是贵州茅台公司关键业绩指标之一，可能存在贵州茅台公司管理层（以下简称 管理层）通过不恰当的收入确认以达到特定目标或预期的固有风险，同时，收入确认涉及重大管 理层判断。因此，我们将收入确认确定为关键审计事项。 2. 审计应对 针对收入确认，我们实施的审计程序主要包括： (1) 了解与收入确认相关的关键内部控制，评价这些控制的设计，确定其是否得到执行，并 测试相关内部控制的运行有效性； (2) 选取样本检查销售合同，识别与客户取得相关商品控制权时点相关的条款，评价收入确 认政策是否符合企业会计准则的规定； (3) 对营业收入及毛利率实施分析程序，识别是否存在重大或异常波动，并查明波动原因； (4) 对于内销收入，选取样本检查与收入确认相关的支持性文件，包括销售合同、销售订 单、出库单、签收单、销售发票等；对于出口外销收入，选取样本检查与收入确认相关的支持性 文件，包括销售合同、销售订单、出口报关单、货运提单等； (5) 结合合同负债函证，选取项目向主要客户函证报告期销售额； (6) 实施截止测试，检查收入是否在恰当期间确认； (7) 检查与营业收入相关的信息是否已在财务报表中作出恰当列报。 (二) 关联方及其交易 1. 事项描述 相关信息披露详见审计报告财务报表附注十一。 2024 年度贵州茅台公司与关联方发生交易的类别较多且金额较大。由于关联方数量多、交 易类型多样、交易金额重大，关联交易金额准确性对本年度财务报表影响较大，且披露的完整性 对理解和使用财务报表具有较大影响，我们将其确认确定为关键审计事项。 2. 审计应对 (1) 了解贵州茅台公司与识别和披露关联方及关联交易相关的关键内部控制，评价这些控制 的设计，确定其是否得到执行，并测试相关内部控制运行的有效性； (2) 获取管理层提供的关联方清单，与通过公开渠道查询的信息进行核对； (3) 获取关联交易相关的董事会决议、股东大会决议，检

In [None]:
print(final_answers[0][0])

('事项描述 相关信息披露详见审计报告财务报表附注三(二十)和五(二)1。 贵州茅台酒股份有限公司2024 年年度报告 56 / 143 贵州茅台公司的营业收入主要来自于茅台酒及系列酒的生产及销售。2024 年度，贵州茅台 公司的营业收入为人民币17,089,915.23 万元。其中主营业务收入为人民币17,061,183.81 万 元，占营业收入的99.83%。 由于营业收入是贵州茅台公司关键业绩指标之一，可能存在贵州茅台公司管理层（以下简称 管理层）通过不恰当的收入确认以达到特定目标或预期的固有风险，同时，收入确认涉及重大管 理层判断。因此，我们将收入确认确定为关键审计事项。 2. 审计应对 针对收入确认，我们实施的审计程序主要包括： (1) 了解与收入确认相关的关键内部控制，评价这些控制的设计，确定其是否得到执行，并 测试相关内部控制的运行有效性； (2) 选取样本检查销售合同，识别与客户取得相关商品控制权时点相关的条款，评价收入确 认政策是否符合企业会计准则的规定； (3) 对营业收入及毛利率实施分析程序，识别是否存在重大或异常波动，并查明波动原因； (4) 对于内销收入，选取样本检查与收入确认相关的支持性文件，包括销售合同、销售订 单、出库单、签收单、销售发票等；对于出口外销收入，选取样本检查与收入确认相关的支持性 文件，包括销售合同、销售订单、出口报关单、货运提单等； (5) 结合合同负债函证，选取项目向主要客户函证报告期销售额； (6) 实施截止测试，检查收入是否在恰当期间确认； (7) 检查与营业收入相关的信息是否已在财务报表中作出恰当列报。 (二) 关联方及其交易 1. 事项描述 相关信息披露详见审计报告财务报表附注十一。 2024 年度贵州茅台公司与关联方发生交易的类别较多且金额较大。由于关联方数量多、交 易类型多样、交易金额重大，关联交易金额准确性对本年度财务报表影响较大，且披露的完整性 对理解和使用财务报表具有较大影响，我们将其确认确定为关键审计事项。 2. 审计应对 (1) 了解贵州茅台公司与识别和披露关联方及关联交易相关的关键内部控制，评价这些控制 的设计，确定其是否得到执行，并测试相关内部控制运行的有效性； (2) 获取管理层提供的关联方清单，与通过公开渠道查询的信息进行核对； (3) 获取关联交易相关的董事会决议、股东大会决议，检查关

# Chat System

In [None]:
class ChatSystem:
    def __init__(self):
        self.client = OpenAI(
            base_url=Config.BASE_URL,
            api_key=Config.API_KEY
        )

    def generate_response(self, context: str, query: str, model_name: str) -> str:
        """生成智能回复"""
        prompt = f"""
        基于以下上下文信息，请用中文回答问题。如果无法从上下文中得到答案，请说明原因。

        上下文：
        {context}

        问题：{query}
        """
        try:
          response = self.client.chat.completions.create(
              model=model_name,
              messages=[
                  {"role": "system", "content": "你是一个专业的财务报表分析人工智能助手,请适当采用语法高亮对输出进行美化"},
                  {"role": "user", "content": prompt}
              ],
              temperature=Config.TEMPERATURE,
              max_tokens=Config.MAX_TOKENS
          )
        except Exception as e:
          return f"{str(e)}"

        return response.choices[0].message.content

## Test

In [None]:
chat = ChatSystem()

In [None]:
chat.generate_response(final_answers[0][0], "贵州茅台2024年净利润", "deepseek-r1-250120")

'\n\n根据贵州茅台2024年年度报告中的合并利润表数据，**贵州茅台2024年净利润为**：\n\n```python\n净利润 = 89,334,728,025.90 元（约893.35亿元人民币）\n```\n\n**具体分类：**\n- **归属于母公司股东的净利润**：86,228,146,421.62 元（约862.28亿元）\n- **少数股东损益**：3,106,581,604.28 元（约31.07亿元）\n\n---\n\n**数据来源：**\n- 合并利润表中“五、净利润”项目（报表页码：64-66页）\n- 净利润构成中明确列示了母公司股东和少数股东的分配比例。'

# User Interface

In [None]:
# =============================
# 交互界面模块
# =============================
class ChatInterface:
    """Gradio交互界面管理"""
    def __init__(self):
      try:
         self.db = VectorDBManager()
         self.retriever = RetrievalProcessor()
         self.chat_system = ChatSystem()
         self._setup_ui()
      except Exception as e:
        print(f"界面初始化失败:{str(e)}")
        raise

    # 在ChatInterface类中修改handle_upload方法
    def handle_upload(self, file_obj) -> str:
        """支持处理文件夹上传"""
        try:
            if isinstance(file_obj, list):  # Gradio文件夹上传会返回列表
                for f in file_obj:
                    self.db.pdf_processor(f.name)
                return f"成功处理 {len(file_obj)} 个文件"
            else:
                self.db.pdf_processor(file_obj.name)
                return f"成功处理: {Path(file_obj.name).name}"
        except Exception as e:
            return f"处理失败: {str(e)}"

    def _setup_ui(self):
        """构建交互界面"""
        with gr.Blocks(title="智能文档助手🤖") as self.interface:
          with gr.Row():
            with gr.Column(scale=1):
              # # 多文件/文件夹上传
              # self.file_upload = gr.File(
              #     label="上传PDF文档/文件夹",
              #     file_count="directory"  # 支持文件夹上传
              # )
              self.file_upload = gr.File(label="上传PDF文档")
              self.upload_btn = gr.Button("处理文档")
              self.status = gr.Textbox(label="处理状态")

            with gr.Column(scale=2):
              # 模型选择组件
              self.model_selector = gr.Dropdown(
                  label="选择模型",
                  info="Deepseek-R1:深度推理 | Deepseek-V3:快速响应",
                  choices=list(Config.MODELS.keys()),
                  value="Deepseek-V3"
              )


              # 问答组件
              self.query_input = gr.Textbox(label="输入问题")
              self.search_btn = gr.Button("开始查询")
              self.context_display = gr.Textbox(label="检索上下文")
              self.answer_output = gr.Textbox(label="智能回复")

            # 事件绑定
            self.upload_btn.click(
                self.handle_upload,
                inputs=self.file_upload,
                outputs=self.status
            )
            self.search_btn.click(
                self.handle_query,
                inputs=[self.query_input, self.model_selector],
                outputs=[self.context_display, self.answer_output]
            )

    def handle_upload(self, file_path: str) -> str:
        """处理文件上传"""
        if not file_path:
            return "请选择PDF文件"

        try:
          self.db.pdf_processor(file_path)
          return f"✅ 成功处理: {Path(file_path).name}"
        except Exception as e:
          return f"❌ 文件处理失败，请检查文件格式. {str(e)}"

    def handle_query(self, query: str, model: str) -> Tuple[str, str]:
        """处理用户查询"""
        model_id = Config.MODELS.get(model)

        # 向量搜索
        raw_results = self.db.search(query)

        # 结果处理
        processed = self.retriever.process_results(query, raw_results)

        context = "\n".join([r[0][0] for r in processed])

        # 生成智能回复
        response = self.chat_system.generate_response(context, query, model_id)

        return context, response

## Test

In [None]:
UI = ChatInterface()

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/15.8k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/54.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/801 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/443 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/279 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/34.0k [00:00<?, ?B/s]



In [None]:
UI.interface.launch()

It looks like you are running Gradio on a hosted a Jupyter notebook. For the Gradio app to work, sharing must be enabled. Automatically setting `share=True` (you can turn this off by setting `share=False` in `launch()` explicitly).

Colab notebook detected. To show errors in colab notebook, set debug=True in launch()
* Running on public URL: https://64d8effc465377dccb.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


