# 松材线虫病知识图谱构建 - Notebook版

本Notebook直接使用项目现有模块，与main.py功能完全一致。

## 使用说明
1. 确保Ollama运行中: `ollama serve`
2. 确保已下载模型: `ollama pull llama3.2:3b`
3. PDF文献放入 `文献/` 目录
4. 按顺序执行单元格

## 1. 导入项目模块

In [4]:
import os
import sys
from datetime import datetime

# 导入项目模块
from enhanced_pipeline import EnhancedKnowledgeGraphPipeline
from data_cleaner import DataCleaner
from neo4j_generator import Neo4jGenerator
from config_loader import load_config
from logger_config import get_logger
from main import generate_statistics_report

print("✓ 项目模块已导入")

✓ 项目模块已导入


## 2. 加载配置

In [5]:
# 加载config.yaml
config = load_config()
logger = get_logger('Notebook')

# 提取配置
PDF_DIR = config.get('pdf.input_directory', './文献')
OUTPUT_DIR = config.get('output.base_directory', './output')
CONFIDENCE_THRESHOLD = config.get('cleaning.confidence_threshold', 0.65)

print("配置信息:")
print(f"  PDF目录: {PDF_DIR}")
print(f"  输出目录: {OUTPUT_DIR}")
print(f"  LLM模型: {config.get('llm.model')}")
print(f"  处理块数: {config.get('llm.max_chunks', 'ALL')}")
print(f"  缓存: {config.get('system.enable_cache')}")

INFO - 配置文件已加载: ./config/config.yaml


配置信息:
  PDF目录: ./文献
  输出目录: ./output
  LLM模型: llama3.2:3b
  处理块数: 100
  缓存: True


## 3. 运行增强型管道

这一步会自动完成:
- PDF提取(带缓存)
- 文本分块
- LLM概念提取
- 邻近性分析
- 概念去重
- 过滤和保存

In [6]:
# 初始化管道
pipeline = EnhancedKnowledgeGraphPipeline(config)

# 运行管道
start_time = datetime.now()
print(f"开始时间: {start_time.strftime('%Y-%m-%d %H:%M:%S')}")
print("="*60)

concepts_df, relationships_df = pipeline.run(PDF_DIR)

end_time = datetime.now()
print("="*60)
print(f"完成时间: {end_time.strftime('%Y-%m-%d %H:%M:%S')}")
print(f"总耗时: {end_time - start_time}")
print(f"\n提取概念: {len(concepts_df)}")
print(f"提取关系: {len(relationships_df)}")

INFO - Initializing concept extractor...
INFO - ✓ Concept extractor initialized
INFO - Initializing concept deduplicator...
INFO - ✓ Concept deduplicator initialized
INFO - Starting Enhanced Knowledge Graph Pipeline
INFO - 
[Step 1/6] Extracting text from PDFs...
INFO - 缓存目录: output/cache
INFO - 并行处理器已初始化: 4 个工作进程
INFO - PDF缓存已启用
INFO - 并行处理已启用: 4 个工作进程
INFO - 找到 14 个PDF文件
INFO - 使用并行处理: 4 个进程
INFO - 开始并行处理 14 个文件，使用 4 个进程


开始时间: 2025-11-15 18:15:55
找到 14 个PDF文件


提取PDF文本:   0%|          | 0/14 [00:00<?, ?it/s]INFO - OCR功能可用 (pytesseract)
INFO - OCR功能可用 (pytesseract)
INFO - OCR功能可用 (pytesseract)
INFO - OCR功能可用 (pytesseract)
INFO - PaddleOCR可用（推荐用于中文）
INFO - PaddleOCR可用（推荐用于中文）
INFO - PaddleOCR可用（推荐用于中文）
INFO - PaddleOCR可用（推荐用于中文）
提取PDF文本: 100%|██████████| 14/14 [00:18<00:00,  1.31s/it]
INFO - 并行处理完成: 成功 14/14
INFO - 
[Step 2/6] Splitting texts into chunks...
INFO - Created 321 chunks
INFO - 
[Step 3/6] Extracting concepts and relationships using LLM...
INFO - Processing limit: 100 chunks
⚠️  Limiting processing to 100 chunks (out of 321)
    Set max_chunks=None in code to process all chunks


✓ ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf: 提取了 97457 个字符
✓ 4ERGo-1762148839583-泰山松材线虫病、美国白蛾风险分析评估与预警技术研究_申卫星.pdf: 提取了 69638 个字符
✓ 基于灰色关联度分析气候因素对江西省松材线虫病的影响.pdf: 提取了 18707 个字符
✓ Pc5Bj-1762148820023-松材线虫病媒介天牛种类调查及其传播机制研究_王洋.pdf: 提取了 115778 个字符
✓ 气候变化对松材线虫病扩散风险的影响分析——以郁南县为例_雷志华.pdf: 提取了 5630 个字符
✓ 我国松材线虫病的扩散趋势及气候对疫情的影响研究_张潮.pdf: 提取了 43477 个字符
✓ 气候要素对松材线虫病疫情的影响研究.pdf: 提取了 12326 个字符
✓ JU3yc-1762148851602-马尾松蛀干害虫种群动态与松材线虫病的关系及松褐天牛天敌研究_展茂魁.pdf: 提取了 131166 个字符
✓ 松材线虫病疫情指数与气候因素之间的关系.pdf: 提取了 18167 个字符
✓ JItW6-1762148810582-中国森林保护学科发展历程研究_曾凡勇.pdf: 提取了 132512 个字符
✓ XlZVN-1762148845443-浙江省松材线虫病环境影响经济评价与治理研究_李兰英.pdf: 提取了 172287 个字符
✓ 气候要素对天台松材线虫病疫情的影响.pdf: 提取了 5603 个字符
✓ 气候变化背景下松材线虫在中国分布的时空变化预测.pdf: 提取了 18937 个字符
✓ 基于长汀水土流失治理过程中马尾松林松材线虫病与气候因素之间的关系.pdf: 提取了 5527 个字符


Processing chunks:   0%|          | 0/100 [00:00<?, ?it/s]Ollama timeout (attempt 1/3), retrying...
Failed to parse JSON for chunk ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf_0
Processing chunks:   1%|          | 1/100 [03:01<4:58:58, 181.20s/it]Failed to parse JSON for chunk ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf_1
Processing chunks:   2%|▏         | 2/100 [03:33<2:33:07, 93.75s/it] Failed to parse JSON for chunk ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf_2
Processing chunks:   3%|▎         | 3/100 [04:00<1:42:00, 63.10s/it]Failed to parse JSON for chunk ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf_3
Processing chunks:   4%|▍         | 4/100 [04:17<1:12:13, 45.14s/it]Failed to parse JSON for chunk ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf_4
Processing chunks:   5%|▌         | 5/100 [04:54<1:06:31, 42.01s/it]Failed to parse JSON for chunk ZGds6-1762148816090-松材线虫病害早期星-机-地遥感诊断光谱特征研究_李霓雯.pdf_5
Processing chunks:   6%|▌         | 6/100 [05:18

KeyError: 'entity'

## 4. 数据清洗

In [None]:
# 转换为实体格式
entities_clean = concepts_df.copy()
entities_clean.rename(columns={'entity': 'name'}, inplace=True)

if 'id' not in entities_clean.columns:
    entities_clean['id'] = entities_clean['name']
if 'type' not in entities_clean.columns:
    entities_clean['type'] = entities_clean.get('category', 'concept')

# 转换关系格式
relations_clean = relationships_df.copy()
relations_clean.rename(columns={
    'node_1': 'head',
    'node_2': 'tail',
    'edge': 'relation'
}, inplace=True)

if 'confidence' not in relations_clean.columns:
    relations_clean['confidence'] = relations_clean.get('weight', 0.5)
if 'source_pdf' not in relations_clean.columns and 'chunk_id' in relations_clean.columns:
    relations_clean['source_pdf'] = relations_clean['chunk_id'].str.split('_').str[0]

# 保存
entities_clean.to_csv(f"{OUTPUT_DIR}/entities_clean.csv", index=False, encoding='utf-8-sig')
relations_clean.to_csv(f"{OUTPUT_DIR}/relations_clean.csv", index=False, encoding='utf-8-sig')

print(f"✓ 清洗后实体: {len(entities_clean)}")
print(f"✓ 清洗后关系: {len(relations_clean)}")

## 5. 生成Neo4j文件

In [None]:
# 使用Neo4jGenerator
generator = Neo4jGenerator(output_dir=f"{OUTPUT_DIR}/neo4j_import")
generator.generate_all(entities_clean, relations_clean)

print("\n✓ Neo4j导入文件已生成")

## 6. 生成统计报告

In [None]:
# 生成统计报告
generate_statistics_report(entities_clean, relations_clean, OUTPUT_DIR)

print("\n✓ 统计报告已生成")

## 7. 数据预览

In [None]:
# 显示概念
print("概念样例:")
display(concepts_df.head(10))

print("\n实体样例:")
display(entities_clean.head(10))

In [None]:
# 显示关系
print("关系样例:")
display(relations_clean.head(10))

## 8. 完成总结

In [None]:
print("="*60)
print("✓ 知识图谱构建完成!")
print("="*60)
print(f"\n输出目录: {os.path.abspath(OUTPUT_DIR)}")
print("\n生成文件:")
print(f"  1. {OUTPUT_DIR}/concepts.csv")
print(f"  2. {OUTPUT_DIR}/relationships.csv")
print(f"  3. {OUTPUT_DIR}/entities_clean.csv")
print(f"  4. {OUTPUT_DIR}/relations_clean.csv")
print(f"  5. {OUTPUT_DIR}/neo4j_import/nodes.csv")
print(f"  6. {OUTPUT_DIR}/neo4j_import/relations.csv")
print(f"  7. {OUTPUT_DIR}/statistics_report.txt")
print("\n数据摘要:")
print(f"  概念: {len(concepts_df)}")
print(f"  实体: {len(entities_clean)}")
print(f"  关系: {len(relations_clean)}")
print("\n✓ 与main.py输出完全一致!")