# Docling 文档转换示例

本 notebook 演示如何使用 Docling 将文档转换为不同格式：
- HTML 格式：适合展示和渲染
- Markdown 格式：适合文本分块和 RAG 处理


In [None]:
# 安装必要的库（如果还没有安装）
# !pip install docling docling-core


In [None]:
# 导入必要的库
from docling.document_converter import DocumentConverter
from pathlib import Path
import os


In [None]:
# 设置文档路径（使用项目中已有的PDF文件）
doc_path = Path("../RAG/DB/uploads/坏死性软组织感染临床诊治急诊专家共识.pdf")

# 检查文件是否存在
if doc_path.exists():
    print(f"文档路径: {doc_path}")
    print(f"文件大小: {doc_path.stat().st_size / 1024:.2f} KB")
else:
    print(f"警告: 文件不存在 - {doc_path}")


In [None]:
# 初始化 Docling 文档转换器
converter = DocumentConverter()
print("Docling 转换器初始化成功！")


In [None]:
# 转换文档
print("开始转换文档...")
result = converter.convert(doc_path)
print("文档转换完成！")


## 1. 导出为 HTML 格式


In [20]:
# 导出为 HTML 格式
html_output = result.document.export_to_html()

# 保存 HTML 文件
html_output_path = Path("output_document.html")
with open(html_output_path, "w", encoding="utf-8") as f:
    f.write(html_output)

print(f"HTML 文件已保存至: {html_output_path.absolute()}")
print(f"HTML 文件大小: {html_output_path.stat().st_size / 1024:.2f} KB")
# 显示 HTML 内容的前 500 个字符
print("\n--- HTML 预览（前 500 字符）---")
print(html_output[:500])



HTML 文件已保存至: o:\MyProject\Knowleage\output_document.html
HTML 文件大小: 70.46 KB

--- HTML 预览（前 500 字符）---
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8"/>
<title>坏死性软组织感染临床诊治急诊专家共识</title>
<meta name="generator" content="Docling HTML Serializer"/>
<style>
    html {
        background-color: #f5f5f5;
        font-family: Arial, sans-serif;
        line-height: 1.6;
    }
    body {
        max-width: 800px;
        margin: 0 auto;
        padding: 2rem;
        background-color: white;
        box-shadow: 0 0 10px rgba(0,0,0,0.1);
    }
    h1, h2, h3, h4, h5, h6 {
        color: #333;
        
