一个基于 WindData DocParse API 的本地 Model Context Protocol (MCP) 服务,用于从文档(PDF、Word、图片)中提取文本和结构。
- 文档提取:支持解析 PDF、Word (.doc, .docx) 和图片文件。
- OCR 支持:可选的 OCR 功能,用于提取文档内图片的文本。
- 多种格式:支持输出 Markdown、JSON 或同时输出两者。
- 大纲提取:自动提取文档的结构/大纲。
- Node.js:版本 16 或更高。
- WindData API 密钥:您需要从 瞬析 获取有效的
X-SECRET-KEY。
npm install -g docpilot-mcp您必须将 DOC_PARSE_SECRET_KEY 环境变量设置为您的 WindData API 密钥。
export DOC_PARSE_SECRET_KEY="your-secret-key-here"将以下配置添加到您的 MCP 客户端设置中(通常是 claude_desktop_config.json 或类似文件):
{
"mcpServers": {
"docpilot": {
"command": "npx",
"args": [
"-y",
"docpilot-mcp"
],
"env": {
"DOC_PARSE_SECRET_KEY": "您的API密钥"
}
}
}
}从文档文件中提取内容。
参数:
file_path(string, 必填):要解析的文档文件的绝对路径。content_format(string, 可选):输出格式。可选值为"markdown"、"json"或"all"。默认为"markdown"。is_ocr_image(boolean, 可选):是否启用图片 OCR 识别。默认为false。outline_enabled(boolean, 可选):是否提取文档大纲。默认为true。
示例:
{
"name": "doc_extract",
"arguments": {
"file_path": "/path/to/document.pdf",
"content_format": "markdown",
"is_ocr_image": true
}
}- 克隆仓库。
- 安装依赖:
npm install - 构建项目:
npm run build - 本地运行:
node build/index.js
ISC