一个专业的信息抽取工具,目前支持从PDF、DOCX、XLSX 等文件中抽取知识点和潜在发明点等重要结构化信息。
- 📁 多格式支持:PDF、DOCX、XLSX等类型的文件,可输入url或者文件路径
- 知识点和潜在发明点抽取: 抽取详细的结构化信息
- 模板填充:目前支持三种预先定义好的模板类型的抽取, 化学、机械、电学
- Python 3.12+
- RabbitMQ
# 使用uv安装
uv sync
hint: 其中mmdocparser包的安装源为私人地址,如无权限安装请联系仓库管理员
- modelscope
- 请确保您的网络环境能够使用modelscope模型下载工具
- 设置环境变量
export MINERU_MODEL_SOURCE=modelscope
- local
- 如果你运行的环境不支持从modelscope下载模型
- 在网络环境允许的环境中预先下载好模型
uv run mineru-models-download -s modelscope -m pipeline
- 将上一步下载好的模型文件移动到指定目录下
cp -r /home/user/.cache/modelscope/hub/models/OpenDataLab/PDF-Extract-Kit-1___0/models /dest_dir
- 将我们提供的模型配置文件复制到用户根目录下/home/user, 并将修改配置文件的models-dir的值修改为 /dest_dir
cp mineru.json /home/user
- 设置环境变量
export MINERU_MODEL_SOURCE=local
# 复制环境变量模板
cp .env.sh.template .env.sh
# 设置环境变量
...
- 如果docker容器环境无法从modescope拉取模型,可以上传模型文件到minio, 否则请忽略这一步
# 设置 MINIO 别名
mc alias set minio "$S3_ENDPOINT" "$S3_ACCESS_KEY" "$S3_SECRET_KEY"
# 上传mineru本地模型
mc cp --recursive your_path/models minio/"$S3_BUCKET"/"$REPO_ID"
- 拉取镜像
- 复制环境变量模板文件,并填充
cp .env.template .env
- 启动容器
docker run -d -rm\
--name test \
--env-file .env \
idea_extractor:dev
MIT License
欢迎提交Issue和Pull Request!