Skip to content

USTC-KnowledgeComputingLab/MMInfoExtractor

Repository files navigation

IdeaExtractor

一个专业的信息抽取工具,目前支持从PDF、DOCX、XLSX 等文件中抽取知识点和潜在发明点等重要结构化信息。

功能特性

  • 📁 多格式支持:PDF、DOCX、XLSX等类型的文件,可输入url或者文件路径
  • 知识点和潜在发明点抽取: 抽取详细的结构化信息
  • 模板填充:目前支持三种预先定义好的模板类型的抽取, 化学、机械、电学

快速开始

1. 环境要求

  • Python 3.12+
  • RabbitMQ

源码运行方式

安装依赖

# 使用uv安装
uv sync

hint: 其中mmdocparser包的安装源为私人地址,如无权限安装请联系仓库管理员

准备mineru模型

  1. modelscope
    • 请确保您的网络环境能够使用modelscope模型下载工具
    • 设置环境变量
      export MINERU_MODEL_SOURCE=modelscope
  2. local
    • 如果你运行的环境不支持从modelscope下载模型
    • 在网络环境允许的环境中预先下载好模型
      uv run mineru-models-download -s modelscope -m pipeline
    • 将上一步下载好的模型文件移动到指定目录下
      cp -r /home/user/.cache/modelscope/hub/models/OpenDataLab/PDF-Extract-Kit-1___0/models /dest_dir
    • 将我们提供的模型配置文件复制到用户根目录下/home/user, 并将修改配置文件的models-dir的值修改为 /dest_dir
      cp mineru.json /home/user
    • 设置环境变量
      export MINERU_MODEL_SOURCE=local

配置环境变量

# 复制环境变量模板
cp .env.sh.template .env.sh
# 设置环境变量
...

Docker运行方式

  1. 如果docker容器环境无法从modescope拉取模型,可以上传模型文件到minio, 否则请忽略这一步
    # 设置 MINIO 别名
    mc alias set minio "$S3_ENDPOINT" "$S3_ACCESS_KEY" "$S3_SECRET_KEY"

    # 上传mineru本地模型
    mc cp --recursive your_path/models minio/"$S3_BUCKET"/"$REPO_ID"
  1. 拉取镜像
  1. 复制环境变量模板文件,并填充
cp .env.template .env
  1. 启动容器
docker run -d -rm\
  --name test \
  --env-file .env \
  idea_extractor:dev

许可证

MIT License

贡献

欢迎提交Issue和Pull Request!

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages