项目流程说明

Jump to bottom

xiaomaoaichiyu edited this page May 17, 2020 · 9 revisions

原微软项目流程

上传训练pdf文件（5个以上）
标注pdf文件，采用{key：value}的样式，key是属性，包括{string，date，...}，而value是pdf文件中的字段
训练模型
使用训练好的模型识别新的pdf文件，提取之前标注的字段

但是以上的方式，每一个训练数据都必须单独标注，且标注过程是高度重复的，因此有了以下新方法：

alpha阶段：空白表单标注+数据自动生成

上传一个空白的pdf模板
标注需要生成数据的范围框，同时为框选定属性（用于生成），生成labels.json文件
后端使用模板和lables.json生成5个（自由选择）.pdf文件和对应的pdf.fields.json文件
训练模型
使用训练好的模型识别新的pdf文件，提取标注的字段

beta阶段：填好的pdf文件+实体识别自动生成

上传5个以上pdf文件（已填好数据）
后端使用实体识别来分析上传的pdf文件，利用数据生成模块，生成对应的fields.json文件
训练模型
使用训练好的模型识别新的pdf文件，提取标注的字段

UML图

drawing

Name Not Found: 博客

Name Not Found: 项目视频——Alpha

Name Not Found: 项目视频——Beta