Replies: 3 comments 2 replies
-
您好,感谢支持与厚爱。 关于为什么没有打赏:一方面,我嫌麻烦。开通打赏要设置各种渠道、考虑杂七杂八的事情,还可能泄露我的隐私,打扰到我写代码的乐趣。 另一方面,我不想给自己太大压力。一般来说,拿了钱就要付出承诺,比如约定保持较高的更新频率或发布期限。然而,维护这个项目是我的业余爱好,所以希望尽量保持与利益和指标无关的、轻松的心态。 最后,按惯例,开发者一般会优先考虑赞助者提出的需求。但是,我希望本项目的开发方向是根据需求人数、合理程度、实现难度等来考虑(当然还有我觉得 是否有趣),而不是赞助的数额。 综上,短期内我暂时懒得开通打赏。 关于本项目的未来:直至现在,我还保持着充沛的热情。在可预见的未来里,我会一直更新维护本项目。 不过,对于一个健康的开源项目来说,协作者也是让项目维持活力的源泉。目前,本项目的协作者并不多(尤其是通晓项目整体架构的核心开发人员)。希望以后有更多开发者参与这份工作,以至于就算我挂了,依然后继有人。 另外,本项目是一个离线软件,且有较好的兼容性。现在的任何一个版本,在五年、十年之后依然可以 不受限制地使用。所以,并不需要担心它在某一天突然用不了。Github有众多的fork,也不用担心主仓库被删库丢失代码的风险。 |
Beta Was this translation helpful? Give feedback.
-
关于 你可以传一些样本上来(弄多几份,打压缩包,上传),我有空可以根据它们来调整一下算法。 |
Beta Was this translation helpful? Give feedback.
-
你好,抽查了几份样本,样本中具有大量的框图结构以及表格结构,目前Umi还没有完全适配此类内容,可能还需要一些时间。 至于单纯的双栏识别,如果Paddle系OCR使用效果不佳,可以尝试前往 TesseractOCR插件库 下载 Tesseract 模型。这个模型的段落划分是经过机器学习的,对英文的结构识别能力应该能好一些。 |
Beta Was this translation helpful? Give feedback.
-
本人是专利行业工作人员,每天要从各种公开的专利文献扫描件复制长文字内容,因此是重度依赖于该软件。希望通过捐助使本软件长期活下去。
另,目前v2.1.1的多栏模式对美国的双栏专利文献识别效果仍然不太好,我目前通过截图功能逐段落复制,当然这个功能特别难做,希望多年以后可以逐步改善
Beta Was this translation helpful? Give feedback.
All reactions