BallonsOCR 是一个面向漫画、条漫、插图文本场景的桌面 OCR 提取工具,聚焦“文本检测 + OCR 识别 + 原文导出”。
本项目基于 dmMaze/BallonsTranslator 修改而来,当前方向已经调整为独立的新项目,不再以整套漫画翻译流程为核心。
- 上游项目:
dmMaze/BallonsTranslator - 当前项目在其基础上做了提取器化改造、界面精简和默认流程调整
- 许可证沿用仓库中的
GPL-3.0,重新分发或继续修改时请保留原始许可与署名信息
BallonsOCR 主要解决的是“从漫画页面里尽可能稳定地提取原文”。
当前默认流程:
- 文本检测
- OCR 识别
- 导出原文文本
默认不再以“机器翻译 + 回填译文 + 翻译排版”为主要目标。
- 日漫、条漫、一般漫画页
- 对话框文本、旁白框、说明文字
- 一定程度上的拟声词和不规则文本区域
- 横排与竖排混合页面
实际效果仍然取决于:
- 选用的检测器
- 选用的 OCR 后端
- 原图清晰度
- 文本区域是否严重变形、遮挡或过小
当前项目的默认配置主要针对以下语言场景做了优化:
- 日语
- 简体中文
- 繁体中文
- 英语
说明:
- 不同 OCR 后端支持的语言能力不同
smart_ocr会按文本方向把区块分发给不同 OCR 引擎- 如果你切换到云端或系统 OCR,最终可用语言还取决于对应后端本身
- 文本检测
- OCR 识别
smart_ocr分发器- 原文导出为
txt/md - 项目结果保存为
json - 中文设置界面
- 提取模式下的界面精简
- 默认目标改为“文本提取”而不是“翻译”,翻译相关模块与交互已大幅移除或停用
- 默认提取模式下不再强依赖 GPU,CPU 环境可以直接启动并完成基础检测 / OCR 流程
- GPU 仍然可选,但不是使用前提
python launch.pypython launch.py --headless --exec_dirs "D:\\path1,D:\\path2"首次运行时,程序可能会:
- 安装缺失的 Python 依赖
- 下载检测或 OCR 所需模型
- 初始化运行缓存
这属于正常行为,并不表示程序自动更新到了别的项目版本。
当前流程通常会产出:
- 项目文件:
imgtrans_*.json - 原文导出:
*_source.txt - 原文导出:
*_source.md
项目当前保留并支持多种检测 / OCR 后端;其中默认推荐思路是:
- 文本检测优先本地检测器
- OCR 默认优先
smart_ocr smart_ocr会把竖排与横排区块分流到不同 OCR 引擎
如果某个后端在当前运行中失败,分发器会自动降级到备用引擎。
本项目保留上游项目的许可证文件:
如果你基于本项目继续发布修改版本,请同时保留:
- 原许可证
- 上游项目来源说明
- 你自己的修改说明