Nabu PDF v0.2.7 — OCR nhanh VÀ đúng dấu tiếng Việt
·
7 commits
to claude/vietnamese-ocr-ai-iSvwV
since this release
⚡ OCR vừa nhanh vừa đúng dấu
Engine OCR mới RapidViet: phát hiện chữ bằng RapidOCR (ONNX) + nhận dạng bằng VietOCR.
- Đúng dấu tiếng Việt (ộ/ử/ấ/ề/ị) — VietOCR là engine cục bộ duy nhất đọc chuẩn dấu chồng.
- Nhanh: ~3-4s/trang (ấm) trên CPU, phát hiện chữ chạy ONNX ~1s, không cần paddlepaddle.
- Lần OCR đầu mỗi phiên tải model ~20s (1 lần), sau đó nhanh.
So với các bản trước
- v0.2.5 (RapidOCR thuần): nhanh nhưng sai dấu ❌
- v0.2.6 (Hybrid PaddleOCR): đúng dấu nhưng chậm (~40s)
- v0.2.7 (RapidViet): nhanh VÀ đúng dấu ✅
Vì sao
Các model PP-OCR latin/đa ngữ (RapidOCR, PaddleOCR 3.x) có bộ ký tự thiếu dấu chồng tiếng Việt nên không thể đọc đúng. Giải pháp: chỉ dùng ONNX cho phần phát hiện chữ (không cần ký tự), còn nhận dạng giao cho VietOCR.
Tải về
- NabuPDF-0.2.7-x64.exe — bản cài (NSIS, tự cập nhật)
- NabuPDF-0.2.7-portable.exe — chạy thẳng, không cần cài