Skip to content

Nabu PDF v0.2.7 — OCR nhanh VÀ đúng dấu tiếng Việt

Choose a tag to compare

@darkend16987 darkend16987 released this 26 Jun 11:45
· 7 commits to claude/vietnamese-ocr-ai-iSvwV since this release

⚡ OCR vừa nhanh vừa đúng dấu

Engine OCR mới RapidViet: phát hiện chữ bằng RapidOCR (ONNX) + nhận dạng bằng VietOCR.

  • Đúng dấu tiếng Việt (ộ/ử/ấ/ề/ị) — VietOCR là engine cục bộ duy nhất đọc chuẩn dấu chồng.
  • Nhanh: ~3-4s/trang (ấm) trên CPU, phát hiện chữ chạy ONNX ~1s, không cần paddlepaddle.
  • Lần OCR đầu mỗi phiên tải model ~20s (1 lần), sau đó nhanh.

So với các bản trước

  • v0.2.5 (RapidOCR thuần): nhanh nhưng sai dấu
  • v0.2.6 (Hybrid PaddleOCR): đúng dấu nhưng chậm (~40s)
  • v0.2.7 (RapidViet): nhanh VÀ đúng dấu

Vì sao

Các model PP-OCR latin/đa ngữ (RapidOCR, PaddleOCR 3.x) có bộ ký tự thiếu dấu chồng tiếng Việt nên không thể đọc đúng. Giải pháp: chỉ dùng ONNX cho phần phát hiện chữ (không cần ký tự), còn nhận dạng giao cho VietOCR.

Tải về

  • NabuPDF-0.2.7-x64.exe — bản cài (NSIS, tự cập nhật)
  • NabuPDF-0.2.7-portable.exe — chạy thẳng, không cần cài