Home

reza1615 edited this page Nov 7, 2012 · 55 revisions
به ویکی OCR فارسی خوش‌آمدید!

این پروژه در ادامه پروژهٔ tesseract-ocr و در تلاش برای افزودن قابلیت تشخیص کامپیوتری متن‌های نوشته شده به زبان فارسی است.

آموزش

برای همکاری در این پروژه مباحث زیر را مطالعه نمائید.

کارهای انجام شده

  • نوشتن آموزش کامل برای ساخت فایل traienddata + فایل‌های تست هستند
  • ساخت فایل convertor.py که کار اصلاح unicharset را سرعت می‌بخشد.
  • ساخت فایل run.bat که کلیه عملیات‌های آموزش دادن را پشت سر هم انجام می‌دهد
  • ساخت ابزار جعبه‌ساز و نسخهٔ سرور محلی که سرعت بیشتری دارد. (آموزش روش کار درون فایل readme.txt)
  • ایجاد صفحهٔ نکات مهم و تجربیات کسب شده، بعد از حدود ۱۰۰ سعی و خطا!
  • ساخت اولین فایل آموزش یافته که در بعضی از متن‌ها تا ۷۰٪ کیفیت خروجی دارد و برای فونت arail ساده فقط کارایی دارد.(فقط با نسخهٔ tesseract-ocr-3.02 اجرا می‌شود که آخرین نسخه است.)

کارهایی که باید انجام شود

  • ساخت فایل‌های آموزش یافته برای فونت‌های بیشتر مانند (BNazanin-Bzar-Bkoodak-Byaghut-Blotus-Bhoma-Btitr)

برای تست در اینجا تعدادی تصویر برای آزمایش موجود است

نرم‌افزار اوسی‌آر

  • برای دانلود نسخهٔ ویندوز tesseract-ocr فایل tesseract-ocr-setup-3.02-2.exe را از وبگاه رسمی‌شان دانلود نمائید (در بخش دانلود این پروژه نیز موجود است) این نرم‌افزار فقط در cmd کار می‌کند و برای ساخت فایل آموزش‌یافته که در مراحل ساخت فایل آموزش‌یافته شرح داده شده‌است، کاربرد دارد.

  • برای استفاده از او‌سی‌آر و تست کردن نتایج در محیط گرافیکی از نسخه‌های گرافیکی مشابه GUI vietocr استفاده نمائید. http://vietocr.sourceforge.net/ یکی از بهترین نرم‌افزارهای نمایش گرافیکی برای این اوسی‌آر که در اصل برای زبان ویتنامی توسعه یافته است ولی با افزودن گلاسری قابل استفاده برای دیگر زبان‌ها می‌باشد.

پروژه‌های مشابه برای زبان‌های دارای حروف به هم پیوسته

پروژه‌های دیگر