Skip to content

hkmsmart/Python-ORC-REST-SERVICE

Repository files navigation

🚀 Python OCR REST Servisi

Merhaba arkadaşlar 👋
Bu proje sayesinde PDF dosyalarındaki yazıları otomatik olarak okuyabilirsiniz.
Eğer PDF bir taranmış belge ise, OCR (Optical Character Recognition) teknolojisi sayesinde görüntü üzerindeki yazılar da algılanır.

Projeyi kullanarak hem dosya yükleyebilir, hem de Base64 formatında PDF gönderebilirsiniz.
Tüm örnek istekler, GitHub reposunda bulunan Postman Collection dosyasında mevcuttur.

Ayrıca belirli sayfaları çevirmek istiyorsanız, lines parametresini kullanabilirsiniz.
Örneğin yalnızca 1. ve 2. sayfaların metnini almak için:

Üstelik proje Docker desteğiyle geliyor, yani sadece birkaç komutla servisi ayağa kaldırabilirsiniz.


🧠 OCR Nedir?

OCR (Optical Character Recognition) veya Türkçesiyle Optik Karakter Tanıma, basılı veya taranmış belgelerdeki yazıları bilgisayarın okuyabileceği metne dönüştüren teknolojidir.

Örnek:

📄 Görseldeki bir fatura:
Fatura No: 12345 Tutar: 580 TL Tarih: 09.10.2025

OCR sayesinde bilgisayar bu yazıları doğrudan okuyabilir ve metin olarak çıkarabilir.


⚙️ Proje Nasıl Çalışıyor?

  1. İstek başlıklarında kullanıcı adı ve şifre kontrol edilir:
VALID_USERNAME = "admin"
VALID_PASSWORD = "12345"

PDF dosyası ya dosya yükleme ile ya da Base64 JSON ile alınır.

PDF pdfplumber ile açılır:

Eğer metin varsa doğrudan okunur.

Eğer PDF taranmışsa:

pdf2image ile sayfa görsele çevrilir.

Pillow ile kontrast artırılır.

pytesseract ile OCR uygulanır.

Sonuç JSON formatında döner:

[
  {"page": 1, "lines": ["Merhaba dünya", "Tarih: 09.10.2025"]},
  {"page": 2, "lines": ["Bu bir örnek metindir."]}
]

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published