Document Scanner

To extract text and data from documents like invoices, book pages, tables etc using OpenCV and Tesseract OCR.

Overview

The document scanner implements:

Preprocessing images to improve OCR accuracy
Contour detection and perspective transforms to isolate ROIs
Text extraction using PyTesseract

It can handle multiple document types:

Invoices
Book pages
Tables

The dataextractor.py module contains the core implementation.

Requirements

The scanner requires:

OpenCV
PyTesseract
NumPy

Install requirements using:

pip install -r requirements.txt

Examples

The static/samples/ folder contains example images of different documents.

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data_extraction		data_extraction
pdfextractor		pdfextractor
resources/TesseractOCR		resources/TesseractOCR
static		static
templates		templates
.env.example		.env.example
.gitignore		.gitignore
.prettierrc.json		.prettierrc.json
README.md		README.md
build_files.sh		build_files.sh
manage.py		manage.py
requirements.txt		requirements.txt
vercel.json		vercel.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data_extraction

data_extraction

pdfextractor

pdfextractor

resources/TesseractOCR

resources/TesseractOCR

static

static

templates

templates

.env.example

.env.example

.gitignore

.gitignore

.prettierrc.json

.prettierrc.json

README.md

README.md

build_files.sh

build_files.sh

manage.py

manage.py

requirements.txt

requirements.txt

vercel.json

vercel.json

Repository files navigation

Document Scanner

Overview

Requirements

Examples

About

Languages

Kamaruddheen/document-scanner

Folders and files

Latest commit

History

Repository files navigation

Document Scanner

Overview

Requirements

Examples

About

Topics

Resources

Stars

Watchers

Forks

Languages