Address recognition

Данный проект предназначен для извлечения адресов из PDF-файлов.

Содержание

Описание проекта
Требования
Установка
Использование
Настройка
Особенности проекта
Ссылки

Описание проекта

Данный проект предназначен для извлечения адресов из PDF-файлов, в которых адреса находятся в одной и той же области. Скрипт использует библиотеку pdf2image для конвертации PDF-файлов в изображения, а затем применяет технологию OCR (оптическое распознавание символов) для извлечения текста из изображений. Извлеченный текст затем обрабатывается для получения только необходимой информации об адресе.

Требования

Python 3.8.x
Бинарные файлы Poppler (poppler_path = "poppler-0.68.0\bin") (архив program.zip)
Tesseract OCR (pytesseract.pytesseract.tesseract_cmd = 'Tesseract-OCR\tesseract.exe') (архив program.zip)

Установка:

Склонировать репозиторий
Распаковать program.zip
Установить библиотеки из requirements.txt

Использование:

Очистить папки words, img, pdfs
Разместить PDF-файлы, которые необходимо обработать, в папке pdfs.
Запустить программу, используя python main.py и дождаться окончания работы скрипта
Файлы с результатами сохраняются в папку words

Настройка

Вы можете изменить область обрезки адреса, изменив значения в следующей строке кода:

crop_img = small_img[300:400, 220:1400]

Вы можете изменить язык, используемый для распознавания текста, изменив параметр lang в следующей строке кода:

text = pytesseract.image_to_string(img, lang='rus', config=config).replace("\n", " ").strip()

Вы можете настроить параметры распознавания текста, изменяя переменную config. Полный список параметров конфигурации Tesseract OCR можно найти в документации Tesseract OCR: https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html
Вы можете изменить способ обработки распознаного текста, изменив функцию text_processing

def text_processing(text):
  # Обработка text
  return text

Вы можете изменить способ сохранения распознаного текста, изменив функцию save_to_txt

def save_to_txt(text):
  # Сохранение текста

Особенности проекта

Этот проект предназначен для извлечения адресов из PDF-файлов, которые всегда находятся в одной и той же области. Этот проект не может распознавать адреса из PDF-файлов, в которых адреса находятся в разных областях.

Примечание

Обратите внимание, что эффективность извлечения адресов в значительной степени зависит от последовательности расположения и форматирования адресов в PDF-файлах.

Не стесняйтесь настраивать скрипт в соответствии с макетом и структурой ваших PDF-файлов, чтобы достичь наилучших результатов.

Удачи в поисках адресов!

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
pdfs		pdfs
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
main.py		main.py
program.zip		program.zip
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Address recognition

Содержание

Описание проекта

Требования

Установка:

Использование:

Настройка

Особенности проекта

Примечание

About

Uh oh!

Releases

Packages

Uh oh!

Languages

AntonSushilov/address_recognition

Folders and files

Latest commit

History

Repository files navigation

Address recognition

Содержание

Описание проекта

Требования

Установка:

Использование:

Настройка

Особенности проекта

Примечание

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages