Skip to content

AntonSushilov/address_recognition

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Address recognition

Данный проект предназначен для извлечения адресов из PDF-файлов.

Содержание

Описание проекта

Данный проект предназначен для извлечения адресов из PDF-файлов, в которых адреса находятся в одной и той же области. Скрипт использует библиотеку pdf2image для конвертации PDF-файлов в изображения, а затем применяет технологию OCR (оптическое распознавание символов) для извлечения текста из изображений. Извлеченный текст затем обрабатывается для получения только необходимой информации об адресе.

Требования

  • Python 3.8.x
  • Бинарные файлы Poppler (poppler_path = "poppler-0.68.0\bin") (архив program.zip)
  • Tesseract OCR (pytesseract.pytesseract.tesseract_cmd = 'Tesseract-OCR\tesseract.exe') (архив program.zip)

Установка:

  1. Склонировать репозиторий
  2. Распаковать program.zip
  3. Установить библиотеки из requirements.txt

Использование:

  1. Очистить папки words, img, pdfs
  2. Разместить PDF-файлы, которые необходимо обработать, в папке pdfs.
  3. Запустить программу, используя python main.py и дождаться окончания работы скрипта
  4. Файлы с результатами сохраняются в папку words

Настройка

  • Вы можете изменить область обрезки адреса, изменив значения в следующей строке кода:
crop_img = small_img[300:400, 220:1400]
  • Вы можете изменить язык, используемый для распознавания текста, изменив параметр lang в следующей строке кода:
text = pytesseract.image_to_string(img, lang='rus', config=config).replace("\n", " ").strip()
  • Вы можете настроить параметры распознавания текста, изменяя переменную config. Полный список параметров конфигурации Tesseract OCR можно найти в документации Tesseract OCR: https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html

  • Вы можете изменить способ обработки распознаного текста, изменив функцию text_processing

def text_processing(text):
  # Обработка text
  return text
  • Вы можете изменить способ сохранения распознаного текста, изменив функцию save_to_txt
def save_to_txt(text):
  # Сохранение текста

Особенности проекта

Этот проект предназначен для извлечения адресов из PDF-файлов, которые всегда находятся в одной и той же области. Этот проект не может распознавать адреса из PDF-файлов, в которых адреса находятся в разных областях.

Примечание

Обратите внимание, что эффективность извлечения адресов в значительной степени зависит от последовательности расположения и форматирования адресов в PDF-файлах.

Не стесняйтесь настраивать скрипт в соответствии с макетом и структурой ваших PDF-файлов, чтобы достичь наилучших результатов.

Удачи в поисках адресов!

About

Проект для извлечения адресов из PDF-файлов

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages