Данный проект предназначен для извлечения адресов из PDF-файлов.
Данный проект предназначен для извлечения адресов из PDF-файлов, в которых адреса находятся в одной и той же области. Скрипт использует библиотеку pdf2image для конвертации PDF-файлов в изображения, а затем применяет технологию OCR (оптическое распознавание символов) для извлечения текста из изображений. Извлеченный текст затем обрабатывается для получения только необходимой информации об адресе.
- Python 3.8.x
- Бинарные файлы Poppler (poppler_path = "poppler-0.68.0\bin") (архив program.zip)
- Tesseract OCR (pytesseract.pytesseract.tesseract_cmd = 'Tesseract-OCR\tesseract.exe') (архив program.zip)
- Склонировать репозиторий
- Распаковать program.zip
- Установить библиотеки из requirements.txt
- Очистить папки words, img, pdfs
- Разместить PDF-файлы, которые необходимо обработать, в папке
pdfs. - Запустить программу, используя
python main.pyи дождаться окончания работы скрипта - Файлы с результатами сохраняются в папку words
- Вы можете изменить область обрезки адреса, изменив значения в следующей строке кода:
crop_img = small_img[300:400, 220:1400]- Вы можете изменить язык, используемый для распознавания текста, изменив параметр
langв следующей строке кода:
text = pytesseract.image_to_string(img, lang='rus', config=config).replace("\n", " ").strip()-
Вы можете настроить параметры распознавания текста, изменяя переменную
config. Полный список параметров конфигурации Tesseract OCR можно найти в документации Tesseract OCR: https://tesseract-ocr.github.io/tessdoc/Command-Line-Usage.html -
Вы можете изменить способ обработки распознаного текста, изменив функцию
text_processing
def text_processing(text):
# Обработка text
return text- Вы можете изменить способ сохранения распознаного текста, изменив функцию
save_to_txt
def save_to_txt(text):
# Сохранение текстаЭтот проект предназначен для извлечения адресов из PDF-файлов, которые всегда находятся в одной и той же области. Этот проект не может распознавать адреса из PDF-файлов, в которых адреса находятся в разных областях.
Обратите внимание, что эффективность извлечения адресов в значительной степени зависит от последовательности расположения и форматирования адресов в PDF-файлах.
Не стесняйтесь настраивать скрипт в соответствии с макетом и структурой ваших PDF-файлов, чтобы достичь наилучших результатов.
Удачи в поисках адресов!