Это скрипт на языке Python, предназначенный для извлечения названий заявлений из PDF-файлов. Он обрабатывает несколько PDF-файлов в указанной папке, считывает названия заявлений из заданных координат на каждой странице и сохраняет их в текстовый файл.
- Убедитесь, что на вашей системе установлен Python 3.x.
- Клонируйте этот репозиторий на ваш компьютер.
- Поместите ваши PDF-файлы в папку
pdf_documents
. - Откройте файл
main.py
и установите следующие параметры:folder_path
: Путь к папке, содержащей PDF-файлы.output_file
: Имя текстового файла, в который будут сохранены результаты.x1
,y1
,x2
,y2
: Координаты (в процентах) фрагмента на странице, из которого нужно извлечь название заявления.
- Запустите скрипт
main.py
, используя командуpython main.py
. - Извлеченные названия заявлений будут сохранены в указанном
output_file
.
Необходимые пакеты Python можно установить с помощью следующей команды:
pip install -r requirements.txt
Этот проект не требует лицензии