pdf_tools_bot_ICQ

Имя бота в ICQ: @pdf_tools_bot

ICQ-бот pdf_tools_bot создан для быстрого и удобного извлечения информации из PDF документов. Бот поддерживает PDF-формат как отсканированных, так и сгенерированных документов. В боте реализованы следующие функции извлечения информации:

Извлечение изображений. Пользователю предоставляется zip-архив с извлеченными изображениями в формате jpg.
Извлечение таблиц. Пользователю предоставляется zip-архив с извлеченными таблицами, сохраненными в документы формата xlsx.
Извлечение текста. Пользователь должен выбрать к какому типу относится PDF-документ (отсканированный или сгенерированный) и формат иерархии. Пользователю предоставляется docx-документ.
Извлечение всей информации. Пользователь должен выбрать к какому типу относится PDF-документ (отсканированный или сгенерированный) и формат иерархии. Пользователю предоставляется docx-документ.

Алгоритм работы в зависимости от выбранной функции

Для извлечения только изображений используется результат поиска информационных блоков с классом «фигура».
Для извлечения только таблиц используется PDFPlumber.
Для извлечения только текста используется результат поиска информационных блоков с классами «заголовок», «текст», «список». В зависимости от типа PDF-документа (отсканированный или сгенерированный) и формата иерархии выбирается способ сортировки информационных блоков и извлечения текста: Tesseract OCR для отсканированных документов и pdftotext для сгенерированных документов.
Для извлечения всей информации и сбора docx-документа используется следующий алгоритм:

осуществляется поиск информационных блоков;
сортировка блоков по выбранному формату иерархии;
извлечение таблиц с помощью PDFPlumber и сравнение с блоками класса «таблица»;
извлечение текста;
сбор docx-документа.

Сбор Docker-контейнера

Необходимо добавить папку models и скачать в нее модели. Ссылка на скачивание: https://drive.google.com/drive/folders/1BnG8JieuJk_nnx_fFLJH1hGnowmSc2KV?usp=sharing
В папку tesseract_data необходимо добавить файлы модели (rus, eng, lat) Tesseract OCR. Ссылка на скачивание: https://github.com/tesseract-ocr/tessdata

Name		Name	Last commit message	Last commit date
Latest commit History 38 Commits
configs		configs
info		info
layers		layers
utils		utils
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
layouts.png		layouts.png
predictor.py		predictor.py
run_bot.py		run_bot.py
run_system.sh		run_system.sh
ssd.py		ssd.py
tagging_system.py		tagging_system.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

pdf_tools_bot_ICQ

Алгоритм работы в зависимости от выбранной функции

Сбор Docker-контейнера

About

Releases

Packages

Contributors 2

Languages

owls-nlp/pdf_tools_bot_ICQ

Folders and files

Latest commit

History

Repository files navigation

pdf_tools_bot_ICQ

Алгоритм работы в зависимости от выбранной функции

Сбор Docker-контейнера

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages