Библиотека для извлечения структурированных данных из PDF-документов с использованием машинного обучения.
- Извлечение текста из отсканированных и цифровых PDF
- Распознавание макета документа
- Извлечение таблиц
- Распознавание именованных сущностей
- Обработка сложных многостраничных документов
pip install -r requirements.txtСм. примеры в директории examples/
pdfml/: Основной код библиотекиexamples/: Примеры использованияtests/: Тестыmodels/: Предобученные модели
MIT