OCR Recognizer

Данный скрипт берет изображения и PDF-документы из бакета Object Storage, отправляет их на распознавание в сервис Vision, после чего – сохраняет результат распознавания обратно в бакет Object Storage.

Скрипт написан на Python поэтому может быть легко разобран, доработан и оптимизирован под ваш сценарий.

Процесс распознавания

Пользователь загружает изображения или документы в поддерживаемых форматах в бакет Object Storage, в директорию (префикс) input.
Скрипт получает папки input в бакете, составляет список файлов, которые необходимо отправить на распознавание, исключая файлы неподдерживаемого формата, и исключает файлы, которые уже были распознаны (за счет проверки наличия файла в папке result).
Скрипт скачивает по одному по прямым ссылкам файлы из списка, составленного ранее; и отправляет в сервис Vision.
Сервис Vision получает файл, обрабатывает его и возвращает результат распознавания, который сохраняется в папку result в формате JSON и в формате TXT.

Использование

Скрипт может быть запущен локально, для этого необходимо указать следующие переменные окружения:

Переменная	Описание
S3_BUCKET	Имя бакета в Object Storage
S3_PREFIX	Префикс (или директория) для входящих файлов, например, `input`
S3_PREFIX_OUT	Префикс (или директория) для результатов обработки, например, `result`
S3_KEY	ID статического ключа доступа
S3_SECRET	Секрет статического ключа доступа
API_SECRET	Секрет API-ключа
FOLDER_ID	ID каталога

Рекомендуется разделить файлы для обработки и результаты обработки при помощи разных префиксов (подпапок), иначе можно получить непредсказуемое поведение.

Для того, чтобы создать ключ для S3 и API-ключ – необходимо создать сервисную учетную запись, а также – назначить роли storage.editor и ai.vision.user.

Примеры использования

Можно воспользоваться готовым Terraform модулем, который создает все необходимые ресурсы для начала обработки изображений и документов.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
examples/ocr-function		examples/ocr-function
img		img
python		python
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

OCR Recognizer

Процесс распознавания

Использование

Примеры использования

About

Releases

Packages

Contributors 2

Languages

License

yandex-cloud-examples/yc-vision-ocr-recognizer

Folders and files

Latest commit

History

Repository files navigation

OCR Recognizer

Процесс распознавания

Использование

Примеры использования

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages