# Обзор литературы

## Обзор

Распознавание и математический анализ внешней информации компьютером в наше время процесс популярный, являющийся, в сущности, основой научной деятельности, бизнеса, систем безопасности и прочих немаловажных элементов повседневности. От относительно простых схем детектирования геометрических структур и цветов человечество быстро перешло к сложным фигурам, комбинациям объектов и, конечно же, текстовым данным.

Компьютерный анализ рукописных документов востребован теперь в широком спектре задач, в том числе при организации деятельности крупных банков и страховых компаний [5]. В основе процесса лежит растровое изображение текста, переданное в память через периферийное устройство, ради упрощения анализа и редактирования требующее дальнейшей машинной обработки, методы которой различны и развиваются с каждым днем.

В основе своей эти методы делятся на два кластера: «онлайн» и «оффлайн» [1]. «Оффлайн» подразумевает распознавание статичных данных, уже переданных полноценно в память компьютера (чем мы и займемся), а «онлайн» это, скорее, процесс слежения за динамической генерацией текста человеком в реальном мире ручкой или стилусом, что несколько проще.

Поскольку не все люди имеют хороший почерк, и не все камеры производят чистые сэмплы, производство «оффлайн» обработки начинается с попытки максимально улучшить качество изображений (резкость, контрастность, четкость) путем обработки. Таким образом удается избавиться от некоторого процента искажений, перекосов, разрывов, клякс и прочих нюансах рукописного текста.

Итак, начнем с предобработки фотографий. Прежде всего, конечно, происходит изменение размеров изображений к одному шаблону для корректной работы алгоритмов. Далее специалисты советуют начать со сглаживания спектра цветов изображения и шумоподавления, после чего происходит приведение палитры сэмпла к черно-белой. Это увеличит контрастность границ символов и уменьшит проблемы с сегментацией, выделит элементы на фоне. Для этого применим инструментарий библиотек Python 'PIL', и 'cv2' [1].

Далее мы переходим к этапу сегментации структурных элементов обработанного документа: предложений и слов. 

И вновь мы, прежде всего, столкнемся с проблемой неточностей и геометрических ошибок (изгибов, асимметрии и проч.) даже на начальном этапе рассмотрения абзацев. Горизонтальные линии в тексте (на которые "нанизаны" наши предложения) выделяются также разными методами:

1. Top-down метод - метод, основанный на проецировании изображений на горизонтальные прямые [4].
2. Bottom-up метод - отдельные элементы группируются на основе их геометрических качеств [4].
3. Разбиение на "базовые линии" - основанный на методах оптимизации алгоритм стягивания крупных сегментов документа к воображаемой прямой [3].

Поверх выделенных предложений применяется, соответственно, структурирование отдельных слов, проблемы и искажения которых схожи с проблемами предложений. 

Процесс сегментации слов целиком проводится также схожими методами:

1. Bottom-up метод - аналогично выделению строк происходит группировка компонент по геометрическим свойствам [2].
2. Нейросетевой метод - предполагает анализ признаковой картины сегментов текста и выявление отдельных слов при помощи моделирования [3]. 

Теперь же перейдем к обработке полученных слов. Можно использовать различные методы распознавания символов:

1. Использование растровых шаблонов - подбор наиболее оптимального по выбранной метрике шаблона алфавита. Самый простой, однако наименее точный и наиболее трудозатратный метод [7]. С высокой точностью (около 96%) работает на печатных текстах и выявляет дефектные символы. Исполнен, к примеру, на Python в виде библиотеки 'ocr-Template-matching-'[8].
2. Признаковые методы - основываются на вычислении матрицы признаков по каждому из символов и использовании поверх них обыкновенных классификаторов [4]. Таким образом, производится распознавание не символа, а набора его признаков, что сильно улучшает возможности работы с различными почерками и рукописным текстом в целом. Реализация: инструмент 'Azati OCR', библиотека Python 'cv2'.
3. Структурные методы - используют представления о взаимном расположении символов и их сегментов, что уже гораздо точнее, чем шаблонная модель, применяется на символах с различным оформлением, но все еще чувствительно к нарушениям в начертании [3]. 
4. Структурно - пятенные методы - предполагают применения в качестве методов структурирования не только геометрические элементы, но и "пятна", то есть особые точки текста (изломы, пересечения и прочие) [Абраменко 2000]. Одни из самых успешно применяемых на практике. Используются, в том числе, инструментарием  'Tesseract OCR' и надстройкой Python 'pytesseract' [3].
5. Нейросетевые методы - использующие различные технологии, в том числе архитектуры Resnet [6]. Плохо применимы для конвейерной обработки, однако достаточно точны. Легко собираются с помощью 'Keras' и 'TensorFlow' от Python.
6. Модели Маркова  - используют вероятностные модели (основаны на построении цепей Маркова), предсказывают порядок слов в предложениях [2].

Как можно было заметить, в последние годы число методов реализации всех этапов задач распознавания текстов серьезно увеличилось. Однако все они имеют разные способы применения, платформы запуска, инструменты сборки, точности и скорости работы. Далее мы продемонстрируем на собранной на практике тестовой выборке использование различных моделей: от эталонных до нейросетевых.

Распознавание и математический анализ внешней информации компьютером в наше время процесс популярный, являющийся, в сущности, основой научной деятельности, бизнеса, систем безопасности и прочих немаловажных элементов повседневности. От относительно простых схем детектирования геометрических структур и цветов человечество быстро перешло к сложным фигурам, комбинациям объектов и, конечно же, текстовым данным.

Компьютерный анализ рукописных документов востребован теперь в широком спектре задач, в том числе при организации деятельности крупных банков и страховых компаний [5]. В основе процесса лежит растровое изображение текста, переданное в память через периферийное устройство, ради упрощения анализа и редактирования требующее дальнейшей машинной обработки, методы которой различны и развиваются с каждым днем.

В основе своей эти методы делятся на два кластера: «онлайн» и «оффлайн» [1]. «Оффлайн» подразумевает распознавание статичных данных, уже переданных полноценно в память компьютера (чем мы и займемся), а «онлайн» это, скорее, процесс слежения за динамической генерацией текста человеком в реальном мире ручкой или стилусом, что несколько проще.

Поскольку не все люди имеют хороший почерк, и не все камеры производят чистые сэмплы, производство «оффлайн» обработки начинается с попытки максимально улучшить качество изображений (резкость, контрастность, четкость) путем обработки. Таким образом удается избавиться от некоторого процента искажений, перекосов, разрывов, клякс и прочих нюансах рукописного текста.

Итак, начнем с предобработки фотографий. Прежде всего, конечно, происходит изменение размеров изображений к одному шаблону для корректной работы алгоритмов. Далее специалисты советуют начать со сглаживания спектра цветов изображения и шумоподавления, после чего происходит приведение палитры сэмпла к черно-белой. Это увеличит контрастность границ символов и уменьшит проблемы с сегментацией, выделит элементы на фоне. Для этого применим инструментарий библиотек Python 'PIL', и 'cv2' [1].

Далее мы переходим к этапу сегментации структурных элементов обработанного документа: предложений и слов. 

И вновь мы, прежде всего, столкнемся с проблемой неточностей и геометрических ошибок (изгибов, асимметрии и проч.) даже на начальном этапе рассмотрения абзацев. Горизонтальные линии в тексте (на которые "нанизаны" наши предложения) выделяются также разными методами:

1. Top-down метод - метод, основанный на проецировании изображений на горизонтальные прямые [4].
2. Bottom-up метод - отдельные элементы группируются на основе их геометрических качеств [4].
3. Разбиение на "базовые линии" - основанный на методах оптимизации алгоритм стягивания крупных сегментов документа к воображаемой прямой [3].

Поверх выделенных предложений применяется, соответственно, структурирование отдельных слов, проблемы и искажения которых схожи с проблемами предложений. 

Процесс сегментации слов целиком проводится также схожими методами:

1. Bottom-up метод - аналогично выделению строк происходит группировка компонент по геометрическим свойствам [2].
2. Нейросетевой метод - предполагает анализ признаковой картины сегментов текста и выявление отдельных слов при помощи моделирования [3]. 

Теперь же перейдем к обработке полученных слов. Можно использовать различные методы распознавания символов:

1. Использование растровых шаблонов - подбор наиболее оптимального по выбранной метрике шаблона алфавита. Самый простой, однако наименее точный и наиболее трудозатратный метод [7]. С высокой точностью (около 96%) работает на печатных текстах и выявляет дефектные символы. Исполнен, к примеру, на Python в виде библиотеки 'ocr-Template-matching-'[8].
2. Признаковые методы - основываются на вычислении матрицы признаков по каждому из символов и использовании поверх них обыкновенных классификаторов [4]. Таким образом, производится распознавание не символа, а набора его признаков, что сильно улучшает возможности работы с различными почерками и рукописным текстом в целом. Реализация: инструмент 'Azati OCR', библиотека Python 'cv2'.
3. Структурные методы - используют представления о взаимном расположении символов и их сегментов, что уже гораздо точнее, чем шаблонная модель, применяется на символах с различным оформлением, но все еще чувствительно к нарушениям в начертании [3]. 
4. Структурно - пятенные методы - предполагают применения в качестве методов структурирования не только геометрические элементы, но и "пятна", то есть особые точки текста (изломы, пересечения и прочие) [Абраменко 2000]. Одни из самых успешно применяемых на практике. Используются, в том числе, инструментарием  'Tesseract OCR' и надстройкой Python 'pytesseract' [3].
5. Нейросетевые методы - использующие различные технологии, в том числе архитектуры Resnet [6]. Плохо применимы для конвейерной обработки, однако достаточно точны. Легко собираются с помощью 'Keras' и 'TensorFlow' от Python.
6. Модели Маркова  - используют вероятностные модели (основаны на построении цепей Маркова), предсказывают порядок слов в предложениях [2].

Как можно было заметить, в последние годы число методов реализации всех этапов задач распознавания текстов серьезно увеличилось. Однако все они имеют разные способы применения, платформы запуска, инструменты сборки, точности и скорости работы. Далее мы продемонстрируем на собранной на практике тестовой выборке использование различных моделей: от эталонных до нейросетевых.

## Список используемой литературы

1. Bunke, H and Bengio, Samy and Vinciarelli, A. Offline recognition of
unconstrained handwritten texts using HMMs and statistical language
models // Pattern Analysis and Machine Intelligence, IEEE Transactions
on, 26, 6, (709–720), 2004.

2. Plo ̈tz, Thomas and Fink, Gernot A. Markov models for offline
handwriting recognition: a survey // International Journal on Document
Analysis and Recognition (IJDAR), 12, 4 (269–298), 2009.

3. Huang, Chen and Srihari, Sargur N. Word segmentation of off-line
handwritten documents. Electronic Imaging 2008 (International Society
for Optics and Photonics), (68150E–68150E), 2008.

4. Гайдуков Н.П., Савкова Е.О.,
Обзор методов распознавания рукописного текста.
URL:
http://masters.donntu.org/2012/fknt/gaydukov/library/5_gaydukov.pdf

5. Распознавание рукописных текстов, Ижевск 2006, А. В. Кучуганов,
Г. В. Лапинская.

6. "The First Census Optical Character Recognition System Conference",
R.A.Wilkinson et al., eds., . Tech. Report, NISTIR 4912, US Deop.
Commerse, NIST, Gaithersburg, Md., 1992.

7. Кучуганов и др. 2001 ― Кучуганов, В. Н. Система визуального
проектирования баз знаний / В. Н. Кучуганов, И. Н. Габдрахманов //
Информационные технологии в инновационных проектах: тр. III
междунар. науч.-техн. конф. — Ижевск, 2001. ― С. 140–143.

8. Кучуганов 2002 ― Кучуганов, В. Н. Семантика графической
информации // Известия ТРТУ: Тематич. вып. «Интеллектуальные
САПР» : материалы междунар. науч.-техн. конф. ― Таганрог: Изд-во
ТРТУ, 2002. ― No 3 (26). ― С. 157–166. Кучуганов 2005 ―
Кучуганов, В. Н. Визуальное моделирование текстов / В. Н.
Кучуганов // «Интеллектуальные системы» (AIS'05) и
«Интеллектуальные САПР» (CAD–2005): тр. междунар. науч.-
технич. конф. — М.: ФИЗМАТЛИТ, 2005. — Т. 4. ― С. 104–114.
Непейвода 1989 ― Непейвода, Н. Н. Некоторые семантические
конструкции конструктивных логик схем программ / Н. Н. Непейвода
// Вычислительные системы. ― Вып. 129. ― Новосибирск, 1989. ―
С. 49–66.

# Протокол эксперимента

## 1 Гипотезы и эксперименты

В процессе реализации архитектуры решения проверены следующие гипотезы:

1. Использование альтернативного метода обучения и тестирования, построенного на собранных самостоятельно данных, может быть успешнее готовых методов зарубежных разработок.
2. Использование инструментария LMDB даст выигрыш в скорости обучения.
3. Тестирование и подбор инструментов коррекции орфографии в качестве дополнительного элемента декодера даст лучший результат.

## 2 Генерация выборки для обучения прототипов и тестирования уже имеющихся архитектур

Осмотрев уже имеющиеся в открытом доступе наборы данных для распознавания русского рукописного текста, мы пришли к выводу, что для обучения нашего прототипа и выигрыша у имеющихся инструментов OCR нам потребуется создать самостоятельно обучающую выборку. Для этого мы используем алгоритм (полу)автоматической аннотации текстов.

### 2.1 **Собственное** ПО для полуавтоматической аннотации текстов

Алгоритм состоит из нескольких частей.
Мы находим в открытом доступе несколько текстов русского языка: классическая литература, новостные статьи, служебная или научная литература для максимального разнообразия сочетания букв алфавита, слогов и подряд идущих слов. Затем мы реализуем минимальную обработку собранных текстов: удаление служебных символов, удаление чисел. Далее из имеющегося набора предложений (после обработки) мы создаем комбинации слов фиксированной длины, после чего создаем индивидуальные наборы текстов для разметки, перемешав имеющиеся тематические наборы.
Затем мы реализуем разметку полученных сэмплов соответственным рукописным текстом. При этом мы используем для заполнения вручную данных людей разного пола, возраста и профессий, что может дать широкий спектр вариаций почерков, исключая переобучение моделей.

Для оцифровки заполненных данных мы используем возможности библиотеки OpenCV (мы используем версию для Python) для детекции таблицы и распознавания ее ячеек. Для работы подходят как сканированные документы, так и снятые камерой мобильного телефона.

После загрузки изображения производится его бинаризация и инвертирование.

На следующем шаге мы определяем ядро для выделения прямоугольных рамок и в дальнейшем табличной структуры. Во-первых, мы определяем размер ядра, а также размеры горизонтального и вертикального ядер для детекции соответственно горизонтальных и вертикальных линий. Во-вторых, мы комбинируем полученные линии в новое изображение, присвоив обоим одинаковые веса (по 0.5). Такие манипуляции позволяют успешно извлечь табличную структуру изображения.

После этого мы используем методы findCountours для определения контуров. Это позволяет нам выделить интересующие сегменты изображения (ячейки таблицы). Ячейки сортируются в определенном порядке, и в результате мы получаем изображения рукописного текста с заранее известными ответами (поскольку исходные изображения были получены распечаткой csv-файла и каждой строке соответствует словосочетание). После слияния текстовых данных и путей к файлам полученных изображений обучающий набор готов к загрузке в модель.

## 3 Тестирование готовых моделей и инструментов

### 3.1 Тестирование модели tesseract

Используем оболочку pytesseract и собранные нами данные с различными аугментациями, оценим эффективность работы этого алгоритма

### 3.2 Тестирование шаблонной модели

Аналогичные сценарии тестирования и метрики, используем разработанную в открытом доступе модель с собранными нами шаблонами символов

## 4 Обучение и тестирование собственной модели, оценка ее эффективности

### 4.1 Архитектура модели

На этом этапе мы использовали архитектуру, основанную на базе LSTM: модель image-to-text, основанную на генерации feature map с помощью CNN, а затем распознавание текста символ за символом. 

Модель состоит из 5 слоев CNN, 2 слоев RNN (LSTM) и слоя Loss и декодирования.

#### 4.2 Метрики

Character accuracy (CER) - метрика, показывающая посимвольное соответствие вывода модели и валидирующей строки (то есть доля верно предсказанных символов в целом).

Line accuracy - метрика, показывающая соответствие вывода модели и валидирующей строки по словам (то есть доля верно предсказанных предложений).

### 4.3 Результаты экспериментов

Эксперимент 1.

Модель: Tesseract (инструмент реализации: pytesseract)

Время обучения: -

Эпох: -

Без перемешивания выборки

Оптимизатор: -

Декодер: -

Размещение данных: Google Drive. 

CER: 57.4%

Line accuracy: 2%

Эксперимент 2.

Модель: LSTM

Время обучения: 2 ч 15 мин

Эпох: 36

Холодный старт

Без перемешивания выборки

Оптимизатор: Adam

Декодер: CTC Bestpath

Размещение данных: Google Drive. 

CER: 21%

Line accuracy: 15%

Эксперимент 3.

Модель: LSTM

Время обучения: 3 ч 35 мин

Эпох: 166 (последние 25 без улучшений)

Холодный старт

Без перемешивания выборки

Оптимизатор: Adam

Декодер: CTC Bestpath

Размещение данных: LMDB.

CER: 11.0%

Line accuracy: 26.73%

Эксперимент 4.

Модель: LSTM

Время обучения: 3 ч 45 мин

Эпох: 142 (последние 10 без улучшений)

Холодный старт

Перемешанная выборка с фиксированной псевдослучайностью

Оптимизатор: Adam

Декодер: CTC Beamsearch

Размещение данных: LMDB.

CER: 8.61%

Line accuracy: 36.7%

Эксперимент 5.

Модель: LSTM

Время обучения: 2 ч 30 мин

Эпох: 88

Холодный старт

Перемешанная выборка с фиксированной псевдослучайностью

Оптимизатор: Adam

Декодер: CTC WordBeamsearch

Размещение данных: LMDB

CER: 4.17%

Line accuracy: 75.52%

### Выводы

Эксперимент с инструментом pytesseract (эксперимент 1) показал серьезное отличие в худшую сторону относительно модели, обученной на собранных вручную данных (даже без оптимизации параметров и коррекции орфографии) и протестированной с идентичными условиями (эксперимент 2). Гипотеза 1 подтверждается.

Внедрение технологии  LMDB хранения и подачи выборки данных (эксперимент 3) более, чем в 4 раза увеличивает скорость обучения модели при неизменных размерах и составе выборок, а также прочих параметрах задачи. Гипотеза 2 подтверждается.

Использование альтернативной технологии декодирования Beamsearch (эксперимент 4), задействующей коррекцию орфографии распознаваемых слов, существенно увеличивает качество работы модели при относительно малом падении скорости ее обучения. Кроме того, самый высокий результат точности и самый и наибольшее время исполнения показал декодер WordBeamsearch (эксперимент 5), корректирующий ошибки на основе использования русскоязычного словаря (ограниченная версия, построенная на обучающей выборке). Гипотеза 3 подтверждается.

## 5 Гипотезы, требующие дальнейшей проверки 

1. Изменение архитектуры сети (больше-меньше свёрточных слоёв, больше LSTM, вставить LSTM в начало сети) может положительно влиять на качество обучения и работы модели. 
2. Наложение на работу сети оптимизатора гиперпараметров (от TF или байесовский [https://distill.pub/2020/bayesian-optimization/](https://distill.pub/2020/bayesian-optimization/)) даст положительный результат в контексте такой задачи.
3. Добавление дополнительного датасета изображений (готовый размеченный, MNIST, сгенерированный специализированным инструментом) после приведения его к выбранному формату даст положительный результат.
4. Прочие изменения оригинала изображений выборки: увеличение разрешение, добавление рамок белого цвета вокруг может положительно влиять на качество обучения и работы модели.
5. Использование шаблонного метода должно быть наиболее качественным методом только в контексте распознавания слов только одного конкретного шрифта.
6. Процесс обучения на комбинации слов (в альтернативу обучению на отдельных словах) даст лучший результат.
7. Классификация авторов рукописных текстов по полу и возрасту возможна.

# Эксперименты

## Импорт библиотек и подготовка структур данных

In [None]:
!touch corpus.txt
!pip install path
!pip install pyaspeller



In [None]:
import random
import csv
import cv2
import shutil
import os
import sys
import json
import lmdb
import pickle
import editdistance
import warnings
import tensorflow as tf
import numpy as np
from collections import namedtuple
from typing import List, Tuple
from path import Path
from pyaspeller import YandexSpeller

In [None]:
from google.colab import drive
drive.mount('/content/drive')
drive_path = Path('/content/drive/MyDrive/')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
repo_path = Path(drive_path / 'CTCWordBeamSearch')
if not Path('./CTCWordBeamSearch').exists():
  shutil.copytree(repo_path, './CTCWordBeamSearch')

In [None]:
!pip install /content/CTCWordBeamSearch --use-feature=in-tree-build

Processing ./CTCWordBeamSearch
Building wheels for collected packages: word-beam-search
  Building wheel for word-beam-search (setup.py) ... [?25l[?25hdone
  Created wheel for word-beam-search: filename=word_beam_search-1.0.1-cp37-cp37m-linux_x86_64.whl size=1178380 sha256=1ab72b8ab3c2c56f309671984454caed73e25cc701b66df38dd4b5f6ebf04099
  Stored in directory: /tmp/pip-ephem-wheel-cache-u2n7qpbb/wheels/16/85/4b/44623da5b9e8f62d95f1dda76b4944e98821e531c220d5058c
Successfully built word-beam-search
Installing collected packages: word-beam-search
  Attempting uninstall: word-beam-search
    Found existing installation: word-beam-search 1.0.1
    Uninstalling word-beam-search-1.0.1:
      Successfully uninstalled word-beam-search-1.0.1
Successfully installed word-beam-search-1.0.1


Две основные сущности - семпл и батч - представлены именованными кортежами. Именно их генерирует загрузчик

In [None]:
Sample = namedtuple('Sample', 'gt_text, file_path')
Batch = namedtuple('Batch', 'imgs, gt_texts, batch_size')

## БД lmdb для быстрой загрузки изображений

### Создание БД

In [None]:
# БД на 1 гиг
# env = lmdb.open('lmdb', map_size=1024 * 1024 * 1024)
# imgs = (drive_path / 'images').walkfiles('*.jpg')

In [None]:
# with env.begin(write=True) as conn:
#     for idx, img in enumerate(imgs):
#         if idx % 400 == 0:
#           print(idx)
#         read_img = cv2.imread(img, cv2.IMREAD_GRAYSCALE)
#         bd_filename = '/'.join(str(img).split('/')[-3:]).encode("ascii")
#         conn.put(bd_filename, pickle.dumps(read_img))

In [None]:
# env.close()

### Загрузка готовой БД

In [None]:
lmdb_path = Path(drive_path / 'lmdb')
if not Path('./lmdb').exists():
  shutil.copytree(lmdb_path, 'lmdb')

## Предобработчик

In [None]:
class Preprocessor:
    def __init__(self,
                 img_size: Tuple[int, int],
                 padding: int = 0,
                 dynamic_width: bool = False,
                 data_augmentation: bool = False,
                 line_mode: bool = False) -> None:
        # dynamic width only supported when no data augmentation happens
        assert not (dynamic_width and data_augmentation)
        # when padding is on, we need dynamic width enabled
        assert not (padding > 0 and not dynamic_width)

        self.img_size = img_size
        self.padding = padding
        self.dynamic_width = dynamic_width
        self.data_augmentation = data_augmentation
        self.line_mode = line_mode


    @staticmethod
    def _truncate_label(text: str, max_text_len: int) -> str:
        """
        Function ctc_loss can't compute loss if it cannot find a mapping between text label and input
        labels. Repeat letters cost double because of the blank symbol needing to be inserted.
        If a too-long label is provided, ctc_loss returns an infinite gradient.
        """
        cost = 0
        for i in range(len(text)):
            if i != 0 and text[i] == text[i - 1]:
                cost += 2
            else:
                cost += 1
            if cost > max_text_len:
                return text[:i]
        return text

    
    def process_img(self, img: np.ndarray) -> np.ndarray:
        """Resize to target size, apply data augmentation."""

        # data augmentation
        img = img.astype(np.float)
        if self.data_augmentation:
            # photometric data augmentation
            if random.random() < 0.25:
                def rand_odd():
                    return random.randint(1, 3) * 2 + 1
                img = cv2.GaussianBlur(img, (rand_odd(), rand_odd()), 0)
            if random.random() < 0.25:
                img = cv2.dilate(img, np.ones((3, 3)))
            if random.random() < 0.25:
                img = cv2.erode(img, np.ones((3, 3)))

            # geometric data augmentation
            wt, ht = self.img_size
            h, w = img.shape
            f = min(wt / w, ht / h)
            fx = f * np.random.uniform(0.75, 1.05)
            fy = f * np.random.uniform(0.75, 1.05)

            # random position around center
            txc = (wt - w * fx) / 2
            tyc = (ht - h * fy) / 2
            freedom_x = max((wt - fx * w) / 2, 0)
            freedom_y = max((ht - fy * h) / 2, 0)
            tx = txc + np.random.uniform(-freedom_x, freedom_x)
            ty = tyc + np.random.uniform(-freedom_y, freedom_y)

            # map image into target image
            M = np.float32([[fx, 0, tx], [0, fy, ty]])
            target = np.ones(self.img_size[::-1]) * 255
            img = cv2.warpAffine(img, M, dsize=self.img_size, dst=target, borderMode=cv2.BORDER_TRANSPARENT)

            # photometric data augmentation
            if random.random() < 0.5:
                img = img * (0.25 + random.random() * 0.75)
            if random.random() < 0.25:
                img = np.clip(img + (np.random.random(img.shape) - 0.5) * random.randint(1, 25), 0, 255)
            if random.random() < 0.1:
                img = 255 - img

        # no data augmentation
        else:
            if self.dynamic_width:
                ht = self.img_size[1]
                h, w = img.shape
                f = ht / h
                wt = int(f * w + self.padding)
                wt = wt + (4 - wt) % 4
                tx = (wt - w * f) / 2
                ty = 0
            else:
                wt, ht = self.img_size
                h, w = img.shape
                f = min(wt / w, ht / h)
                tx = (wt - w * f) / 2
                ty = (ht - h * f) / 2

            # map image into target image
            M = np.float32([[f, 0, tx], [0, f, ty]])
            target = np.ones([ht, wt]) * 255
            img = cv2.warpAffine(img, M, dsize=(wt, ht), dst=target, borderMode=cv2.BORDER_TRANSPARENT)

        # transpose for TF
        img = cv2.transpose(img)

        # convert to range [-1, 1]
        img = img / 255 - 0.5
        return img

    
    def process_batch(self, batch: Batch) -> Batch:

        res_imgs = [self.process_img(img) for img in batch.imgs]
        max_text_len = res_imgs[0].shape[0] // 4
        res_gt_texts = [self._truncate_label(gt_text, max_text_len) for gt_text in batch.gt_texts]
        return Batch(res_imgs, res_gt_texts, batch.batch_size)

NameError: ignored

## Загрузчик

In [None]:
class DataLoader:
  def __init__(self,
                data_dir: Path,
                batch_size: int,
                data_split: float = 0.9,
                fast: bool = False) -> None:
        """Загрузчик датасета"""

        assert data_dir.exists()

        self.fast = fast
        if fast:
            self.env = lmdb.open('lmdb', readonly=True)

        self.data_augmentation = False
        self.curr_idx = 0  # порядковый номер в выборке
        self.batch_size = batch_size
        self.samples = []

        labels_path = Path.joinpath(data_dir, 'labels')
        file = open(labels_path / 'HTR.csv')
        reader = csv.reader(file)
        next(reader)  # пропуск заголовка

        for row in reader:
          gt_text, img_name = row
          img_path = Path.joinpath(data_dir, img_name[2:])  # нужно для colab, т.к. пути начинаются с ./ 
          self.samples.append(Sample(gt_text, img_path))
          
        file.close()

        # фиксированное деление выборки (по умолчанию на валидацию 10%)
        split_idx = int(data_split * len(self.samples))
        random.seed(6)
        random.shuffle(self.samples)
        self.train_samples = self.samples[:split_idx]
        self.validation_samples = self.samples[split_idx:]

        self.train_texts = [x.gt_text for x in self.train_samples]
        self.validation_texts = [x.gt_text for x in self.validation_samples]

        # start with train set
        self.train_set()
    

  def train_set(self) -> None:
        """Случайно выбранная подвыборка из тренировочного набора данных"""
        self.data_augmentation = True
        self.curr_idx = 0
        random.seed()
        random.shuffle(self.train_samples)
        self.samples = self.train_samples
        self.curr_set = 'train'

    
  def validation_set(self) -> None:
        """Вылидационный сет"""
        self.data_augmentation = False
        self.curr_idx = 0
        self.samples = self.validation_samples
        self.curr_set = 'val'


  def get_iterator_info(self) -> Tuple[int, int]:
        """Возвращает номер текущего батча и общее число батчей"""
        if self.curr_set == 'train':
            num_batches = int(np.floor(len(self.samples) / self.batch_size))  # в тренирочной выборке должны быть только полноразмерные батчи
        else:
            num_batches = int(np.ceil(len(self.samples) / self.batch_size))  # в валидационной последний батч может быть меньше
        curr_batch = self.curr_idx // self.batch_size + 1
        return curr_batch, num_batches


  def has_next(self) -> bool:
        """Возвращает флаг, показывающий, хватает ли данных на еще один батч"""
        if self.curr_set == 'train':
            return self.curr_idx + self.batch_size <= len(self.samples)  # в тренирочной выборке должны быть только полноразмерные батчи
        else:
            return self.curr_idx < len(self.samples)  # в валидационной последний батч может быть меньше


  def _get_img(self, i: int) -> np.ndarray:
        if self.fast:
            with self.env.begin() as conn:
                bd_filename = '-'.join(self.samples[i].file_path.split('/')[-3:]).encode("ascii")
                data = conn.get(bd_filename)
                img = pickle.loads(data)
        else:
            img = cv2.imread(self.samples[i].file_path, cv2.IMREAD_GRAYSCALE)

        return img


  def get_batch(self) -> Batch:
        """Получить батч"""
        batch_range = range(self.curr_idx, min(self.curr_idx + self.batch_size, len(self.samples)))

        imgs = [self._get_img(i) for i in batch_range]
        gt_texts = [self.samples[i].gt_text for i in batch_range]

        self.curr_idx += self.batch_size
        return Batch(imgs, gt_texts, len(imgs))

## Модель

In [None]:
# Disable eager mode
tf.compat.v1.disable_eager_execution()

class DecoderType:
    """CTC decoder types."""
    BestPath = 0
    BeamSearch = 1
    WordBeamSearch = 2

In [None]:
class Model:
    """Minimalistic TF model for HTR."""

    def __init__(self,
                 char_list: List[str],
                 decoder_type: str = DecoderType.BestPath,
                 must_restore: bool = False,
                 dump: bool = False) -> None:
        """Init model: add CNN, RNN and CTC and initialize TF."""
        self.dump = dump
        self.char_list = char_list
        self.decoder_type = decoder_type
        self.must_restore = must_restore
        self.snap_ID = 0

        # Whether to use normalization over a batch or a population
        self.is_train = tf.compat.v1.placeholder(tf.bool, name='is_train')

        # input image batch
        self.input_imgs = tf.compat.v1.placeholder(tf.float32, shape=(None, None, None))

        # setup CNN, RNN and CTC
        self.setup_cnn()
        self.setup_rnn()
        self.setup_ctc()

        # setup optimizer to train NN
        self.batches_trained = 0
        self.update_ops = tf.compat.v1.get_collection(tf.compat.v1.GraphKeys.UPDATE_OPS)
        with tf.control_dependencies(self.update_ops):
            self.optimizer = tf.compat.v1.train.AdamOptimizer().minimize(self.loss)

        # initialize TF
        self.sess, self.saver = self.setup_tf()

    def setup_cnn(self) -> None:
        """Create CNN layers."""
        cnn_in4d = tf.expand_dims(input=self.input_imgs, axis=3)

        # list of parameters for the layers
        kernel_vals = [5, 5, 3, 3, 3]
        feature_vals = [1, 32, 64, 128, 128, 256]
        stride_vals = pool_vals = [(2, 2), (2, 2), (1, 2), (1, 2), (1, 2)]
        num_layers = len(stride_vals)

        # create layers
        pool = cnn_in4d  # input to first CNN layer
        for i in range(num_layers):
            kernel = tf.Variable(
                tf.random.truncated_normal([kernel_vals[i], kernel_vals[i], feature_vals[i], feature_vals[i + 1]],
                                           stddev=0.1))
            conv = tf.nn.conv2d(input=pool, filters=kernel, padding='SAME', strides=(1, 1, 1, 1))
            conv_norm = tf.compat.v1.layers.batch_normalization(conv, training=self.is_train)
            relu = tf.nn.relu(conv_norm)
            pool = tf.nn.max_pool2d(input=relu, ksize=(1, pool_vals[i][0], pool_vals[i][1], 1),
                                    strides=(1, stride_vals[i][0], stride_vals[i][1], 1), padding='VALID')

        self.cnn_out_4d = pool

    def setup_rnn(self) -> None:
        """Create RNN layers."""
        rnn_in3d = tf.squeeze(self.cnn_out_4d, axis=[2])

        # basic cells which is used to build RNN
        num_hidden = 256
        cells = [tf.compat.v1.nn.rnn_cell.LSTMCell(num_units=num_hidden, state_is_tuple=True) for _ in
                 range(2)]  # 2 layers

        # stack basic cells
        stacked = tf.compat.v1.nn.rnn_cell.MultiRNNCell(cells, state_is_tuple=True)

        # bidirectional RNN
        # BxTxF -> BxTx2H
        (fw, bw), _ = tf.compat.v1.nn.bidirectional_dynamic_rnn(cell_fw=stacked, cell_bw=stacked, inputs=rnn_in3d,
                                                                dtype=rnn_in3d.dtype)

        # BxTxH + BxTxH -> BxTx2H -> BxTx1X2H
        concat = tf.expand_dims(tf.concat([fw, bw], 2), 2)

        # project output to chars (including blank): BxTx1x2H -> BxTx1xC -> BxTxC
        kernel = tf.Variable(tf.random.truncated_normal([1, 1, num_hidden * 2, len(self.char_list) + 1], stddev=0.1))
        self.rnn_out_3d = tf.squeeze(tf.nn.atrous_conv2d(value=concat, filters=kernel, rate=1, padding='SAME'),
                                     axis=[2])

    def setup_ctc(self) -> None:
        """Create CTC loss and decoder."""
        # BxTxC -> TxBxC
        self.ctc_in_3d_tbc = tf.transpose(a=self.rnn_out_3d, perm=[1, 0, 2])
        # ground truth text as sparse tensor
        self.gt_texts = tf.SparseTensor(tf.compat.v1.placeholder(tf.int64, shape=[None, 2]),
                                        tf.compat.v1.placeholder(tf.int32, [None]),
                                        tf.compat.v1.placeholder(tf.int64, [2]))

        # calc loss for batch
        self.seq_len = tf.compat.v1.placeholder(tf.int32, [None])
        self.loss = tf.reduce_mean(
            input_tensor=tf.compat.v1.nn.ctc_loss(labels=self.gt_texts, inputs=self.ctc_in_3d_tbc,
                                                  sequence_length=self.seq_len,
                                                  ctc_merge_repeated=True))

        # calc loss for each element to compute label probability
        self.saved_ctc_input = tf.compat.v1.placeholder(tf.float32,
                                                        shape=[None, None, len(self.char_list) + 1])
        self.loss_per_element = tf.compat.v1.nn.ctc_loss(labels=self.gt_texts, inputs=self.saved_ctc_input,
                                                         sequence_length=self.seq_len, ctc_merge_repeated=True)

        # best path decoding or beam search decoding
        if self.decoder_type == DecoderType.BestPath:
            self.decoder = tf.nn.ctc_greedy_decoder(inputs=self.ctc_in_3d_tbc, sequence_length=self.seq_len)
        elif self.decoder_type == DecoderType.BeamSearch:
            self.decoder = tf.nn.ctc_beam_search_decoder(inputs=self.ctc_in_3d_tbc, sequence_length=self.seq_len,
                                                         beam_width=50)
        # word beam search decoding 
        elif self.decoder_type == DecoderType.WordBeamSearch:
            # prepare information about language (dictionary, characters in dataset, characters forming words)
            chars = ''.join(self.char_list)
            word_chars = ''.join(self.char_list[:-1])
            corpus = open('corpus.txt').read()
            # decode using the "Words" mode of word beam search
            from word_beam_search import WordBeamSearch
            self.decoder = WordBeamSearch(25, 'Words', 0.0, corpus.encode('utf8'), chars.encode('utf8'),
                                          word_chars.encode('utf8'))

            # the input to the decoder must have softmax already applied
            self.wbs_input = tf.nn.softmax(self.ctc_in_3d_tbc, axis=2)

    def setup_tf(self) -> Tuple[tf.compat.v1.Session, tf.compat.v1.train.Saver]:
        """Initialize TF."""
        print('Python: ' + sys.version)
        print('Tensorflow: ' + tf.__version__)
        sess = tf.compat.v1.Session()  # TF session

        saver = tf.compat.v1.train.Saver(max_to_keep=1)  # saver saves model to file
        model_dir = './model/'
        latest_snapshot = tf.train.latest_checkpoint(model_dir)  # is there a saved model?

        # if model must be restored (for inference), there must be a snapshot
        if self.must_restore and not latest_snapshot:
            raise Exception('No saved model found in: ' + model_dir)

        # load saved model if available
        if latest_snapshot:
            print('Init with stored values from ' + latest_snapshot)
            saver.restore(sess, latest_snapshot)
        else:
            print('Init with new values')
            sess.run(tf.compat.v1.global_variables_initializer())

        return sess, saver

    def to_sparse(self, texts: List[str]) -> Tuple[List[List[int]], List[int], List[int]]:
        """Put ground truth texts into sparse tensor for ctc_loss."""
        indices = []
        values = []
        shape = [len(texts), 0]  # last entry must be max(labelList[i])

        # go over all texts
        for batchElement, text in enumerate(texts):
            # convert to string of label (i.e. class-ids)
            label_str = [self.char_list.index(c) for c in text]
            # sparse tensor must have size of max. label-string
            if len(label_str) > shape[1]:
                shape[1] = len(label_str)
            # put each label into sparse tensor
            for i, label in enumerate(label_str):
                indices.append([batchElement, i])
                values.append(label)

        return indices, values, shape

    def decoder_output_to_text(self, ctc_output: tuple, batch_size: int) -> List[str]:
        """Extract texts from output of CTC decoder."""

        # word beam search: already contains label strings
        if self.decoder_type == DecoderType.WordBeamSearch:
            label_strs = ctc_output

        # TF decoders: label strings are contained in sparse tensor
        else:
            # ctc returns tuple, first element is SparseTensor
            decoded = ctc_output[0][0]

            # contains string of labels for each batch element
            label_strs = [[] for _ in range(batch_size)]

            # go over all indices and save mapping: batch -> values
            for (idx, idx2d) in enumerate(decoded.indices):
                label = decoded.values[idx]
                batch_element = idx2d[0]  # index according to [b,t]
                label_strs[batch_element].append(label)

        # map labels to chars for all batch elements
        # return [''.join([self.char_list[c] for c in labelStr]) for labelStr in label_strs]
        output_dec = [''.join([self.char_list[c] for c in labelStr]) for labelStr in label_strs]
        final_output = []

        for item in output_dec:
          try:
            item_spelled = speller.spelled(item)
            final_output.append(item_spelled)
          except:
            final_output.append(item)

        return final_output

    def train_batch(self, batch: Batch) -> float:
        """Feed a batch into the NN to train it."""
        num_batch_elements = len(batch.imgs)
        max_text_len = batch.imgs[0].shape[0] // 4
        sparse = self.to_sparse(batch.gt_texts)
        eval_list = [self.optimizer, self.loss]
        feed_dict = {self.input_imgs: batch.imgs, self.gt_texts: sparse,
                     self.seq_len: [max_text_len] * num_batch_elements, self.is_train: True}
        _, loss_val = self.sess.run(eval_list, feed_dict)
        self.batches_trained += 1
        return loss_val

    @staticmethod
    def dump_nn_output(rnn_output: np.ndarray) -> None:
        """Dump the output of the NN to CSV file(s)."""
        dump_dir = './dump/'
        if not os.path.isdir(dump_dir):
            os.mkdir(dump_dir)

        # iterate over all batch elements and create a CSV file for each one
        max_t, max_b, max_c = rnn_output.shape
        for b in range(max_b):
            csv = ''
            for t in range(max_t):
                for c in range(max_c):
                    csv += str(rnn_output[t, b, c]) + ';'
                csv += '\n'
            fn = dump_dir + 'rnnOutput_' + str(b) + '.csv'
            print('Write dump of NN to file: ' + fn)
            with open(fn, 'w') as f:
                f.write(csv)

    def infer_batch(self, batch: Batch, calc_probability: bool = False, probability_of_gt: bool = False):
        """Feed a batch into the NN to recognize the texts."""

        # decode, optionally save RNN output
        num_batch_elements = len(batch.imgs)

        # put tensors to be evaluated into list
        eval_list = []

        if self.decoder_type == DecoderType.WordBeamSearch:
            eval_list.append(self.wbs_input)
        else:
            eval_list.append(self.decoder)

        if self.dump or calc_probability:
            eval_list.append(self.ctc_in_3d_tbc)

        # sequence length depends on input image size (model downsizes width by 4)
        max_text_len = batch.imgs[0].shape[0] // 4

        # dict containing all tensor fed into the model
        feed_dict = {self.input_imgs: batch.imgs, self.seq_len: [max_text_len] * num_batch_elements,
                     self.is_train: False}

        # evaluate model
        eval_res = self.sess.run(eval_list, feed_dict)
        # TF decoders: decoding already done in TF graph
        if self.decoder_type != DecoderType.WordBeamSearch:
            decoded = eval_res[0]
        # word beam search decoder: decoding is done in C++ function compute()
        else:
            decoded = self.decoder.compute(eval_res[0])

        # map labels (numbers) to character string
        texts = self.decoder_output_to_text(decoded, num_batch_elements)

        # feed RNN output and recognized text into CTC loss to compute labeling probability
        probs = None
        if calc_probability:
            sparse = self.to_sparse(batch.gt_texts) if probability_of_gt else self.to_sparse(texts)
            ctc_input = eval_res[1]
            eval_list = self.loss_per_element
            feed_dict = {self.saved_ctc_input: ctc_input, self.gt_texts: sparse,
                         self.seq_len: [max_text_len] * num_batch_elements, self.is_train: False}
            loss_vals = self.sess.run(eval_list, feed_dict)
            probs = np.exp(-loss_vals)

        # dump the output of the NN to CSV file(s)
        if self.dump:
            self.dump_nn_output(eval_res[1])

        return texts, probs

    def save(self) -> None:
        """Save model to file."""
        self.snap_ID += 1
        self.saver.save(self.sess, './model/snapshot', global_step=self.snap_ID)

## Обучение

### Подготовка

In [None]:
class FilePaths:
    """Filenames and paths to data."""
    fn_summary = 'summary.json'
    fn_corpus = 'corpus.txt'

In [None]:
def write_summary(char_error_rates: List[float], word_accuracies: List[float]) -> None:
    """Writes training summary file for NN."""
    with open(FilePaths.fn_summary, 'w') as f:
        json.dump({'charErrorRates': char_error_rates, 'wordAccuracies': word_accuracies}, f)

**Здесь задаем целевой размер изображения**

In [None]:
img_size = (330, 40)

#### train

In [None]:
def train(model: Model,
          loader: DataLoader,
          early_stopping: int = 25) -> None:
    """Trains NN."""
    epoch = 0  # число эпох с момента начала обучения
    summary_char_error_rates = []
    summary_word_accuracies = []
    preprocessor = Preprocessor(img_size, data_augmentation=True)
    best_char_error_rate = float('inf')  # лучший показатель символьной ошибки на валидации
    no_improvement_since = 0  # число эпох без улучшения символьной ошибки

    while True:
        epoch += 1
        print('Epoch:', epoch)

        # обучение
        print('Train NN')
        loader.train_set()
        while loader.has_next():
            iter_info = loader.get_iterator_info()
            batch = loader.get_batch()
            batch = preprocessor.process_batch(batch)
            loss = model.train_batch(batch)
            print(f'Epoch: {epoch} Batch: {iter_info[0]}/{iter_info[1]} Loss: {loss}')

        # валидация
        char_error_rate, word_accuracy = validate(model, loader)

        # запись статистики
        summary_char_error_rates.append(char_error_rate)
        summary_word_accuracies.append(word_accuracy)
        write_summary(summary_char_error_rates, summary_word_accuracies)

        # сохраняем модель, если качество на валидации улучшилось
        if char_error_rate < best_char_error_rate:
            print('Character error rate improved, save model')
            best_char_error_rate = char_error_rate
            no_improvement_since = 0
            model.save()
        else:
            print(f'Character error rate not improved, best so far: {best_char_error_rate * 100.0}%')
            no_improvement_since += 1

        # остановка обучения, если качество не улучшалось последние N эпох
        if no_improvement_since >= early_stopping:
            print(f'No more improvement since {early_stopping} epochs. Training stopped.')
            break

#### validate

In [None]:
def validate(model: Model, loader: DataLoader) -> Tuple[float, float]:
    """Validates NN."""
    print('Validate NN')
    loader.validation_set()
    preprocessor = Preprocessor(img_size)
    num_char_err = 0
    num_char_total = 0
    num_word_ok = 0
    num_word_total = 0
    while loader.has_next():
        iter_info = loader.get_iterator_info()
        print(f'Batch: {iter_info[0]} / {iter_info[1]}')
        batch = loader.get_batch()
        batch = preprocessor.process_batch(batch)
        recognized, _ = model.infer_batch(batch)

        print('Ground truth -> Recognized')
        for i in range(len(recognized)):
            num_word_ok += 1 if batch.gt_texts[i] == recognized[i] else 0
            num_word_total += 1
            dist = editdistance.eval(recognized[i], batch.gt_texts[i])
            num_char_err += dist
            num_char_total += len(batch.gt_texts[i])
            print('[OK]' if dist == 0 else '[ERR:%d]' % dist, '"' + batch.gt_texts[i] + '"', '->',
                  '"' + recognized[i] + '"')

    # print validation result
    char_error_rate = num_char_err / num_char_total
    word_accuracy = num_word_ok / num_word_total
    print(f'Character error rate: {char_error_rate * 100.0}%. Word accuracy: {word_accuracy * 100.0}%.')
    return char_error_rate, word_accuracy

#### infer

In [None]:
def infer(model: Model, fn_img: Path) -> None:
    """Recognizes text in image provided by file path."""
    img = cv2.imread(fn_img, cv2.IMREAD_GRAYSCALE)
    assert img is not None

    preprocessor = Preprocessor(img_size, dynamic_width=True, padding=16)
    img = preprocessor.process_img(img)

    batch = Batch([img], None, 1)
    recognized, probability = model.infer_batch(batch, True)
    recognized_corrected = YandexSpeller().spelled(recognized[0])
    print(f'Recognized: "{recognized[0]}"')
    print(f'Corrected: "{recognized_corrected}"')
    print(f'Probability: {probability[0]}')

In [None]:
def run_model(mode, decoder, early_stopping=10, fast=True, img_file=None):

  char_list = list('абвгдежзийклмнопрстуфхцчшщъыьэюя ')
  decoder_mapping = {'bestpath': DecoderType.BestPath,
                            'beamsearch': DecoderType.BeamSearch,
                            'wordbeamsearch': DecoderType.WordBeamSearch}
  decoder_type = decoder_mapping[decoder]

  if mode == 'train' or  mode == 'validate':

          # load training data, create TF model
          loader = DataLoader(drive_path, batch_size=500, fast=fast)

          # save words contained in dataset into file
          open(FilePaths.fn_corpus, 'w').write(' '.join(loader.train_texts + loader.validation_texts))

          # execute training or validation
          if mode == 'train':
              model = Model(char_list, decoder_type)
              train(model, loader, early_stopping=early_stopping)
          elif mode == 'validate':
              model = Model(char_list, decoder_type, must_restore=True)
              validate(model, loader, early_stopping=early_stopping)
          
  # infer text on test image
  elif mode == 'infer':
      model = Model(char_list, decoder_type, must_restore=True)
      infer(model, img_file)

### Запуск

In [None]:
run_model('train', 'wordbeamsearch')

In [None]:
# !nvidia-smi --query-gpu=gpu_name,driver_version,memory.total --format=csv

name, driver_version, memory.total [MiB]
Tesla K80, 460.32.03, 11441 MiB


## Inference

### Получение предобученной модели и файлов для распознавания

In [None]:
model_path = Path(drive_path / 'model')
if not Path('./model').exists():
  shutil.copytree(model_path, 'model')

In [None]:
img_path = Path(drive_path / 'inference_img')
if not Path('./inference_img').exists():
  shutil.copytree(img_path, 'inference_img')

### Запуск

In [None]:
warnings.filterwarnings("ignore")

In [None]:
tf.compat.v1.reset_default_graph()
run_model('infer', 'wordbeamsearch', img_file=Path('inference_img/6309.jpg'))





Python: 3.7.11 (default, Jul  3 2021, 18:01:19) 
[GCC 7.5.0]
Tensorflow: 2.6.0
Init with stored values from ./model/snapshot-76
INFO:tensorflow:Restoring parameters from ./model/snapshot-76


INFO:tensorflow:Restoring parameters from ./model/snapshot-76


Recognized: "случайная проверки"
Corrected: "случайная проверки"
Probability: 0.003577725263312459
