**ТЕОРИЯ**
* Привести постановку задачи распознавания рукописного текста, как задачи компьютерного зрения.
* Привести краткий обзор методов распознавания рукописного текста аналитическими методами (без использования нейронных сетей)
* Дать определение понятию "Машинное обучение" и привести некоторую сравнительную характеристику аналитического и нейросетевого подходов.
* Рассмотреть типовые архитектуры НС, использующиеся для задач распознавания рукописного текста. Имеет смысл привести схемы архитектуры НС, дать краткое описание используемых в НС слоев, описать входные и выходные данные. Рассмотреть функции потерь, используемые для обучения этих нейронных сетей.
* Рассмотреть (кратко) основные датасеты, использующиеся для обучения НС для распознавния рукописного текста.

## Привести постановку задачи распознавания рукописного текста, как задачи компьютерного зрения.

#### Постановка задачи
Имеется $m$ различных классов объектов (символов), составляющих конечный алфавит $X$. Классы представлены или в форме некоторого описания, или в виде множества примеров объектов (эталонных образцов) каждого класса. 
Необходимо каждый рукописный объект в результате $классификации$ отнести к одному из $m$ классов. При этом, обычно предусмотрен $класс$ $выбросов$, который обрабатывается на более высоком уровне.  

**Классификация** — процесс назначения меток объектам согласно некоторому описанию свойств объектов.<br/>
**Классификатор** — это устройство или алгоритм, получающий в качестве входных данных описание объекта и выдающий в качестве результата метку класса.  
**Класс выбросов** — это общий класс всех объектов, которые не удалось отнести ни к одному из известных системе классов.


Система распознавания реализуется как классификатор. Рассмотрим несколько существующих методов реализации классификаторов:
 - шаблонные
 - структурные
 - структурно-пятенные
 - признаковые

Система распознавания реализуется как классификатор. Рассмотрим несколько существующих методов реализации классификаторов:
 - шаблонные
 - структурные
 - структурно-пятенные
 - признаковые

### Шаблонный классификатор

Выбор производится на критерии выбора подходящего шаблона из базы. Самый простой из которых - минимум различных точек (пикселей), различных между объектом классификации и шаблоном

*Достоинства*: 
 - хорошее распознавание дефектных объектов (разорванных, склееных)
 - простота
 - высокая скорость
 - интерпретируемость
 
*Недостатки*:
 - плохая точность при работе с нетипичным текстом
 - трудность обработки разномасштабного текста


### Структурный классификатор

Структурные классификаторы переводят форму символа в его топологическое представление, отражающее информацию о взаимном расположении его структурных элементов. Эти данные могут быть представлены в графовой форме.

*Достоинства*:
 - инвариантность относительно типов и размеров символов
   
*Недостатки*:
 - медленная работа
 - трудности при обработка дефектного текста


### Структурно-пятенный классификатор

Алгоритм основан на сочетании шаблонного и структурного методов распознавания образов. При анализе объекта выделяются ключевые точки — так называемые «**пятна**». В качестве «пятен» могут выступать концы линий: узлы, изломы, крайние точки и т.п.<br>
Подобную структуру можно сравнить со множеством шаров, нанизанных на резиновые шнуры, которые можно растягивать. После выделения «пятен» определяются связи между ними — отрезок, дуга.<br> Таким образом, итоговое описание представляет собой **граф**, который и служит объектом поиска в базе «структурно-пятенных эталонов». 


*Достоинства*:
 - инвариантность относительно типов и размеров символов
 - хорошее распознавание дефектных объектов (разорванных, склееных)
  
   
*Недостатки*:
 - медленная работа


### Признаковый классификатор

Использование признакого классификатора является наиболее распространенный методом в распознавании рукописного текста. Анализ производится по вектору признаков, вычисляемых по изображению объекта. Таким образом происходит классификации набора признака, а не изображения. Для выделение признаков используется *экстрактор*, который реализуется, обычно, программно.<br>

*Выделение признаков* — это процесс снижения размерности, в котором исходный набор исходных данных сокращается до более управляемых групп для дальнейшей обработки, оставаясь при этом достаточным набором для точного и полного описания исходного набора данных. Признаки играют важную роль, их главная цель – повышение скорости распознавания за счет оптимизированного представления информации об объекте классификации. Возможны различные алгоритмы выделения признаков, часто они влияют на построение и обучение предсказывающей модели. Например, можно считать число переходов от пикселей фона к пикселям символа по вертикальным и горизонтальным линиям.

![](img/fs.png)

Экстратор может настраиваться (обучаться) под различные данные, что дает гибкость анализа текста.<br>
При этом, выбор важных признаков можно задавать как вручную (площадь, высота, ширина, количество отверстий и т.п.), так и предоставить эту работу классификатору (l1, l2, elasticNet регуляризации)

#### Общая модель классификации
![](img/model.jpg)

*Достоинства*:
 - сильная обощающая способность
 - инвариантность и устойчивость
 - компактное хранение 
 - возможная тонкая настройка
 - полезные побочные выводы о признаках

*Недостатки*:
 - потеря некоторой информации об объекте
 - необходимость разработки нетривиальных метрик

## Дать определение понятию "Машинное обучение" и привести некоторую сравнительную характеристику аналитического и нейросетевого подходов.

*Машинное обучение* — обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться на данных. Различают три типа обучения: 
 - обучение по прецендентам (обучение с учителем). 
 - дедуктивное обучение (обучение без учителя)
 - частичное обучение (сочетание первых двух типов)


Обучение по прецедентам основано на выявлении общих закономерностей по частным эмпирическим данным. 
Каждый прецедент представляет собой пару «объект, ответ». Требуется найти функциональную зависимость ответов от описаний объектов и построить алгоритм, принимающий на входе описание объекта и выдающий на выходе ответ. Функционал качества обычно определяется как средняя ошибка ответов, выданных алгоритмом, по всем объектам выборки.

Основные типы задач обучения с учителем:
 - классификация
 - регрессия (отличается тем, что выдает число или числовой вектор принадлежности к классу)
 - ранжирование (необходима сортировка ответов модели)
 - прогнозирование (объект - временной ряд. ответ - прогноз)
 
Основные типы задач обучения без учителя:
 - класстеризация (группировка объектов на основе метрик схожести)
 - сокращение размерности (компактное представленние данных с максимальной информативностью)
 - фильтрация выбросов (обнаружение нетипичных объектов, удаление шума)
 - заполнение пропущенных значений


Нейронные сети, в отличие от аналитических методов, базируются на обучении по прецендетам, что позволяет создать более гибкую систему распознавания. В ходе обучения, модель может распознавать и выделить скрытие закономерности и кореляции.

В чем же преимущество нейросетей перед классическими моделями машинного обучения? Стандартные модели способны хорошо описывать линейные зависимости, но ответы, которые мы хотим научится предсказываться, могут зависеть от входных данных нелинейно. Поскольку композиция линейный функций - линейная функция, на каждом слое нейросети используется нелинейная функуция активации, позволяя восстанавливать более сложные зависимости.

![](img/neuron.jpg)

## Рассмотреть типовые архитектуры НС, использующиеся для задач распознавания рукописного текста. Имеет смысл привести схемы архитектуры НС, дать краткое описание используемых в НС слоев, описать входные и выходные данные. Рассмотреть функции потерь, используемые для обучения этих нейронных сетей.

### Fully-connected neural networks (FCNN) - полносвязанная нейронная сеть

Каждый нейрон одного слоя связан с каждым нейроном предыдущего и следующего. Например, для изображения 10х10 имеем 10х10х3 нейронов во входном слое. Количество выходных нейронов равно размеру алфавита.<br>

![](img/fully.jpg)

Однако, данная архитектура является не самой удачной, поскольку имеет ряд серьезных слабостей, таких как:
 - большое число параметров
 - потеря информации о пространстве
 
с этими проблемы борется сверточная нейронная сеть

### Convolution Neural Network(CNN) - сверточная нейронная сеть

Основная проблема при обработке визуальных данных заключается в том, что каждое изображение представлено в виде двумерной матрицы, где каждый элемент содержит определенный цвет, а не один одномерный вектор, который нам нужен для обучения типичных нейронных сетей.<br>
Мы всегда могли преобразовать изображение в формат 1D, «сгладив» его. Этоозначает, что мы держим каждый пиксель рядом друг с другом , чтобы сформировать единый длинный вектор, который мы затем можем ввести в нейронную сеть. Но делая это, мы теряем много **пространственной информации**, присутствующей на изображении. Расположение каждого пикселя теперь является отдельной функцией, и, следовательно, нейронная сеть не будет фокусироваться на поиске закономерностей между соседними пикселями в изображении. <br>

Типовая структура CNN (Convolution Neural Network) состоит из следующих частей:
 - сверточные слои
 - слои подвыборки
 - плотные слои

### Сверточный слой 
Сверточный слой является ключевым компонентом сверточных нейронных сетей.

Его целью является обнаружить значимые признаки изображения. И, если в первом слое эти признаки могут быть очень простыми (наличие вертикальных/горизонтальных линий, углов), с глубиной сети растет степень их абстракции (наличие собаки/кота/человека).

Это выполняется с помощью сверточной фильтрации: производим поэлементное умножение всех значений пикселей изображения, попавших на ядро. Затем все это суммируется(еще нужно добавить параметр bias — смещение), и мы получаем какое-то число. Это число является элементом выходного слоя. Двигаем это ядро по нашему изображению с каким-то шагом(stride) и получаем очередные элементы. Из таких элементов строится новая матрица, на нее же применяется(после применения к ней функции активации) следующее ядро свертки.

Те матрицы, которые мы получаем после свертки, называются картами признаков (feature maps), потому что хранят в себе некие признаки предыдущих матриц, но уже в неком другом виде.

![](img/conv.jpg)


Между составлением карт признаков происходит уменьшение признаков с помощью max pooling.

Например, пулинг с функцией максимума и фильтром 2х2 с шагом 2
![](img/pooling.png)


После нескольких итераций остаются самые значимые признаки, которые пропускаются через полносвязную нейронную сеть

###  функции потерь

Функция потерь используется для расчета ошибки между  реальными и полученными ответами. Наша цель - минизировать данный функционал.

В зависимости от задач, которые решает нейросеть, используются разные функции потерь. Напеример, для регрессии в основном MSE - mean squared error
![](img/mse-loss.png)

Для классификации - cross-entropy loss

![](img/cross-entropy.png)

Кросс-энтропия вычисляет оценку, которая суммирует среднюю разницу между фактическим и прогнозируемым распределениями вероятностей для всех классов в задаче.

## Рассмотреть (кратко) основные датасеты, использующиеся для обучения НС для распознавния рукописного текста.

Основные датасеты

#### MNIST
Объёмная база данных образцов рукописного написания цифр. База данных была создана после переработки оригинального набора чёрно-белых образцов размером 20x20 пикселей NIST. Создатели базы данных NIST, в свою очередь, использовали набор образцов из Бюро переписи населения США, к которому были добавлены ещё тестовые образцы, написанные студентами американских университетов. Все изображения были нормализованны, прошли сглаживание и приведены к размеру 28х28 пикселей.

База данных MNIST содержит 60000 изображений пикселей для обучения и 10000 изображений для тестирования.
Ансамбль из 5 CNN-сетей, 6-уровней выдает ошибку 0.21%

![](img/mnist.png)

#### firemaker
Эта база данных содержит 1000 изображений рукописного текста, отсканированного с разрешением 300 точек на дюйм по серой шкале, содержащих страницы текста 250 авторов, по четыре страницы на автора, из четырех
вариантов написания, один вариант на страницу. Содержимое адаптировано под "инструкции Хаагландена", чтобы содержать все буквы алфавита.
Варианты таковы:
- естественный стиль
- прописные буквы
- подделано (в другом стиле, неественном)
- самостоятельно созданный


![](img/firemaker.png)


#### iam

База данных содержит формы неограниченного рукописного текста, которые были отсканированы с разрешением 300 точек на дюйм и сохранены как изображения PNG с 256 уровнями серого.

База данных почерка IAM 3.0 имеет следующую структуру:

- 657 писателей предоставили образцы своего почерка
- 1539 страниц отсканированного текста
- 5685 отдельных предложений с пометкой
- 13353 отдельных текстовых строки с пометкой
- 115320 отдельных слов с пометками

Все изображения форм, строк и слов предоставляются в виде файлов PNG, а соответствующие файлы меток форм, включая информацию о сегментации и различные оценочные параметры, включаются в файлы изображений в качестве метаинформации в формат XML, который описывается в файле XML и формате файла XML (DTD).

 На рисунке ниже - образцы полной формы, текстовой строки и некоторых извлеченных слов.

![](img/iam.jpg)

Ссылки:
- https://deeplearningdemystified.com
- http://yann.lecun.com/exdb/mnist/
- https://zenodo.org/record/1194612#.YOW_GjYzYUE
- https://neurohive.io/ru/osnovy-data-science
- http://machinelearning.ru/
- https://paperswithcode.com/
- Impedovo, S., Downton, A. Progress in Handwriting Recognition / S. Impedovo, A. Downton. – Singapore: World Scientific Publishing, – 1997. – 622 p.
- Shapiro, L., Stockman, G. Computer Vision / L. Shapiro, G. Stockman. – Hoboken: Prentice Hall, – 2001. – 580 p.

## Рекуретные нейронные сети (RNN)



### Анализ текста полносвязной сетью
 - Все токены текста поступают на вход каждому нейрону
 - Токены анализируются изолированно друг от друга

### Проблемные тексты для полносвязной сети:
 - Overall, the movie is not bad and has entertainment value.
 - Unfortunately, the movie is not so good.
 - Ice cream (мороженое, ice – лед, cream – крем, сливки)
 
 
Необходимо анализировать текст как
последовательность токенов, поскольку:
 - Порядок слов/символов/предложений в тексте имеет
большой смысл
 - Нужны специальные архитектуры нейронных сетей для
анализа последовательностей


Идея RNN заключается в последовательном использовании информации. В традиционных нейронных сетях подразумевается, что все входы и выходы независимы. Но для многих задач это не подходит. Если вы хотите предсказать следующее слово в предложении, лучше учитывать предшествующие ему слова. RNN называются рекуррентными, потому что они выполняют одну и ту же задачу для каждого элемента последовательности, причем выход зависит от предыдущих вычислений. Еще одна интерпретация RNN: это сети, у которых есть «память», которая учитывает предшествующую информацию. Теоретически RNN могут использовать информацию в произвольно длинных последовательностях, но на практике они ограничены лишь несколькими шагами


### Типы нейронных сетей 

![](img/types.jpg)

## Входные данные

Последовательность данных (Например, предложение или выход CNN в задаче распознавания)




## Выходные данные

### seq2seq

Выдает последовательность на вход следующему рекурретному слою

![](img/unfold.jpg)

### seq2veq

Выдает вектор на вход полносвязной нейронной сети

![](img/seq2vec.jpg)

Для обучения рекуррентных нейросетей используется разворачивание во времени и обратное распространение ошибки
- Количество слоев в развернутой сети зависит от длины последовательности входных данных

Проблема исчезающего градиента
- При передаче от слоя к слою сигнал об изменении весов уменьшается
- Сеть с большим количеством слоев сложно обучить

Более сложные архитектуры рекуррентных нейросетей
- LSTM (Long-Short Term Memory)
- GRU (Gated Recurrent Unit)

## SimpleHTR

![](img/htr.jpg)

## CNN 

принимает изображение 128х32  
первый и второй слои имеют фильтр 5х5 с шагом 1  
последние три имеют фильтр 3х3 с шагом 1  
функция активации - ReLu  
выдает матрицу(последовательность) 32х256  



## RNN

принимает последовательность из 32 векторов размера 256  
используется LSTM  
выход отображается на матрицы 32х80 (79 знаков и 1 пустой)  
для каждой из 32 записей имеется 80 значений 


## CTC (Connectionist temporal classification)

проблемы:
- нужно понять, где начало и конец символа  
- принимая наиболее вероятный символ за временной шаг, это может дать нам текст вроде «HHHHHHHHeeeellllllllloooo»

Первое, что приходит в голову - удалить повторы, но тогда мы получим Helo - неправильно 

CTC решает обе проблемы:
- Вы можете обучить сеть из пар (I, T), не указывая, в какой позиции персонаж находится, используя потерю CTC
- Не нужно постобрабатывать вывод, так как декодер CTC преобразует вывод NN в окончательный текст

Как это достигается?

- ввести специальный символ (CTC-пробел, обозначенный в этом тексте как "-"), чтобы указать, что ни один символ не виден в данный момент времени
- изменить основной текст истины T на T ', вставляя пробелы CTC и повторяя символы всеми возможными способами
- мы знаем изображение, мы знаем текст, но мы не знаем, где расположен текст. Итак, давайте просто попробуем все возможные позиции текста "Hi----", "-Hi ---", "--Hi--", ...  мы также не знаем, сколько места занимает каждый символ в изображении. Так что давайте попробуем все возможные выравнивания, позволив символам повторяться, например, «HHi ----», «HHHi ---», «HHHHi--», ...
Конечно, если мы позволим символу повторяться несколько раз, как мы будем обрабатывать настоящие дубликаты символов, такие как «l» в «Hello»? Вставляем пробел между этими символами, например, "Hel-lo" или "Heeellll ------- llo"
рассчитать оценку для каждого возможного T '(то есть для каждого преобразования и каждой их комбинации), суммировать по всем оценкам, что приводит к потере для пары (I, T)

Расшифровка: 
- выбрать символ с наибольшим количеством скором для каждого временного шага, например, «HHHHHH-eeeellll-lll - oo ---» 
- выбросить повторяющиеся символы «H-el-lo», 
- выбросить пробелы «Hello»


![](img/ctc.jpg)