## Что такое CV?

CV - computer vision - это область науки и техники, посвященная обработке цифровых изображений. Основная цель компьютерного зрения заключается в формировании полезных выводов относительно объектов и сцен реального мира на основе анализа изображений, полученных с помощью датчиков (Шапиро, с. 13). Компьютерное зрение является частью более общей области знаний - обработки цифровых изображений.

Хорошая классификация того, что принять называть компьютерным зрением приведена в курсе CV от ВМК МГУ (https://www.lektorium.tv/course/22847) 
* **Обработка изображений** (Image processing)  
  * На входе и выходе изображение
* **Анализ изображений** (Image analysis)
  * Фокусируется на работе с 2D изображениями
* **Распознавание образов** (Pattern recognition)
  * Распознавание, обучение на абстрактных числовых величинах, полученных в т.ч. из изображений
* **Компьютерное зрение** (Computer vision)
  * Изначально восстановление 3D структуры по 2D изображениям
  * Сейчас шире - принятие решений о физических объектах, основываясь на их изображениях
* **Фотограмметрия** (Photogrammetry)
  * Измерение расстояний, размеров, положения и иных характеристик объектов по их 2D изображениям
* **Машинное зрение** (Machine vision)
  * Решение промышленных производственных задач
  * Сюда же отнесем задачи зрения self-driving автомобилей, дронов, роботов и т.д.


В нашем курсе мы постараемся состредоточиться на получении практических навыков с такими инструментами как python-opencv, pytorch, tensorflow. Для полноценного обучения стоит взглянуть на курсы Стенфордского университета: CS131, CS231A и CS231n, а также полистать классические учебники по CV.

## Краткая история и область применения CV

Первая известная фотография была получена Жозефом Ньепсем в 1825 году. Первый фотоаппарат, основанный на фотоэлектрическом преобразовании, создал в 1975 году инженер компании Eastman Kodak Стивен Сассун. Применявшаяся в нём ПЗС-матрица имела разрешение 0,01 мегапикселя, а запись данных происходила на компакт-кассету.

С массовым развитием вычислительной техники в 1970-х началась эра цифровой обработки изображений. Компьютеры использовались не только для обработки и хранения, но и получение полезной информации об изображении (линейные и угловые размеры, координаты объектов, распознавание образов и т.д.).  Давайте коротко рассмотрим основные области применения CV.

- Любительская фотография. Сейчас тяжело найти человека, у которого нет смартфона с камерой. Перед тем как попасть на карту памяти или страницу в инстаграме, цифровое изображение кодируется, сжимается, улучшается. Наложение масок, стилизация фотографий, детекция лиц и улыбок тоже делаются методами CV.  

- Медицина: Томография внутренних органов, рентгеноскопия.  

- Безопасность: идентификация по лицу, сетчатке глаза, отпечаткам пальцев.  

- Транспорт: self-drive авто, распознавание номеров, доставка Амазон с помощью дронов.  

- Развлечения: кино, игры (кинект), спортивные состязания.  

- Дистанционное зондирование Земли: картография, реконструкция 3D карт.  

##  Как получаются цифровые изображения

![title](img/img1.jpg)

Иллюстрация работы цифровой камеры приведена на рисунке. Матрица ПЗС (приборов с зарядовой связью) состоит из множества ячеек, преобразующих световую энергию в электрический заряд. Драйвер камеры управляет процессом перевода уровней заряда в двумерный набор чисел, соответствующий величине заряда на каждой ячейке - пикселе. Так устроена идеальная модель цифровой камеры.   


## Искажения цифровых камер

В реальных камерах возникает ряд проблем, которые приводят к дисторсиям (искажениям) геометрических и яркостных характеристик. Наиболее частые искажения:  

1) **Геометрические искажения** (бочковая дисторсия) - вызваны неидеальностью линзы, сильнее всего проявляется на короткофокусных объективах.  

2) **Дисперсия** (яркости) - вызвана тем, что при прохождении через разные среды (неравномерно нагретый воздух, облака) световые лучи по-разному преломляются и рассеиваются.  

3) **Блюминг** (избыточная яркость) - вызвана тем, что ячейки ПЗС неидеально изолированы друг от друга, поэтому заряд, накопленный в одной ячейке, перетекает в соседние. Блюминг особенно заметен в области яркой засветки.  

4) **Неоднородность ПЗС-матрицы** - вызвана деффектами производства. У разных элементов может быть разная чувствительность, поэтому в некоторых прошивках камер используются калибровочные массивы масштабных множителей и смещений. Также встречаются "мертвые" пикселы, которые не генерируют выходной сигнал. Этот деффект тоже можно компенсировать программно - значение в этой точке берется как среднее от соседних ячеек.  
  
5) **Отсечение и циклический возврат** - вызваны деффектами АЦП. Очень яркие точки отсекаются максимальным значением, которое может выдавать АЦП. Циклический возврат возникает при потере старших бит яркости - на полутоновых изображениях это проявляется как яркая область с темным центром.  

6) **Хроматическая дисторсия** -  вызвана тем, что световые волны различной длины преломляются линзой по-разному. Например, на изображении очень резкой черно-белой граныцы на переферии сцены может наблюдаться постепенное изменение интенсивности в пределах нескольких пикселей.  

7) **Эффекты дискретизации и квантования** - вызваны конечным количеством пикселей в матрице (дискретизация) и цифровым представлением уровня яркости (квантование).  


## Диапазоны съемок

Самые привычные изображения - это доступные человеческому глазу в видимом диапазоне электромагнитных волн. Однако разные длины волн обладают различными свойствами. Например, рентгеновские лучи могут проходить сквозь человеческие кости, а длинные инфракрасные волны не могут преодолеть даже облака. Рассмотрим основные источники для формирования изображений:  

- гамма-лучи - используются в медицинской радиологии и астрономических наблюдениях.
- рентгеновские лучи - в медицинской и промышленной диагностике.
- ультрафиолетовый диапазон - в литографии, микроскопии, лазерной технике, биологических и астрономических наблюдениях.  
- инфракрасный - дистанционное зондирование Земли, автоматический контроль.
- микроволновый диапазон - радиолокация.
- радиоволны - медицина (ядерный магнитный резонанс) и астрономические наблюдения. 

## Формы цифрового представления изображений

Самая простейшая модель черно-белого изображения - это двумерная функция яркости $f(x, y)$. Значение функции в точке $f(x_i, y_j)$ пропорционально мощности излучения некоторого физического источника, зафиксированной матрицей ПЗС или другим датчиком.   
Исходное изображение непрерывно как по координатам $x, y$, так и по уровню яркости. Однако при переходе к цифровому представлению возникают эффекты дискретизации (по координатам) и квантования (по уровню яркости). Чем выше разрешение изображение, тем меньше потерь от дискретизации. Потери от квантования зависят от числа бит, которое отведено для хранения значения одной точки. На практике используют 8 бит для черно-белых изображений и 24 для цветных.  

Это связано с тем, что человек способен различать тысячи различных оттенков цвета и всего лишь несколько десятков серого. Цветное изображение представляется в цифровом виде несколькими различными моделями.  

1. RGB-модель. Изображение состоит из трех отдельных компонент, по одному для каждого первичного цвета (Red, Green, Blue). Возможны варианты следования цветов - BGR, а также размерности 3d матриц (3, x, y) или (x, y, 3). (Пример)  

2. ARGB-модель. К трем основным цветам добавляется четвертое значение прозрачности (A...). Это упрощает наложение нескольких изображений друг на друга при обработке.

3. HSI-модель. Кодируются более понятные и удобные для описания цвета величины - цветой оттенок, насыщенность и яркость (Hue, Saturation, Intensive). Эта модель более удобна для описания алгоритмов обработки изображений, как более естественная и интуитивно понятная. 

4. CMY и CMYK модели являются обратным представлением RGB, что оказывается более удобным представлением для нужд полиграфии. 

Нетрудно посчитать, что для хранения одного небольшого изображения 1000 на 1000 понадобится около 3 МБайт памяти, а 1 минута видео займет более 4 Гб. Однако довольно много информации в изображениях является избыточной, и если применить сжатие, объем занимаемой памяти можно сократить. Обилие форматов обусловлено разными свойствами алгоритмов кодирования - декодирования. Одни алгоритмы хорошо сжимают информацию, но делают это долго, другие наоборот. Также есть свободные реализации алгоритмов, а есть защищенные патентами, и за их использование нужно делать отчисления. 
Формат файла определяет используемый способ размещения и сжатия данных. Контейнер изображения подобен формату, но может содержать разнородные типы данных изображения. Стандарты сжатия задают процедуры сжатия и восстановления изображений. 
Рассмотрим самые популярные форматы хранения изображений: 
1. JPEG (Joint Photographistic Expert Group) - стандарт объединенной группы экспертов по фотографии. Его базовая система сжатия с потерями использует квантование коэффициентов дискретного косинусного преобразования (ДКП) по блокам изображения размерами 8х8 пикселей, кодирование Хаффмана и кодирование длин серий. Пожалуй, самый популярный формат. Главный недостаток - большие вычислительные затраты на декодирование изображения.  
2. GIF, TIFF, PDF - LZW кодирование, защищен патентами США. 
3. PNG - свободная альтернатива LZW. 
 