# Распознавание лиц 

## Что такое распознавание лиц?

Что вообще такое распознавание лиц? Это когда компьютер может определить, что на изображении есть человеческое лицо, а также, он может сказать, где оно расположено.

Чтобы обнаружить хоть какой-нибудь объект на изображении необходимо понимать как изображение представлено внутри компьютера (т.е. как видит картинки компьютер) и как объекты визуально отличаются друг от друга.

Как только эта стадия будет пройдена, процесс сканирования картинки и поиск визуальных особенностей должны быть автоматизированы и оптимизированы.

Эти шаги все вместе превращаются в хороший алгоритм компьютерного зрения.

Распознавание лиц - это такой тип компьютерного зрения, который позволяет идентифицировать лица людей на цифровом изображении. Это весьма просто для людей, но компьютеры нуждаются в точных инструкциях как это сделать. На изображении может быть множетсво объектов, не обязательно только лицо человека, там могут быть здания, машины, животные и т.п.

Есть различные типы распознавания, связанные с лицом человека:

* Распознавание лиц (Facial recognition) - это идентификация лица на изображении, когда компьютер понимает, что определённое лицо принадлежит определённому человеку, иными словами, усатое лицо в ковбойской шляпе не может принадлежать балерине в розовой пачке. Эту технологию часто используют для биометрии (например, разблокирование экрана смартфона).
* Анализ лица (Facial analysis) - компьютер пытается понять что-либо о людях исходя из их особенностей лица, например, определить их возраст, пол или классифицировать эмоцию.
* Отслеживание лиц (Facial tracking) - часто встречается в анализе видео, система пытается следовать за лицом (ориeнтируясь на ключевые особенности: глаза, нос, губы) кадр за кадром. Часто можно увидеть в мобильных приложениях, таких как Instagram, Snapchat.

Несмотря на то, что все эти технологии сконцентрированы на обработке лиц, они все разные и используют разные подходы.

Мы будем говорить про традиционные методы для распознавания лиц (Facial recognition).

## Что такое "фичи"?

Фича (особенность) - это часть информации на изображении, которая имеет отношение к решению определённой проблемы. Это может быть что-то супер простое, например, одно единственное значение пикселя, или что-то более сложное, например, края, углы или формы. Вы можете комбинировать простые фичи в сложные особенности.

Также фичей считается результат применения определённых операций к изображению, главное, чтобы эти операции давали необходимую информацию на выходе. Компьютерное зрение и обработка изображений обладает большим числом полезных операций выявления особенностей.

## Viola-Jones Object Detection Framework

Этот алгоритм назван в честь двух исследователей в области компьютерного зрения. Пол Виола и Михаэль Джонс предложили свой метод в 2001 году.

Она разработали [общий фреймворк по детектированию объектов](https://www.cs.cmu.edu/~efros/courses/LBMV07/Papers/viola-cvpr-01.pdf), который способен обеспечивать конкурентноспособную скорость обнаружения объектов в режиме реального времени. Данный метод может быть использован для решения различных вопросов детектирования, но главной мотивацией послужил вопрос распознавания лиц.

Алгоритм Виола-Джонс содержит следующие этапы:

1. Выделение признаков Хаара
2. Создание интегрального изображения
3. Запуск AdaBoost обучения
4. Создание каскадов классификации

На входном изображении алгоритм просматривает множество маленьких субрегионов и пытается найти на них лицо, ища определённые фичи на них. Он должен проверить много разных конфигураций и масштабов, т.к. изображение может содержать много лиц различных размеров. Виола и Джонс использовали признаки Хаара для детектирования лиц.

## Признаки Хаара

Все человеческие лица обладаются похожими особенностями. Если вы посмотрите на фотографию, где изображено человеческое лицо, то вы увидите, что, например, область глаз темнее, чем область носа. Щёки ярче, чем область глаз. Мы можем использовать такие свойства, чтобы понять есть ли человеческое лицо на картинке.

Простой способ определить какая область светлее или темнее - это просуммировать значения пикселей обоих областей и сравнить их. Сумма пикселей более тёмной области будет меньше, чем сумма пикселей более светлой. Это может быть достигнуто при помощи признаков Хаара.

Признаки Хаара представлены следующим образом: из изображения выделяется прямоугольная часть и делится на несколько частей. Часто их показываются как черный и белый смежные прямоугольники.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_4.png?raw=true" alt="drawing" width="200"/>
</p>

На этой картинке вы можете увидеть 4 базовых типа признаков Хаара:

1. Горизонтальный признак с двуми прямоугольниками

2. Вертикальный признак с двумя прямоугольниками

3. Вертикальный признак с тремя прямоугольниками

4. Диагональный признак с четыремя прямогольниками

* Первые два примера используются для детектирования краёв.

* Третий - для детектирования линий.

* Четвёртый - для нахождения диагональных особенностей.

### Как же они работают?

Значение признака расчитывается в качестве одного числа: сумма значений пикселя в чёрной области минус сумма значений пикселя в белой области. Для однородных областей (таких как стена) это значение будет близко к нулю и не даст вам какой-либо значимой информации.

Чтобы быть информативными, признаки Хаара должны давать вам большое число, которое будет означать, что области в белом и чёрном прямоугольниках очень разные. Существуют уже известные признаки, которые хорошо работают при детектировании человеческого лица.

<center>Пример детектирования глаз</center>

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_5.jpeg?raw=true" alt="drawing" width="400"/>
</p>

В данном примере область глаз темнее, чем область ниже. Вы можете использовать это свойство, чтобы найти какая из областей на изображении даёт больший отклик (большое число) для определённого признака.

<center>Пример детектирования носа</center>

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_6.jpeg?raw=true" alt="drawing" width="400"/>
</p>

В этом примере видно, что большое число будет получено, если применить вертикальный признак к носу. Вы можете комбинировать множество признаков, чтобы определить есть ли на изображении область, которая содержит человеческое лицо.

Как было сказано ранее, алгоритм Виола-Джонса вычисляет множество таких признаков в большом количестве субрегионов на изображении. Но это быстро становится "дорогим" с точки зрения вычислений: этот алгоритм занимает много времени, используя ограниченные вычислительные ресурсы компьютера.

Чтобы избавиться от этой проблемы, Виола и Джонс использовали интегральные изображения.

## Интегральные изображения

Интегральное изображение (также известное как таблица суммированных площадей) - это название структуры данных и алгоритма, который используется для получения этой структуры данных. Оно используется как быстрый и эффективный способ для расчёта суммы пикселей на изображении или в прямоугольной части изображения.

В интегральном изображении значение каждой точки - это сумма всех пикселей сверху и слева, включая целей пиксель.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_7.png?raw=true" alt="drawing" width="400"/>
</p>

Интегральное изображение может быть расчитано за один проход по исходному изображению. Это сокращает количество суммирований по прямоугольной области всего до трёх операций с четыремя числами, независимо от размера прямоугольника.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_8.png?raw=true" alt="drawing" width="400"/>
</p>

Сумма пикселей в прямоугольнике ABCD может быть выведена из значений точек A, B, C и D, с помощью формулы

$$ D - B - C + A $$

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_9.png?raw=true" alt="drawing" width="400"/>
</p>

Вы заметите, что вычитание В и С означает, что область А будет вычитаться дважды, поэтому нам нужно будет её прибавить.

Интегральное изображение даёт простой способ для расчёта разности между суммами пикселей двух прямоугольников.

Но как вы решите какой из признаков и в каком размере использовать для нахождения лиц на изображении? Этот вопрос решается с помощью алгоритма машинного обучения под названием бустинг (boosting). Далее мы поговорим об AdaBoost (Adaptive Boosting).

## AdaBoost

Бустинг основан на следующем вопросе:

<center>"Может ли набор слабых учеников создать одного сильного?"</center>

Слабый ученик (или слабый классификатор) - это классификатор, который совсем чуть-чуть лучше, чем рандомное (случайное) угадывание.

В области распознавания лиц, это означает, что слабый ученик может классифицировать суболасть изображения как лицо или не лицо немного лучше, чем случайное отгадывание (подкидывание монетки). Сильный ученик значительно лучше отличает лицо от не лиц.

Сила бустинга идёт из комбинирования множества (тысяч) слабых классификаторов в один сильный классификатор. В алглоритме Виола-Джонс каждый признак Хаара представляет собой слабого ученика. Чтобы решить какой тип и размер признака будут использованы в конечном классификаторе, AdaBoost проверяет работу (производительность) всех классификаторов, которых вы ему даёте.

Чтобы расчитать производительность классификатора, вы должны оценить его на всех субобластях всех изображений, на котором его тренируете. Некоторые субобласти будут давать большой отклик в классификаторе. Такие области будут классифицироваться как положительные, что означает, что классификатор думает, что здесь есть человеческое лицо.

Субобласти, которые не дают большой отклик - не содержат человеческого лица с точки зрения классификатора. Они будут помечены как отрицательные.

Классификаторы, которые хорошо справляются получают более высокую важность или вес. Конечный результат - это результат сильного классификатора, также названного как boosted classifier, этот результат содержит лучший результат слабого классификатора.

Алгоритм назван адаптивным, т.к. в процессе обучения, он делает больший акцент на тех изображениях, которые были неправильно классифицированы. Слабые классификаторы, которые работают лучше на этих сложных случаях, получают больший вес, чем остальные.

Давайте посмотрим на пример

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_10.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Голубые и оранжевые окружности принадлежат к враждующим кланам. Представьте, что вам нужно их разделить (классифицировать) с использованием слабых классификаторов.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_11.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Первый классификатор, который вы используете, выделит несколько голубых окружностей, но пропустит остальные. В следующей итерации, вы дадите большую важность пропущенным окружностям (они теперь имеют больший размер).

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_12.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Второй классификатор, который выделит эти окружности получит более высокий вес. Помните, что если слабый классификатор работает лучше, он получает более высокий вес и, следовательно, более высокий шанс быть включённым в конечный, сильный классификатор. Своеобразный "Что?Где?Когда?" для классификаторов.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_13.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Теперь вам нужно сделать так, чтобы все голубые окружности были классифицированны правильно.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_14.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Этим неправильно классифицированным оранжевым окружностям будет дана более высокая важность в следующей итерации.

Конечный классификатор сможет отделить эти оранжевые окружности правильно.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_15.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Чтобы создать сильный классификатор, вам нужно соединить все три классификатора вместе.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_16.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Используя вариации такого процесса, Виола и Джонс оценили сотни тысяч классификаторов, которые специализировались на поиске лиц на изображении. Но это было бы очень ресурсозатрано, запускать все эти классификаторы на каждой области в каждом изображении, так что они создали нечто называемое каскадный классификатор (classifier cascade).

## Каскадный классификатор

Каскадный классификатор - это серия "водопадов", которые следуют друг за другом. Похожий концепт используется и в компьютерном зрении, чтобы решить сложную проблему с помощью простых блоков. Наша проблема - это уменьшение количества вычислений для каждого изображения.

Чтобы решить эту задачу, Виола и Джонс превратили свой сильный классификатор (состоящий из тысяч слабых классификаторов) в каскад, где каждый слабый классификатор представляет собой одну стадию. Задача каскада - быстро отбрасывать "не лица" и не тратить драгоценное время и ресурсы.

Когда субобласть изображения входит в каскад, она оценивается на первом этапе. Если этот этап оценивает субобласть как положительную (т.е. как будто там есть лицо), то выход этапа - "может быть".

Если субобсласть получает "может быть", она отправляется на следующий этап. Если и этот этап даёт положительную оценку (т.е. новое "может быть"), то изображение отправляется на третий этап.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_17.png?raw=true" alt="drawing" width="400"/>
</p>

Этот процесс повторяется до тех пор, пока изображение не пройдёт через все этапы. Если все классификаторы одобрили изображение, то оно в конце концов классифицируется как человеческое лицо и представляется пользователю как детектированное.

Однако если первый этап даёт отрицательную оценку, то изображение немедленно помечается как не содержащее человеческое лицо. Если оно проходит первую стадию, но не проходит вторую, то аналогично сразу отметается. Изображение может быть изъято на любой стадии классификатора.

<p align="center">
    <img src="https://github.com/serykhelena/PYGuides/blob/main/notebooks/assets/cv_18.jpeg?raw=true" alt="drawing" width="400"/>
</p>

Такой подход позволяет убрать участки с "не лицами" очень быстро, что сохраняет много времени и вычислительных ресурсов. Поскольку каждый классификатор представляет собой признак человеческого лица, положительная детекция обычно говорит:

"Да, эта субобласть содержит все признаки человеского лица"
Но как только признак теряется, эта субобласть отметается.
Чтобы достичь такой эффективности, важно поместить свой лучший классификатор на раннюю стадию каскада. В Виола-Джонс алгоритме классификаторы глаз и нос - это лучшие из слабых классификаторов.

Теперь, когда вы понимаете как работают алгоритмы, время наконец написать детектор на Python.

## Применение алгоритма Виола-Джонса

Обучение классификатора Виола-Джонса с нуля может занять много времени. К счастью, вместе с OpenCV идёт уже обученный классификатор и вам не нужно проводить дополнительное обучение. Просто используйте готовый алгоритм.

Во-первых, что нужно сделать, это выбрать изображение с лицами людей, которое вы хотите обрабатывать.

Подключим OpenCV и загрузим картинку.

In [None]:
import os 

import cv2 
import matplotlib.pyplot as plt 

IMG_PATH = os.path.join(os.pardir, "assets", "cv_19.jpg")

In [None]:
# Read image from your local file system
original_image = cv2.imread(IMG_PATH)
original_image = cv2.cvtColor(original_image, cv2.COLOR_RGB2BGR)

# Convert color image to grayscale for Viola-Jones
grayscale_image = cv2.cvtColor(original_image, cv2.COLOR_BGR2GRAY)

plt.figure(figsize=[10, 8])
plt.imshow(grayscale_image, cmap="gray")
plt.title("Original Image")
plt.show()

Далее вам нужно загрузить классификатор Виола-Джонса. Если вы полностью установили OpenCV, то он будет в установочной папке. В зависимости от версии точный путь до файла может варьироватья, но имя папки будет "haarcascades", в ней будет содержаться файл haarcascade_frontalface_alt.xml.

Если вдруг этого файла у вас не нашлось, то вы можете скачать его из [репозитория OpenCV](https://github.com/opencv/opencv/tree/master/data/haarcascades).

In [None]:
CASCADE_DIR = os.path.join(os.pardir, os.pardir, "cascades")

In [None]:
face_cascade = cv2.CascadeClassifier(os.path.join(CASCADE_DIR, "haarcascade_frontalface_default.xml"))

Объект `face_cascade` содержит метод `detectMultiScale()`, который на вход принимает изображение, а затем запускает каскадный классификатор. Слово `MultiScale` указывает на то, что алгоритм просматривает субобласти изображения в нескольких масштабах, чтобы определить лица различного размера.

In [None]:
detected_faces = face_cascade.detectMultiScale(grayscale_image)

Переменная `detected_faces` теперь содержит все найденные лица на изображении. Чтобы увидеть их на картинке, вам нужно проитерироваться по всему списку и нарисовать прямоуголльники вокруг детектированных лиц.

Функция OpenCV `rectangle()` позволяет нарисовать прямоугольник на изображении, ей нужно указать координаты верхнего левого и нижнего правого пикселя.

Удобно, что обнаруженные лица сохраняются в виде координат пикселей. Каждый результат определён с помощью координаты верхнего левого пикселя, шириной и высотой прямоугольника, который описывает найденное лицо.

Прибавив ширину к координате х и высоту к координате у, получите координату нижнего правого угла.

In [None]:
for (column, row, width, height) in detected_faces:
    cv2.rectangle(
        original_image,
        (column, row),
        (column + width, row + height),
        (0, 255, 0),
        2
    )

Функция `rectangle()` принимает следующие аргументы:

* исходное изображение
* координата верхней левой точки
* координата нижней правой точки
* цвет прямоугольника (кортеж, который содержит значения RGB)
* толщина линий прямоугольника

И наконец, вам нужно показать полученный результат.

In [None]:
plt.figure(figsize=[10, 8])
plt.imshow(original_image)
plt.title("Image")
plt.show()

> Если вы возьмёте своё фото и на нём выбранный каскад не найдёт все лица, попробуйте и другие каскады, в папке `.../opencv/data/haarcascades/` лежат различные файлы каскадов, попробуйте их совместить.