# Семинарский ноутбук по компьютерному зрению (Module 4)

В этом задании вам предстоит применить и усовершенствовать методы компьютерного зрения, рассмотренные в лекции, а также
провести ряд экспериментов. Ноутбук представляет собой **шаблон**, в котором нужно дописать код и ответы в обозначенных местах.

## Задачи

1. **HOG + SVM**: подберите параметры HOG и оцените влияние на точность классификатора SVM.
2. **NMS**: сравните результаты работы Non‑Maximum Suppression при порогах IoU 0.3, 0.5 и 0.7.
3. **PR‑кривые**: постройте точность–полноту для двух детекторов с разными распределениями скор.
4. **Нормированная кросс‑корреляция (NCC)**: попробуйте другие шаблоны и оцените чувствительность к шуму.
5. **Морфологические операции**: замените пример на своё изображение и протестируйте разные ядра.
6. **Аугментации и нейронная сеть**: добавьте аугментации и сравните валидационную точность модели.
7. **Сегментация**: протестируйте предобученную модель сегментации на своих изображениях, измените палитру и прозрачность наложения.

> **Подсказки**: В каждой секции приведены краткие объяснения, формулы и заготовки функций. Заполняйте `TODO`‑блоки и выполняйте эксперименты. Отмечайте свои наблюдения в Markdown‑ячейках после выполнения кода.


## 1. HOG + SVM

Гистограммы ориентированных градиентов (HOG) позволяют извлекать **локальные особенности формы**. Изображение разбивается на ячейки, в каждой ячейке строится гистограмма направлений градиента, а затем гистограммы нормируются по блокам. Векторы HOG‑признаков подаются на вход линейному SVM, который обучается различать классы.
 
Формулы градиентных компонент:  
$$
g_x = I(x+1, y) - I(x-1, y), \quad
g_y = I(x, y+1) - I(x, y-1),
$$  
$$
m = \sqrt{g_x^2 + g_y^2}, \quad
\theta = \operatorname{atan2}(g_y, g_x).
$$

Нормировка $L_2$-гистограммы в блоке:  
$$
\hat{h} = \frac{h}{\sqrt{\lVert h \rVert_2^2 + \varepsilon^2}}.
$$

### Что нужно сделать

- Реализуйте функцию для вычисления HOG‑признаков (можно использовать `skimage.feature.hog` или написать самостоятельно).
- Используйте датасет `digits` из `sklearn` для распознавания рукописных цифр.
- Проведите **перебор различных размеров ячеек и блоков** (например, \(2\times2\), \(4\times4\), \(8\times8\)) и оцените влияние на точность линейного SVM.
- Отобразите несколько примеров гистограмм или визуализацию HOG‑признаков.


In [None]:
# TODO: HOG + SVM
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, metrics
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
# Вы можете использовать skimage для вычисления HOG, либо написать свою функцию
# from skimage.feature import hog

# 1) Загрузка данных
X, y = load_digits(return_X_y=True)

# 2) Разделите данные на тренировочную и тестовую выборки
# X_train, X_test, y_train, y_test = ... (используйте train_test_split)

# 3) Напишите функцию compute_hog(img, cell_size=(4,4), block_size=(2,2), bins=9)
#    которая возвращает вектор признаков HOG для изображения
# def compute_hog(image, cell_size=(4,4), block_size=(2,2), bins=9):
#     # TODO: реализуйте вычисление градиентов и гистограмм
#     pass

# 4) Переберите несколько параметров cell_size и block_size
#    и обучите линейный SVM (например, sklearn.svm.LinearSVC) на HOG‑признаках
#    Для каждого набора параметров вычислите точность классификации

# 5) Визуализируйте несколько HOG‑признаков (например, используя skimage.feature.hog(return_hog_image=True))
#    и отметьте, как меняется представление при разных размерах ячеек

# В этой ячейке оставьте только код. Ваши выводы запишите в следующей Markdown‑ячейке.


## 2. Non‑Maximum Suppression (NMS)

В задачах детектирования объектов алгоритм *Non‑Maximum Suppression* (NMS) позволяет убрать дублирующиеся
детекции, оставляя только наилучшие. Он основан на метрике **Intersection over Union (IoU)**:

$$
\operatorname{IoU}(A,B) = \frac{|A \cap B|}{|A \cup B|}
$$

### Что нужно сделать

* Реализуйте функцию для вычисления IoU между двумя прямоугольниками.
* Напишите функцию NMS, которая принимает список прямоугольников с оценками (score) и порог IoU, и возвращает индексы
  выбранных прямоугольников.
* Создайте несколько примерных прямоугольников и оценок и протестируйте NMS при порогах **0.3, 0.5, 0.7**.
* Проанализируйте, как меняется количество оставшихся детекций при изменении порога.


In [None]:
# TODO: NMS implementation
import numpy as np

# 1) Функция вычисления площади пересечения / объединения
# def iou(box_a, box_b):
#     # box = [x1, y1, x2, y2]
#     # TODO: вычислите пересечение и объединение
#     return 0.0

# 2) Реализация NMS
# def non_max_suppression(boxes, scores, iou_threshold=0.5):
#     # TODO: сортировка по score и отбор боксов
#     # используйте iou(...) для вычисления перекрытия
#     return []  # верните индексы выбранных прямоугольников

# Пример входных данных
boxes = np.array([
    [50, 50, 150, 150],
    [60, 60, 140, 140],
    [200, 200, 300, 300],
    [220, 220, 320, 320]
])
scores = np.array([0.9, 0.8, 0.95, 0.7])

# 3) Протестируйте NMS для разных порогов IoU
# for thr in [0.3, 0.5, 0.7]:
#     keep_idx = non_max_suppression(boxes, scores, iou_threshold=thr)
#     print(f"Порог IoU = {thr}: выбрано {len(keep_idx)} прямоугольников")

# Выводы запишите в следующей ячейке.


## 3. Построение PR‑кривых

Точность–полнота (precision–recall) — важная метрика для оценки детекторов, особенно при несбалансированных данных.
Вычисляется на основе истинно положительных (TP), ложноположительных (FP) и ложоотрицательных (FN) предсказаний:

$$
\text{Precision} = \frac{\text{TP}}{\text{TP} + \text{FP}}, \quad \text{Recall} = \frac{\text{TP}}{\text{TP} + \text{FN}}.
$$

### Что нужно сделать

* Создайте две выборки оценок (scores) для положительных и отрицательных объектов с разными средними значениями — 
  имитируя «сильный» и «слабый» детектор.
* Используйте `sklearn.metrics.precision_recall_curve` для построения точностно‑полнотной кривой для каждого детектора.
* Нарисуйте кривые на одном графике, подписав легенду. Вычислите и сравните площади под кривыми (AUC).
* Сделайте выводы о том, какой детектор лучше и почему.


In [None]:
# TODO: PR curves
import numpy as np
import matplotlib.pyplot as plt
from sklearn.metrics import precision_recall_curve, auc

# 1) Сгенерируйте синтетические оценки для положительных и отрицательных примеров
# Например: positive_scores = np.random.normal(loc=0.7, scale=0.1, size=100)
#           negative_scores = np.random.normal(loc=0.3, scale=0.1, size=100)

# 2) Создайте массивы y_true и y_scores для двух детекторов (сильный и слабый)
# y_true = ... # 1 для положительных, 0 для отрицательных
# y_scores_detector1 = ...
# y_scores_detector2 = ...

# 3) Постройте precision‑recall кривые с помощью precision_recall_curve(...)
# precision1, recall1, _ = precision_recall_curve(y_true, y_scores_detector1)
# precision2, recall2, _ = precision_recall_curve(y_true, y_scores_detector2)

# 4) Вычислите площадь под кривой (AUC)
# auc1 = auc(recall1, precision1)
# auc2 = auc(recall2, precision2)

# 5) Визуализируйте кривые
# plt.figure()
# plt.plot(recall1, precision1, label=f'Detector 1 (AUC={auc1:.2f})')
# plt.plot(recall2, precision2, label=f'Detector 2 (AUC={auc2:.2f})')
# plt.xlabel('Recall')
# plt.ylabel('Precision')
# plt.legend()
# plt.title('Precision–Recall curves')
# plt.show()

# Выводы сформулируйте ниже.


## 4. Нормированная кросс‑корреляция (NCC)

Нормированная кросс‑корреляция используется для поиска шаблонов в изображениях. Функция `cv2.matchTemplate` с флагом
`cv2.TM_CCOEFF_NORMED` возвращает карту совпадений, где максимальное значение соответствует наилучшему совпадению.

### Что нужно сделать

* Загрузите изображение и выберите из него несколько разных шаблонов (разных размеров или участков).
* Реализуйте функцию, которая возвращает координаты максимальной корреляции и значение корреляции.
* Добавьте в исходное изображение шум различного уровня (например, `np.random.normal`), повторите поиск шаблонов и
  сравните значения корреляций.
* Сделайте выводы о влиянии шума и выборе шаблона на результаты.


In [None]:
# TODO: Template matching with NCC
import cv2
import numpy as np
import matplotlib.pyplot as plt

# 1) Загрузите изображение, например, используйте cv2.imread('path/to/your/image.png')
# img = cv2.imread(..., cv2.IMREAD_GRAYSCALE)

# 2) Вырежьте шаблон (patch) из изображения и попробуйте несколько разных шаблонов
# template = img[y0:y1, x0:x1]

# 3) Функция для нахождения максимума NCC
# def find_best_match(img, template):
#     result = cv2.matchTemplate(img, template, method=cv2.TM_CCOEFF_NORMED)
#     min_val, max_val, min_loc, max_loc = cv2.minMaxLoc(result)
#     return max_val, max_loc

# 4) Попробуйте добавить шум в изображение
# noisy = img + np.random.normal(0, 10, img.shape)
# noisy = np.clip(noisy, 0, 255).astype('uint8')

# 5) Для каждого шаблона сравните max_val на чистом и шумном изображениях и сделайте вывод

# Выводы запишите в следующей Markdown‑ячейке.


## 5. Морфологические операции

Морфологические операции позволяют изменять структуру бинарных изображений. **Диляция** расширяет объекты, **эрозия** —
сужает, **открытие** и **закрытие** объединяют последовательность эрозии и диляции для удаления шума или заполнения дыр.

### Что нужно сделать

* Загрузите собственное изображение и превратите его в бинарное (черно‑белое) с помощью `cv2.threshold` или `cv2.adaptiveThreshold`.
* Создайте структурные элементы разных форм и размеров: квадратный, прямоугольный, круглый (`cv2.getStructuringElement`).
* Примените к бинарному изображению различные морфологические операции: `cv2.dilate`, `cv2.erode`, `cv2.morphologyEx(..., cv2.MORPH_OPEN)`,
  `cv2.morphologyEx(..., cv2.MORPH_CLOSE)` и др.
* Сравните результаты и выберите наиболее подходящую комбинацию для улучшения изображения.


In [None]:
# TODO: Morphological operations
import cv2
import numpy as np
import matplotlib.pyplot as plt

# 1) Загрузите своё изображение в оттенках серого
# img = cv2.imread('path/to/your/image.png', cv2.IMREAD_GRAYSCALE)

# 2) Получите бинарное изображение (используйте threshold или adaptiveThreshold)
# _, binary = cv2.threshold(img, 127, 255, cv2.THRESH_BINARY)

# 3) Создайте структурные элементы разных форм
# kernel_rect = cv2.getStructuringElement(cv2.MORPH_RECT, (3,3))
# kernel_circle = cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5,5))

# 4) Примените морфологические операции
# dilated = cv2.dilate(binary, kernel_rect)
# eroded = cv2.erode(binary, kernel_rect)
# opened = cv2.morphologyEx(binary, cv2.MORPH_OPEN, kernel_circle)
# closed = cv2.morphologyEx(binary, cv2.MORPH_CLOSE, kernel_circle)

# 5) Визуализируйте результаты для сравнения
# fig, axes = plt.subplots(1, 3, figsize=(12,4))
# axes[0].imshow(binary, cmap='gray'); axes[0].set_title('Исходное')
# axes[1].imshow(dilated, cmap='gray'); axes[1].set_title('Диляция')
# axes[2].imshow(eroded, cmap='gray'); axes[2].set_title('Эрозия')
# for ax in axes: ax.axis('off')
# plt.show()

# Добавьте аналогично визуализацию открытия и закрытия


## 6. Аугментации и простая нейронная сеть

Полноценные свёрточные нейронные сети (CNN) требуют фреймворков вроде PyTorch или TensorFlow, но для экспериментов в этом
ноутбуке можно использовать `scikit‑learn` и многослойный перцептрон (`MLPClassifier`).

### Что нужно сделать

* Загрузите датасет `digits` из `sklearn.datasets`.
* Создайте базовую модель MLP и обучите её на исходных данных, измерив точность на валидационной выборке.
* Реализуйте простые аугментации изображений — например, поворот на ±10° и добавление случайного шума — и увеличьте обучающую
  выборку.
* Обучите модель на расширенных данных и сравните точность с базовой моделью. Какой прирост даёт аугментация?


In [None]:
# TODO: MLP with augmentations
import numpy as np
import cv2
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPClassifier
from sklearn.metrics import accuracy_score
from scipy.ndimage import rotate

# 1) Загрузите данные
# X, y = load_digits(return_X_y=True)

# 2) Разделите на обучение и валидацию
# X_train, X_val, y_train, y_val = train_test_split(...)

# 3) Обучите базовую модель (без аугментации)
# base_model = MLPClassifier(hidden_layer_sizes=(100,), max_iter=200)
# base_model.fit(X_train, y_train)
# y_pred_base = base_model.predict(X_val)
# base_acc = accuracy_score(y_val, y_pred_base)
# print('Baseline accuracy:', base_acc)

# 4) Реализуйте аугментации (поворот, шум) для изображений X_train
# def augment_image(img):
#     # Поворт на случайный угол в пределах [-10°, 10°]
#     aug = rotate(img.reshape(8,8), angle=np.random.uniform(-10, 10), reshape=False)
#     # Добавьте шум
#     noise = np.random.normal(0, 0.1, aug.shape)
#     aug = np.clip(aug + noise, 0, 16)
#     return aug.flatten()

# X_train_aug = np.array([augment_image(img) for img in X_train])
# y_train_aug = y_train.copy()

# 5) Обучите модель на аугментированных данных и сравните точность
# model_aug = MLPClassifier(hidden_layer_sizes=(100,), max_iter=200)
# model_aug.fit(X_train_aug, y_train_aug)
# y_pred_aug = model_aug.predict(X_val)
# aug_acc = accuracy_score(y_val, y_pred_aug)
# print('Augmented accuracy:', aug_acc)

# Запишите выводы ниже.


## 7. Сегментация изображений

Для выделения объектов на изображении можно использовать различные алгоритмы:

* **GrabCut** — интерактивный метод сегментации, встроенный в OpenCV. Требует инициализации прямоугольником,
  внутри которого предполагается находиться интересующий объект.
* **DeepLabv3** — свёрточная нейросеть для семантической сегментации (доступна в `torchvision.models.segmentation`). Для
  корректной работы в среде может понадобиться подключение к интернету для загрузки предобученных весов.

### Что нужно сделать

* Выберите изображение, на котором нужно выделить объект (например, фотографию с простым фоном).
* Воспользуйтесь `cv2.grabCut` для сегментации и получите бинарную маску объекта. Поиграйте с положением и размером
  прямоугольной инициализации.
* (Дополнительно) Если доступен PyTorch, загрузите предобученную модель `deeplabv3_resnet50` и получите маску классов. Наложите
  её на исходное изображение, используя свой выбор цветов и коэффициента прозрачности.
* Измените палитру сегментации (цвет маски) и уровень прозрачности \(lpha\), чтобы получить наилучший визуальный результат.


In [None]:
# TODO: Image segmentation
import cv2
import numpy as np
import matplotlib.pyplot as plt

# Вариант 1: GrabCut
# 1) Загрузите изображение
# img = cv2.imread('path/to/your/photo.jpg')

# 2) Задайте прямоугольник (x, y, width, height), внутри которого находится объект
# rect = (x, y, w, h)

# 3) Инициализируйте маски и модели
# mask = np.zeros(img.shape[:2], np.uint8)
# bgModel = np.zeros((1,65), np.float64)
# fgModel = np.zeros((1,65), np.float64)

# 4) Запустите GrabCut
# cv2.grabCut(img, mask, rect, bgModel, fgModel, 5, cv2.GC_INIT_WITH_RECT)

# 5) Превратите mask в бинарную и получите сегментированное изображение
# seg_mask = np.where((mask == 2) | (mask == 0), 0, 1).astype('uint8')
# segmented = img.copy()
# segmented[seg_mask == 0] = 0

# 6) Наложите цветную маску с прозрачностью
# color = np.array([0, 255, 0])  # зелёный цвет
# overlay = img.copy()
# overlay[seg_mask == 1] = (0.5 * overlay[seg_mask == 1] + 0.5 * color).astype('uint8')

# 7) Покажите исходное изображение, маску и результат
# plt.figure(figsize=(12,4))
# plt.subplot(1,3,1); plt.imshow(cv2.cvtColor(img, cv2.COLOR_BGR2RGB)); plt.title('Original')
# plt.subplot(1,3,2); plt.imshow(seg_mask, cmap='gray'); plt.title('Mask')
# plt.subplot(1,3,3); plt.imshow(cv2.cvtColor(overlay, cv2.COLOR_BGR2RGB)); plt.title('Overlay')
# for ax in plt.gcf().axes: ax.axis('off')
# plt.show()

# Вариант 2 (дополнительно): используя torchvision.models.segmentation.deeplabv3_resnet50
# import torch
# from torchvision import transforms
# from torchvision.models.segmentation import deeplabv3_resnet50

# # ... загрузите модель, подготовьте изображение, получите mask ...


## 8. Выводы и обсуждение

После выполнения всех заданий сформулируйте краткие выводы:

* Какие параметры HOG оказались наиболее эффективными для вашего датасета?
* Как порог IoU влияет на количество выбранных детекций в NMS?
* Как различается качество двух детекторов на PR‑кривой? Как интерпретировать площадь под кривой?
* Насколько устойчивы результаты NCC к шуму и выбору шаблона?
* Какие морфологические операции и ядра лучше подходят для вашего изображения и почему?
* Дала ли аугментация прирост точности МLP? Какие трансформации наиболее полезны?
* Какой метод сегментации вы выбрали и какие настройки цветовой маски использовали?

Запишите свои наблюдения и выводы.
