# <center> Кластеризация изображений транспортных средств

## Постановка задачи

<center> <img src=https://i.ibb.co/t8DvkyB/smart-city-image-1.jpg align="right" width="300"/> </center>
<center> <img src=https://i.ibb.co/qYkWNVh/smart-city-image-3.jpg align="right" width="300"/> </center>


Один из ключевых проектов IntelliVision — Smart City/Transportation, система, обеспечивающая безопасность дорожного движения и более эффективную работу парковок. С помощью Smart City/Transportation можно контролировать сигналы светофоров и соблюдение ограничений скорости, определять виды транспортных средств, распознавать номерные знаки, считать автомобили и людей.

В основе всех перечисленных возможностей проекта лежит CV (Computer Vision, компьютерное зрение). Чтобы их реализовать, компания использует модели, для обучения которых применяются огромные размеченные датасеты с изображениями транспортных средств. Однако система работает в режиме реального времени и с каждым днём данных становится всё больше. Алгоритм нуждается в постоянной модернизации и должен учитывать множество факторов.

Для модификации и повышения эффективности системы Smart City/Transportation команде необходимо автоматизировать определение дополнительных параметров авто на изображении:

* тип автомобиля (кузова),
* ракурс снимка (вид сзади/спереди),
* цвет автомобиля,
* другие характеристики.

Также необходимо автоматизировать поиск выбросов в данных (засветы и блики на изображениях, изображения, на которых отсутствуют автомобили и т. д.).

К сожалению, у компании нет комплексной модели, которая могла бы одновременно находить на изображении автомобиль и определять все нужные параметры. Её нужно построить, однако многокомпонентная разметка новых данных по всем этим параметрам — очень трудозатратное занятие, которое стоит больших денег.

При решении задачи разметки данных у команды возникла гипотеза, которая нуждается в исследовании.


**Гипотеза:** разметку исходных данных можно эффективно провести с помощью методов кластеризации. 


**В чём идея?**

*Давайте будем использовать небольшой набор моделей свёрточных нейронных сетей, обученных на различных датасетах и решающих различные задачи от классификации изображений по цвету до классификации типов транспортных средств, пропустим нашу базу изображений через каждую модель, но возьмём не выходной результат модели, а только промежуточное представление признаков (дескриптор), полученное на свёрточных слоях сети.*

*Выполним такую операцию для всех изображений из набора данных, на основе полученных дескрипторов кластеризуем изображения, проинтерпретируем полученные кластеры и попробуем найти в них необходимую информацию.*

Теперь, когда мы обсудили гипотезу, перейдём к постановке задачи.

<center> <img src=https://i.ibb.co/hLcBpZF/2023-03-27-12-11-17.png align="right" width="500"/> </center>

У вас будет набор из 416 314 изображений транспортных средств различных типов, цветов и снятых с разных ракурсов.

Команда IntelliVision уже обработала свой набор данных с помощью нескольких моделей глубокого обучения (свёрточных нейронных сетей) и получила четыре варианта вектора признаков (дескрипторов) для каждого изображения.

**Ваша задача** — используя готовые дескрипторы, разбить изображения на кластеры и проинтерпретировать каждый из них. Для всех вариантов дескрипторов нужно применить несколько алгоритмов кластеризации и сравнить полученные результаты. Сравнивать можно на основе метрик, визуализаций плотностей кластеров и по тому, насколько хорошо интерпретируются кластеры.

Дополнительная подзадача — найти выбросы среди изображений. Это могут быть изображения плохого качества, изображения с бликами или изображения, на которых нет транспортных средств и т. д.

Бизнес-задача: исследовать возможность применения алгоритмов кластеризации для разметки новых данных и поиска выбросов.

Техническая задача для вас как для специалиста в Data Science: построить модель кластеризации изображений на основе дескрипторов, выделяемых с помощью различных архитектур нейронных сетей, проинтерпретировать полученные результаты и выбрать модель или комбинацию моделей, которая выделяет наиболее пригодные для интерпретации признаки.

**Ваши основные цели:**
1. Для каждого типа дескрипторов необходимо:
    * выполнить предобработку дескрипторов;
    * произвести кластеризацию изображений на основе их дескрипторов, подобрав алгоритм и параметры кластеризации;
    * сделать визуализацию полученных кластеров в 2D- или 3D-пространстве;
    * проинтерпретировать полученные кластеры — в паре предложений сформулировать, какие изображения попали в каждый из кластеров.
2. Сравнить между собой полученные кластеризации для каждого типа дескрипторов (по метрикам, визуализации и результатам интерпретации).
3. Выполнить автоматизированный поиск выбросов среди изображений на основе дескрипторов.
4. Дополнительная задача (не оценивается): попробовать воспользоваться смесью дескрипторов, полученных различными моделями, и проинтерпретировать полученные результаты.

**Примечание.** При выборе алгоритма кластеризации следует ориентироваться на внутренние метрики, а именно на индекс Калински — Харабаса (`calinski_harabasz_score`) и индекс Дэвиса — Болдина (`davies_bouldin_score`), а также на интерпретируемость кластеров и визуализацию.

## Данные и их описание

Исходная папка с данными имеет следующую структуру:

```
IntelliVision_case
├─descriptors
    └─efficientnet-b7.pickle
    └─osnet.pickle
    └─vdc_color.pickle
    └─vdc_type.pickle
├─row_data
    └─veriwild.zip
├─images_paths.csv 
```

Давайте разберёмся в ней:

* В папке `descriptors` содержатся дескрипторы, полученные для каждого из изображений с помощью соответствующих нейронных сетей, в формате numpy-массивов, сохранённых в файлах pickle:
    * `efficientnet-b7.pickle` — дескрипторы, выделенные моделью классификации с архитектурой EfficientNet версии 7. Эта модель является свёрточной нейронной сетью, предобученной на на датасете ImageNet, в котором содержатся изображения более 1000 различных классов. Эта модель при обучении не видела датасета veriwiId. 

    * `osnet.pickle` — дескрипторы, выделенные моделью OSNet, обученной для детектирования людей, животных и машин. Модель не обучалась на исходном датасете veriwiId.

    * `vdc_color.pickle` — дескрипторы, выделенные моделью регрессии для определения цвета транспортных средств в формате RGB. Частично обучена на исходном датасете veriwild.
    
    * `vdc_type.pickle` — дескрипторы, выделенные моделью классификации транспортных средств по типу на десяти классах. Частично обучена на исходном датасете veriwild.

* В папке `row_data` содержится zip-архив с исходными изображениями автомобилей. Распакуйте его содержимое в папку row_data. Архив содержит десять папок с изображениями, пронумерованных от 1 до 10. Каждая папка содержит подпапки, обозначенные пятизначными цифрами, например 36191. 

В каждой из таких подпапок содержатся фотографии одного конкретного автомобиля с разных ракурсов, снятые с помощью дорожных видеокамер.

* В файле `images_paths.csv` представлен список из полных путей до изображений. Он пригодится вам при анализе изображений, попавших в определённый кластер.


Импорт базовых библиотек:

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D

import plotly.graph_objs as go
import plotly.express as px
from plotly.subplots import make_subplots

import warnings 

from IPython.display import display, HTML

warnings.filterwarnings("ignore")

plt.rcParams["patch.force_edgecolor"] = True

import pickle

import cupy as cp

from cuml import UMAP, TSNE
from cuml.decomposition import PCA
from cuml.preprocessing import StandardScaler, MinMaxScaler, RobustScaler

## 1. Знакомство со структурой данных

Прочитайте numpy-массивы из предоставленных pickle-файлов.

**Примечание** Для удобства дальнейшей работы вы можете составить четыре DataFrame с путями до изображений и соответствующими им дескрипторами.

Посмотрите на размерности каждой из четырёх заданных матриц и сравните использованные модели глубокого обучения по размерностям выходных дескрипторов изображений. 


### Решение:

Организуем класс для загрузки требуемого датасета (чтобы не перегружать оперативную память или память видеокарты).

Заложим в этот класс возможность сохранения преобразованного по PCA

Затем поочерёдно откроем датасеты для получения информации о них.

In [2]:
class DataLoader():
    def __init__(
        self,
        descriptor_names = [
            'efficientnet-b7', 'osnet', 'vdc_color', 'vdc_type'
        ],
        descriptor_folder = 'data/descriptors/',
        image_paths = 'data/images_paths.csv',
    ):
        """Class for data loading (descriprots and image_paths)

        Args:
            descriptor_names (list): List of descriptor names. Defaults to ['efficientnet-b7', 'osnet', 'vdc_color', 'vdc_type'].
            descriptor_folder (str, optional): Folder where descriptors kept. Defaults to 'data/descriptors/'.
            image_paths (str, optional): Path to "image_paths" dataset. Defaults to 'data/images_paths.csv'.
        """
        self._descriptor_folder = descriptor_folder
        self.descriptor_names = descriptor_names
        self.image_paths = pd.read_csv(image_paths)
        self._active_descriptor = None
        self._active_descriptor_name = None
        self._active_image_paths = None
        # Show image paths details
        print('Shape of "image paths":', self.image_paths.shape)
        display(self.image_paths.head())
    
    
    def load_descriptor(self, name:str, dtype:str='cupy'):
        """Load descriptor with stated "name" in RAM or GPU (see "dtype")

        Args:
            name (str): Name of the descriptor to load
            dtype (str): Select type of data:
            - 'numpy' - numpy.ndarray format (keep data on RAM);
            - 'cupy' - cupy.ndarray format (keep data on GPU).
            Defaults to 'cupy'.

        Raises:
            TypeError: If data type is not in ["numpy", "cupy"]
        """
        with open(
            self._descriptor_folder + name + '.pickle',
            'rb' # read binary
        ) as pkl_file:
            self._active_descriptor = pickle.load(pkl_file)
            self._active_descriptor_name = name
            if dtype.strip().lower() == 'numpy':
                pass
            elif dtype.strip().lower() == 'cupy':
                self._active_descriptor = cp.asarray(self._active_descriptor)
            else:
                raise TypeError('Wrong data_type. Only "numpy" and "cupy" allowed')
        self._active_image_paths = self.image_paths
    
    
    def random_load_descriptor(
        self, 
        name:str,
        dtype:str='cupy',
        data_fraction:float=0.5,
        random_state:int=None,
    ):
        """Load random part of the descriptor with stated "name" in RAM or GPU (see "dtype")
        and with setted fraction

        Args:
            name (str): Name of the descriptor to load
            dtype (str): Select type of data:
            - 'numpy' - numpy.ndarray format (keep data on RAM);
            - 'cupy' - cupy.ndarray format (keep data on GPU).
            Defaults to 'cupy'.
            data_fraction (float): Fraction of the descriptor to load. Defaults to 0.5.
            random_state (int, optional): Set random state for the random generator. Defaults to None.

        Raises:
            ValueError: Data fraction must be in the range [0, 1]
        """
        if data_fraction < 0.0 or data_fraction > 1.0:
            raise ValueError('data_fraction must be in the range [0, 1]')
        
        self.load_descriptor(name, dtype)
        
        # Get required row count
        row_cnt = np.ceil(
            data_fraction * self._active_descriptor.shape[0]
        ).astype(int)
        
        rng = np.random.default_rng(random_state)
        indexes = rng.choice(
            self._active_descriptor.shape[0], 
            size=row_cnt,
            replace=False
        )
        indexes.sort()
        
        # Save active descriptor and related image paths
        self._active_descriptor = self._active_descriptor[indexes,:]
        self._active_image_paths = self.image_paths.iloc[indexes,:]
        
    
    @property
    def active_descriptor(self):
        """Return active descriptor and its name

        Returns:
            typle: (descriptor name, descriptor)
        """
        return (self._active_descriptor_name, self._active_descriptor)
    
    
    @property
    def active_image_paths(self):
        return self._active_image_paths
    
    
    def print_descriptor_info(self):
        """Print active descriptor name and shape
        """
        descriptor_name, descriptor = self.active_descriptor
        print(f'Descriptor "{descriptor_name}":')
        print(f'\tShape: {descriptor.shape}')



dl = DataLoader()
# Load datasets to show info
for descriptor in dl.descriptor_names:
    dl.load_descriptor(descriptor, dtype='numpy')
    dl.print_descriptor_info()

Shape of "image paths": (416314, 1)


Unnamed: 0,paths
0,veriwild\1\00001\000001.jpg
1,veriwild\1\00001\000002.jpg
2,veriwild\1\00001\000003.jpg
3,veriwild\1\00001\000004.jpg
4,veriwild\1\00001\000005.jpg


Descriptor "efficientnet-b7":
	Shape: (416314, 2560)
Descriptor "osnet":
	Shape: (416314, 512)
Descriptor "vdc_color":
	Shape: (416314, 128)
Descriptor "vdc_type":
	Shape: (416314, 512)


**ВЫВОД:**

Датасет с путями, а также все дескрипторы, содержат одинаковое количество строк: 416314.
Датасет с путями содержит одну колонку 'paths', содержащую относительный путь до картинок.

Для этих картинок имеются четыре дескриптора (дескриптор - векторизованный выход после сверточных слоёв).
Самый большой дескриптор имеет модель классификации с архитектурой **EfficientNet** версии 7.
Следом за ней (по размеру дескриптора) идут модель **OSNet** и модель классификации транспортных средств по типу **'vdc_type'**.
Меньше всего размер дескриптора, отвечающего за цвет транспортного средства **'vdc_color'**.


## 2. Преобразование, очистка и анализ данных

Признаки, найденные с помощью некоторых моделей, исчисляются тысячами, что довольно много, учитывая общее количество наблюдений.

Как вы понимаете, производить кластеризацию на таком большом количестве признаков, которые были сформированы исходными моделями глубокого обучения, довольно сложно и затратно по времени. К тому же, многие признаки, найденные моделями на изображениях, могут быть сильно скоррелированы между собой.

Понизьте размерность исходных дескрипторов с помощью соответствующих методов. Можно уменьшить размерность входных данных до 100 или 200 признаков — этого будет достаточно, чтобы произвести кластеризацию, однако рекомендуем вам самостоятельно подобрать необходимое количество компонент в новом пространстве признаков.

Также позаботьтесь о масштабе признаков, воспользовавшись стандартизацией и нормализацией. После кластеризации определите, какой вариант масштабирования более успешен для каждого варианта дескрипторов.


### Решение

Подберём необходимое количество компонент для каждого дескриптора по объясняемому разбросу (explained_variance_ratio_) в предположении, что требуется минимум от 50 до 75 % объяснения данных.

Брать максимум мы не будем ввиду ограничений памяти в GPU.

In [5]:
for name in dl.descriptor_names:
    dl.random_load_descriptor(
        name, 
        random_state=42,
    )
    descriptor_name, descriptor = dl.active_descriptor

    print(f'ДЕСКРИПТОР "{descriptor_name}"')

    for n_components in np.arange(50, 400, 50):
        if n_components > descriptor.shape[1]:
            print('Достигнут предел по количеству признаков')
            break
        pca_cu = PCA(n_components=n_components)
        effnt_cu = pca_cu.fit_transform(descriptor)
        print('Количество признаков:', n_components,
            f'\t"Объясняемый" разброс: {pca_cu.explained_variance_ratio_.sum():.3f}'
        )
    print()

ДЕСКРИПТОР "efficientnet-b7"
Количество признаков: 50 	"Объясняемый" разброс: 0.343
Количество признаков: 100 	"Объясняемый" разброс: 0.466
Количество признаков: 150 	"Объясняемый" разброс: 0.557
Количество признаков: 200 	"Объясняемый" разброс: 0.628
Количество признаков: 250 	"Объясняемый" разброс: 0.685
Количество признаков: 300 	"Объясняемый" разброс: 0.730
Количество признаков: 350 	"Объясняемый" разброс: 0.762

ДЕСКРИПТОР "osnet"
Количество признаков: 50 	"Объясняемый" разброс: 0.846
Количество признаков: 100 	"Объясняемый" разброс: 0.925
Количество признаков: 150 	"Объясняемый" разброс: 0.955
Количество признаков: 200 	"Объясняемый" разброс: 0.970
Количество признаков: 250 	"Объясняемый" разброс: 0.980
Количество признаков: 300 	"Объясняемый" разброс: 0.987
Количество признаков: 350 	"Объясняемый" разброс: 0.992

ДЕСКРИПТОР "vdc_color"
Количество признаков: 50 	"Объясняемый" разброс: 0.870
Количество признаков: 100 	"Объясняемый" разброс: 0.963
Достигнут предел по количеству при

In [6]:
for name in dl.descriptor_names:
    dl.random_load_descriptor(
        name, 
        random_state=42,
    )
    descriptor_name, descriptor = dl.active_descriptor

Примем следующие значения количества признаков из условия, что "объясняемый" разброс не увеличивается значительно с последующим увеличением:

In [None]:
n_components_dict = {
    "efficientnet-b7": 250,
    "osnet": 150,
    "vdc_color": 100,
    "vdc_type": 150,
}



## 3. Моделирование и оценка качества модели

### 3.1. Кластеризация изображений

После предобработки исходных данных произведите кластеризацию для каждого набора дескрипторов.

Для решения задачи используйте несколько различных методов, подобрав оптимальное количество кластеров для каждого метода и варианта дескрипторов.

В качестве метрики для подбора оптимального количества кластеров используйте внутренние меры индекс Калински — Харабаса (`calinski_harabasz_score`) и индекс Дэвиса — Болдина (`davies_bouldin_score`).

Рекомендуем вынести код для построения моделей кластеризации и подбора их параметров в отдельную функцию, чтобы не множить одинаковый код для четырёх случаев дескрипторов.

**Примечание.** Поскольку исходных данных много, могут возникнуть проблемы с оперативной памятью и скоростью работы таких алгоритмов, как K-Means. Вместо стандартного алгоритма K-Means можно воспользоваться реализацией MiniBatchKMeans. 

**Примечание.** Постарайтесь написать чистый код, максимально уменьшая количество дублирующихся участков.

### 3.2. Интерпретация кластеров

#### 3.2.1 Визуализация кластеров

Визуализируйте результаты кластеризации в двух- или трёхмерном пространстве, предварительно понизив размерность дескрипторов изображений до соответствующих размерностей с помощью метода t-SNE. 

По результатам визуализации кластеров сделайте предположение о качестве полученной кластеризации.

#### 3.2.2. Визуализация изображений в кластере


Визуализируйте несколько изображений из каждого кластера, чтобы проинтерпретировать результаты.

**Как визуализировать изображения, соответствующие определённому кластеру?**

Мы не рассматривали работу с изображениями как отдельную тему, однако не волнуйтесь — в этом нет ничего страшного.

В стандартных библиотеках для визуализации, которые мы изучали ранее, есть встроенный функционал для чтения и визуализации изображений. Например, в библиотеке matplotlib есть функция `plt.imread()`, которая позволяет читать изображение по переданному пути. Она возвращает numpy-массив размерности (h, w, c), где:

* h — высота изображения, 
* w — его ширина,
* c — количество каналов.

Так как все изображения в нашем датасете цветные, каналов (c) три:

* R — матрица интенсивности пикселей красного цвета,
* G — матрица интенсивности пикселей зелёного цвета,
* B — матрица интенсивности пикселей синего цвета.

Например, вот так можно прочитать изображение 000001.jpg:

```python
img = plt.imread('raw_data/veriwild/1/00001/000001.jpg')
print(img.shape)
## (557, 756, 3)
```

То есть изображение состоит из трёх матриц (R, G и B) с размерностью 557 строк на 756 столбцов. Элементами каждой из матриц являются интенсивности пикселей (от 0 до 255) соответствующего цвета.

Что касается вывода изображений на экран, в библиотеке matplotlib есть встроенная функция `plt.imshow()`, которая позволяет вывести переданное ей в аргументы изображение:

```python
fig = plt.figure(figsize=(5, 5))
plt.imshow(img);
```

Функцию `imshow()` можно вызывать и от имени координатных плоскостей при использовании `subplots` из библиотеки `matplotlib`:

```python
img1 = plt.imread('raw_data/veriwild/1/00001/000001.jpg')
img2 = plt.imread('raw_data/veriwild/1/00001/000002.jpg')
fig, axes = plt.subplots(1, 2, figsize=(5, 5))
axes[0].imshow(img1);
axes[1].imshow(img2);
```

После кластеризации для интерпретации результатов вам понадобится визуализировать несколько изображений из каждого кластера. Для этого мы подготовили функцию `plot_sample_cluster_images()`.

In [None]:
def plot_samples_images(data, cluster_label, nrows=3, ncols=3, figsize=(12, 5)):
    """Функция для визуализации нескольких случайных изображений из кластера cluster_label.
    Пути до изображений и метки кластеров должны быть представлены в виде DataFrame со столбцами "paths" и "cluster".


    Args:
        data (DataFrame): таблица с разметкой изображений и соответствующих им кластеров.
        cluster_label (int): номер кластера изображений.
        nrows (int, optional): количество изображений по строкам таблицы (по умолчанию 3).
        ncols (int, optional): количество изображений по столбцам (по умолчанию 3).
        figsize (tuple, optional): размер фигуры (по умолчанию (12, 5)).
    """
    # Фильтруем данные по номеру кластера
    samples_indexes = np.array(data[data['cluster'] == cluster_label].index)
    # Перемешиваем результаты
    np.random.shuffle(samples_indexes)
    # Составляем пути до изображений
    paths = data.loc[samples_indexes, 'paths']
   
    # Создаём фигуру и набор координатных плоскостей
    fig, axes = plt.subplots(nrows,ncols)
    # Устанавливаем размер фигуры
    fig.set_size_inches(*figsize)
    # Устанавливаем название графика
    fig.suptitle(f"Images from cluster {cluster_label}", fontsize=16)
    # Создаём цикл по строкам в таблице с координатными плоскостями
    for i in range(nrows):
        # Создаём цикл по столбцам в таблице с координатными плоскостями
        for j in range(ncols):
            # Определяем индекс пути до изображения
            path_idx = i * ncols + j
            if path_idx >= len(paths):
                break
            # Извлекаем путь до изображения
            path = paths.iloc[path_idx]
            # Читаем изображение
            img = plt.imread(path)
            # Отображаем его на соответствующей координатной плоскости
            axes[i,j].imshow(img)
            # Убираем пометки координатных осей
            axes[i,j].axis('off')


Например, вы произвели кластеризацию и записали пути до изображений в виде столбца "paths" и метки кластеров в виде столбца "cluster" в некоторый DataFrame с именем data. Тогда, чтобы визуализировать несколько случайных изображений из кластера 0, вам нужно вызвать функцию `plot_sample_cluster_images()` следующим образом:

```python
plot_samples_images(data=data, cluster_label=0)
```

### 3.3. Поиск выбросов

С помощью известных вам методов поиска выбросов (например, DBSCAN) попытайтесь найти выбросы среди изображений, используя все варианты дескрипторов. Подберите параметры алгоритма.

Визуализируйте изображения, попавшие в раздел выбросов, и попробуйте проинтерпретировать полученные результаты. Подумайте, почему именно эти изображения попали в выбросы.

Сравните результаты для всех вариантов дескрипторов. Какой вариант дескрипторов даёт наилучшее представление о выбросах?



## 4. Выводы и оформление проекта

На основе результатов, полученных при выполнении проекта, сделайте вывод по задаче, приведя таблицу со сравнением результатов кластеризации на каждом из наборов дескрипторов. Приведите сравнение вариантов предобработки исходных данных по качеству кластеризации.

Результатом вашей работы должно стать небольшое исследование, в котором вы даёте команде IntelliVision рекомендации, какие дескрипторы, с какой предобработкой и каким алгоритмом кластеризации лучше всего подходят для решения задачи.

Также сохраните результаты лучшего алгоритма в CSV-файл со столбцами path (путь до изображения) и cluster (номер кластера). В описании к проекту приведите расшифровку каждого из кластеров.

Когда вы закончите выполнять проект, создайте в своём репозитории файл README.md и кратко опишите содержание проекта по принципу, который мы приводили ранее.

Выложите свой проект на GitHub и оформите удалённый репозиторий, добавив в него описание и теги (придумайте их самостоятельно в зависимости от того, какую задачу вы решали).