# **Пример работы с VisDatCompare:**

### **VisDatCompare** - класс для сравнения датасетов, поиска дублей и схожестей и их удаления.

## **Инициализация объектов**

```python
def __init__(
    self, 
    dataset1: Dataset, 
    dataset2: Dataset
):
```

**Параметры:**
- **Dataset1**: объект класса Dataset с первым датасетом.
- **Dataset2**: объект класса Dataset со вторым датасетом.

In [2]:
from visdatcompy import Dataset, VisDatCompare

# Создаём объекты класса Dataset
dataset1 = Dataset("datasets/_metrics_analyse")
dataset2 = Dataset("datasets/_metrics_analyse")

# Создаём объект класса VisDatCompare
compy = VisDatCompare(dataset1, dataset2)

## **Вложенные классы:**

### **DuplicatesFinder**

Внутренний класс для поиска дубликатов изображений на основе EXIF данных и метода Pixel to Pixel.

```python
def __init__(
    self,
    dataset1,
    dataset2
):
```

**Параметры:**
- **dataset1:** Исходный набор данных.
- **dataset2:** Набор данных для сравнения. Если пути совпадают, используется dataset1.

**Атрибуты:**
- **dataset1:** Исходный набор данных.
- **dataset2:** Набор данных для сравнения.
- **exif_duplicates:** Словарь дубликатов на основе EXIF данных, где ключи - изображения из первого набора,
а значения - списки изображений из второго набора, являющиеся дубликатами.
- **metrics_duplicates:** Словарь дубликатов на основе выбранной метрики, где ключи - оригинальные изображения,
а значения - списки изображений, являющиеся их дубликатами.

#### **Методы**

##### **find_exif_duplicates()** - функция для поиска дубликатов изображений по exif-данным

```python
def find_exif_duplicates(self) -> Dict[Image, List[Image]]:
```

**Возвращает:**
- dict: Словарь, где ключи - это изображения из первого набора,
а значения - списки изображений из второго набора, являющиеся дубликатами.

#### **Пример использования**

In [None]:
# Ищем дубликаты изображений по exif-данным:
compy.duplicates_finder.find_exif_duplicates()

##### **find_metrics_duplicates()** - функция для поиска дубликатов изображений по метрикам и методу Pixel to Pixel

```python
def find_metrics_duplicates(
    self, metric_name: str = "pix2pix"
) -> Dict[Image, List[Image]]:
```

**Параметры:**
- metric_name: Название метрики для поиска дубликатов.

**Возвращает:**
- dict: Словарь, где ключи - это оригинальные изображения,
а значения - списки изображений, являющиеся их дубликатами.

**Флаги metric_names:**
- pix2pix: Попиксельное сравнение двух изображений.
- mse: Вычисляет среднеквадратичную ошибку между изображениями.
- nrmse: Вычисляет нормализованную среднеквадратическую ошибку.
- ssim: Вычисляет структурное сходство изображений.
- psnr: Вычисляет отношение максимального значения сигнала к шуму.
- mae: Вычисляет среднюю абсолютную ошибку между изображениями.
- nmi: Вычисляет нормализованный показатель взаимной информации.

#### **Пример использования**

In [None]:
# Ищем дубликаты изображения по метрике MSE:
compy.duplicates_finder.find_metrics_duplicates("mse")

#### **clear_duplicates()** - функция для удаления дубликатов из второго датасета

```python
def clear_duplicates(self):
```

### **SimilarsFinder**

Внутренний класс для поиска схожих изображений в двух наборах данных.

```python
def __init__(
    self, 
    dataset1: Dataset, 
    dataset2: Dataset
):
```

**Параметры:**
- **dataset1:** Первый набор данных изображений.
- **dataset2:** Второй набор данных изображений.

**Атрибуты:**
- **dataset1:** Первый набор данных изображений.
- **dataset2:** Второй набор данных изображений.
- **hash_similars:** Словарь схожих изображений, найденных с помощью хэширования.
- **features_similars:** Словарь схожих изображений, найденных с использованием метода извлечения признаков.
- **metrics_similars:** Словарь схожих изображений, найденных с использованием метрик сравнения.

#### **Методы**

##### **find_hash_similars()** - функция для нахождения пар схожих изображений с помощью хэшей.

```python
def find_hash_similars(self, method: str = "average") -> Dict[Image, Image]:
```

**Параметры:**
- method: Метод сравнения хэшей.

**Возвращает:**
- dict: Словарь, где ключи - это оригинальные изображения,
а значения - изображение, являющееся их дубликатами.

**Флаги methods:**
- "average": Рассчитывает хэш-значение на основе среднего значения пикселей,
быстрый алгоритм хэширования изображений, но подходит только для простых случаев.
- "p": Улучшенная версия AverageHash, которая медленнее, чем AverageHash, но может
адаптироваться к более широкому спектру ситуаций.
- "marr_hildreth": Значение хэша рассчитывается на основе оператора граней
Марра-Хилдрета, что является самым медленным, но более дискриминативным методом.
- "radial_variance": Рассчитывает хэш-значение на основе преобразования Радона.
- "block_mean": Рассчитывает хэш-значение на основе среднего значения блоков,
представленного в том же статье, что и MarrHildrethHash.
- "color_moment": Рассчитывает хэш-значение на основе моментов цвета,
представленного в той же статье, что и RadialVarianceHash.

#### **Пример использования**

In [None]:
# Ищем схожие изображения с помощью хэшей
compy.similars_finder.find_hash_similars()

##### **find_features_similars()** - функция для нахождения пар схожих изображений с помощью дескрипторов.

```python
def find_features_similars(
    self, extractor_name: str = "sift"
) -> Dict[Image, List[Image]]:
```

**Параметры:**
- extractor_name: Метод извлечения признаков для сравнения.
Возможные значения: "sift", "orb", "fast". По умолчанию "sift".

**Возвращает:**
- dict: Словарь, в котором ключи - объекты изображений из первого датасета,
а значения - списки объектов изображений из второго датасета, являющихся схожими.

#### **Пример использования**

In [None]:
# Ищем схожие изображения с помощью SIFT:
compy.similars_finder.find_features_similars()

##### **find_metrics_similars()** - функция для нахождения пар схожих изображений с помощью метрик.

```python
def find_metrics_similars(
    self, metric_name: str = "mse"
) -> Dict[Image, List[Image]]:
```

**Параметры:**
- metric_name: Название метрики для сравнения.

**Возвращает:**
- dict: Словарь, в котором ключи - объекты изображений из первого набора данных,
а значения - списки объектов изображений из второго набора данных, являющихся схожими.

**Флаги metric_names:**
- pix2pix: Попиксельное сравнение двух изображений.
- mse: Вычисляет среднеквадратичную ошибку между изображениями.
- nrmse: Вычисляет нормализованную среднеквадратическую ошибку.
- ssim: Вычисляет структурное сходство изображений.
- psnr: Вычисляет отношение максимального значения сигнала к шуму.
- mae: Вычисляет среднюю абсолютную ошибку между изображениями.
- nmi: Вычисляет нормализованный показатель взаимной информации.

#### **Пример использования**

In [None]:
# Ищем схожие изображения с помощью MSE:
compy.similars_finder.find_metrics_similars()

#### **clear_duplicates()** - функция для удаления дубликатов из второго датасета

```python
def clear_duplicates(self):
```