Для оценки расстояния можно использовать признаки, извлеченные из фото предобученной нейронкой - таким образом мы сможем группировать фото не только по схожести пикселей, но и по схожести контента (наличию конкретных предметов, например)

In [4]:
from pathlib import Path
import numpy as np
from tqdm.notebook import tqdm
import timm
import torch
from PIL import Image

model = timm.create_model('resnet50', num_classes=0, pretrained=True)

In [5]:
im_to_features = {}
image_dir = Path('images')
for fp in tqdm(list(image_dir.glob('*'))):

    im = np.array(Image.open(fp), dtype=np.float32)
    im = torch.from_numpy(im).transpose(2, 0)[None]
    im_to_features[fp.name] = model(im)

  0%|          | 0/3 [00:00<?, ?it/s]

In [7]:
from itertools import combinations

for im1, im2 in combinations(im_to_features, r=2):
    feat1 = im_to_features[im1].detach()
    feat2 = im_to_features[im2].detach()
    d = np.linalg.norm(feat1 - feat2)
    print(f'Расстояние от {im1} до {im2}: {d:.3f}')

Расстояние от 0 copy.jpg до 1.webp: 2.136
Расстояние от 0 copy.jpg до 0.jpg: 0.731
Расстояние от 1.webp до 0.jpg: 1.902
