In [1]:
from collections import defaultdict
from PIL import Image
from pathlib import Path
import imagehash
from tqdm import tqdm
import shutil

In [2]:
def find_similar_images(
    image_paths: list[Path],
    threshold: int = 5
) -> dict[str, list[Path]]:
    """
    Группирует похожие изображения на основе хеша.
    
    :param image_paths: список путей к изображениям
    :param threshold: максимальное расстояние между хешами (0-64)
                     чем меньше, тем строже сравнение
    :return: {representative_hash: [список похожих путей]}
    """
    hashes = {}
    groups = defaultdict(list)
    
    # Сначала собираем все хеши
    for path in tqdm(image_paths, desc="Compute hashes"):
        try:
            img = Image.open(path)
            h = imagehash.phash(img)
            hashes[path] = h
        except Exception as e:
            print(f"Ошибка обработки {path}: {e}")
    
    # Группируем похожие изображения
    used_paths = set()
    for path1, hash1 in tqdm(hashes.items(), desc="Grouping similar images"):
        if path1 in used_paths:
            continue
            
        current_group = [path1]
        for path2, hash2 in hashes.items():
            if path2 not in used_paths and path1 != path2:
                if hash1 - hash2 <= threshold:  # Расстояние Хемминга
                    current_group.append(path2)
        
        if len(current_group) > 1:  # Только группы с похожими изображениями
            for p in current_group:
                used_paths.add(p)
            # Используем hex-представление хэша как ключ
            groups[str(hash1)].extend(current_group)
    
    return dict(groups)

In [3]:
def find_and_move_duplicates(
    input_dir: Path,
    output_dir: Path,
    threshold: int = 5,
    min_group_size: int = 2
) -> int:
    """
    Находит дубликаты в папке и перемещает их в подпапки output_dir.
    
    :param input_dir: Папка с изображениями для проверки
    :param output_dir: Папка для сохранения групп дубликатов
    :param threshold: Максимальное расстояние между хешами (0-64)
    :param min_group_size: Минимальный размер группы для перемещения
    """
    if not output_dir.exists():
        output_dir.mkdir(parents=True)
    
    # Находим похожие изображения
    groups = find_similar_images(sorted(input_dir.iterdir()), threshold)
    
    # Перемещаем группы дубликатов
    moved = 0
    for group_num, (hash_val, paths) in enumerate(groups.items(), 1):
        if len(paths) >= min_group_size:
            # Первый файл в группе считаем оригиналом (не перемещаем)
            original = paths[0]
            filename_without_suffix = original.name.replace(original.suffix, '')
            group_dir = output_dir / f"duplicates_{filename_without_suffix}_{group_num}"
            group_dir.mkdir(exist_ok=True)
            
            # Перемещаем дубликаты
            for duplicate in paths[1:]:
                shutil.move(duplicate, group_dir / duplicate.name)
                # print(f"Дубликат → {group_dir.name}/{duplicate.name}")
                moved += 1
    
    return moved

In [6]:
current_dir = Path.cwd()
print(f"Директория: {current_dir}")
data_dir = current_dir.parent.parent / "data"
print(f"data_dir: {data_dir}")

dataset_dir = data_dir / "interior_dataset"
for path in sorted(dataset_dir.iterdir()):
    if path.is_dir():
        moved = find_and_move_duplicates(input_dir=path, output_dir=path / "dublicates")
        print(f"{path.name} | Moved {moved}")

Директория: /home/little-garden/CodeProjects/InteriorClass/src/notebooks
data_dir: /home/little-garden/CodeProjects/InteriorClass/data


100%|██████████| 15172/15172 [00:27<00:00, 550.17it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/A0/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/A0/dublicates'


100%|██████████| 15171/15171 [05:11<00:00, 48.70it/s]



Оригинал: A0_01639_a5aa.jpg

Оригинал: A0_04096_3e70.jpg
A0 | Moved 2


100%|██████████| 295/295 [00:02<00:00, 138.06it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/A1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/A1/dublicates'


100%|██████████| 294/294 [00:00<00:00, 3574.73it/s]



Оригинал: A1_00002_d4d3.jpg

Оригинал: A1_00005_796d.jpg

Оригинал: A1_00008_a22a.jpg

Оригинал: A1_00009_1cb4.jpg

Оригинал: A1_00021_0301.jpg

Оригинал: A1_00025_012b.jpg

Оригинал: A1_00028_3e49.jpg

Оригинал: A1_00030_b0e9.jpg

Оригинал: A1_00033_5586.jpg

Оригинал: A1_00040_0ff0.jpg

Оригинал: A1_00042_9996.jpg

Оригинал: A1_00044_3490.jpg

Оригинал: A1_00046_90b4.jpeg

Оригинал: A1_00051_4bf6.jpg

Оригинал: A1_00053_8316.jpg

Оригинал: A1_00066_bc2d.jpg

Оригинал: A1_00067_a610.jpg

Оригинал: A1_00074_ea65.jpg

Оригинал: A1_00078_a3a9.jpg

Оригинал: A1_00092_6d5b.jpg

Оригинал: A1_00095_e3c8.jpg

Оригинал: A1_00101_19f2.jpg

Оригинал: A1_00106_288b.jpg

Оригинал: A1_00107_b29a.jpg

Оригинал: A1_00110_82ec.jpg

Оригинал: A1_00111_f3e3.jpg

Оригинал: A1_00121_a705.jpg

Оригинал: A1_00130_1453.jpg

Оригинал: A1_00154_7dff.jpg

Оригинал: A1_00182_1c3f.jpg

Оригинал: A1_00188_d472.jpg

Оригинал: A1_00200_827c.jpg

Оригинал: A1_00205_e895.jpg

Оригинал: A1_00211_b4cf.jpg

Оригинал: A1

 30%|███       | 105/347 [00:00<00:01, 132.45it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/B0/B0_00088_6db5.jpg: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/B0/B0_00088_6db5.jpg'


100%|██████████| 347/347 [00:02<00:00, 118.95it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/B0/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/B0/dublicates'


100%|██████████| 345/345 [00:00<00:00, 2254.25it/s]


B0 | Moved 0


100%|██████████| 24381/24381 [00:44<00:00, 553.46it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/B1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/B1/dublicates'


100%|██████████| 24380/24380 [14:02<00:00, 28.94it/s]



Оригинал: B1_02032_d0c8.jpg

Оригинал: B1_02522_cf36.jpg

Оригинал: B1_02688_f4f7.jpg

Оригинал: B1_03291_0f9f.jpg

Оригинал: B1_03500_14eb.jpg

Оригинал: B1_03853_ca63.jpg

Оригинал: B1_03960_f435.jpg

Оригинал: B1_04049_ea59.jpg

Оригинал: B1_04246_a3eb.jpg

Оригинал: B1_05177_7544.jpg

Оригинал: B1_05510_4728.jpg

Оригинал: B1_05697_6ded.jpg

Оригинал: B1_06655_384d.jpg

Оригинал: B1_07629_0fb8.jpg

Оригинал: B1_10000_b680.jpg

Оригинал: B1_11083_6fc3.jpg

Оригинал: B1_11297_088a.jpg

Оригинал: B1_13348_97b2.jpg

Оригинал: B1_13517_69c3.jpg

Оригинал: B1_13681_0bea.jpg

Оригинал: B1_15564_edb2.jpg

Оригинал: B1_17020_ff28.jpg

Оригинал: B1_17541_93cd.jpg

Оригинал: B1_20779_da94.jpg

Оригинал: B1_21582_3116.jpg

Оригинал: B1_21725_19da.jpg
B1 | Moved 26


  1%|          | 13/1083 [00:00<00:08, 125.81it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C0/.DS_Store: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C0/.DS_Store'


100%|██████████| 1083/1083 [00:08<00:00, 121.49it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C0/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C0/dublicates'


100%|██████████| 1081/1081 [00:00<00:00, 1435.49it/s]



Оригинал: C0_00000_0143.jpg

Оригинал: C0_00001_0c23.jpg

Оригинал: C0_00007_6bfa.jpg

Оригинал: C0_00008_5a1e.jpg

Оригинал: C0_00012_075b.jpg

Оригинал: C0_00013_3195.jpg

Оригинал: C0_00014_5e1a.jpg

Оригинал: C0_00015_f1e1.jpg

Оригинал: C0_00016_8089.jpg

Оригинал: C0_00017_36a9.jpg

Оригинал: C0_00018_3f88.jpg

Оригинал: C0_00019_c885.jpg

Оригинал: C0_00023_3338.jpg

Оригинал: C0_00024_22bc.jpg

Оригинал: C0_00025_44ea.jpg

Оригинал: C0_00028_eecc.jpg

Оригинал: C0_00029_afea.jpg

Оригинал: C0_00030_5011.jpg

Оригинал: C0_00033_6422.jpg

Оригинал: C0_00034_b809.jpg

Оригинал: C0_00037_8d38.jpg

Оригинал: C0_00039_fbe0.jpg

Оригинал: C0_00041_bc1f.jpg

Оригинал: C0_00042_ac8d.jpg

Оригинал: C0_00043_73d5.jpg

Оригинал: C0_00044_0648.jpg

Оригинал: C0_00046_affd.jpg

Оригинал: C0_00049_3a14.jpg

Оригинал: C0_00051_bbdb.jpg

Оригинал: C0_00052_a383.jpg

Оригинал: C0_00053_9aac.jpg

Оригинал: C0_00055_a892.jpg

Оригинал: C0_00057_481d.jpg

Оригинал: C0_00058_44fb.jpg

Оригинал: C0_

  5%|▍         | 30/613 [00:00<00:01, 293.23it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C1/.DS_Store: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C1/.DS_Store'


100%|██████████| 613/613 [00:02<00:00, 238.00it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/C1/dublicates'


100%|██████████| 611/611 [00:00<00:00, 1303.61it/s]



Оригинал: C1_00024_e6ac.jpg

Оригинал: C1_00027_528d.jpg

Оригинал: C1_00112_c048.jpg

Оригинал: C1_00227_764a.jpg

Оригинал: C1_00267_978a.jpg

Оригинал: C1_00294_6d7c.jpg
C1 | Moved 6


  0%|          | 47/9695 [00:00<00:21, 452.01it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/D0/.DS_Store: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/D0/.DS_Store'


100%|██████████| 9695/9695 [00:18<00:00, 526.00it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/D0/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/D0/dublicates'


100%|██████████| 9693/9693 [02:02<00:00, 79.03it/s]



Оригинал: D0_01096_7228.jpg

Оригинал: D0_01491_7c4f.jpg

Оригинал: D0_03054_05ae.jpg

Оригинал: D0_03253_a317.jpg

Оригинал: D0_03672_bc0d.jpg

Оригинал: D0_04052_8520.jpg

Оригинал: D0_04356_942c.jpg

Оригинал: D0_04780_7931.jpg

Оригинал: D0_05267_ea24.jpg

Оригинал: D0_05428_3e97.jpg

Оригинал: D0_05694_c042.jpg

Оригинал: D0_07771_3b26.jpg
D0 | Moved 12


100%|██████████| 4226/4226 [00:08<00:00, 528.17it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/D1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/interior_dataset/D1/dublicates'


100%|██████████| 4225/4225 [00:23<00:00, 182.65it/s]


Оригинал: D1_00141_b1d1.jpg

Оригинал: D1_00330_1839.jpg

Оригинал: D1_00743_e644.jpg

Оригинал: D1_01008_8c4d.jpg

Оригинал: D1_02384_7778.jpg

Оригинал: D1_02676_1a48.jpg

Оригинал: D1_03184_d2d3.jpg
D1 | Moved 7



