In [36]:
from collections import defaultdict
from PIL import Image
from pathlib import Path
import imagehash
from tqdm import tqdm
import shutil

In [40]:
def find_similar_images(
    image_paths: list[Path],
    threshold: int = 5
) -> dict[str, list[Path]]:
    """
    Группирует похожие изображения на основе хеша.
    
    :param image_paths: список путей к изображениям
    :param threshold: максимальное расстояние между хешами (0-64)
                     чем меньше, тем строже сравнение
    :return: {representative_hash: [список похожих путей]}
    """
    hashes = {}
    groups = defaultdict(list)
    
    # Сначала собираем все хеши
    for path in tqdm(image_paths):
        try:
            img = Image.open(path)
            h = imagehash.phash(img)
            hashes[path] = h
        except Exception as e:
            print(f"Ошибка обработки {path}: {e}")
    
    # Группируем похожие изображения
    used_paths = set()
    for path1, hash1 in tqdm(hashes.items()):
        if path1 in used_paths:
            continue
            
        current_group = [path1]
        for path2, hash2 in hashes.items():
            if path2 not in used_paths and path1 != path2:
                if hash1 - hash2 <= threshold:  # Расстояние Хемминга
                    current_group.append(path2)
        
        if len(current_group) > 1:  # Только группы с похожими изображениями
            for p in current_group:
                used_paths.add(p)
            # Используем hex-представление хэша как ключ
            groups[str(hash1)].extend(current_group)
    
    return dict(groups)

In [43]:
def find_and_move_duplicates(
    input_dir: Path,
    output_dir: Path,
    threshold: int = 5,
    min_group_size: int = 2
) -> int:
    """
    Находит дубликаты в папке и перемещает их в подпапки output_dir.
    
    :param input_dir: Папка с изображениями для проверки
    :param output_dir: Папка для сохранения групп дубликатов
    :param threshold: Максимальное расстояние между хешами (0-64)
    :param min_group_size: Минимальный размер группы для перемещения
    """
    if not output_dir.exists():
        output_dir.mkdir(parents=True)
    
    # Находим похожие изображения
    groups = find_similar_images(sorted(input_dir.iterdir()), threshold)
    
    # Перемещаем группы дубликатов
    moved = 0
    for group_num, (hash_val, paths) in enumerate(groups.items(), 1):
        if len(paths) >= min_group_size:
            # Первый файл в группе считаем оригиналом (не перемещаем)
            original = paths[0]
            print(f"\nОригинал: {original.name}")
            
            filename_without_suffix = original.name.replace(original.suffix, '')
            group_dir = output_dir / f"duplicates_{filename_without_suffix}_{group_num}"
            group_dir.mkdir(exist_ok=True)
            
            # Перемещаем дубликаты
            for duplicate in paths[1:]:
                shutil.move(duplicate, group_dir / duplicate.name)
                # print(f"Дубликат → {group_dir.name}/{duplicate.name}")
                moved += 1
    
    return moved

In [45]:
current_dir = Path.cwd()
print(f"Директория: {current_dir}")
data_dir = current_dir / "data"
dataset_dir = data_dir / "cian_data"
# cian_data_dir = data_dir / "cian_data"
# output_data_dir = data_dir / "floor_plans"

for path in sorted(dataset_dir.iterdir()):
    if path.is_dir():
        moved = find_and_move_duplicates(input_dir=path, output_dir=path / "dublicates")
        print(f"{path.name} | Moved {moved}")

Директория: /home/little-garden/CodeProjects/InteriorClass


 41%|████▏     | 17533/42501 [00:25<00:35, 704.65it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/A0/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/A0/dublicates'


100%|██████████| 42501/42501 [00:59<00:00, 714.18it/s]
100%|██████████| 42500/42500 [42:42<00:00, 16.59it/s] 



Оригинал: 1135068107-4.jpg

Оригинал: 1353458550-4.jpg

Оригинал: 1353458568-4.jpg

Оригинал: 1392677103-4.jpg

Оригинал: 1392677174-4.jpg

Оригинал: 1392677355-4.jpg

Оригинал: 1392677613-4.jpg

Оригинал: 1392677689-4.jpg

Оригинал: 1392677889-4.jpg

Оригинал: 1392677993-4.jpg

Оригинал: 1392678099-4.jpg

Оригинал: 1392678192-4.jpg

Оригинал: 1392678221-4.jpg

Оригинал: 1392678318-4.jpg

Оригинал: 1392678319-4.jpg

Оригинал: 1392678459-4.jpg

Оригинал: 1392678497-4.jpg

Оригинал: 1392678718-4.jpg

Оригинал: 1510660231-4.jpg

Оригинал: 1799457823-4.jpg

Оригинал: 1799457833-4.jpg

Оригинал: 1799457847-4.jpg

Оригинал: 1799457886-4.jpg

Оригинал: 1938586166-4.jpg

Оригинал: 1938586179-4.jpg

Оригинал: 1938586272-4.jpg

Оригинал: 2131624555-4.jpg

Оригинал: 2131624558-4.jpg

Оригинал: 2144450024-4.jpg

Оригинал: 2147012909-4.jpg

Оригинал: 2155684694-4.jpg

Оригинал: 2155684695-4.jpg

Оригинал: 2155684696-4.jpg

Оригинал: 2155684700-4.jpg

Оригинал: 2155684702-4.jpg

Оригинал: 215568470

 45%|████▍     | 16972/37731 [00:26<00:30, 672.12it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/A0_trash/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/A0_trash/dublicates'


100%|██████████| 37731/37731 [00:57<00:00, 655.27it/s]
100%|██████████| 37730/37730 [29:46<00:00, 21.12it/s] 



Оригинал: 1362527080-4.jpg

Оригинал: 1392677470-4.jpg

Оригинал: 1392677753-4.jpg

Оригинал: 1392677954-4.jpg

Оригинал: 1392678411-4.jpg

Оригинал: 1392678689-4.jpg

Оригинал: 1392678846-4.jpg

Оригинал: 1392678904-4.jpg

Оригинал: 1392678969-4.jpg

Оригинал: 1392679116-4.jpg

Оригинал: 1392679117-4.jpg

Оригинал: 1392679242-4.jpg

Оригинал: 1392679267-4.jpg

Оригинал: 1392679818-4.jpg

Оригинал: 1392679905-4.jpg

Оригинал: 1392680279-4.jpg

Оригинал: 1392680348-4.jpg

Оригинал: 1824921490-4.jpg

Оригинал: 1845833370-4.jpg

Оригинал: 2004582746-4.jpg

Оригинал: 2038869569-4.jpg

Оригинал: 2038872403-4.jpg

Оригинал: 2076946055-4.jpg

Оригинал: 2099870489-4.jpg

Оригинал: 2105623733-4.jpg

Оригинал: 2107377924-4.jpg

Оригинал: 2110838951-4.jpg

Оригинал: 2110838960-4.jpg

Оригинал: 2124727566-4.jpg

Оригинал: 2124727567-4.jpg

Оригинал: 2124727569-4.jpg

Оригинал: 2125760104-4.jpg

Оригинал: 2131624561-4.jpg

Оригинал: 2131624568-4.jpg

Оригинал: 2132454825-4.jpg

Оригинал: 214437568

 41%|████      | 15435/37568 [00:23<00:32, 683.60it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/A0_uncertain/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/A0_uncertain/dublicates'


100%|██████████| 37568/37568 [00:55<00:00, 681.98it/s]
100%|██████████| 37567/37567 [29:38<00:00, 21.12it/s] 



Оригинал: 1392678409-4.jpg

Оригинал: 1392678445-4.jpg

Оригинал: 1392678510-4.jpg

Оригинал: 1392678536-4.jpg

Оригинал: 1392678667-4.jpg

Оригинал: 1392678828-4.jpg

Оригинал: 1392679137-4.jpg

Оригинал: 1392679241-4.jpg

Оригинал: 1392679735-4.jpg

Оригинал: 1392679973-4.jpg

Оригинал: 1392680081-4.jpg

Оригинал: 1392680118-4.jpg

Оригинал: 1392680323-4.jpg

Оригинал: 1392680470-4.jpg

Оригинал: 1392680688-4.jpg

Оригинал: 1432651921-4.jpg

Оригинал: 1449999975-4.jpg

Оригинал: 1657012185-4.jpg

Оригинал: 1725897615-4.jpg

Оригинал: 1725897646-4.jpg

Оригинал: 1824921619-4.jpg

Оригинал: 2004582629-4.jpg

Оригинал: 2004582662-4.jpg

Оригинал: 2110839059-4.jpg

Оригинал: 2124727570-4.jpg

Оригинал: 2124727573-4.jpg

Оригинал: 2124727574-4.jpg

Оригинал: 2124727587-4.jpg

Оригинал: 2124727592-4.jpg

Оригинал: 2124727594-4.jpg

Оригинал: 2124727596-4.jpg

Оригинал: 2124727602-4.jpg

Оригинал: 2124727606-4.jpg

Оригинал: 2124727614-4.jpg

Оригинал: 2131624571-4.jpg

Оригинал: 213162457

 19%|█▉        | 569/3032 [00:00<00:03, 624.45it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/A1/__items.jsonl: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/A1/__items.jsonl'
Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/A1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/A1/dublicates'


100%|██████████| 3032/3032 [00:04<00:00, 669.96it/s]
100%|██████████| 3030/3030 [00:11<00:00, 266.82it/s]



Оригинал: 2422475252-4.jpg

Оригинал: 2512880966-4.jpg

Оригинал: koiko-mesto-moskva-1y-kolobovskiy-pereulok-2409786233-4.jpg

Оригинал: koiko-mesto-moskva-1y-kolobovskiy-pereulok-2409786234-4.jpg

Оригинал: koiko-mesto-moskva-3y-dorozhnyy-proezd-2136597195-4.jpg

Оригинал: komnata-moskva-1y-kolobovskiy-pereulok-1987607747-4.jpg

Оригинал: komnata-moskva-1y-kolobovskiy-pereulok-1987607771-4.jpg

Оригинал: komnata-moskva-1y-kolobovskiy-pereulok-1987607787-4.jpg

Оригинал: komnata-moskva-bulvar-matrosa-zheleznyaka-2514398279-4.jpg

Оригинал: komnata-moskva-bulvar-matrosa-zheleznyaka-2514399737-4.jpg

Оригинал: komnata-moskva-ulica-michurinskiy-prospektolimpiyskaya-derevnya-2514762637-4.jpg

Оригинал: komnata-moskva-ulica-michurinskiy-prospektolimpiyskaya-derevnya-2514762689-4.jpg

Оригинал: kvartira-5y-2435086231-4.jpg

Оригинал: kvartira-moskva-1y-krasnogvardeyskiy-proezd-2386364027-4.jpg

Оригинал: kvartira-moskva-3y-baltiyskiy-pereulok-2515129223-4.jpg

Оригинал: kvartira-moskva-3y-b

 13%|█▎        | 10466/80405 [00:15<01:41, 690.70it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/B1/__items.jsonl: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/B1/__items.jsonl'
Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/B1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/B1/dublicates'


100%|██████████| 80405/80405 [01:51<00:00, 722.18it/s]
100%|██████████| 80403/80403 [2:49:56<00:00,  7.89it/s]  



Оригинал: 1083567516-4.jpg

Оригинал: 1149493200-4.jpg

Оригинал: 1149493201-4.jpg

Оригинал: 1149493202-4.jpg

Оригинал: 1149493205-4.jpg

Оригинал: 1149493210-4.jpg

Оригинал: 1149493214-4.jpg

Оригинал: 1295038761-4.jpg

Оригинал: 1325542643-4.jpg

Оригинал: 1400646716-4.jpg

Оригинал: 1713456300-4.jpg

Оригинал: 1713456313-4.jpg

Оригинал: 1778110949-4.jpg

Оригинал: 1874084877-4.jpg

Оригинал: 1888822018-4.jpg

Оригинал: 2126113427-4.jpg

Оригинал: 2162744171-4.jpg

Оригинал: 2202363537-4.jpg

Оригинал: 2205883921-4.jpg

Оригинал: 2235336620-4.jpg

Оригинал: 2264556968-4.jpg

Оригинал: 2264836123-4.jpg

Оригинал: 2287239722-4.jpg

Оригинал: 2310928533-4.jpg

Оригинал: 2325878946-4.jpg

Оригинал: 2371842409-4.jpg

Оригинал: 2381262376-4.jpg

Оригинал: 2442116353-4.jpg

Оригинал: 2442116378-4.jpg

Оригинал: 2442116410-4.jpg

Оригинал: 2442116423-4.jpg

Оригинал: 2446090829-4.jpg

Оригинал: 2452108204-4.jpg

Оригинал: 2465895058-4.jpg

Оригинал: 2474765578-4.jpg

Оригинал: 248368199

 16%|█▋        | 1004/6170 [00:01<00:08, 631.43it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/B1_trash/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/B1_trash/dublicates'


100%|██████████| 6170/6170 [00:09<00:00, 675.35it/s]
100%|██████████| 6169/6169 [00:48<00:00, 126.34it/s]



Оригинал: 1149493206-4.jpg

Оригинал: 1149493209-4.jpg

Оригинал: 1149493212-4.jpg

Оригинал: 1149493215-4.jpg

Оригинал: 2442116368-4.jpg

Оригинал: 2472330139-4.jpg

Оригинал: 2478428436-4.jpg

Оригинал: 2480773516-4.jpg

Оригинал: 2480773533-4.jpg

Оригинал: 2485392524-4.jpg

Оригинал: 2487947037-4.jpg

Оригинал: 2487947060-4.jpg

Оригинал: 2487947096-4.jpg

Оригинал: 2494221273-4.jpg

Оригинал: 2496903250-4.jpg

Оригинал: 2496903315-4.jpg

Оригинал: 2496903389-4.jpg

Оригинал: 2496903588-4.jpg

Оригинал: 2496903631-4.jpg

Оригинал: 2496903714-4.jpg

Оригинал: 2504233788-4.jpg

Оригинал: 2507754454-4.jpg

Оригинал: 2511472193-4.jpg

Оригинал: 2511472198-4.jpg

Оригинал: 2511472277-4.jpg

Оригинал: 2511472419-4.jpg

Оригинал: 2511472433-4.jpg

Оригинал: komnata-dudkino-2483133980-4.jpg

Оригинал: komnata-dudkino-2483133985-4.jpg

Оригинал: komnata-dudkino-yuzhnaya-ulica-2481948691-4.jpg

Оригинал: komnata-dudkino-yuzhnaya-ulica-2489401241-4.jpg

Оригинал: komnata-dudkino-yuzhnaya-ul

100%|██████████| 1519/1519 [00:02<00:00, 637.09it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/C1/__items.jsonl: cannot identify image file '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/C1/__items.jsonl'
Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/C1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/C1/dublicates'


100%|██████████| 1517/1517 [00:00<00:00, 3304.19it/s]



Оригинал: 2100484658-4.jpg

Оригинал: 2100485116-4.jpg

Оригинал: 2100485623-4.jpg

Оригинал: 2100486031-4.jpg

Оригинал: 2100486437-4.jpg

Оригинал: 2100486856-4.jpg

Оригинал: 2100487196-4.jpg

Оригинал: 2100487636-4.jpg

Оригинал: 2100488183-4.jpg

Оригинал: 2100488466-4.jpg

Оригинал: 2100488770-4.jpg

Оригинал: 2100489206-4.jpg

Оригинал: 2100490019-4.jpg

Оригинал: 2100490385-4.jpg

Оригинал: 2100542767-4.jpg

Оригинал: 2100542796-4.jpg

Оригинал: 2100542818-4.jpg

Оригинал: 2100542840-4.jpg

Оригинал: 2100542857-4.jpg

Оригинал: 2100542869-4.jpg

Оригинал: 2100542875-4.jpg

Оригинал: 2100542889-4.jpg

Оригинал: 2230390382-4.jpg

Оригинал: 2230390391-4.jpg

Оригинал: 2230390395-4.jpg

Оригинал: 2230390400-4.jpg

Оригинал: 2230390407-4.jpg

Оригинал: 2230390409-4.jpg

Оригинал: 2230390416-4.jpg

Оригинал: 2230390420-4.jpg

Оригинал: 2230390432-4.jpg

Оригинал: 2230390434-4.jpg

Оригинал: 2230390444-4.jpg

Оригинал: 2230390451-4.jpg

Оригинал: 2230390470-4.jpg

Оригинал: 223039047

100%|██████████| 87/87 [00:00<00:00, 609.98it/s]


Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/D0/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/D0/dublicates'


100%|██████████| 86/86 [00:00<00:00, 10120.37it/s]



Оригинал: 2423975364-4.jpg

Оригинал: 2423975385-4.jpg

Оригинал: 2423975393-4.jpg

Оригинал: 2423975415-4.jpg

Оригинал: 2494882490-4.jpg
D0 | Moved 5


 29%|██▊       | 2289/7992 [00:03<00:08, 642.54it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/D0_trash/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/D0_trash/dublicates'


100%|██████████| 7992/7992 [00:12<00:00, 658.36it/s]
100%|██████████| 7991/7991 [01:22<00:00, 97.45it/s] 



Оригинал: 1758219459-4.jpg

Оригинал: 2414838112-4.jpg

Оригинал: 2417875722-4.jpg

Оригинал: 2442170185-4.jpg

Оригинал: 2442170190-4.jpg

Оригинал: 2442170194-4.jpg

Оригинал: 2446729829-4.jpg

Оригинал: 2455573106-4.jpg

Оригинал: 2455573285-4.jpg

Оригинал: 2455641828-4.jpg

Оригинал: 2458707289-4.jpg

Оригинал: 2466062555-4.jpg

Оригинал: 2470719217-4.jpg

Оригинал: 2480080844-4.jpg

Оригинал: 2481988423-4.jpg

Оригинал: 2483619906-4.jpg

Оригинал: 2483619933-4.jpg

Оригинал: 2487671718-4.jpg

Оригинал: 2487671726-4.jpg

Оригинал: 2488804779-4.jpg

Оригинал: 2492437923-4.jpg

Оригинал: 2497128211-4.jpg

Оригинал: 2497128277-4.jpg

Оригинал: 2499365535-4.jpg

Оригинал: 2500692028-4.jpg

Оригинал: 2502249785-4.jpg

Оригинал: 2502250028-4.jpg

Оригинал: 2502250889-4.jpg

Оригинал: 2502558198-4.jpg

Оригинал: 2502613877-4.jpg

Оригинал: 2502613926-4.jpg

Оригинал: 2502614999-4.jpg

Оригинал: 2504481512-4.jpg

Оригинал: 2504481534-4.jpg

Оригинал: 2504481540-4.jpg

Оригинал: 250448155

 21%|██        | 23783/114104 [00:35<02:01, 741.90it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/D0_uncertain/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/D0_uncertain/dublicates'


100%|██████████| 114104/114104 [02:38<00:00, 720.38it/s]
100%|██████████| 114103/114103 [5:30:34<00:00,  5.75it/s] 



Оригинал: 1136600898-4.jpg

Оригинал: 1320919537-4.jpg

Оригинал: 1320919561-4.jpg

Оригинал: 1320919575-4.jpg

Оригинал: 1410332719-4.jpg

Оригинал: 1445416544-4.jpg

Оригинал: 1492762202-4.jpg

Оригинал: 1980126782-4.jpg

Оригинал: 1980126796-4.jpg

Оригинал: 1980154349-4.jpg

Оригинал: 1980154350-4.jpg

Оригинал: 1980154352-4.jpg

Оригинал: 1980154354-4.jpg

Оригинал: 1980154355-4.jpg

Оригинал: 1980154356-4.jpg

Оригинал: 1980154360-4.jpg

Оригинал: 1980154361-4.jpg

Оригинал: 1980154363-4.jpg

Оригинал: 1980154364-4.jpg

Оригинал: 1980154365-4.jpg

Оригинал: 1980154366-4.jpg

Оригинал: 1980154367-4.jpg

Оригинал: 1980154372-4.jpg

Оригинал: 1980154373-4.jpg

Оригинал: 1980154374-4.jpg

Оригинал: 1980305644-4.jpg

Оригинал: 1986015000-4.jpg

Оригинал: 1986104577-4.jpg

Оригинал: 2017365367-4.jpg

Оригинал: 2026834225-4.jpg

Оригинал: 2103375799-4.jpg

Оригинал: 2142716315-4.jpg

Оригинал: 2142719334-4.jpg

Оригинал: 2142719336-4.jpg

Оригинал: 2142719338-4.jpg

Оригинал: 214271934

 35%|███▍      | 2305/6621 [00:03<00:06, 633.66it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/D1/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/D1/dublicates'


100%|██████████| 6621/6621 [00:10<00:00, 655.20it/s]
100%|██████████| 6620/6620 [00:50<00:00, 130.68it/s]



Оригинал: 2071193955-4.jpg

Оригинал: 2244847320-4.jpg

Оригинал: 2244847364-4.jpg

Оригинал: 2244847401-4.jpg

Оригинал: 2244847419-4.jpg

Оригинал: 2244847441-4.jpg

Оригинал: 2244847519-4.jpg

Оригинал: 2244847575-4.jpg

Оригинал: 2244847594-4.jpg

Оригинал: 2270956369-4.jpg

Оригинал: 2270956401-4.jpg

Оригинал: 2290321849-4.jpg

Оригинал: 2341233424-4.jpg

Оригинал: 2341233601-4.jpg

Оригинал: 2354360789-4.jpg

Оригинал: 2355382424-4.jpg

Оригинал: 2355382764-4.jpg

Оригинал: 2358727795-4.jpg

Оригинал: 2358727801-4.jpg

Оригинал: 2358727804-4.jpg

Оригинал: 2358727808-4.jpg

Оригинал: 2358727811-4.jpg

Оригинал: 2388561987-4.jpg

Оригинал: 2388562000-4.jpg

Оригинал: 2397285996-4.jpg

Оригинал: 2397286233-4.jpg

Оригинал: 2414220599-4.jpg

Оригинал: 2414220600-4.jpg

Оригинал: 2414220601-4.jpg

Оригинал: 2414220602-4.jpg

Оригинал: 2414220606-4.jpg

Оригинал: 2432471376-4.jpg

Оригинал: 2432471381-4.jpg

Оригинал: 2437481403-4.jpg

Оригинал: 2437481530-4.jpg

Оригинал: 243748155

 26%|██▌       | 1656/6385 [00:02<00:07, 664.11it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/D1_trash/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/D1_trash/dublicates'


100%|██████████| 6385/6385 [00:09<00:00, 674.34it/s]
100%|██████████| 6384/6384 [00:49<00:00, 128.01it/s]



Оригинал: 1458820008-4.jpg

Оригинал: 2339225290-4.jpg

Оригинал: 2339225306-4.jpg

Оригинал: 2339225313-4.jpg

Оригинал: 2350123155-4.jpg

Оригинал: 2350123163-4.jpg

Оригинал: 2350123169-4.jpg

Оригинал: 2350123174-4.jpg

Оригинал: 2354069500-4.jpg

Оригинал: 2354069504-4.jpg

Оригинал: 2354069511-4.jpg

Оригинал: 2379044821-4.jpg

Оригинал: 2379044828-4.jpg

Оригинал: 2379044835-4.jpg

Оригинал: 2379044854-4.jpg

Оригинал: 2379044859-4.jpg

Оригинал: 2379044867-4.jpg

Оригинал: 2386408288-4.jpg

Оригинал: 2388335780-4.jpg

Оригинал: 2427286224-4.jpg

Оригинал: 2427286233-4.jpg

Оригинал: 2437481573-4.jpg

Оригинал: 2439326052-4.jpg

Оригинал: 2439326059-4.jpg

Оригинал: 2439326087-4.jpg

Оригинал: 2439326092-4.jpg

Оригинал: 2444309129-4.jpg

Оригинал: 2444309554-4.jpg

Оригинал: 2448147868-4.jpg

Оригинал: 2448148209-4.jpg

Оригинал: 2455853477-4.jpg

Оригинал: 2455853508-4.jpg

Оригинал: 2462773359-4.jpg

Оригинал: 2462773729-4.jpg

Оригинал: 2462773759-4.jpg

Оригинал: 246315988

 20%|██        | 18617/92631 [00:27<01:44, 710.07it/s]

Ошибка обработки /home/little-garden/CodeProjects/InteriorClass/data/cian_data/D1_uncertain/dublicates: [Errno 21] Is a directory: '/home/little-garden/CodeProjects/InteriorClass/data/cian_data/D1_uncertain/dublicates'


100%|██████████| 92631/92631 [02:07<00:00, 727.60it/s]
100%|██████████| 92630/92630 [3:32:37<00:00,  7.26it/s]  



Оригинал: 1043668832-4.jpg

Оригинал: 1043668863-4.jpg

Оригинал: 1674839922-4.jpg

Оригинал: 1674839924-4.jpg

Оригинал: 1674839940-4.jpg

Оригинал: 1674839950-4.jpg

Оригинал: 1804131952-4.jpg

Оригинал: 2244847380-4.jpg

Оригинал: 2244847458-4.jpg

Оригинал: 2244847472-4.jpg

Оригинал: 2244847557-4.jpg

Оригинал: 2244847613-4.jpg

Оригинал: 2244847719-4.jpg

Оригинал: 2244847759-4.jpg

Оригинал: 2244847825-4.jpg

Оригинал: 2261078509-4.jpg

Оригинал: 2270956318-4.jpg

Оригинал: 2270956327-4.jpg

Оригинал: 2270956339-4.jpg

Оригинал: 2270956346-4.jpg

Оригинал: 2270956359-4.jpg

Оригинал: 2270956372-4.jpg

Оригинал: 2270956380-4.jpg

Оригинал: 2270956388-4.jpg

Оригинал: 2290321832-4.jpg

Оригинал: 2290321837-4.jpg

Оригинал: 2290321841-4.jpg

Оригинал: 2290321868-4.jpg

Оригинал: 2290321882-4.jpg

Оригинал: 2290321910-4.jpg

Оригинал: 2290321921-4.jpg

Оригинал: 2315476272-4.jpg

Оригинал: 2319312528-4.jpg

Оригинал: 2339225270-4.jpg

Оригинал: 2339225281-4.jpg

Оригинал: 234123338

In [33]:
groups

{'d3336cca4b9c9493': [PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/108.jpg'),
  PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/121.jpg')],
 'c0611f0efac13e7c': [PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/109.jpg'),
  PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/122.jpg')],
 '9794794e2e6a85d2': [PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/111.jpg'),
  PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/124.jpg')],
 'df205295c6d2e176': [PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/112.jpg'),
  PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/125.jpg')],
 'ff3f884ca7988831': [PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/A0/113.jpg'),
  PosixPath('/home/little-garden/CodeProjects/InteriorClass/data/yandex_data/