In [1]:
import os
import cv2
import numpy as np
from tqdm import tqdm

def calculate_feature(image_path):
    """
    计算图像的特征向量。

    参数：
        image_path (str): 图像文件的路径。

    返回：
        np.ndarray: 图像的特征向量。
    """
    # 将图像路径转换为Unicode字符串
    image_path_unicode = image_path.encode("utf-8").decode("utf-8")
    
    # 读取图像
    img = cv2.imread(image_path_unicode, cv2.IMREAD_GRAYSCALE)
    if img is None:
        return None

    # 提取图像特征
    orb = cv2.ORB_create()
    keypoints, descriptors = orb.detectAndCompute(img, None)

    # 如果没有提取到特征，则返回 None
    if descriptors is None:
        return None
    
    # 对特征向量求均值，得到图像的特征向量
    feature_vector = np.mean(descriptors, axis=0)
    return feature_vector


def remove_duplicate_images(image_dir, remove_from_disk=False):
    """
    从给定目录中去除重复的图像文件，并返回唯一图像的路径列表。

    参数：
        image_dir (str): 包含图像文件的目录路径。
        remove_from_disk (bool): 是否从硬盘上删除重复的图像文件，默认为 False。

    返回：
        list: 唯一图像文件的路径列表。
    """
    # 获取目录中的所有图像文件路径
    image_paths = [os.path.join(image_dir, file) for file in os.listdir(image_dir) if file.lower().endswith(('.jpg', '.jpeg', '.png'))]
    
    # 输出目录中的文件数
    print(f"目录 {image_dir} 中的文件数: {len(image_paths)}")

    # 初始化唯一图像路径列表和已处理的图像特征列表
    unique_images = []
    processed_features = []

    # 遍历图像文件
    print("开始处理图像...")
    for i, image_path in enumerate(tqdm(image_paths, desc="Processing")):
        try:
            # 输出序号和图片路径
            print(f"处理第 {i+1} 张图片: {image_path}")
            
            # 计算图像的特征向量
            feature_vector = calculate_feature(image_path)
            
            # 如果特征向量为 None，则记录日志并跳过该图像
            if feature_vector is None:
                log_message = f"警告: 图像 {image_path} 的特征向量为空，已跳过该图像."
                print(log_message)
                continue
            
            # 如果特征向量已经存在于已处理的特征列表中，则认为是重复图像
            if any(np.allclose(feature_vector, feature) for feature in processed_features):
                # 记录日志和输出重复图片信息
                log_message = f"重复图片: {image_path}, 特征值: {feature_vector}"
                print(log_message)
                if remove_from_disk:
                    # 如果需要删除重复图像，则执行删除操作
                    os.remove(image_path)
                continue
            
            # 将图像的特征向量添加到已处理的特征列表中，并将图像路径添加到唯一图像列表中
            processed_features.append(feature_vector)
            unique_images.append(image_path)
        except Exception as e:
            # 捕获并输出异常信息
            log_message = f"错误: 处理图像 {image_path} 时出错: {e}"
            print(log_message)
    
    # 如果唯一图像列表为空，输出提示信息
    if not unique_images:
        print("未找到任何唯一图像.")
    else:
        print(f"共找到 {len(unique_images)} 张唯一图像.")
    
    return unique_images

# 主方法，用于外部调用
def main(image_dir, remove_from_disk=False):
    """
    对图像目录中的图像进行去重。

    参数：
        image_dir (str): 包含图像的目录路径。
        remove_from_disk (bool): 如果为True，则从磁盘中删除重复图像。

    返回：
        unique_images_list (list): 不重复的图像文件路径列表。
    """
    # 调用去除重复图像的函数
    unique_images_list = remove_duplicate_images(image_dir, remove_from_disk)
    
    # 返回不重复的图像列表
    return unique_images_list

In [2]:
# 调用函数并接收返回的去重后文件列表
unique_images_list = main("F:\\pic\\zhytest", False)

目录 F:\pic\zhytest 中的文件数: 49
开始处理图像...


Processing:   0%|          | 0/49 [00:00<?, ?it/s]

Processing:   2%|▏         | 1/49 [00:00<00:07,  6.76it/s]

处理第 1 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-a0d23d3cc2497bf45a3882a168a52c9f.jpg
处理第 2 张图片: F:\pic\zhytest\5b2408a2548041ba8b6200e61da64d01.jpg


Processing:   6%|▌         | 3/49 [00:00<00:04, 11.47it/s]

处理第 3 张图片: F:\pic\zhytest\45dfc99djw1f9bffirye0j21c50w37wi.jpg
处理第 4 张图片: F:\pic\zhytest\45dfc99djw1fa2zr8vfvsj22sj3q7kjt.jpg


Processing:  10%|█         | 5/49 [00:00<00:07,  5.88it/s]

处理第 5 张图片: F:\pic\zhytest\45dfc99djw1fa2zrae3i1j20qo123k04.jpg
处理第 6 张图片: F:\pic\zhytest\45dfc99djw1fa2zrgfwtlj22sj3q7x6w.jpg


Processing:  16%|█▋        | 8/49 [00:01<00:06,  6.27it/s]

处理第 7 张图片: F:\pic\zhytest\45dfc99djw1fa2zrino33j20qo0zmguc.jpg
处理第 8 张图片: F:\pic\zhytest\45dfc99dt93235430eb34.jpg
处理第 9 张图片: F:\pic\zhytest\205641w3toky6qkwmmccym.jpg


Processing:  20%|██        | 10/49 [00:01<00:05,  7.04it/s]

处理第 10 张图片: F:\pic\zhytest\C05152FD7A241EF05B5FEB9204FAA9A377985724.jpg
处理第 11 张图片: F:\pic\zhytest\d6513664ff0746368b294bb3d2165b72.jpg
处理第 12 张图片: F:\pic\zhytest\kristy204.jpg


Processing:  24%|██▍       | 12/49 [00:01<00:05,  6.21it/s]

处理第 13 张图片: F:\pic\zhytest\kristy207.jpg


Processing:  27%|██▋       | 13/49 [00:02<00:07,  5.13it/s]

处理第 14 张图片: F:\pic\zhytest\www.zhycn.com@张含韵新歌《照顾自己》封面.jpg
警告: 图像 F:\pic\zhytest\www.zhycn.com@张含韵新歌《照顾自己》封面.jpg 的特征向量为空，已跳过该图像.
处理第 15 张图片: F:\pic\zhytest\张含韵 (39).jpg
警告: 图像 F:\pic\zhytest\张含韵 (39).jpg 的特征向量为空，已跳过该图像.
处理第 16 张图片: F:\pic\zhytest\张含韵 (912).jpg
警告: 图像 F:\pic\zhytest\张含韵 (912).jpg 的特征向量为空，已跳过该图像.
处理第 17 张图片: F:\pic\zhytest\张含韵 (901).jpg
警告: 图像 F:\pic\zhytest\张含韵 (901).jpg 的特征向量为空，已跳过该图像.
处理第 18 张图片: F:\pic\zhytest\张含韵 (44).jpg
警告: 图像 F:\pic\zhytest\张含韵 (44).jpg 的特征向量为空，已跳过该图像.
处理第 19 张图片: F:\pic\zhytest\张含韵 (30).jpg
警告: 图像 F:\pic\zhytest\张含韵 (30).jpg 的特征向量为空，已跳过该图像.
处理第 20 张图片: F:\pic\zhytest\张含韵 (33).jpg
警告: 图像 F:\pic\zhytest\张含韵 (33).jpg 的特征向量为空，已跳过该图像.
处理第 21 张图片: F:\pic\zhytest\张含韵 (25).jpg
警告: 图像 F:\pic\zhytest\张含韵 (25).jpg 的特征向量为空，已跳过该图像.
处理第 22 张图片: F:\pic\zhytest\张含韵 (24).jpg
警告: 图像 F:\pic\zhytest\张含韵 (24).jpg 的特征向量为空，已跳过该图像.
处理第 23 张图片: F:\pic\zhytest\张含韵 (211).jpg
警告: 图像 F:\pic\zhytest\张含韵 (211).jpg 的特征向量为空，已跳过该图像.
处理第 24 张图片: F:\pic\zhytest\张含韵 (188).jpg
警告: 图

Processing:  63%|██████▎   | 31/49 [00:02<00:00, 22.26it/s]

处理第 32 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-e4a19315e0d0834a89fc94bb11ea422f.jpg
处理第 33 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-ccfac577ec08d7c99690663017ae3f2e.jpg


Processing:  69%|██████▉   | 34/49 [00:02<00:00, 16.56it/s]

处理第 34 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-611a93fd620fa5229def9ce73f0355b3.jpg
处理第 35 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-68411e4f860b075bc294fbd04306823a.jpg


Processing:  73%|███████▎  | 36/49 [00:03<00:00, 14.75it/s]

处理第 36 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-2673fb9d47f847c92853dd9173b8840f.jpg
处理第 37 张图片: F:\pic\zhytest\_storage_emulated_0_sina_weibo_storage_photoalbum_save_weibo_img-20b66e157e59cc27a847ab1f93ccfc1f.jpg


Processing:  84%|████████▎ | 41/49 [00:03<00:00, 14.46it/s]

处理第 38 张图片: F:\pic\zhytest\t0190f25682b26454cc.jpg
处理第 39 张图片: F:\pic\zhytest\d833c895d143ad4b1800508082025aafa40f0647.jpg
处理第 40 张图片: F:\pic\zhytest\e0951f8ccda0475c90ec647f63168330_th.jpg
处理第 41 张图片: F:\pic\zhytest\ChMlWV1omwOINrgxAAeenSAYeGAAAM4mwKpF7YAB561326.jpg
处理第 42 张图片: F:\pic\zhytest\d043ad4bd11373f0492579dfa40f4bfbfbed0453.jpg
处理第 43 张图片: F:\pic\zhytest\ChMlWV1omviID9jkAAsUzTtZRFUAAM4mwJXbuQACxTl364.jpg


Processing:  92%|█████████▏| 45/49 [00:03<00:00, 16.88it/s]

处理第 44 张图片: F:\pic\zhytest\cf1b9d16fdfaaf519ee797ff8c5494eef01f7a6d.jpg
处理第 45 张图片: F:\pic\zhytest\ChMlWl1omuyIf0S1AAlctLjmfdIAAM4mwH7q1YACVzM700.jpg
处理第 46 张图片: F:\pic\zhytest\72666D36E7A45ECF5D97E3E2A94981A5.jpg


Processing:  96%|█████████▌| 47/49 [00:04<00:00, 13.24it/s]

处理第 47 张图片: F:\pic\zhytest\551433992CB7682A291A666534355A22.jpg
处理第 48 张图片: F:\pic\zhytest\69192ab4jw1e8yvrrpz7oj20tm18gwkf.jpg
处理第 49 张图片: F:\pic\zhytest\6244181ejw1ebo5swe4m1j218g0szdqj.jpg


Processing: 100%|██████████| 49/49 [00:04<00:00, 11.99it/s]

共找到 32 张唯一图像.



