In [1]:
# 处理标错的人脸

In [2]:
# 1.清洗文件夹下的数据：找出某个人文件夹下图片中明显与其他图片不一致的图
# 2.选择一张图片A作为target，其他图片B、C、D作为对照，计算该组的平均欧式距离d_A = （d(AB)+d(AC)+d(AD)）/ 3
# 3.再选择B做为target，其他图A、C、D作为对照，计算平均欧式距离d_B，
# 4.如果d_A大于阈值，则删除A
# 5.其他文件夹类似处理


In [3]:
# 计算欧式距离

In [4]:
# 导入包
import cv2
import numpy as np
import matplotlib.pyplot as plt
import dlib
# %matplotlib inline
plt.rcParams['figure.dpi'] = 200

In [5]:
# 关键点 检测模型
shape_detector = dlib.shape_predictor('./models/shape_predictor_68_face_landmarks.dat')
# resnet模型
face_descriptor_extractor = dlib.face_recognition_model_v1('./models/dlib_face_recognition_resnet_model_v1.dat')

In [6]:
# 提取单张图片的特征描述符
def getFaceFeat(fileName):
    
    #读取
    img=cv2.imdecode(np.fromfile(fileName,dtype=np.uint8),-1)
    if img is None:
        return None
    
    # 转为RGB
    img = cv2.cvtColor(img,cv2.COLOR_BGR2RGB)
    # 初始化
    face_descriptor = None
    # 整个裁剪图就是人脸，无需再检测
    h,w = img.shape[:2]
    l,t,r,b = 0,0,w,h
    # 构造DLIB类型
    face = dlib.rectangle(l,t,r,b) 
    # 获取关键点
    points = shape_detector(img,face)
    # 获取特征描述符
    face_descriptor = face_descriptor_extractor.compute_face_descriptor(img,points)
    # 转为numpy 格式的数组
    face_descriptor = [f for f in face_descriptor]
    face_descriptor = np.asarray(face_descriptor,dtype=np.float64)
    face_descriptor = np.reshape(face_descriptor,(1,-1))
    
    return face_descriptor

In [7]:
# 测试一张
feat_test = getFaceFeat('./chinese_faces_cleaned/丁冠森/丁冠森_3.jpg')

In [8]:
feat_test.shape

(1, 128)

In [9]:
import glob,tqdm

In [10]:
import shutil
import os


In [11]:
# 获取所有人名
person_list = glob.glob('./chinese_faces_cleaned/*')

In [12]:
person_list[8]

'./chinese_faces_cleaned\\丁子玲'

In [13]:
len(person_list)

4029

In [14]:
# 遍历每个人的文件夹
for person in tqdm.tqdm(person_list):
    
    
    # 初始化特征列表，记录文件名
    feature_list = None
    record_file = []
    # 获取该人名下的所有图片
    file_name = person+'/*.jpg'
    img_list = glob.glob(file_name)
    # 遍历图片
    for img_file in img_list:
        # 获取每一张图片的特征
        feat = getFaceFeat(img_file)
        #过滤数据
        if feat is not None: 
            
            if feature_list is None:
                feature_list = feat
            else:
                # 特征列表
                feature_list = np.concatenate((feature_list,feat),axis=0)
            # 记录一下文件名
            record_file.append(img_file)
    
    if feature_list is None:
        continue      
    # 计算欧式距离
    # 依次计算一个特征描述符与所有特征的距离
    for i in range(len(feature_list)):
        dist_list = np.linalg.norm((feature_list[i]-feature_list),axis=1)
        dist_average = np.average(dist_list)

        # print(dist_average)
        #如果大于特征阈值，说明它与其他不同
        if dist_average > 0.6:
            
            remove_file = record_file[i]
            
            # 先复制到chinese_faces_mislabeled下，再在路径中删除
            person_class = person.split('\\')[-1]
            # 创建需要保存的目录
            save_dir = './chinese_faces_mislabeled/'+person_class
            if not os.path.exists(save_dir):
                os.makedirs(save_dir)
            
            # 复制
            shutil.copy(remove_file, save_dir)            
            # 删除
            os.remove(remove_file)

            print('删除'+remove_file)
    
        
    # break
    
    

 13%|██████████▏                                                                  | 267/2029 [07:54<1:02:14,  2.12s/it]

删除./chinese_faces_cleaned\熊梓菱\熊梓菱_2.jpg


 17%|████████████▊                                                                | 336/2029 [10:11<1:18:46,  2.79s/it]

删除./chinese_faces_cleaned\王博文\王博文_2.jpg


 18%|█████████████▉                                                                 | 359/2029 [10:49<55:48,  2.00s/it]

删除./chinese_faces_cleaned\王奕婷\王奕婷_5.jpg


 20%|███████████████▌                                                               | 401/2029 [12:07<57:38,  2.12s/it]

删除./chinese_faces_cleaned\王希怡\王希怡_0.jpg


 20%|████████████████                                                               | 411/2029 [12:28<51:05,  1.89s/it]

删除./chinese_faces_cleaned\王彦霖\王彦霖_5.jpg


 21%|████████████████▏                                                              | 417/2029 [12:37<51:52,  1.93s/it]

删除./chinese_faces_cleaned\王思平\王思平_3.jpg


 21%|████████████████▉                                                              | 436/2029 [13:04<42:18,  1.59s/it]

删除./chinese_faces_cleaned\王明明\王明明_1.jpg
删除./chinese_faces_cleaned\王明明\王明明_3.jpg


 22%|█████████████████▏                                                           | 453/2029 [13:40<1:09:34,  2.65s/it]

删除./chinese_faces_cleaned\王梓薇\王梓薇_1.jpg


 24%|██████████████████▉                                                            | 485/2029 [14:39<54:44,  2.13s/it]

删除./chinese_faces_cleaned\王琳\王琳_3.jpg


 24%|██████████████████▍                                                          | 486/2029 [14:42<1:01:19,  2.38s/it]

删除./chinese_faces_cleaned\王瑞儿\王瑞儿_2.jpg


 25%|███████████████████▍                                                           | 498/2029 [15:08<46:40,  1.83s/it]

删除./chinese_faces_cleaned\王祉萱\王祉萱_5.jpg


 25%|████████████████████▏                                                          | 517/2029 [15:43<40:02,  1.59s/it]

删除./chinese_faces_cleaned\王翊丹\王翊丹_3.jpg


 26%|████████████████████▏                                                          | 520/2029 [15:50<52:45,  2.10s/it]

删除./chinese_faces_cleaned\王聪\王聪_1.jpg


 26%|████████████████████▌                                                          | 527/2029 [16:06<55:56,  2.23s/it]

删除./chinese_faces_cleaned\王艺禅\王艺禅_8.jpg


 27%|████████████████████▉                                                          | 539/2029 [16:34<58:17,  2.35s/it]

删除./chinese_faces_cleaned\王菲\王菲_0.jpg


 30%|████████████████████████                                                       | 617/2029 [18:47<47:25,  2.02s/it]

删除./chinese_faces_cleaned\田沅\田沅_7.jpg


 32%|████████████████████████▉                                                      | 640/2029 [19:33<55:42,  2.41s/it]

删除./chinese_faces_cleaned\白庆琳\白庆琳_3.jpg


 40%|███████████████████████████████▍                                               | 806/2029 [24:29<45:50,  2.25s/it]

删除./chinese_faces_cleaned\聂鑫\聂鑫_7.jpg


 48%|█████████████████████████████████████▊                                         | 970/2029 [29:08<29:21,  1.66s/it]

删除./chinese_faces_cleaned\董明珠\董明珠_0.jpg


 49%|██████████████████████████████████████▌                                        | 989/2029 [29:47<33:27,  1.93s/it]

删除./chinese_faces_cleaned\蒋怡\蒋怡_2.jpg


 51%|███████████████████████████████████████▉                                      | 1040/2029 [31:18<22:23,  1.36s/it]

删除./chinese_faces_cleaned\血纯茗雅\血纯茗雅_4.jpg


 53%|█████████████████████████████████████████▍                                    | 1078/2029 [32:23<27:13,  1.72s/it]

删除./chinese_faces_cleaned\许凯\许凯_0.jpg


 54%|█████████████████████████████████████████▊                                    | 1089/2029 [32:42<28:43,  1.83s/it]

删除./chinese_faces_cleaned\许晴\许晴_0.jpg


 54%|██████████████████████████████████████████▎                                   | 1102/2029 [33:11<34:53,  2.26s/it]

删除./chinese_faces_cleaned\谈莉娜\谈莉娜_3.jpg


 61%|███████████████████████████████████████████████▍                              | 1233/2029 [36:39<28:42,  2.16s/it]

删除./chinese_faces_cleaned\赵昭仪\赵昭仪_2.jpg


 62%|████████████████████████████████████████████████                              | 1251/2029 [37:13<22:42,  1.75s/it]

删除./chinese_faces_cleaned\赵照\赵照_4.jpg


 64%|█████████████████████████████████████████████████▋                            | 1294/2029 [38:33<26:00,  2.12s/it]

删除./chinese_faces_cleaned\辛雨锡\辛雨锡_4.jpg


 71%|███████████████████████████████████████████████████████▌                      | 1444/2029 [43:01<19:25,  1.99s/it]

删除./chinese_faces_cleaned\郭晓然\郭晓然_1.jpg


 72%|████████████████████████████████████████████████████████▏                     | 1461/2029 [43:34<19:11,  2.03s/it]

删除./chinese_faces_cleaned\郭鹏\郭鹏_4.jpg


 74%|█████████████████████████████████████████████████████████▌                    | 1498/2029 [44:35<14:07,  1.60s/it]

删除./chinese_faces_cleaned\钟辰乐\钟辰乐_2.jpg


 74%|██████████████████████████████████████████████████████████                    | 1509/2029 [44:58<20:11,  2.33s/it]

删除./chinese_faces_cleaned\银雪\银雪_7.jpg


 76%|███████████████████████████████████████████████████████████                   | 1535/2029 [45:44<14:26,  1.75s/it]

删除./chinese_faces_cleaned\阿宝\阿宝_0.jpg


 77%|████████████████████████████████████████████████████████████▎                 | 1569/2029 [46:44<12:41,  1.66s/it]

删除./chinese_faces_cleaned\陈佳妍\陈佳妍_5.jpg


 78%|████████████████████████████████████████████████████████████▊                 | 1582/2029 [47:07<12:25,  1.67s/it]

删除./chinese_faces_cleaned\陈坤\陈坤_1.jpg


 79%|█████████████████████████████████████████████████████████████▉                | 1612/2029 [47:56<13:45,  1.98s/it]

删除./chinese_faces_cleaned\陈彦妃\陈彦妃_8.jpg


 80%|██████████████████████████████████████████████████████████████▏               | 1619/2029 [48:06<10:39,  1.56s/it]

删除./chinese_faces_cleaned\陈怡\陈怡_3.jpg


 84%|█████████████████████████████████████████████████████████████████▏            | 1696/2029 [50:17<09:03,  1.63s/it]

删除./chinese_faces_cleaned\陈雨锶\陈雨锶_4.jpg


 88%|████████████████████████████████████████████████████████████████████▍         | 1779/2029 [53:09<10:09,  2.44s/it]

删除./chinese_faces_cleaned\顾语涵\顾语涵_7.jpg


 88%|████████████████████████████████████████████████████████████████████▌         | 1782/2029 [53:15<08:56,  2.17s/it]

删除./chinese_faces_cleaned\颜丙燕\颜丙燕_3.jpg


 88%|████████████████████████████████████████████████████████████████████▊         | 1789/2029 [53:28<08:37,  2.15s/it]

删除./chinese_faces_cleaned\馨子\馨子_1.jpg
删除./chinese_faces_cleaned\馨子\馨子_5.jpg


 89%|█████████████████████████████████████████████████████████████████████▋        | 1812/2029 [54:09<07:27,  2.06s/it]

删除./chinese_faces_cleaned\马敬涵\马敬涵_2.jpg


 94%|█████████████████████████████████████████████████████████████████████████     | 1902/2029 [56:44<04:09,  1.97s/it]

删除./chinese_faces_cleaned\魏一宁\魏一宁_4.jpg


 97%|███████████████████████████████████████████████████████████████████████████▋  | 1968/2029 [58:36<01:52,  1.84s/it]

删除./chinese_faces_cleaned\黄日莹\黄日莹_2.jpg


 98%|████████████████████████████████████████████████████████████████████████████  | 1979/2029 [59:01<02:05,  2.50s/it]

删除./chinese_faces_cleaned\黄梦莹\黄梦莹_4.jpg


 99%|█████████████████████████████████████████████████████████████████████████████▎| 2012/2029 [59:57<00:36,  2.14s/it]

删除./chinese_faces_cleaned\黎一萱\黎一萱_5.jpg


100%|████████████████████████████████████████████████████████████████████████████| 2029/2029 [1:00:32<00:00,  1.79s/it]
