# 清洗图像

最佳实践：

1. 处理重复数据。
2. 删除无关图像。
3. 处理损坏图像。

In [1]:
import os

import cv2
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

原始图像数据集存在两个问题：

1. 存在损坏图像。
2. 使用Opencv读取png时有时候会出现警告：`libpng warning: iCCP: known incorrect sRGB profile`。因为图像的iCCP块中包含不正确或过时的 sRGB配置文件。与以前的版本相比，Libpng-1.6对ICC配置文件的检查更加严格。

如何处理？

1. 删除损坏的图像。
2. 对于警告信息，如果该警告不会给应用程序带来问题，可以忽略它。在训练Tensorflow模型时，如果不想看到这些警告，可以使用`tf.logging.set_verbosity(tf.logging.ERROR)`，将日志级别设置为ERROR。也可以使用pngcrush等命令行工具删除PNG图像中的iCCP块.

参考：[How to handle incorrect sRGB profile?](https://stackoverflow.com/questions/22745076/libpng-warning-iccp-known-incorrect-srgb-profile?rq=2)

In [2]:
def delete_corrupted_images(directory: str) -> None:
    class_names = os.listdir(directory)
    for name in class_names:
        sub_dir = os.path.join(directory, name)
        if os.path.isdir(sub_dir):
            for image_file in os.listdir(sub_dir):
                image_path = os.path.join(sub_dir, image_file)
                try:
                    img = cv2.imread(image_path)
                    if img is None:
                        print(f"Deleting {image_path}")
                        os.remove(image_path)
                except:
                    print(f"Deleting {image_path}")
                    os.remove(image_path)

In [4]:
delete_corrupted_images("../data/train")
delete_corrupted_images("../data/validation")
delete_corrupted_images("../data/test")

