# Подготовка датасета

In [None]:
import os
import re

def find_unsafe_filenames(directory_path):
    unsafe_chars_pattern = re.compile(r'[^\w\d_.-]')
    problematic_files = []
    print(f"Начинаю проверку файлов в директории: {directory_path}")

    if not os.path.isdir(directory_path):
        print(f"Ошибка: Директория '{directory_path}' не найдена.")
        return problematic_files

    for root, dirs, files in os.walk(directory_path):
        for file in files:
            if unsafe_chars_pattern.search(file):
                full_path = os.path.join(root, file)
                problematic_files.append(full_path)
                print(f"Обнаружен проблемный файл: {full_path}")

    if not problematic_files:
        print("Небезопасные символы в именах файлов не обнаружены. Все чисто!")
    else:
        print("\n--- Обнаружены проблемные файлы ---")
        for p_file in problematic_files:
            print(p_file)
        print(f"\nВсего проблемных файлов: {len(problematic_files)}")


    return problematic_files

if __name__ == "__main__":

    your_image_directory = r'D:\Datasets\ptrch_projects\VintageFilter\data'

    found_problems = find_unsafe_filenames(your_image_directory)

Начинаю проверку файлов в директории: D:\Datasets\ptrch_projects\VintageFilter\data
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\00620ddc43e99674ce5d9bc04310992d (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\0b99adf2d8a47cd8208fa74f09d3fe6c (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\120f2882dd4a7db41f0bffe0b984df5e (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\1235c2391ba2f512272fd06547a1d7f4 (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\18e595347d4ba74453026a1d20027454 (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\1940-s-style-female-портрет (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\1940-е-стиль-после-шоу (1).jpg
Обнаружен проблемный файл: D:\Datasets\ptrch_projects\VintageFilter\data\19535e9b8ea3a2df30b5286ddc1d4a82 (2).jpg
Обнаружен проблемны

In [3]:
import os
from PIL import Image

def rename_and_number_images(directory_path, base_name="photo_image"):
    print(f"Начинаю переименование и нумерацию файлов в директории: {directory_path}")

    if not os.path.isdir(directory_path):
        print(f"Ошибка: Директория '{directory_path}' не найдена.")
        return

    supported_extensions = ('.jpg', '.jpeg', '.png', '.gif', '.bmp', '.tiff', '.webp')

    image_files = []

    for filename in os.listdir(directory_path):
        if os.path.isfile(os.path.join(directory_path, filename)):
            if filename.lower().endswith(supported_extensions):
                try:
                    with Image.open(os.path.join(directory_path, filename)) as img:
                        img.verify()
                        image_files.append(filename)
                except (IOError, SyntaxError, Image.UnidentifiedImageError):
                    print(f"Предупреждение: Файл '{filename}' не является изображением или поврежден, будет пропущен.")
                    continue
            else:
                print(f"Предупреждение: Файл '{filename}' не является поддерживаемым изображением, будет пропущен.")


    if not image_files:
        print("В указанной директории не найдено поддерживаемых файлов изображений для переименования.")
        return

    image_files.sort()

    renamed_count = 0
    for i, old_filename in enumerate(image_files):
        _ , ext = os.path.splitext(old_filename)
        ext = ext.lower()

        new_filename = f"{base_name}_{i + 1}{ext}"
        full_old_path = os.path.join(directory_path, old_filename)
        full_new_path = os.path.join(directory_path, new_filename)

        if full_old_path == full_new_path:
            print(f"Пропущен: '{old_filename}' (уже имеет правильное имя)")
            continue

        try:
            if os.path.exists(full_new_path):
                print(f"Предупреждение: Новое имя '{new_filename}' уже существует, файл '{old_filename}' не будет переименован.")
                continue

            os.rename(full_old_path, full_new_path)
            print(f"Переименовано: '{old_filename}' -> '{new_filename}'")
            renamed_count += 1
        except Exception as e:
            print(f"Ошибка при переименовании '{old_filename}': {e}")

    print(f"\nВсего переименовано файлов: {renamed_count}")
    print("Переименование завершено. Пожалуйста, проверьте папку.")


if __name__ == "__main__":
    photos_directory = r'D:\Datasets\ptrch_projects\VintageFilter\data'
    rename_and_number_images(photos_directory)

Начинаю переименование и нумерацию файлов в директории: D:\Datasets\ptrch_projects\VintageFilter\data
Переименовано: '00095914eb4aba446ef8bf06a5305c86.jpg' -> 'photo_image_1.jpg'
Переименовано: '00100e0cd26311edbb4a0612238522d6.jpeg' -> 'photo_image_2.jpeg'
Переименовано: '001dd804a8928b49b66df1062c397213.jpg' -> 'photo_image_3.jpg'
Переименовано: '00326e778fbef8c3776a7424c1f4b6af.jpg' -> 'photo_image_4.jpg'
Переименовано: '0044f0b50a2c898400462d35e9ec4c37.jpg' -> 'photo_image_5.jpg'
Переименовано: '005ef969846fd9dc209a3d417cb493ff.jpg' -> 'photo_image_6.jpg'
Переименовано: '00620ddc43e99674ce5d9bc04310992d (1).jpg' -> 'photo_image_7.jpg'
Переименовано: '00845eeb10b32eada4f981c367f2f2bb.jpg' -> 'photo_image_8.jpg'
Переименовано: '008fb2952b16382d07262bd7adb69a63.jpg' -> 'photo_image_9.jpg'
Переименовано: '00aeb60d5f7b7886687b7698be50b349.jpg' -> 'photo_image_10.jpg'
Переименовано: '00bc50782eccf09cd86dae29726713c8.jpg' -> 'photo_image_11.jpg'
Переименовано: '00cda7b7d26411edbb4a0612238

In [None]:
import os
from PIL import Image

def clean_and_resave_images(source_directory, dest_directory, target_format="jpeg"):
    print(f"Начинаю очистку и пересохранение изображений из '{source_directory}' в '{dest_directory}'")

    if not os.path.isdir(source_directory):
        print(f"Ошибка: Исходная директория '{source_directory}' не найдена.")
        return

    os.makedirs(dest_directory, exist_ok=True)

    supported_extensions = ('.jpg', '.jpeg', '.png', '.gif', '.bmp', '.tiff', '.webp')
    processed_count = 0
    error_count = 0

    for filename in os.listdir(source_directory):
        full_old_path = os.path.join(source_directory, filename)

        if os.path.isfile(full_old_path) and filename.lower().endswith(supported_extensions):
            try:
                with Image.open(full_old_path) as img:
                    if img.mode != 'RGB':
                        img = img.convert('RGB')

                    new_filename = os.path.splitext(filename)[0] + f".{target_format}"
                    full_new_path = os.path.join(dest_directory, new_filename)

                    save_args = {}
                    if target_format.lower() == "jpeg":
                        save_args['quality'] = 90
                        save_args['optimize'] = True

                    img.save(full_new_path, **save_args)

                print(f"Обработано: '{filename}' -> '{new_filename}'")
                processed_count += 1

            except (IOError, SyntaxError, Image.UnidentifiedImageError, ValueError) as e:
                print(f"--- ОШИБКА ---: Файл '{filename}' не читается или поврежден. Ошибка: {e}")
                error_count += 1
            except Exception as e:
                print(f"--- ДРУГАЯ ОШИБКА ---: При обработке файла '{filename}'. Ошибка: {e}")
                error_count += 1
        else:
            print(f"Пропущен: '{filename}' (не изображение или неподдерживаемое расширение)")

    print(f"\nВсего обработано файлов: {processed_count}")
    print(f"Всего ошибок: {error_count}")
    print(f"Очищенные файлы сохранены в: {dest_directory}")



if __name__ == "__main__":
    source_folder = r'D:\Datasets\ptrch_projects\VintageFilter\data'

    processed_folder = r'D:\Datasets\ptrch_projects\VintageFilter\new_data'
    target_output_format = "jpeg"

    clean_and_resave_images(source_folder, processed_folder, target_output_format)

Начинаю очистку и пересохранение изображений из 'D:\Datasets\ptrch_projects\VintageFilter\data' в 'D:\Datasets\ptrch_projects\VintageFilter\new_data'
Обработано: 'photo_image_1.jpg' -> 'photo_image_1.jpeg'
Обработано: 'photo_image_10.jpg' -> 'photo_image_10.jpeg'
Обработано: 'photo_image_100.jpg' -> 'photo_image_100.jpeg'
Обработано: 'photo_image_1000.jpg' -> 'photo_image_1000.jpeg'
Обработано: 'photo_image_10000.jpg' -> 'photo_image_10000.jpeg'
Обработано: 'photo_image_10001.jpg' -> 'photo_image_10001.jpeg'
Обработано: 'photo_image_10002.jpg' -> 'photo_image_10002.jpeg'
Обработано: 'photo_image_10003.jpg' -> 'photo_image_10003.jpeg'
Обработано: 'photo_image_10004.jpg' -> 'photo_image_10004.jpeg'
Обработано: 'photo_image_10005.jpg' -> 'photo_image_10005.jpeg'
Обработано: 'photo_image_10006.jpg' -> 'photo_image_10006.jpeg'
Обработано: 'photo_image_10007.jpg' -> 'photo_image_10007.jpeg'
Обработано: 'photo_image_10008.jpg' -> 'photo_image_10008.jpeg'
Обработано: 'photo_image_10009.jpg' ->