In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
import os
import xml.etree.ElementTree as ET
from PIL import Image

images_path = '/content/drive/MyDrive/Datasets/VOC_XML/images'
annotations_path = '/content/drive/MyDrive/Datasets/VOC_XML/Annotations'

# Папки для сохранения вырезанных полей
output_dirs = {
    "Surname": "fields/01",
    "Name": "fields/02",
    "Phone": "fields/03"
}


for dir_path in output_dirs.values():
    os.makedirs(dir_path, exist_ok=True)


def extract_and_save_fields(images_path, annotations_path, output_dirs):
    file_counts = {key: 0 for key in output_dirs.keys()}  # Счетчик для имен файлов


    annotation_files = [os.path.join(annotations_path, f) for f in os.listdir(annotations_path) if f.endswith('.xml')]

    for ann_file in annotation_files:
        # Парсим XML файл
        tree = ET.parse(ann_file)
        root = tree.getroot()
        filename = root.find('filename').text.replace('.jpg', '.png')


        image_path = os.path.join(images_path, filename)
        if not os.path.exists(image_path):
            print(f"Image {image_path} not found, skipping...")
            continue

        image = Image.open(image_path)


        for obj in root.iter('object'):
            label = obj.find('name').text
            if label not in output_dirs:
                continue

            # Получаем координаты bounding box (bbox)
            bbox = obj.find('bndbox')
            xmin = int(bbox.find('xmin').text)
            ymin = int(bbox.find('ymin').text)
            xmax = int(bbox.find('xmax').text)
            ymax = int(bbox.find('ymax').text)


            cropped_image = image.crop((xmin, ymin, xmax, ymax))

            # Сохраняем изображение с новым именем
            file_counts[label] += 1
            output_dir = output_dirs[label]
            output_filename = f"{os.path.basename(output_dir)}_{file_counts[label]:04d}.png"  # Имя файла с нулями (например, 0001)
            output_path = os.path.join(output_dir, output_filename)
            cropped_image.save(output_path)
            print(f"Saved {output_path}")

In [None]:
extract_and_save_fields(images_path, annotations_path, output_dirs)

Saved fields/01/01_0001.png
Saved fields/02/02_0001.png
Saved fields/01/01_0002.png
Saved fields/02/02_0002.png
Saved fields/03/03_0001.png
Saved fields/01/01_0003.png
Saved fields/02/02_0003.png
Saved fields/03/03_0002.png
Saved fields/01/01_0004.png
Saved fields/02/02_0004.png
Saved fields/03/03_0003.png
Saved fields/01/01_0005.png
Saved fields/02/02_0005.png
Saved fields/03/03_0004.png
Saved fields/01/01_0006.png
Saved fields/02/02_0006.png
Saved fields/03/03_0005.png
Saved fields/01/01_0007.png
Saved fields/02/02_0007.png
Saved fields/03/03_0006.png
Saved fields/01/01_0008.png
Saved fields/02/02_0008.png
Saved fields/03/03_0007.png
Saved fields/01/01_0009.png
Saved fields/02/02_0009.png
Saved fields/03/03_0008.png
Saved fields/01/01_0010.png
Saved fields/02/02_0010.png
Saved fields/03/03_0009.png
Saved fields/01/01_0011.png
Saved fields/02/02_0011.png
Saved fields/03/03_0010.png
Saved fields/01/01_0012.png
Saved fields/02/02_0012.png
Saved fields/03/03_0011.png
Saved fields/01/01_0

In [None]:
import shutil


source_path = 'fields'


destination_path = '/content/drive/MyDrive/Datasets/fields'


shutil.copytree(source_path, destination_path)
print(f"Папка успешно сохранена на Google Диск по пути: {destination_path}")

Папка успешно сохранена на Google Диск по пути: /content/drive/MyDrive/Datasets/fields


## Создание текстового файла с именами файлов изображений

In [None]:
import os

# Путь к основной папке, где находятся все файлы
base_path = '/content/drive/MyDrive/Datasets/fields'

# Список для хранения названий файлов без расширений
file_names = []

# Проходим по всем подкаталогам в указанной папке
for root, dirs, files in os.walk(base_path):
    for file_name in files:
        if os.path.isfile(os.path.join(root, file_name)):
            # Извлекаем имя файла без расширения
            file_base_name = os.path.splitext(file_name)[0]
            file_names.append(file_base_name)

# Сортируем список имен файлов по возрастанию
file_names.sort()

# Путь для сохранения файла fields.txt на Google Диске
fields_txt_path = '/content/drive/MyDrive/Datasets/fields/fields.txt'

# Записываем отсортированные имена файлов в fields.txt
with open(fields_txt_path, 'w') as f:
    for name in file_names:
        f.write(f"{name}\n")

print(f"Файл 'fields.txt' успешно сохранен на Google Диске по пути: {fields_txt_path}")


Файл 'fields.txt' успешно сохранен на Google Диске по пути: /content/drive/MyDrive/Datasets/fields/fields.txt
