In [None]:
from google.colab import drive
drive.mount('/drive')

Mounted at /drive


In [3]:
import os
import json
from PIL import Image
from tqdm import tqdm

# Пути к папкам с изображениями и аннотациями (txt-файлы)
images_dir = "/content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/images"
labels_dir = "/content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels"
output_json = '/content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/annotations.json'

# Список изображений (расширения можно дополнять)
image_files = [f for f in os.listdir(images_dir) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
print(f'count of images: {len(image_files)}')

# Определяем категории (пример: 0 - корабль, 1 - самолёт, 2 - машина)
categories = [
    {"id": 1, "name": "plane", "supercategory": "none"},
    {"id": 2, "name": "car", "supercategory": "none"},
    {"id": 3, "name": "ship", "supercategory": "none"}
]

images = []
annotations = []
ann_id = 1  # уникальный идентификатор для каждой аннотации
path_not_found_counter = 0

for img_id, file_name in tqdm(enumerate(image_files)):
    # if img_id > 20:
    #   break

    img_path = os.path.join(images_dir, file_name)
    # Открываем изображение для получения размеров
    with Image.open(img_path) as img:
        width, height = img.size

    # Формируем информацию об изображении
    image_info = {
        "id": img_id,
        "width": width,
        "height": height,
        "file_name": file_name
    }
    images.append(image_info)
    # print(f'len images: {len(images)}')

    # Путь к соответствующему txt-файлу с аннотациями (предполагается, что имя совпадает)
    label_file = os.path.join(labels_dir, os.path.splitext(file_name)[0] + '.txt')
    # print(f'filename {file_name}')
    # print(f'label file {label_file}')
    # print(f'exist {os.path.exists(label_file)}')
    if os.path.exists(label_file):
        line_count = 0
        with open(label_file, 'r') as f:
            lines = f.readlines()
        for line in lines:
            line = line.strip()
            if not line:
                continue
            line_count +=1
            # Разбираем строку формата: <class> <x_center> <y_center> <width> <height>
            parts = line.split()
            if len(parts) != 5:
                continue
            class_id, x_center, y_center, w_norm, h_norm = map(float, parts)
            # Преобразуем нормализованные значения в абсолютные координаты
            x_center_abs = x_center * width
            y_center_abs = y_center * height
            w_abs = w_norm * width
            h_abs = h_norm * height
            # Переводим в формат COCO: [x_min, y_min, width, height]
            x_min = x_center_abs - w_abs / 2
            y_min = y_center_abs - h_abs / 2

            annotation = {
                "id": ann_id,
                "image_id": img_id,
                "category_id": int(class_id),
                "bbox": [x_min, y_min, w_abs, h_abs],
                "area": w_abs * h_abs,
                "iscrowd": 0
            }
            annotations.append(annotation)
            ann_id += 1

        if line_count == 0:
          print(f"Пустой файл: {label_file}")

    else:
      path_not_found_counter += 1
      if path_not_found_counter % 100 == 0:
        print(f'Путь не найден: {path_not_found_counter}')


print(f'ann id: {ann_id}')
# Собираем итоговую структуру в формате COCO
coco_format = {
    "images": images,
    "annotations": annotations,
    "categories": categories
}

# Сохраняем в JSON-файл
with open(output_json, 'w') as f:
    json.dump(coco_format, f, indent=4)

print(f'Не найденных лейблов: {path_not_found_counter}')
print(f"Обработано изображений: {len(images)}")
print(f"Найдено аннотаций: {len(annotations)}")
print(f"Количество аннотационных файлов: {len(os.listdir(labels_dir))}")

print(f"COCO-аннотации сохранены в {output_json}")


count of images: 3714


46it [01:10,  2.14s/it]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/b9438e44-6980-492a-becb-bc9017f323ff.txt


92it [01:10,  2.78it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/b63e09d4-4c22-42a3-8b20-bde3c6ed3025.txt


326it [02:47,  2.63it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/daa6e50f-a4c7-41a6-b0de-a82679e1529d.txt


428it [03:29,  1.71it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/d988959f-c730-4cfc-a88a-01b40151790a.txt


479it [03:52,  1.31it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/e2217bad-b558-400c-bf63-782d614c16e3.txt


499it [04:00,  2.90it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/dfb8995b-246a-4fd6-a757-7c771caebdd6.txt


792it [06:04,  2.53it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/ef0164df-0c4c-4506-8e4f-3e028b3ccde7.txt


1471it [10:58,  2.62it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/9981e16c-ec30-41cb-ab59-93d9262e9da9.txt


1692it [12:27,  1.94it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/ab9834cf-e791-4ac8-be91-684d9a69aa63.txt


1866it [13:43,  3.00it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/be24d611-1236-4d21-88e6-50774892ea0a.txt


1872it [13:44,  2.99it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/bb04e702-802f-4d4e-adf0-981ae70327e0.txt


1899it [13:54,  2.59it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/be130fef-f8df-4837-854a-2e7529d81143.txt


1914it [14:00,  2.59it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/b7521756-f90e-4dce-85ed-fe213010bdbd.txt


2082it [15:09,  2.83it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/3cacb42f-6549-4dda-8164-fe9c16e34c91.txt


2211it [15:58,  2.41it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/370daa21-b0a3-4443-8ce0-285f7ac904c7.txt


2313it [16:41,  2.36it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/460a911f-1c91-4d8c-a6dd-e2369c78f261.txt


2372it [17:08,  2.69it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/44ed68dd-9698-4e37-b0ef-48ad3c6778de.txt


2384it [17:13,  3.05it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/53663491-8b27-493b-b96f-ecc23b7859bc.txt


2488it [17:54,  2.78it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/45711a83-1a45-4b24-8a21-58fbbe15cff3.txt


2657it [19:05,  2.23it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/5b3870c9-2c2a-4a45-a96d-176b765b8493.txt


2665it [19:08,  2.58it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/5fb2b9a0-96a7-43df-a865-7823df7a8566.txt


2669it [19:09,  2.97it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/5f96d2a7-2f1d-440b-ad4d-4c7f13c99405.txt


2886it [20:43,  2.92it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/6a5c7a27-d7b0-45ae-b5c8-ad303633e4f3.txt


3048it [21:48,  3.17it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/101351da-9fec-4d60-92ec-8bf5265b4408.txt


3227it [23:01,  2.22it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/18773673-a3a0-4889-ad82-636adeb9dd57.txt


3232it [23:02,  2.62it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/0fbc97c9-e616-4397-91df-eae9c36166ec.txt


3292it [23:25,  2.56it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/03ffc4e3-14b0-49fe-ac8f-db4c42441f21.txt


3307it [23:30,  2.65it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/10f711ad-ff6e-4d22-9850-eec3842f9a51.txt


3342it [23:45,  2.56it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/10db0172-90a1-4402-9d03-a7dd6daf2d15.txt


3368it [23:54,  2.75it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/19a1685f-e15e-4110-b797-1a2c3a8bc7ec.txt


3467it [24:36,  2.99it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/1b44769d-cfa4-4bd3-9120-f91bf3e13446.txt


3591it [25:25,  2.38it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/1ead30d8-c58d-4ac5-9f5b-0cf0517e3773.txt


3597it [25:26,  3.33it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/1f082c6a-77ec-40c6-8837-90c191c74a30.txt
Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/18fead09-4d27-4e07-ab0c-369fbc540e24.txt


3622it [25:35,  2.80it/s]

Пустой файл: /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/labels/2ac0bda0-7b3f-46c3-803e-a955a913a8a7.txt


3714it [26:11,  2.36it/s]


ann id: 17340
Не найденных лейблов: 6
Обработано изображений: 3714
Найдено аннотаций: 17339
Количество аннотационных файлов: 3708
COCO-аннотации сохранены в /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/annotations.json


In [4]:
import json
import os
import random

# Путь к файлу с аннотациями COCO
annotations_path = output_json
train_output_path = output_json
val_output_path = '/content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/annotations_val.json'

# Доля данных для валидации
val_ratio = 0.1

# Чтение исходного файла с аннотациями
with open(annotations_path, 'r') as f:
    data = json.load(f)

# Перемешиваем изображения для случайного выбора валидационных
random.shuffle(data['images'])

# Вычисляем количество валидационных изображений
val_size = int(len(data['images']) * val_ratio)

# Разделяем изображения на тренировочные и валидационные
val_images = data['images'][:val_size]
train_images = data['images'][val_size:]

# Получаем ID валидационных изображений
val_image_ids = {img['id'] for img in val_images}

# Разделяем аннотации на тренировочные и валидационные
val_annotations = [ann for ann in data['annotations'] if ann['image_id'] in val_image_ids]
train_annotations = [ann for ann in data['annotations'] if ann['image_id'] not in val_image_ids]

# Формируем тренировочный и валидационный словари в формате COCO
train_data = {
    "images": train_images,
    "annotations": train_annotations,
    "categories": data['categories']
}

val_data = {
    "images": val_images,
    "annotations": val_annotations,
    "categories": data['categories']
}

with open(train_output_path, 'w') as f:
    json.dump(train_data, f, indent=4)

with open(val_output_path, 'w') as f:
    json.dump(val_data, f, indent=4)

print(f"Тренировочные данные сохранены в {train_output_path}")
print(f"Валидационные данные сохранены в {val_output_path}")


Тренировочные данные сохранены в /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/annotations.json
Валидационные данные сохранены в /content/drive/MyDrive/dataset_CV_bootcamp/datasets/train/annotations_val.json
