In [None]:
import os
import json
from datasets import load_dataset
from PIL import Image


# Путь к выходной директории
output_dir = "yolov5/dataset"
data_dir = os.path.join(output_dir, "custom_data")
os.makedirs(data_dir, exist_ok=True)

# Маппинг классов
class_mapping = {
    "menu.nm": 0,
    "menu.price": 1,
    "menu.cnt": 2,
    "total.total_price": 3,
}

# Функция для вычисления bounding box
def get_bbox_info(quad):
    x_coords = [quad[f"x{i}"] for i in range(1, 5)]
    y_coords = [quad[f"y{i}"] for i in range(1, 5)]

    min_x, max_x = min(x_coords), max(x_coords)
    min_y, max_y = min(y_coords), max(y_coords)

    center_x = min_x + (max_x - min_x) / 2
    center_y = min_y + (max_y - min_y) / 2
    width = max_x - min_x
    height = max_y - min_y

    return center_x, center_y, width, height


# Функция сохранения аннотаций
def save_annotation(example, image_id, output_folder):
    filename = f"{image_id}.txt"
    path = os.path.join(output_folder, filename)

    try:
        gt_dict = json.loads(example["ground_truth"])
    except json.JSONDecodeError:
        return

    # Получаем размер изображения: сначала из мета, иначе из PIL.Image
    meta = gt_dict.get("meta", {})
    img_size = meta.get("image_size")
    if img_size:
        img_width = img_size["width"]
        img_height = img_size["height"]
    else:
        try:
            img_width, img_height = example["image"].size
        except Exception as e:
            print(f"⚠️ Не удалось получить размер изображения для {image_id}, используем 1000x1000")
            img_width = img_height = 1000

    with open(path, 'w') as f:
        for item in gt_dict["valid_line"]:
            category = item["category"]
            words = item["words"]

            cls_id = class_mapping.get(category)
            if cls_id is None:
                continue  # пропускаем неизвестные или исключённые классы

            for word in words:
                quad = word["quad"]
                cx, cy, w, h = get_bbox_info(quad)

                # Нормализация относительно реального размера изображения
                cx_norm = cx / img_width
                cy_norm = cy / img_height
                w_norm = w / img_width
                h_norm = h / img_height

                line = f"{cls_id} {cx_norm:.10f} {cy_norm:.10f} {w_norm:.10f} {h_norm:.10f}\n"
                f.write(line)


# Функция сохранения изображения (принимает PIL.Image)
def save_image(image_obj, image_id, output_folder):
    try:
        image_obj.convert("RGB").save(os.path.join(output_folder, f"{image_id}.jpg"), "JPEG")
    except Exception as e:
        print(f"❌ Ошибка при сохранении изображения {image_id}: {e}")


# Загрузка датасета
dataset = load_dataset("naver-clova-ix/cord-v2", trust_remote_code=True)

# Списки путей
paths = {"train": [], "validation": [], "test": []}
global_idx = 1  # Общий счётчик изображений

# Обработка всех сплитов подряд
for split in ["train", "validation", "test"]:
    print(f"Processing {split} split...")
    for example in dataset[split]:
        image_id = f"image{global_idx:03d}"

        # Парсим ground_truth
        try:
            gt_dict = json.loads(example["ground_truth"])
        except json.JSONDecodeError:
            print(f"⚠️ Пропущено изображение {image_id}: ошибка парсинга ground_truth")
            global_idx += 1
            continue

        # Сохраняем изображение
        try:
            save_image(example["image"], image_id, data_dir)
        except Exception as e:
            print(f"❌ Не удалось сохранить изображение {image_id}: {e}")
            global_idx += 1
            continue

        # Сохраняем аннотацию
        save_annotation(example, image_id, data_dir)

        # Добавляем путь к изображению
        paths[split].append(f"dataset/custom_data/{image_id}.jpg")

        # Переходим к следующему номеру
        global_idx += 1


# Сохраняем пути в файлы
with open(os.path.join(output_dir, "custom_train.txt"), "w") as f:
    f.write("\n".join(paths["train"]))

with open(os.path.join(output_dir, "custom_valid.txt"), "w") as f:
    f.write("\n".join(paths["validation"]))

with open(os.path.join(output_dir, "custom_train_test.txt"), "w") as f:
    f.write("\n".join(paths["test"]))

print(f"\n✅ Готово! Обработано изображений: {global_idx - 1}")

In [None]:
!zip -r /content/yolov5.zip /content/yolov5