# Создание расширенного датасета для предиктивной модели с классом 'not_document'

Этот Notebook демонстрирует процесс создания нового датасета на основе оригинального DocBank_Subset_Prediction_4000, добавляя класс 'not_document' из CIFAR-10 (3000 изображений: 2400 train, 600 val).

## Шаг 1: Импорт библиотек
Импортируем библиотеки для работы с датасетами, изображениями и копированием директорий.

In [None]:
import torch
from torchvision import datasets, transforms
from PIL import Image
import os
from tqdm import tqdm
import shutil

## Шаг 2: Настройка путей
Определяем пути к оригинальному и новому датасету, создаём директорию для нового.

In [None]:
original_dataset_path = '/home/kudriavtcevroman-10/DocBank_Subset_Prediction_4000'
new_dataset_path = '/home/kudriavtcevroman-10/DocBank_Subset_Prediction_7000'
os.makedirs(new_dataset_path, exist_ok=True)

## Шаг 3: Копирование оригинального датасета
Копируем оригинальный датасет в новый для сохранения структуры.

In [None]:
shutil.copytree(original_dataset_path, new_dataset_path, dirs_exist_ok=True)

## Шаг 4: Определение трансформаций для CIFAR-10
Трансформации для ресайза изображений CIFAR-10 к размеру модели (256x362).

In [None]:
cifar_transform = transforms.Compose([
    transforms.Resize((256, 362)),
    transforms.ToTensor()
])

## Шаг 5: Загрузка CIFAR-10
Загружаем датасеты CIFAR-10 (train и test), определяем количество изображений для 'not_document' (2400 train, 600 val).

In [None]:
cifar_train = datasets.CIFAR10(root='./data', train=True, download=True, transform=cifar_transform)
cifar_test = datasets.CIFAR10(root='./data', train=False, download=True, transform=cifar_transform)

num_train = 2400
num_val = 600

## Шаг 6: Функция сохранения изображений
Функция для сохранения ресайзенных изображений CIFAR-10 в папки train/val/not_document как JPG.

In [None]:
def save_images(dataset, split, num_images, class_name='not_document'):
    split_path = os.path.join(new_dataset_path, split, class_name)
    os.makedirs(split_path, exist_ok=True)
    for i in tqdm(range(num_images), desc=f"Сохранение {split}/{class_name}"):
        img, _ = dataset[i]
        img_pil = transforms.ToPILImage()(img)
        img_pil.save(os.path.join(split_path, f'cifar_{i}.jpg'))

## Шаг 7: Сохранение изображений 'not_document'
Сохраняем изображения в новый датасет.

In [None]:
save_images(cifar_train, 'train', num_train)
save_images(cifar_test, 'val', num_val)