## Kod do augmentacji danych
### dla każdego zdjęcia dokonujemy odbicia, obrotu o losowy kąt z przedziału od -30 do 30 stopni,
### ucięcia od 0 do 30% wysokości i szerokości

#### Jeśli pobrano całe repozytorium nie ma konieczności uruchamiania

In [12]:
import os
import random
from PIL import Image, ImageOps
from pathlib import Path
import shutil

def augment_image(img):
    # Losowe odbicie w poziomie
    if random.random() < 0.5:
        img = ImageOps.mirror(img)

    # Losowy obrót
    angle = random.uniform(-30, 30)
    img = img.rotate(angle)

    # Losowy crop (do 70% oryginału)
    width, height = img.size
    crop_scale = random.uniform(0.7, 1.0)
    new_w, new_h = int(width * crop_scale), int(height * crop_scale)
    left = random.randint(0, width - new_w)
    top = random.randint(0, height - new_h)
    img = img.crop((left, top, left + new_w, top + new_h))
    img = img.resize((width, height))  # Przywróć oryginalny rozmiar

    return img



def augment_dataset_with_structure(input_dir, output_dir, n_augmented=3, test_ratio=0.2):
    input_dir = Path(input_dir)
    output_dir = Path(output_dir)
    train_dir = output_dir / "train"
    test_dir = output_dir / "test"

    train_dir.mkdir(parents=True, exist_ok=True)
    test_dir.mkdir(parents=True, exist_ok=True)

    for category in os.listdir(input_dir):
        category_path = input_dir / category
        if not category_path.is_dir():
            continue

        # Stwórz foldery dla kategorii
        train_cat_path = train_dir / category
        test_cat_path = test_dir / category
        train_cat_path.mkdir(parents=True, exist_ok=True)
        test_cat_path.mkdir(parents=True, exist_ok=True)

        img_files = [f for f in os.listdir(category_path) if (category_path / f).is_file()]
        random.shuffle(img_files)

        # Podział na test i train
        n_test = int(len(img_files) * test_ratio)
        test_files = img_files[:n_test]
        train_files = img_files[n_test:]

        

        # Zapisz treningowe pliki i augmentacje
        for img_file in train_files:
            img_path = category_path / img_file
            try:
                img = Image.open(img_path).convert('RGB')
            except:
                continue

            # Zapisz oryginał
            original_dest = train_cat_path / img_file
            shutil.copy(img_path, original_dest)

            # Augmentacja
            for i in range(n_augmented):
                aug_img = augment_image(img)
                new_name = f"{img_file.rsplit('.', 1)[0]}_aug{i}.jpg"
                aug_img.save(train_cat_path / new_name)
                
        for img_file in test_files:
            img_path = category_path / img_file
            try:
                img = Image.open(img_path).convert('RGB')

                # Zapisz oryginał
                img.save(test_cat_path / img_file)

                # Augmentacja testowych plików
                for i in range(n_augmented):
                    aug_img = augment_image(img)
                    new_name = f"{img_file.rsplit('.', 1)[0]}_aug{i}.jpg"
                    aug_img.save(test_cat_path / new_name)
            except:
                continue




In [13]:
augment_dataset_with_structure(
    input_dir="dataset",           # folder z oryginalnymi danymi
    output_dir="dataset_split",    # nowy folder z train/test + augmentacja
    n_augmented=1,                 # ile augmentacji na każdy obraz treningowy
    test_ratio=0.2                 # 20% do testu
)

In [25]:
# Wybiórcza augmentacja, by zwiększyć liczbę najbardziej podobnych do siebie fasolek
def augment_chosen_dataset(input_dir, output_dir, n_augmented=3, test_ratio=0.2):
    input_dir = Path(input_dir)
    output_dir = Path(output_dir)
    train_dir = output_dir / "train"
    test_dir = output_dir / "test"

    train_dir.mkdir(parents=True, exist_ok=True)
    test_dir.mkdir(parents=True, exist_ok=True)

    categories_to_augment = ["Vatana Ghevda"]  # Kategorii, które chcesz augmentować

    for category in os.listdir(input_dir):
        category_path = input_dir / category
        if not category_path.is_dir():
            continue

        # Stwórz foldery dla kategorii
        train_cat_path = train_dir / category
        test_cat_path = test_dir / category
        train_cat_path.mkdir(parents=True, exist_ok=True)
        test_cat_path.mkdir(parents=True, exist_ok=True)

        img_files = [f for f in os.listdir(category_path) if (category_path / f).is_file()]
        random.shuffle(img_files)

        # Podział na test i train
        n_test = int(len(img_files) * test_ratio)
        test_files = img_files[:n_test]
        train_files = img_files[n_test:]

        # Zapisz treningowe pliki i augmentacje
        for img_file in train_files:
            img_path = category_path / img_file
            try:
                img = Image.open(img_path).convert('RGB')
            except:
                continue

            # Zapisz oryginał
            original_dest = train_cat_path / img_file
            shutil.copy(img_path, original_dest)

            # Augmentacja tylko dla wybranych kategorii
            if category in categories_to_augment:
                for i in range(n_augmented):
                    aug_img = augment_image(img)
                    new_name = f"{img_file.rsplit('.', 1)[0]}_aug{3+i}.jpg"
                    aug_img.save(train_cat_path / new_name)


In [26]:
augment_chosen_dataset(
    input_dir="dataset",           # folder z oryginalnymi danymi
    output_dir="dataset_split",    # nowy folder z train/test + augmentacja
    n_augmented=1,                 # ile augmentacji na każdy obraz treningowy
    test_ratio=0.2                 # 20% do testu
)