In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
from torch.utils.data import Dataset, DataLoader
import numpy as np
import cv2
import os
import matplotlib.pyplot as plt
import pandas as pd
import sklearn
from sklearn.model_selection import train_test_split

In [None]:
# Ścieżka do folderu z oryginalnymi obrazami

def save_to_list():
    output_root = "output"
    X = []
    y = []
    # Przechodzimy rekurencyjnie przez wszystkie pliki w folderze archive
    for root, _, files in os.walk(output_root):
        for file in files:
            if file.endswith(".bmp"):  # Obsługujemy tylko pliki BMP
                input_path = os.path.join(root, file)

                base, ext = os.path.splitext(file)
                new_filename = f"{base}{ext}"
                image = cv2.imread(input_path)
                # gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)
                
                #gray zostało tymczasowo zakomentowane aby sprawdzić accuracy
                
                # zapisanie obrazu w grayscale (3x mniej danych)
                # TODO przezkalowanie z [0,255] do [0,1]
                X.append(image)
                y.append(new_filename.split("_")[0])
    return X, y


# data_all = save_to_list()
# print(np.shape(data_all))
X, y = save_to_list()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123)

X_test, X_val, y_test, y_val = train_test_split(X_test, y_test, test_size=0.5, random_state=123)


## Dalsze przygotowanie danych (przetwarzanie i augmentacja)
Ponieważ ostatni kamień milowy zakończyliśmy z ilością około 3000 zdjęć o rozmiarach 512 x 512 px powinniśmy postarać się zwiększyć ilość zdjęć oraz zmiejszyć ich rozmiar (i dosłownie do 224 x 224 px (standard w DL), i w pamięci)

In [None]:
# https://discuss.pytorch.org/t/balanced-sampling-between-classes-with-torchvision-dataloader/2703/2

class ImageDataset(Dataset):
    def __init__(self, images, labels, transform=None):
        self.images = images
        self.labels = labels
        self.transform = transform # przygotowanie do zwiększenia ilości zdjęć
    
    def __len__(self):
        return len(self.images)
    
    def __getitem__(self, idx):
        image = self.images[idx].astype(np.float32) / 255.0  # zmiana do zakresu [0,1]
        image = torch.tensor(image).permute(2, 0, 1)  # Zmiana osi (H, W, C) → (C, H, W) (tak są zadeklarowane tensory)
        label = torch.tensor(self.labels[idx], dtype=torch.long)
        
        if self.transform:
            image = self.transform(image)
        
        return image, label

### Definiowanie transforamtorów i przypisanie do datasetów PyTorcha
Ponieważ do tej pory używaliśmy sklearn a potrzebujemy pyTorcha (jest lepszy do wybranego przez nas algorytmu uczenia) to musimy przekonwertować dane na format który PyTorch będzie rozumiał

In [None]:

train_transform = transforms.Compose([ #TODO to jest placeholder
    transforms.RandomHorizontalFlip(),
    transforms.RandomRotation((-180, 180)),
    transforms.Resize((224, 224)) # rozmiar do potencjalnej zmiany
])

test_transform = transforms.Compose([])  # do testów - bez zmian


train_dataset = ImageDataset(X_train, y_train, transform=train_transform)
test_dataset = ImageDataset(X_test, y_test, transform=test_transform)


batch_size = 32
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=False)

### Wybór modelu
Wstępnie wybraliśmy algorytm CNN (Convolutional Neural Networks) ponieważ:
- Ilość zdjęć po transformacjach będzie wynosiła dziesiątki tysięcy co sprawia, że użycie tego algorytmu jest zalecane (i możliwe)
- Model powinien umieć rozpoznawać fragmenty zdjęcia do czego nadają się CNNy (robią to automatycznie)
- Jest najlepszym algorytmem do klasyfikacji obrazów (w naszej opinii)

jeśli starczy czasu spróbujemy stworzyć też inne modele aby porównać celność rożnych algorytmów.
#### Powody przeciwko wybraniu pozotałych algorytmów:
- SVM - zbyt wolny przy dużej ilości danych
- Gradient Boosting - Nadaje się do danych tabelarycznych  - nie obrazów

In [None]:
class CNNModel(nn.Module):
    def __init__(self, num_classes=3):
        super(CNNModel, self).__init__()
        self.conv_layers = nn.Sequential(
            nn.Conv2d(3, 32, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),

            nn.Conv2d(32, 64, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),

            nn.Conv2d(64, 128, kernel_size=3, padding=1),
            nn.ReLU(),
            nn.MaxPool2d(2, 2),
        )
        self.fc_layers = nn.Sequential(
            nn.Flatten(),
            nn.Linear(128 * 28 * 28, 512),  # ewentualnie dodać jeszcze jedną warstwę pośrednią
            nn.ReLU(),
            nn.Dropout(0.5), # zapobieganie overfittingowi
            nn.Linear(512, num_classes)
        )

    def forward(self, x):
        x = self.conv_layers(x)
        x = self.fc_layers(x)
        return x


#### Wyjaśnienie kodu

self.conv_layers - zamienia tensor 224×224×3 na tensor 28×28×128, który zawiera ekstraktowane cechy obrazu.

fc_layers - warstwy klasyfikacyjne (ta część która jest okładką deepLearningu) (input - nodes - output)
(ewentualna możliwość dodania dodatkowej warstwy nodes w razie wymagań)