<h1 align="center">
  Nienadzorowana reprezentacja autoenkodery i modele generatywne
</h1>

<h4 align="center">
  12.10.2023
</h4>
<br/>


# Przekształcanie obrazów

### Importowanie niezbędnych modułow

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

import numpy as np
import torch
import torchvision
from torchvision import datasets, models, transforms


sns.set(font_scale=2.5)
sns.set_style("whitegrid")

In [None]:
def show(imgs, num_col=None):
    plt.figure(figsize=[16, 8])
    grid = torchvision.utils.make_grid(
        imgs, nrow=num_col, padding=1, normalize=True, scale_each=True
    )
    np_grid = grid.cpu().numpy()
    plt.axis("off")
    plt.imshow(np.transpose(np_grid, (1, 2, 0)), interpolation="nearest")

## Normalizacja
Normalizcja obrazu na podstawie średniej i odchylenia standardowego. 
```
output[channel] = (input[channel] - mean[channel]) / std[channel]
```

In [None]:
root = "../datasets/cifar10"
download = True

transform = transforms.Compose(
    [transforms.ToTensor(), transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))]
)

trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=10, shuffle=True, num_workers=2
)

In [None]:
it = iter(train_loader)
d = next(it)
print(d[0].shape)
print(torch.min(d[0]), torch.max(d[0]))

show(d[0], num_col=10)

## Random Horizontal Flip
Losowe odwrócenie w poziomie to prosta technika polegająca na odwróceniu obrazu w poziomie z określonym prawdopodobieństwem. Może to pomóc modelowi nauczyć się tego samego obiektu z różnych punktów widzenia.

In [None]:
transform = transforms.Compose([
    transforms.ToTensor(),
])

trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
print(torch.min(d[0]), torch.max(d[0]))

show(d[0], num_col=10)


transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.RandomHorizontalFlip(p=0.5)
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
show(d[0], num_col=10)

## Random Rotation
Losowy obrót to technika losowego obracania obrazu o określony kąt. Może to pomóc modelowi nauczyć się tego samego obiektu pod różnymi kątami.

In [None]:
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.RandomRotation(degrees=15)
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
show(d[0], num_col=10)

## Resize
Zmiana rozmiaru obrazka

In [None]:
transform = transforms.Compose([
   transforms.Resize(size=42),
    transforms.ToTensor(),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)

## Random Crop
Losowe kadrowanie to technika polegająca na losowym przycinaniu obrazu do określonego rozmiaru. Może to pomóc modelowi nauczyć się skupiać na ważnych częściach obrazu.

In [None]:
transform = transforms.Compose([
    transforms.Resize(size=42),
    transforms.ToTensor(),
    transforms.RandomCrop(size=32)
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)

## Color Jitter
Drgania kolorów to technika losowo zmieniająca jasność, kontrast, nasycenie i odcień obrazu. Może to pomóc modelowi nauczyć się odporności na zmiany w schemacie kolorów.

In [None]:
transform = transforms.Compose([
    transforms.ToTensor(),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)


transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.ColorJitter(brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)

## Gaussian Blur
Rozmycie gaussowskie to technika polegająca na dodaniu do obrazu losowego szumu gaussowskiego. Może to pomóc modelowi nauczyć się odporności na szumy na obrazie.

In [None]:
transform = transforms.Compose([
    transforms.ToTensor(),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)


transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.GaussianBlur(kernel_size=3),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)

## RandomErasing
Technika powiększania obrazu RandomErasing losowo wybiera prostokątny obszar na oryginalnym obrazie i usuwa wszystkie piksele z tego obszaru. Prawdopodobieństwo lub operację kasowania można kontrolować za pomocą atrybutu „p”, którego wartość waha się od $0 \leq p\leq 1$.

In [None]:
transform = transforms.Compose([
    transforms.ToTensor(),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)


transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.RandomErasing(p=.7)
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)

Więcej transformacji można znaleźć [tutaj](https://pytorch.org/vision/master/transforms.html).

## Zaszumianie orazów

In [None]:
def denoising(images, noise_factor, min_clip=None, max_clip=None):
    noisy_imgs = images + noise_factor * torch.randn_like(images)
    return torch.clamp(noisy_imgs, min=min_clip, max=max_clip)

In [None]:
transform = transforms.Compose([
    transforms.ToTensor(),
])
trainset = datasets.CIFAR10(
    root=root, train=True, download=download, transform=transform
)
train_loader = torch.utils.data.DataLoader(
    trainset, batch_size=30, shuffle=False, num_workers=2
)

it = iter(train_loader)
d = next(it)
print(d[0].shape)
show(d[0], num_col=10)

it = iter(train_loader)
d = next(it)
d = denoising(d[0], 0.1, min_clip=0, max_clip=1)
show(d, num_col=10)

# Denoising AE
Używając funkcji zaszumiania obrazów, napisz model ,,denoising AE'' (na wejściu przyjmuje zaszumione dane, a na wyjściu zwraca obrazy bez szumu). Naucz model na zaszumionym zbiorze MNIST i oblicz błąd MSE między oryginalnymi obrazami MNISTa (niezaszumionymi), a rekonstrukcjami zaszumionych obrazów.