# Generatyviniai neuroniniai tinklai

- Generatyviniai adversariniai tinklai (angl. generative adversarial networks, GANs) yra dar viena dirbtinių neuroninių tinklų architektūra, naudojama naujų duomenų (vaizdo, garso) generavimui. 

- Idėja buvo prisatyta 2014 m. mokslininko Ian Goodfellow ir jo kolegų.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/gans_paper.png" alt="gans-paper" width="35%">
<p><strong>1.14 pav., Straipsnis, kuriame pristatyti GANs </strong></p>
</div>

- Iki GAN tinklų atsiradimo generatyviniai modeliai nė neegzistavo. Kai kurie eksperimentai buvo atliekami su autokoderiais, dažnai duodančiais neryškius vaizdus, artefaktus. 

- Bet žmonės jau žinojo, kaip sukurti galingus vaizdų klasifikatorius! 2012 m. pasirodęs *AlexNet* modelis buvo pirmasis modelis, sutriuškinęs savo konkurentus vaizdo klasifikavimo uždaviniuose. 

- Goodfellow idėja buvo, užuot kūrus galingą generatorių, paimti jau egzistuojančio klasifikatoriaus (kurį jis pavadino diskriminatoriumi) architektūrą bei jį panaudoti *apmokant kitą modelį*, atsakingą už naujų duomenų generavimą.

- Pagrindinė GAN inovacija – generatoriaus užduotis ne tiesiogiai sukurti duomenis, panašius į apmokymo aibę (labai sunki užduotis), bet sukurti tokius duomenis, kurie galėtų apgauti diskriminatorių, klasifikuojant juos kaip tikrus.

## Pagrindiniai komponentai

**Generatorius (G)**: Generatoriaus tinklo tikslas - sukurti duomenų pavyzdžius, kurie nesiskirtų nuo tikrų duomenų. Jis pradeda su atsitiktiniu triukšmo vektoriumi ir paverčia jį duomenų pavyzdžiu. Generatoriaus tikslas - sukurti išvestį, kuri būtų kuo artimesnė tikrajam duomenų pasiskirstymui.

**Diskriminatorius (D)**: Diskriminatorius yra binarinis klasifikatorius, kuriuo bandoma atskirti tikruosius duomenų pavyzdžius nuo generatoriaus sukurtų pavyzdžių. Jo įvestis tikras arba sugeneruotas duomenų rinkinio pavyzdys, o išvestis – tikimybė, nurodanti, ar pavyzdys yra klasifikuojamsa kaip tikras, ar kaip netikras.

## Adversarinio mokymosi procesas

- GAN tinklo apmokymas yra minmax optimizavimo uždavinys tarp generatoriaus ir diskriminatoriaus

- Mokymosi pradžioje generatorius pateikia akivaizdžiai netikrus duomenis, todėls diskriminatorius greitai išmoksta nustatyti, kad jie yra netikri

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/gans_1.png" alt="gans-example" width="85%">
</div>

- Tęsiantis mokymosi procesui, generatorius vis labiau artėja prie sugeneruotų duomenų, galinčių apgauti diskriminatorių.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/gans_2.png" alt="gans-example" width="85%">
</div>

- Galiausiai, jei generatoriaus apmokymas pavyksta, diskriminatorius vis prasčiau atskiria tikrą duomenų atvejį nuo netikro. Jis pradeda klasifikuoti netikrus duomenis kaip tikrus, ir jo tikslumas mažėja.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/gans_3.png" alt="gans-example" width="85%">
</div>

- GAN architektūros schema atrodo daugmaž taip:

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/gans_architecture.png" alt="gans-architecture" width="80%">
</div>

### Netikties funkcija

- Straipsnyje, kuriame pristatyti GANs, netikties funkcija apibrėžiama formule:

$$
L(G, D) = \frac{1}{m} \sum_{i=1}^{m} [\log D(x^{(i)})] + \frac{1}{m} \sum_{i=1}^{m} [\log(1 - D(G(z^{(i)})))] 
$$

- Generatorius ($G$) stengiasi minimizuoti šią funkciją, o diskriminatorius ($D$) stengiasi ją maksimizuoti (nes norime "apgauti" diskriminatorių). Tai yra kiek kitokia optimizavimo forma, nuo mums įprastos $\min_{w} f(w)$:

$$
\min_{G} \max_{D} L(G, D)
$$

## Daugdaros didelio matmens erdvėse

- Kiekvieną vaizdą galime įsivaizduoti kaip tašką didelio matmens erdvėje – kiekvieno pikselio vertė atitinka tašką ant atitinkamos dimensijos ašies. Pvz., turėdami vieno kanalo (*grayscale*) nuotrauką, susidedančią iš 3 pikselių, šių nuotraukų erdvę galime geometriškai pavaizduoti 3D kubu:

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/manifold_hypercube.gif" alt="manifold-hypercube" width="65%">
</div>

- Tuo tarpu, 256x256 vieno kanalo vaizdą galima pavaizduoti 65 536 matmenų hiperkube.

- Didžioji dauguma tokio hiperkubo taškų yra triukšmingi, beprasmiai vaizdai. Reikšmingi vaizdai, pavyzdžiui, nuotraukos ar parašyti puslapiai, šioje erdvėje pasitaiko itin retai.

- Daugdaros – tai mažesnio matavimo poerdviai aukšto matmens erdvėse, turintys mažiau laisvės laipsnių (t.y. gali būti atvaizduoti į mažesnio matavimo erdves). 

- Manoma, jog prasmingi vaizdai yra išsidėstę mažesnio matmens poerdviuose šioje didelio matmens erdvėje (hiperkube). Pavyzdžiui, vaizdų, kuriuose vaizduojamas žmogaus veidas su skirtingomis išraiškomis, rinkinys yra kažkur „veidų daugdaroje“, kadangi visų tokių nuotraukų pikselių pasiskirstymai turėtų būti bent kiek panašūs. Suradus tokias daugdaras bei judant jomis, galime matyti sklandžiai (tolydžiai) besikeičiančių vaizdų animacijas.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/manifold_transitions.gif" alt="manifold-transitions" width="65%">
</div>

- Generatyviniai adversariniai tinklai išmoksta aproksimuoti šias daugdaras. Jie atvaizduoja mažo matmens erdvę (angl. latent space) į didelio matmens vaizdų erdvę, taip išmokdami daugdaros struktūrą. Turint daugdaros aproksimaciją, ją galima panaudoti "vaikštant joje", taip sugeneruojant realistiškai atrodančias nuotraukas, esančias šalia viena kitos (toje *latent space*) bei gaunant gražius netriukšmingus perėjimus.

<div style="text-align: center;">
<img src="https://raw.githubusercontent.com/ugniusalekna/intro-to-ml/main/images/drag_gan.gif" alt="drag-gan" width="65%">
</div>


## Implementacija PyTorch

In [1]:
import numpy as np
from sklearn.model_selection import train_test_split
from quickdraw import QuickDrawDataGroup

def load_quickdraw_data(classes, image_size, val_split=None, max_drawings_per_class=None):

    images = []
    labels = []
    label_dict = {cls: idx for idx, cls in enumerate(classes)}

    for cls in classes:
        qdg = QuickDrawDataGroup(cls, max_drawings=max_drawings_per_class)
        for drawing in qdg.drawings:
            image = drawing.get_image().convert('L')
            image = image.resize(image_size)
            image_array = np.array(image)
            image_array = 255 - image_array
            images.append(image_array)
            labels.append(label_dict[cls])

    X = np.array(images)
    y = np.array(labels)

    if val_split is not None:
        X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=val_split, stratify=y, random_state=42)
        X, y = (X_train, y_train), (X_val, y_val)

    return X, y


CLASSES = [
    "bicycle",
]

train_data = load_quickdraw_data(CLASSES, image_size=(128, 128))

loading bicycle drawings
load complete


In [34]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class ConvBlock(nn.Sequential):
    def __init__(self, channels_in, channels_out, activation=True, batch_norm=True, **kwargs):
        layers = [nn.Conv2d(channels_in, channels_out, **kwargs)]
        layers += [nn.BatchNorm2d(channels_out)] if batch_norm else []
        layers += [nn.GELU()] if activation else []
        super().__init__(*layers)


class LinearBlock(nn.Sequential):
    def __init__(self, channels_in, channels_out, activation=True, dropout=0.0, **kwargs):
        layers = [nn.Linear(channels_in, channels_out, **kwargs)]
        layers += [nn.GELU()] if activation else []
        layers += [nn.Dropout(dropout)] if dropout > 0.0 else []
        super().__init__(*layers)


class Discriminator(nn.Module):
    def __init__(self, image_size, channels_in, hidden_layers):
        super().__init__()
        self.image_size = image_size
        self.channels_in = channels_in
        self.hidden_layers = hidden_layers
        
        conv_layers = []
        
        for i, channels_out in enumerate(hidden_layers):
            stride = 2 if i == 0 or hidden_layers[i] != hidden_layers[i-1] else 1
            conv_layers.append(
                ConvBlock(channels_in, channels_out, kernel_size=3, padding=1, stride=stride)
            )
            channels_in = channels_out
        
        self.conv_blocks = nn.Sequential(*conv_layers)

        self.flatten = nn.Flatten()
    
        conv_output_size = self._get_conv_output_size(*image_size)
        
        self.fc_blocks = nn.Sequential(
            LinearBlock(conv_output_size, 64, dropout=0.25),
            LinearBlock(64, 1, activation=False)
        )
        
    @torch.no_grad()
    def _get_conv_output_size(self, height, width):
        self.eval()
        dummy_input = torch.zeros(1, 1, height, width)
        output = self.conv_blocks(dummy_input)
        self.train()
        return output.numel()
    
    def forward(self, x):
        x = self.conv_blocks(x)
        x = self.flatten(x)
        x = self.fc_blocks(x)
        
        return F.sigmoid(x)


# Example usage
model = Discriminator(image_size=(64, 64), channels_in=1, hidden_layers=[16, 32, 64])
inp = torch.rand(1, 1, 64, 64, dtype=torch.float32)
out = model(inp)

print(inp.shape)
print(out.shape)

torch.Size([1, 1, 64, 64])
torch.Size([1, 1])


In [23]:
import numpy as np


class DeconvBlock(nn.Sequential):
    def __init__(self, channels_in, channels_out, activation=True, batch_norm=True, **kwargs):
        layers = [nn.ConvTranspose2d(channels_in, channels_out, **kwargs)]
        layers += [nn.BatchNorm2d(channels_out)] if batch_norm else []
        layers += [nn.GELU()] if activation else []
        super().__init__(*layers) 
        
        
class Generator(nn.Module):
    def __init__(self, hidden_layers, channels_out, latent_dim):
        super().__init__()
        self.hidden_layers = hidden_layers
        self.channels_out = channels_out
        self.latent_dim = latent_dim
        
        deconv_blocks = [DeconvBlock(latent_dim, hidden_layers[0], kernel_size=4, stride=1, padding=0)]
        deconv_blocks += [
            DeconvBlock(hidden_layers[i], hidden_layers[i+1], kernel_size=4, stride=2, padding=1)
            for i in range(len(hidden_layers) - 1)
        ]
        deconv_blocks += [DeconvBlock(hidden_layers[-1], channels_out, kernel_size=4, stride=2, padding=1,
                                      activation=False)]
        
        self.deconv_blocks = nn.Sequential(*deconv_blocks)

    def forward(self, x):
        x = self.deconv_blocks(x)
        return F.tanh(x)


# Example usage
model = Generator(hidden_layers=[1024, 512, 256, 128], channels_out=1, latent_dim=100)
inp = torch.randn(1, 100, 1, 1, dtype=torch.float32)
out = model(inp)

print(inp.shape)
print(out.shape)

torch.Size([1, 100, 1, 1])
torch.Size([1, 1, 64, 64])


In [25]:
from tqdm import tqdm
import torch.nn.functional as F
from torch.utils.tensorboard import SummaryWriter
from torchvision.utils import make_grid

from datetime import datetime


def train_gan(generator, discriminator, train_loader, optimizer_G, optimizer_D, 
              criterion, device, num_epochs=100, latent_dim=100, log_dir="../logs/"):
    
    timestamp = datetime.now().strftime("%m-%d_%H-%M-%S")
    writer = SummaryWriter(log_dir=log_dir + timestamp)

    generator.to(device)
    discriminator.to(device)
            
    for epoch in range(num_epochs):
        generator.train()
        discriminator.train()
        
        running_loss_G = running_loss_D = 0.0

        for real_images, _ in tqdm(train_loader, desc=f'Epoch [{epoch+1}/{num_epochs}]', leave=False):
            real_images = real_images.to(device)
            batch_size = real_images.size(0)

            # Train Discriminator
            optimizer_D.zero_grad()

            z = torch.randn(batch_size, latent_dim, 1, 1, device=device)

            # Discriminator loss
            real_labels = torch.ones(batch_size, 1, device=device)
            fake_labels = torch.zeros(batch_size, 1, device=device) # 1 - real

            d_loss_real = criterion(discriminator(real_images), real_labels)
            d_loss_fake = criterion(discriminator(generator(z).detach()), fake_labels)

            d_loss = d_loss_real + d_loss_fake
            d_loss.backward()
            optimizer_D.step()

            running_loss_D += d_loss.item()

            # Train Generator
            optimizer_G.zero_grad()

            # Generator loss
            g_loss = criterion(discriminator(generator(z)), real_labels)
            g_loss.backward()
            optimizer_G.step()

            running_loss_G += g_loss.item()

        writer.add_scalar('Loss/Discriminator', running_loss_D / len(train_loader), epoch+1)
        writer.add_scalar('Loss/Generator', running_loss_G / len(train_loader), epoch+1)

        img_batch = torch.cat((real_images[:1], generator(z).detach()[:1]), 0)
        img_grid = make_grid(img_batch, nrow=img_batch.size(0) // 2)
        
        writer.add_image('Generated vs Real', img_grid, global_step=epoch+1)
    
    writer.close()

In [27]:
import torch
from torch.utils.data import Dataset, DataLoader
import torchvision.transforms as T


class DoodlesDataset(Dataset):
    def __init__(self, data, image_size=None, transform=None):
        
        self.images, self.labels = data
        self.resize = T.Resize(image_size) if image_size else None
        self.to_tensor = T.ToTensor()
        self.transform = transform

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        image = self.images[idx]
        image = self.to_tensor(image)
        
        if self.resize:
            image = self.resize(image)
            
        if self.transform:
            image = self.transform(image)
        
        label = self.labels[idx]
        
        return image, label

In [26]:
IMAGE_SIZE = (64, 64)
CHANNELS_IN = 1
HIDDEN_LAYERS_D = [16, 32]
HIDDEN_LAYERS_G = [1024, 512, 256, 128]
LATENT_DIM = 100

BATCH_SIZE = 64

LEARNING_RATE_D = 2e-4
LEARNING_RATE_G = 1e-4

NUM_EPOCHS = 10
DEVICE = 'mps'

LOG_DIR = '../logs/'

In [30]:
transform = T.Compose([
    T.Normalize((0.5, ), (0.5,))
])
train_dataset = DoodlesDataset(train_data, image_size=IMAGE_SIZE)
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True, drop_last=True)

In [31]:
device = torch.device(DEVICE)

discriminator = Discriminator(image_size=IMAGE_SIZE, channels_in=CHANNELS_IN, hidden_layers=HIDDEN_LAYERS_D)
generator = Generator(hidden_layers=HIDDEN_LAYERS_G, channels_out=CHANNELS_IN, latent_dim=LATENT_DIM)

criterion = nn.BCEWithLogitsLoss()
optimizer_D = torch.optim.Adam(discriminator.parameters(), lr=LEARNING_RATE_D, betas=(0.5, 0.999))
optimizer_G = torch.optim.Adam(generator.parameters(), lr=LEARNING_RATE_G, betas=(0.5, 0.999))

train_gan(generator, discriminator, train_loader, optimizer_G, optimizer_D, 
          criterion, device, num_epochs=NUM_EPOCHS, latent_dim=LATENT_DIM, log_dir=LOG_DIR)

                                                      

RuntimeError: Expected 3D (unbatched) or 4D (batched) input to conv_transpose2d, but got input of size: [64, 100]