# Preuzimanje korpusa podataka

In [None]:
import os, tarfile, urllib.request
if(not os.path.isdir("funkcije/datasets/cifar-10-batches-py")):
    urllib.request.urlretrieve("http://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz", "cifar-10-python.tar.gz")

    tar = tarfile.open("cifar-10-python.tar.gz", "r:gz")
    tar.extractall("funkcije/datasets/")
    tar.close()
    os.remove("cifar-10-python.tar.gz")

# Implementacija Neuralne Mreže

U ovom primjeru će biti demonstrirana neuralna mreža sa FC slojem čiji zadatak je klasifikacija i njeno testiranje na CIFAR-10 dataset-u.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['figure.figsize'] = (10.0, 8.0)
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

def rel_error(x, y):
    """ Vraća relativnu grešku. """
    return np.max(np.abs(x - y) / (np.maximum(1e-8, np.abs(x) + np.abs(y))))

Koristiće se klasa TwoLayerNet da bi se predstavile instance mreže. Parametri mreže su smješteni u varijable instance self.params gdje ključevi su stringovi koji predstavljaju imena parametara i vrijednosti su numpy nizovi.

In [None]:
class TwoLayerNet(object):
    """
    Dvoslojna FC neuralna mreža. Mreža ima ulaznu dimenziju N, skriveni sloj dimenzije H i 
    vrši klasifikaciju u C klasa. Mreža se trenira sa softmax loss funkcijom i L2 regularizacijom
    na matrice težina. Mreža koristi ReLU aktivacionu funkciju nakon prvog FC sloja.
    Drugim riječima, mreža ima sledeću arhitekturu:
    ulaz - FC sloj - ReLU - FC sloj - softmax
    Izlazi iz drugog FC sloja su scores za svaku klasu.
    """

    def __init__(self, input_size, hidden_size, output_size, std=1e-4):
        """
        Inicijalizacija modela. Težine su inicijalizovane na male, slučajne vrijednosti
        i biasi su inicijalizovani na 0. Težine i biasi se smještaju u varijable self.params,
        koji je rečnik sa sledećim ključevima:
        W1: Težine prvog sloja; dimenzije (D, H)
        b1: Bias prvog sloja; dimenzije (H,)
        W2: Težine drugog sloja; dimenzije (H, C)
        b2: Bias drugog sloja; dimenzije (C,)
        Ulazi:
        - input_size: Dimenzija D ulaznih podataka.
        - hidden_size: Broj neurona H u skrivenom sloju.
        - output_size: Broj klasa C.
        """
        # TODO: Inicijalizacija parametara mreže.
        pass

    def loss(self, X, y=None, reg=0.0):
        """
        Računanje funkcije cilja i gradijenata za dvoslojnu FC neuralnu mrežu.
        Ulazi:
        - X: Ulazni podaci dimenzija (N, D). Svaki X[i] je trening uzorak.
        - y: Vektor trening labela. y[i] je labela za X[i], i svaki y[i] je
          integer u opsegu 0 <= y[i] < C. Ovaj parametar je opcionalan; ako se ne proslijedi
          onda se vraćaju samo scores, a  ako se proslijedi onda se vraća funkcija cilja i gradijenti.
        - reg: Snaga regularizacije.
        Rezultat:
        Ako je y None, vraća se matrica scores dimenzija (N, C) gdje scores[i, c] je
        score za klasu c ulaza X[i].
        Ako y nije None, onda se vraća tuple:
        - loss: Loss (data loss and regularization loss) za ovaj batch trening uzoraka.
        - grads: Rečnik koji mapira imena parametara u gradijente tih parametara uzimajući 
        u obzir funkciju cilja; ima iste ključeve kao self.params.
        """
        # Raspakovati varijable iz params rečnika.
        W1, b1 = self.params['W1'], self.params['b1']
        W2, b2 = self.params['W2'], self.params['b2']
        N, D = X.shape

        # Računanje forward pass.
        scores = None
        #############################################################################
        # TODO: Izvršiti forward pass, računanje skora klase za ulaze.              
        # Smještanje rezultata u skorove varijable, koji bi trebao da bude niz      
        # dimenzija (N, C).                                                         
        #############################################################################


        if y is None:
            return scores

        loss = None
        #############################################################################
        # TODO: Završavanje forward pass, i računanje funkcije cilja. Ovdje treba   
        # uključiti i podatke o funkciji cilja i L2 regularizaciji za W1 i W2.      
        # Upisati rezultat u varijablu loss koja treba da bude skalar.              
        # Koristiti softmax classifier loss.         
        #############################################################################

        
        
        grads = {}
        #############################################################################
        # TODO: Izračunati backward pass, računanjem izvoda težina i biasa. Upisati 
        # rezultat u rečnik grads. Na primjer, u grads['W1'] treba upisati gradijent        
        # W1 i treba da bude matrica istih dimenzija kao W1.
        #############################################################################


        return loss, grads

    def train(self, X, y, X_val, y_val,
              learning_rate=1e-3, learning_rate_decay=0.95,
              reg=5e-6, num_iters=100,
              batch_size=200, verbose=False):
        """
        Treniranje neuralne mreže koristeći stohastički algoritam opadajućeg gradijenta.
        Ulazi: 
        - X: Numpy niz dimenzija (N, D) koji predstavlja trening podatke.
        - y: Numpy niz dimenzija (N,) koji predstavlja labele trening podataka; y[i] = c označava da
          X[i] ima labelu c, gdje je 0 <= c < C.
        - X_val: Numpy niz dimenzija (N_val, D) koji predstavlja validacione podatke.
        - y_val: Numpy niz dimenzija (N_val,) koji predstavlja labele validacionih podataka.
        - learning_rate: Skalar koji predstavlja stopu učenja za optimizaciju.
        - learning_rate_decay: Skalar koji predstavlja faktor koji se koristi za opadanje stope učenja nakon svake epohe.
        - reg: Skalar koji predstavlja snagu regularizacije.
        - num_iters: Broj iteracija.
        - batch_size: Broj trening uzoraka koji se koriste po koraku.
        - verbose: boolean; Ako je True štampati napredak tokom optimizacije.
        """
        num_train = X.shape[0]
        iterations_per_epoch = max(num_train / batch_size, 1)

        loss_history = []
        train_acc_history = []
        val_acc_history = []

        for it in range(num_iters):

            #########################################################################
            # TODO: Kreirati slučajno minibatch trening podataka i labela, smještajući ih 
            # u X_batch i y_batch respektivno.                            
            #########################################################################
            
            
            

            #########################################################################
            # TODO: Koristiti gradijente iz rečnika grads da bi se ažurirali parametri mreže         
            # koristeći algoritam opadajućeg gradijenta. 
            #########################################################################


   

            if verbose and it % 100 == 0:
                print('iteration %d / %d: loss %f' % (it, num_iters, loss))

     
            if it % iterations_per_epoch == 0:
                train_acc = (self.predict(X_batch) == y_batch).mean()
                val_acc = (self.predict(X_val) == y_val).mean()
                train_acc_history.append(train_acc)
                val_acc_history.append(val_acc)
                
                learning_rate *= learning_rate_decay

        return {
          'loss_history': loss_history,
          'train_acc_history': train_acc_history,
          'val_acc_history': val_acc_history,
        }

    def predict(self, X):
        """
        Koristiti trenirane težine dvoslojne mreže da predvidi labele za podatke.
        Za svaki podatak predviđa se skor za svaku od C klasa, i svakom podatku
        se dodjeljuje klasa sa najveći skorom.
        Ulazi:
        - X: Numpy niz dimenzija (N, D) koji predstavlja N D-dimenzionalnih podataka za klasifikaciju.
        Rezultat:
        - y_pred: Numpy niz dimenzija (N,) koji predstavlja predviđene labele za svaki element niza X.
          Za svako i, y_pred[i] = c znači da se za X[i] predviđa klasa c, gdje je 0 <= c < C.
        """
        y_pred = None

        ###########################################################################
        # TODO: Implementirati funkciju.
        ###########################################################################
        
        pass
       

        return y_pred

Inicijalizacija toy data i toy model koji će se koristiti za razvijanje modela.

In [None]:
input_size = 4
hidden_size = 10
num_classes = 3
num_inputs = 5

def init_toy_model():
    np.random.seed(0)
    return TwoLayerNet(input_size, hidden_size, num_classes, std=1e-1)

def init_toy_data():
    np.random.seed(1)
    X = 10 * np.random.randn(num_inputs, input_size)
    y = np.array([0, 1, 2, 2, 1])
    return X, y

net = init_toy_model()
X, y = init_toy_data()

# Forward pass: računanje skora

In [None]:
scores = net.loss(X)
print('Your scores:')
print(scores)
print()
print('correct scores:')
correct_scores = np.asarray([
  [-0.81233741, -1.27654624, -0.70335995],
  [-0.17129677, -1.18803311, -0.47310444],
  [-0.51590475, -1.01354314, -0.8504215 ],
  [-0.15419291, -0.48629638, -0.52901952],
  [-0.00618733, -0.12435261, -0.15226949]])
print(correct_scores)
print()

print('Razlika između skora mreže i stvarnog skora:')
print(np.sum(np.abs(scores - correct_scores)))

# Forward pass: računanje funkcije cilja

In [None]:
loss, _ = net.loss(X, y, reg=0.05)
correct_loss = 1.30378789133

print('Razlika između fukncije cilja mreže i tačne funkcije cilja:')
print(np.sum(np.abs(loss - correct_loss)))

# Backward pass

In [None]:
def eval_numerical_gradient(f, x, verbose=True, h=0.00001):
    """
    Naivna implementacija numeričkog gradijenta f-a u x
    - f treba da bude funkcija koja koristi jedan argument
    - x je tačka (numpy niz) za evaluaciju gradijenta
    """

    fx = f(x) 
    grad = np.zeros_like(x)
    it = np.nditer(x, flags=['multi_index'], op_flags=['readwrite'])
    while not it.finished:

        ix = it.multi_index
        oldval = x[ix]
        x[ix] = oldval + h 
        fxph = f(x)
        x[ix] = oldval - h
        fxmh = f(x)
        x[ix] = oldval 

        grad[ix] = (fxph - fxmh) / (2 * h) 
        if verbose:
            print(ix, grad[ix])
        it.iternext() 

    return grad

Testiranje.

In [None]:
loss, grads = net.loss(X, y, reg=0.05)

for param_name in grads:
    f = lambda W: net.loss(X, y, reg=0.05)[0]
    param_grad_num = eval_numerical_gradient(f, net.params[param_name], verbose=False)
    print('%s maksimalna relativna greška: %e' % (param_name, rel_error(param_grad_num, grads[param_name])))

# Treniranje mreže

Za treniranje mreže koristiće se stohastički algoritam opadajućeg gradijenta (SGD). Treniranje je testirano na toy podacima.

In [None]:
net = init_toy_model()
stats = net.train(X, y, X, y,
            learning_rate=1e-1, reg=5e-6,
            num_iters=100, verbose=False)

print('Konačni trening loss: ', stats['loss_history'][-1])


plt.plot(stats['loss_history'])
plt.xlabel('iteracija')
plt.ylabel('trening loss')
plt.title('Trening Loss history')
plt.show()

# Učitavanje podataka

Nakon testiranja na toy podacima, koristiće se CIFAR-10 dataset i vršiti treniranje mreže i njihova klasifikacija.

In [None]:
from data_utils import load_CIFAR10

def get_CIFAR10_data(num_training=49000, num_validation=1000, num_test=1000):
    """
    Učitavanje CIFAR-10 dataset-a sa diska i izvršavanje pripreme podataka 
    za dvoslojnu neuralnu mrežu za klasifikaciju. 
    """

    cifar10_dir = 'datasets/cifar-10-batches-py'
    
    try:
        del X_train, y_train
        del X_test, y_test
        print('Brisanje prethodno učitanih podataka.')
    except:
        pass

    X_train, y_train, X_test, y_test = load_CIFAR10(cifar10_dir)
        
    mask = list(range(num_training, num_training + num_validation))
    X_val = X_train[mask]
    y_val = y_train[mask]
    mask = list(range(num_training))
    X_train = X_train[mask]
    y_train = y_train[mask]
    mask = list(range(num_test))
    X_test = X_test[mask]
    y_test = y_test[mask]

    mean_image = np.mean(X_train, axis=0)
    X_train -= mean_image
    X_val -= mean_image
    X_test -= mean_image

    X_train = X_train.reshape(num_training, -1)
    X_val = X_val.reshape(num_validation, -1)
    X_test = X_test.reshape(num_test, -1)

    return X_train, y_train, X_val, y_val, X_test, y_test

X_train, y_train, X_val, y_val, X_test, y_test = get_CIFAR10_data()
print('Dimenzije trening podataka: ', X_train.shape)
print('Dimenzije labela trening podataka: ', y_train.shape)
print('Dimenzije validacionih podataka: ', X_val.shape)
print('Dimenzije labela validacionih podataka: ', y_val.shape)
print('Dimenzije testnih podataka: ', X_test.shape)
print('Dimenzije labela testnih podataka: ', y_test.shape)

# Treniranje mreže

Za treniranje mreže će se koristiti SGD. Stopa učenja će biti podešena sa eksponencijalnom stopom učenja u toku optimizacije; nakon svake epohe, stopa učenja će biti pomnožena sa stopom opadanja (decay rate).

In [None]:
input_size = 32 * 32 * 3
hidden_size = 50
num_classes = 10
net = TwoLayerNet(input_size, hidden_size, num_classes)

stats = net.train(X_train, y_train, X_val, y_val,
            num_iters=1000, batch_size=200,
            learning_rate=1e-4, learning_rate_decay=0.95,
            reg=0.25, verbose=True)

val_acc = (net.predict(X_val) == y_val).mean()
print('Tačnost validacije: ', val_acc)

Sa korištenim parametrima se neće dobiti visoka tačnost.

Za debagovanje prvo će se nacrtati grafici funkcije cilja i tačnosti na trening i validacionom setu tokom optimizacije.

Druga strategija je grafičko prikazivanje težina koje su naučene u prvom sloju mrežu. U većini neuralnih mreža treniranih na slikama, težine prvog sloja obično imaju neku uočljivu strukturu kada se vizuelizuju.

In [None]:
plt.subplot(2, 1, 1)
plt.plot(stats['loss_history'])
plt.title('Loss history')
plt.xlabel('Iteracija')
plt.ylabel('Loss')

plt.subplot(2, 1, 2)
plt.plot(stats['train_acc_history'], label='train')
plt.plot(stats['val_acc_history'], label='val')
plt.title('Tačnost klasifikacije history')
plt.xlabel('Epoha')
plt.ylabel('Tačnost klasifikacije')
plt.legend()
plt.show()

In [None]:
from math import sqrt, ceil

def visualize_grid(Xs, ubound=255.0, padding=1):
    """
    Predimenzioniranje 4D tenzora slike u mrežu laku za vizuelitaciju.

    Ulazi:
    - Xs: Podaci dimenzija (N, H, W, C)
    - ubound: Izlazna mreža će imati vrijednosti skalirane u opsegu [0, ubound]
    - padding: Broj praznih piksela između elemenata mreže
    """
    (N, H, W, C) = Xs.shape
    grid_size = int(ceil(sqrt(N)))
    grid_height = H * grid_size + padding * (grid_size - 1)
    grid_width = W * grid_size + padding * (grid_size - 1)
    grid = np.zeros((grid_height, grid_width, C))
    next_idx = 0
    y0, y1 = 0, H
    for y in range(grid_size):
        x0, x1 = 0, W
        for x in range(grid_size):
            if next_idx < N:
                img = Xs[next_idx]
                low, high = np.min(img), np.max(img)
                grid[y0:y1, x0:x1] = ubound * (img - low) / (high - low)
                next_idx += 1
            x0 += W + padding
            x1 += W + padding
        y0 += H + padding
        y1 += H + padding
    return grid

def vis_grid(Xs):
    """ Vizuelizovanje mreže slike """
    (N, H, W, C) = Xs.shape
    A = int(ceil(sqrt(N)))
    G = np.ones((A*H+A, A*W+A, C), Xs.dtype)
    G *= np.min(Xs)
    n = 0
    for y in range(A):
        for x in range(A):
            if n < N:
                G[y*H+y:(y+1)*H+y, x*W+x:(x+1)*W+x, :] = Xs[n,:,:,:]
                n += 1
    maxg = G.max()
    ming = G.min()
    G = (G - ming)/(maxg-ming)
    return G

def vis_nn(rows):
    """ Vizuelizovanje niza nizova slika """
    N = len(rows)
    D = len(rows[0])
    H,W,C = rows[0][0].shape
    Xs = rows[0][0]
    G = np.ones((N*H+N, D*W+D, C), Xs.dtype)
    for y in range(N):
        for x in range(D):
            G[y*H+y:(y+1)*H+y, x*W+x:(x+1)*W+x, :] = rows[y][x]
    maxg = G.max()
    ming = G.min()
    G = (G - ming)/(maxg-ming)
    return G

In [None]:
def show_net_weights(net):
    W1 = net.params['W1']
    W1 = W1.reshape(32, 32, 3, -1).transpose(3, 0, 1, 2)
    plt.imshow(visualize_grid(W1, padding=3).astype('uint8'))
    plt.gca().axis('off')
    plt.show()

show_net_weights(net)

Podešavanje hiperparametara radi postizanja najbolje tačnosti klasifikacije.

In [None]:
learning_rates = np.linspace(1.5e-4, 1e-3, 5)
regularization_strengths = np.linspace(.25, .50, 5)
hidden_size_ =  [75, 100, 125, 150]
results = {}
best_net = None 
best_val = -1
input_size = 32 * 32 * 3
hidden_size = 50
num_classes = 10
best_stats = None
#################################################################################
# Podešavanje hiperparametara koristeći validacioni set. Smjestiti najbolje 
# istrenirani model u best_net.                                                                                    
#################################################################################

for lr in learning_rates:
    for reg in regularization_strengths:
        for hz in hidden_size_:
            net_ = TwoLayerNet(input_size, hz, num_classes)
            stat = net_.train(X_train, y_train, X_val, y_val,
                num_iters=1000, batch_size=200,
                learning_rate=lr, learning_rate_decay=0.95,
                reg=reg, verbose=False)
            y_train_pred = net_.predict(X_train)
            train_acc = np.mean(y_train == y_train_pred)
            y_val_pred = net_.predict(X_val)
            val_acc = np.mean(y_val == y_val_pred)
            results[(lr, reg, hz)] = (train_acc,val_acc)
            if best_val<val_acc:
                best_val = val_acc
                best_net = net_
                best_stats = stat
                print('lr %e reg %e hz %e Tačnost trening seta: %f Tačnost validacionog seta: %f' % (
                lr, reg, hz, train_acc, val_acc))

In [None]:
show_net_weights(best_net)

In [None]:
plt.subplot(2, 1, 1)
plt.plot(best_stats['loss_history'])
plt.title('Loss history')
plt.xlabel('Iteracija')
plt.ylabel('Loss')

plt.subplot(2, 1, 2)
plt.plot(best_stats['train_acc_history'], label='train')
plt.plot(best_stats['val_acc_history'], label='val')
plt.title('Tačnost klasifikacije history')
plt.xlabel('Epoha')
plt.ylabel('Tačnost klasifikacije')
plt.legend()
plt.show()

Evaluacija najboljeg modela na test setu.

In [None]:
test_acc = (best_net.predict(X_test) == y_test).mean()
print('Tačnost testa: ', test_acc)