# Konvolucijska nevronska mreža in Tensorboard
V Januarju 2017 je Google priredil dogodek Tensorflow development summit, 
konferenco za razvijalce za knjižnico Tensorflow.  
Na tem dogodku so Googlovi znanstveniki predstavili delovanje raznoraznih podknjižnic knjižnice Tensorflow na 
zanimivih projektih, ki jih Google sofinancira.

Med temi je zelo zanimiva predstavitev orodja Tensorboard, ([predstavitev si lahko ogledate na youtubu](https://www.youtube.com/watch?v=eBbEDRsCmv4)), ki je namenjeno vizualizaciji strojnega učenja in pregledu nad modelom. Tukaj sem poizkušal sprogramirati podobno kodo, ki jo ima Dandelion Mane. [Njegov github](https://gist.github.com/dandelionmane/4f02ab8f1451e276fea1f165a20336f1#file-mnist-py).

Za primer uporabe Tensorboarda je spodaj implementiran klasifikator ročno zapisanih števil za nabor podatkov [MNIST handwritten digits](http://yann.lecun.com/exdb/mnist/). To je zelo znan nabor podatkov, ki se uporablja kot merilo, za raznorazne slikovne klasifikatorje. Tukaj je uporabljen CNN ali konvolucijski klasifikator ([dober opis](http://www.wildml.com/2015/11/understanding-convolutional-neural-networks-for-nlp/)), ki doseže natančnost __0.99314%__ na testnem naboru povezanega [tekmovanja na spletnem portalu Kaggle](https://www.kaggle.com/c/digit-recognizer).

In [2]:
import tensorflow as tf
import urllib.request
import pandas as pd

LOG_DIR = 'log/'
DATA_DIR = '../.datasets/mnist/'

# knjižnica Tensorflow ima implementirano posebno funkcijo za pridobitev nabora podatkov MNIST
# podatke shrani v "train_dir"
mnist = tf.contrib.learn.datasets.mnist.read_data_sets(train_dir=DATA_DIR, one_hot=True)

Extracting ../.datasets/mnist/train-images-idx3-ubyte.gz
Extracting ../.datasets/mnist/train-labels-idx1-ubyte.gz
Extracting ../.datasets/mnist/t10k-images-idx3-ubyte.gz
Extracting ../.datasets/mnist/t10k-labels-idx1-ubyte.gz


## Definicija plasti, ki jih potrebujemo za model
### Konvolucijska sloj
Konvolucijski sloj je sestavljena iz konvolucije in aktivacijske funkcije.  
Za konvolucijo potrebujemo uteži, ki predstavljajo konvolucijska jedra, velikosti 5x5.  
Ta jedra predstavljajo vmesne filtre, ki skupaj predstavljajo karto značilnostni (ang. _feature map_).  
Samo konvolucijo izvedemo s funkcijo conv2d knjižnice Tensorflow. Pridobljeni karti značilnosti še prištejemo 
pristranskost (ang. _bias_) in na koncu še izračunamo vrednosti aktivacijske funkcije za pridobljeno 
matriko.  
Pri konvoluciji se uporablja princip pridobivanja značilnosti nato zmanjševanje dimenzije in ponovitve. To 
zmanjševanje dimenzije storimo z maksimalnim združevanjem (ang. _max pooling_). Ta pristop uporabimo tudi spodaj.

Tako konvolucijski sloj prejme vektor oblike  
(št. primerov, št. pikslov osi x, št. pikslov osi y, št. obstoječih kart značilnosti)  
atribut size_in = št. obstoječih kart značilnosti  
sloj vrne vektor oblike  
(št. primerov, (št. pikslov osi x) / 2, (št. pikslov osi y) / 2, size_out)

In [3]:
def conv_layer(input, size_in, size_out, name="conv"):
    """
    Sloj, ki izvede konvolucijo slik input. Iz "size_in" števila jeder priredi "size_out" število jeder.
    Hkrati tudi zmanjša dimenzijo slik (faktor 2) s pomočjo maksimalnega združevanja. 
    oblika vhodnih podatkov mora biti: 
        - input (št. primerov, dim x, dim y, size_in)
        - size_in št. obstoječih jeder
        - size_out št. jeder izhodne matrike
    
    Funkcija s pomočjo tf.name_scope in tf.summary.histogram beleži vrednosti uporabljenih spremenljivk.
    """
    with tf.name_scope(name):
        w = tf.Variable(tf.truncated_normal([5, 5, size_in, size_out], stddev=0.1), name="W")
        b = tf.Variable(tf.constant(0.1, shape=[size_out]), name="b")
        conv = tf.nn.conv2d(input, w, strides=[1, 1, 1, 1], padding="SAME")
        act = tf.nn.relu(conv + b)
        tf.summary.histogram("weights", w)
        tf.summary.histogram("biases", b)
        tf.summary.histogram("activations", act)
        return tf.nn.max_pool(act, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")

### Polno-povezan sloj
Polno-povezan sloj je osnovni sloj nevronskih mrež. Predstavlja sloj n-tih nevronov, ki so polno povezani 
s prejšnjim in naslednjim slojem. To je v bistvu množenje z matriko uteži oblike 
(št. nevronov prejšnje plasti, št. nevronov naslednje plasti).  
Zraven produkta se prišteje še pristranskost in izračuna vrednost aktivacijske funkcije.

In [4]:
def fc_layer(input, size_in, size_out, name="fc"):
    """
    Sloj, ki implementira osnovni nivo nevronskih mrež. 
    Vhodni podatki:
        - input oblike (št. primerov, št. lastnosti)
        - size_in predstavlja št. lastnosti
        - size_out predstavlje št. lastnosti, ki jih ima izhodna matrika
    
    Funkcija s pomočjo tf.name_scope in tf.summary.histogram beleži vrednosti uporabljenih spremenljivk.
    """
    with tf.name_scope(name):
        w = tf.Variable(tf.truncated_normal([size_in, size_out], stddev=0.1), name="W")
        b = tf.Variable(tf.constant(0.1, shape=[size_out]), name="b")
        act = tf.nn.relu(tf.matmul(input, w) + b)
        tf.summary.histogram("weights", w)
        tf.summary.histogram("biases", b)
        tf.summary.histogram("activations", act)
        return act

### Osipni sloj
Osipni sloj predstavlja verjetnostna vrata, ki skozi spustijo le vrednosti določenih nevronov iz prejšnjih slojev.
Upoštevamo verjetnost P(Nevron n spustimo skozi) = 0.8.

In [5]:
def dropout_layer(input, keep_probability, name="dropout"):
    """
    Osipni sloj ne spreminja velikosti vhodne matrike, spremeni (razvrednoti) le nek delež vrednosti znotraj 
    matrike. Posamezno celico ohrani z verjetnostjo keep_probability.
    """
    with tf.name_scope(name):
        do = tf.nn.dropout(input, keep_probability)
        tf.summary.histogram("dropout", do)
        return do

### Model
Ta vaja je v osnovi bila sestavljena kot primer uporabe orodja Tensorboard, zato je tudi model sestavljen tako, da 
ima uporabnik možnost nastaviti, koliko posameznih slojev se uporabi v modelu.  
V osnovi so konvolucijski modeli sestavljeni iz dveh delov, konvolucijskega dela in klasifikatorja.  
Konvolucijski del je sestavljen iz 1-k konvolucijskih slojev (konvolucija, aktivacija, maks združevanje)  
nato dobljeno matriko spremenimo v dvo-dimenzionalno (št. primerov, št. dobljenih lastnosti) nato jo s 
polno-povezanimi sloji zmanjšujemo in s tem klasificiramo v n razredov (v tem primeru v 10 razredov).

In [13]:
def mnist_model(learning_rate, numberOfSteps, use_two_conv, use_two_fc, hparam_str, loadModel, writeResults):
    tf.reset_default_graph()

    # Postavitev ogrodja za vhodne podatke oblike (št. primerov, 784), 
    # saj so slike nabora podatkov MNIST velikosti 28 x 28 = 784
    
    x = tf.placeholder(tf.float32, shape=[None, 784], name="x")
    
    # preoblikuje vhodno matriko v 4-D matriko, ki jo potrebujemo za konvolucijo.
    x_image = tf.reshape(x, [-1, 28, 28, 1])
    
    # Shrani 5 vhodnih slik za izris s pomočjo Tensorboarda
    tf.summary.image("input", x_image, 5)
    
    # Postavitev ogrodja za primerjalni kriterij 
    # y posamezne slike je razred, v katerega želimo, da jo naš model klasificira
    y = tf.placeholder(tf.float32, shape=[None, 10], name="labels")
    
    # Na podlagi vrednosti use_two_conv (True/False) sestavi prvi del modela
    if use_two_conv:
        conv1 = conv_layer(x_image, 1, 32, "conv1")
        conv_output = conv_layer(conv1, 32, 64, "conv2")
    

    else:
        conv1 = conv_layer(x_image, 1, 64, "conv1")
        conv_output = tf.nn.max_pool(conv1, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding="SAME")
    
    # Pomožne matrike za izris naučenih kart značilnosti z orodjem Tensorboard
    conv_image = tf.reshape(tf.slice(conv_output, [0,0,0,0], [1,7,7,64]), [64,7,7,1])
    
    tf.summary.image("conv_output", conv_image, 64)
    
    # Vmesni sloj, ki pretvori 4-D matriko v 2-D matriko za klasifikacijski del modela
    flattened = tf.reshape(conv_output, [-1, 7 * 7 * 64])
    
    # Na podlagi vrednosti use_two_fc (True/False) sestavi drugi del modela
    if use_two_fc:
        fc1 = fc_layer(flattened, 7 * 7 * 64, 1024, "fc1")
        do = dropout_layer(fc1, 0.5)
        logits = fc_layer(do, 1024, 10, "fc2")

    else:
        logits = fc_layer(flattened, 7 * 7 * 64, 10, "fc1")
    
    # Pomožni vektor za izpis klasifikacije slik.
    output = tf.argmax(logits, 1)
    
    # Kriterijska funkcija in okvir za izpis z orodjem Tensorboard
    with tf.name_scope('xent'):
        xent = tf.reduce_mean(
            tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=y), name="x_ent")
        tf.summary.scalar('cross_entropy', xent)
    
    # Definicija optimizatorja
    with tf.name_scope('train'):
        train_step = tf.train.AdamOptimizer(learning_rate).minimize(xent)
    
    # Definicija metrik za učenje in validacijo modela
    with tf.name_scope('accuracy'):
        correct_prediction = tf.equal(tf.argmax(logits, 1), tf.argmax(y, 1))
        accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
        tf.summary.scalar("accuracy", accuracy)
  
    # Knjižnica Tensorflow deluje asinhrono glede na izvajanje programa. 
    # Zato potrebujemo posebno sejo znotraj katere učimo naš model.
    sess = tf.Session()
    
    # S to vrstico združimo vso shranjevanje/beleženje sprotnih podatkov, 
    # ki jih bomo kasneje izrisali z orodjem Tensorboard
    merged_summary = tf.summary.merge_all()
    
    # Definicija zapisovalnika za orodje Tensorboard
    writer = tf.summary.FileWriter(LOG_DIR + hparam_str)
    
    # Inicializacija celotnega modela znotraj seje
    sess.run(tf.global_variables_initializer())

    # Definicija shranjevalca modela
    saver = tf.train.Saver()
    checkpointName = LOG_DIR + hparam_str + '/myMNIST_Model'
    
    # Ta del kode preveri, če obstaja kakšna že shranjena iteracija našega modela in jo poizkuša naložiti.
    if loadModel:
        print('Trying to load previous model from: %s' %(LOG_DIR + hparam_str + '/'))
    try: 
        f = open(LOG_DIR + hparam_str + '/checkpoint', 'r')
        cp_path = f.readline()
        f.close()
        cp_path = cp_path[cp_path.find('"')+1 : cp_path.rfind('"')]

        saver.restore(sess, cp_path)
        print('Model succesfully restored from: %s.' %(cp_path))

    except FileNotFoundError:
        print('Can not load model: no checkpoint found.')
    
    # S pomočjo zapisovalnika izrišemo graf našega modela.
    writer.add_graph(sess.graph)
    
    # For zanka, znotraj katere učimo naš model.
    start_time = time.clock()
    for i in range(numberOfSteps):
        batch = mnist.train.next_batch(100)
        # Vsako 5. iteracijo zapišemo vse spremenljivke, ki jih nadzorujemo
        if i % 5 == 0:
            s = sess.run(merged_summary, feed_dict={x: batch[0], y: batch[1]})
            writer.add_summary(s, i)
            
        
        # Vsako 500. iteracijo izpišemo učno natančnost našega modela
        if i % 500 == 0:
            [train_accuracy] = sess.run([accuracy], feed_dict={x: batch[0], y: batch[1]})
            print("Step %d, training accuracy %g" %(i, train_accuracy))
            print("Time from start:", round(time.clock() - start_time))
        
        # Vsako 10000. iteracijo shranimo kontrolno točko. Na tej točki shranimo celoten model.
        if i % 10000 == 0 and i > 0:
            print('Saving checkpoint.')
            saver.save(sess, checkpointName, global_step=i)
        
        # Vsako 4000. iteracijo zmanjšamo učno stopnjo, tukaj zagotovimo t.i. razpad učne stopnje 
        #                                                                    (ang. learning rate decay).
        if i % 4000 == 0:
            learning_rate = learning_rate / 10
        
        # Učni korak.
        sess.run(train_step, feed_dict={x: batch[0], y: batch[1]})

    # Po učnem procesu še zapišemo klasifikacijo testnega nabora podatkov za tekmovanje na Kaggle.
    if writeResults:
        testData = pd.read_csv(DATA_DIR + 'test.csv')

        outputData = pd.Series()

        for i in range(280):
            outputPart = pd.Series(sess.run(output, feed_dict={
                        x: testData[i*100 : i*100 + 100]}))

            outputData = outputData.append(outputPart, ignore_index=True)

        outputData.index = outputData.index + 1 #indexes start with 1
        outputData.name = 'Label'
        outputData.to_csv(LOG_DIR + hparam_str + '/output.csv', 
                          index_label='ImageId', header=True)
        print('Output saved.')

### Dodatne funkcije
Spodnji funkciji (setLogDir, make_hparam_string) sta v pomoč testiranju modelov s različnim številom 
konvolucijskih in polno-povezanih slojev. Vsakemu sestavijo unikaten niz, ki nato predstavlja direktorij 
posameznega modela.

In [7]:
def setLogDir(newRun):
    """
    Pri testiranju modelov in večkratnem zaganjanju pri manjših spremembah se pojavi težava s ogromnim številom 
    zapisov v direktoriju log/. Zato uporabimo to funkcijo, ki brez fizičnih sprememb direktorija ustvari nov 
    direktorij za vsak nov zagon programa.
    Seveda to ni zaželjeno, ko želimo dodatno učiti obstoječe modele, zato funkcija prejme vrednost True, ko želimo 
    nov zagon in False, ko želimo nadaljevati učenje obstoječih modelov.
    """
    try: 
        f = open(LOG_DIR + 'runNumber', 'r')
        runNumber = f.read();
        if newRun:
            runNumber = str(int(runNumber) + 1)
        
        f.close()
        f = open(LOG_DIR + 'runNumber', 'w')
        f.write(runNumber)
        f.close()
        
        return runNumber + '/'

    except FileNotFoundError:
        f = open(LOG_DIR + 'runNumber', 'w')
        f.write('0');
        f.close()

        return setLogDir(newRun)

In [8]:
def make_hparam_string(learning_rate, use_two_fc, use_two_conv, runNumber):
    """
    Strojno učenje je proces testiranja različnih oblik modela s pomočjo medsebojnega primerjanja.
    Ta funkcija (in rahlo dopolnjen program) omogočata delno avtomatizacijo te primerjave.
    
    Funkcija prejme vrednosti, ki jih spreminjamo med posameznimi modeli in na podlagi njih sestavi
    hiper-parameter modela. To je, unikaten ključ posameznega modela, ki ga uporabljamo kot ime modela in
    direktorija v katerega ga shranimo ter zapisujemo sprotno beleženje spremenljivk modela.
    """
    fc = 1
    conv = 1
    if use_two_conv:
        conv += 1

    if use_two_fc:
        fc += 1

    return '%slr_%.0E__fc_%d__conv_%d' %(runNumber, learning_rate, fc, conv)


### Main
V funkciji main nastavimo spremenljivke in s tem funkcije, ki jih žečlimo, da se izvedejo tekom izvajanja programa.
Nato kličemo funkcijo mnist_model, ki sestavi določen model in ga nato uči neko določeno število korakov.  
Funkcija tudi zapisuje sprotno stanje učenja (ang. _logs_) v primerni direktorij, določen z nizom pridobljenim z zgornjima funkcijama.

In [14]:
import time
def main():
    # Ali želimo naložiti obstoječ model?
    loadModel = False
    
    # Ali želimo klasificirati testni nabor podatkov?
    writeResults = False
    
    # Zaporedno število, ki ločuje posamezne zagone programa.
    runNumber = setLogDir(not loadModel)
    
    # Parametri posameznih modelov, ki jih želimo sestaviti in primerjati s programom.
    numberOfSteps = 1001
    learning_rates = [1E-3, 1E-4, 1E-5]
    two_fc = [True, False]
    two_conv = [True, False]

    # Klici funkcije za izgradnjo in učenje modelov s vsemi kombinacij zgornjih parametrov
    for learning_rate in learning_rates:
        for use_two_fc in two_fc:
              for use_two_conv in two_conv:
                hparam_str = make_hparam_string(learning_rate, use_two_fc, use_two_conv, runNumber)
    
                mnist_model(learning_rate, 
                            numberOfSteps, 
                            use_two_conv, 
                            use_two_fc, 
                            hparam_str, 
                            loadModel, 
                            writeResults)

if __name__ == '__main__':
    main()

Can not load model: no checkpoint found.
Step 0, training accuracy 0.13
Time from start: 0
Step 500, training accuracy 0.11
Time from start: 164
Step 1000, training accuracy 0.1
Time from start: 331
Can not load model: no checkpoint found.
Step 0, training accuracy 0.07
Time from start: 0
Step 500, training accuracy 0.1
Time from start: 110
Step 1000, training accuracy 0.1
Time from start: 221
Can not load model: no checkpoint found.
Step 0, training accuracy 0.09
Time from start: 0
Step 500, training accuracy 0.29
Time from start: 131
Step 1000, training accuracy 0.35
Time from start: 260
Can not load model: no checkpoint found.
Step 0, training accuracy 0.14
Time from start: 0
Step 500, training accuracy 0.36
Time from start: 88
Step 1000, training accuracy 0.45
Time from start: 177
Can not load model: no checkpoint found.
Step 0, training accuracy 0.11
Time from start: 0
Step 500, training accuracy 0.9
Time from start: 161
Step 1000, training accuracy 0.97
Time from start: 321
Can n