# Udvikling af Loss Function

In [1]:
import os
import sys
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Tilføj biblioteket et niveau over til sys.path
HELPERS_PATH = os.path.abspath("..")
if not HELPERS_PATH in sys.path:
    sys.path.append(HELPERS_PATH)
    
from Helpers.GeneralHelpers import *

Using TensorFlow backend.


Vi ved, at vores model giver 3 outputs per punkt der forudsiges. En konfidens og to offset værdier.<br>
En loss function skal så være i stand til, at give en numerisk vurdering af, hvor korrekt et eventuelt output er. <br>
Derfor laves der hvad der svarer til et forsimplet output fra modellen, samt hvad der svarer til en repræsentation af vores annotation.

In [3]:
NUM_CLASSES = 2
ANCH_WIDTH = 5
ANCH_HEIGHT = 5

out_val = np.zeros((ANCH_WIDTH, ANCH_HEIGHT, 3*NUM_CLASSES))
anno_val = np.zeros((ANCH_HEIGHT, ANCH_HEIGHT, 3*NUM_CLASSES))

zero_vals = np.zeros((ANCH_WIDTH, ANCH_HEIGHT, 3*NUM_CLASSES))

Der er også defineret en nul matrix, zero_vals, så vi har noget at lave sanity checks med.

Dette svare til et 5x5 anker gitter, med 2 klasser.

Der fyldes først et par værdier i annoterings matricen.

In [4]:
# Et punkt i anker koordinat (2, 2)
anno_val[2, 2, 0] = 1.0
# Et punkt i anker koordinat (3, 3)
anno_val[3, 3, 1] = 1.0
# Punktet i anker koordinat (2, 2) har x offset
anno_val[2, 2, 2] = 0.5
# Punktet i anker koordinat (2, 2) har y offset
anno_val[2, 2, 3] = 0.4
# Punktet i anker koordinat (3, 3) har x offset
anno_val[3, 3, 4] = 0.1
# Punktet i anker koordinat (3, 3) har y offset
anno_val[3, 3, 5] = -0.5

Og et par værdier i out matricen.

In [5]:
out_val[2, 2, 0] = 0.9
out_val[1, 1, 1] = 0.1
out_val[2, 2, 2] = 0.4
out_val[2, 2, 3] = 0.4
out_val[1, 1, 4] = 0.4
out_val[1, 1, 5] = 0.2

Det bemærkes, at punkterne ikke detekteres de samme steder, hvilket burde give anledning til en fejl.

Som det første kigger vi på konfidens værdien. Dette er en kategorisering af, hvorvidt et objekt detekteres i dette punkt. Dette giver anledning til at bruge binary cross entropy.

Derfor hives konfidens værdierne ud af de to matricer.

In [6]:
anno_conf = anno_val[:, :, :NUM_CLASSES]
out_conf = out_val[:, :, :NUM_CLASSES]

Der udføres så en binary cross entropy operation

In [7]:
all_loss = binary_crossentropy(out_conf, anno_conf, 1e-16)

Tallet 1e-16 er en meget lille værdi, der sendes med, for at forhindre ustabilitet i logaritme funktionen.

all_loss indeholder nu en matrix, med et tab på hver plads.<br>
Vi ønsker dog at de steder hvor der rent faktisk er et punkt, skal veje højere end de steder, hvor der ikke er. Derfor splittes denne i to, den ene med tab hvor der er et punkt, den anden med tab hvor der ikke er.

In [8]:
point_loss = all_loss * anno_conf
non_point_loss = all_loss - point_loss

Disse summeres på, for at få en enkelt værdi.

In [9]:
conf_point_loss = np.sum(all_loss)
conf_non_point_loss = np.sum(non_point_loss)
print(f"conf_point_loss: {conf_point_loss}")
print(f"conf_non_point_loss: {conf_non_point_loss}")

conf_point_loss: 44.20963378548568
conf_non_point_loss: 3.684136148790474


Disse kan nu vejes, og ligges sammen.

In [10]:
conf_loss = conf_point_loss * NUM_CLASSES + conf_non_point_loss * (1/NUM_CLASSES)
print(f"conf_loss: {conf_loss}")

conf_loss: 90.2613356453666


Der kigges så på offset tabet.

Først hives offset ud fra annoteringen og fra output matrixen.

In [12]:
offset_anno = anno_val[:, :, NUM_CLASSES:]
offset_out = out_val[:, :, NUM_CLASSES:]

Herefter tages x og y offsets, så vi har disse for sig selv.

In [15]:
anno_offset_x = offset_anno[:, :, 0::2]
anno_offset_y = offset_anno[:, :, 1::2]

out_offset_x = offset_out[:, :, 0::2]
out_offset_y = offset_out[:, :, 1::2]

Vi ønsker nu kun at finde offset tabet de steder, hvor der rent faktisk er et offset defineret. Dette gøres ved at lave en maske ud fra annoteringen.

In [30]:
g_x = np.less(anno_offset_x, 0)
l_x = np.greater(anno_offset_x, 0)
g_y = np.greater(anno_offset_y, 0)
l_y = np.less(anno_offset_y, 0)

g_x_i = g_x.astype(np.float32)
l_x_i = l_x.astype(np.float32)
g_y_i = g_y.astype(np.float32)
l_y_i = l_y.astype(np.float32)

In [31]:
mask_offset_x = np.clip(g_x_i + l_x_i, 0, 1.0)
mask_offset_y = np.clip(g_y_i + l_y_i, 0, 1.0)

Vi har nu en maske for x og y værdier, der indeholder 1 hvor tabet er relevant, 0 hvor det ikke er.<br>
Grunden til den lidt omstændige vej til masken er, at dette også skal virke i keras.

Vi kan nu lave et L2 tab på hvert offset, og summere op over dette.

In [32]:
o_loss_x = np.sum(
        np.square(
            (anno_offset_x - out_offset_x) * mask_offset_x
            )
        )
        
o_loss_y = np.sum(
        np.square(
            (anno_offset_y - out_offset_y) * mask_offset_y
            )
        )

Hvilket giver det endelige tab.

In [34]:
offset_loss = o_loss_x + o_loss_y
print(f"Offset loss: {offset_loss}")

Offset loss: 0.27


Forskellen i størelses orden på de to tab, giver anledning til at overveje mulighed for skalering i den endelige implementation.