In [25]:
import random
import math
import numpy as np
from scipy.optimize import fmin
from training_data import generate_train_data

## trainingsdaten generieren

In [26]:
training_data = generate_train_data(10, 3) # 10 pixelbilder generieren welche 3X3 pixel gross sind

training_data_sample = training_data[0]
training_data_sample_target = [1, 0] if training_data[0][1] == 1 else [0, 1]
training_data_sample_image = training_data[0][0]

print(training_data_sample) # beispiel einer horizontale

([1, 1, 1, 0, 0, 0, 0, 0, 0], 1)


## Netzwerk initialisieren
- funktionen definieren
- funktionen aufrufen

In [27]:
# funktion für fake weights und fake biases eines neurons
def init_bias():
    bias = random.uniform(-0.5, 0.5)
    return bias
#print(init_bias())

def init_weights(anz_weights):
    weights = [random.uniform(-0.5, 0.5) for _ in range(anz_weights)]
    return weights
#print(init_weights(4))


def init_network(dimension):

    network = [] # eine liste von listen von dictionaries (jedes neuron wird von einem dicrionary repräsentiert)
    
    # ----- Input layer ----- (hat keine biases oder weights!)
    # für jedes layer eine liste machen und diese mit den dictionaries füllen
    for layer in dimension[:1]: # nur für die input layers
        network.append([
            {
                "weights":None, 
                "bias":None, 
                "activation":None, 
                "error": None
            } for _ in range(layer)
        ]) # liste mit leeren dictionaries hinzufügen für jedes neuron des inputlayers

    # ----- Hidden layers -----
    # Für jedes Hidden-Layer eine Liste mit Dictionaries hinzufügen, diese haben weights und biases
    for index, layer in enumerate(dimension[1:-1], start=1):  # i startet bei 1, weil wir ab der 2. Schicht zählen
        network.append([
        {
            "weights": init_weights(dimension[index - 1]),  # Anzahl Gewichte = Anz. Neuronen im vorherigen Layer
            "bias": init_bias(),
            "activation": None, 
            "error": None
        } for _ in range(layer)  # Anzahl Neuronen in der aktuellen Schicht
    ])
        
    # ----- Output layer -----
    # Für das otput Layer eine Liste mit Dictionaries hinzufügen, diese haben weights und biases
    for index, layer in enumerate(dimension[-1:], start=-1):  # i startet bei 1, weil wir ab der 2. Schicht zählen
        network.append([
        {
            "weights": init_weights(dimension[index - 1]),  # Anzahl Gewichte = Anz. Neuronen im vorherigen Layer
            "bias": init_bias(),
            "activation": None, 
            "error": None
        } for _ in range(layer)  # Anzahl Neuronen in der aktuellen Schicht
    ])
    return network
#print(init_network([9, 5, 5, 2]))

In [28]:
network_dimension = [9, 5, 5, 2]

network1 = init_network(network_dimension) # netzerkt nach dem n-1 ten durchlauf

# funktion um das netzwerk schöner darzustellen
def print_array_structure(array):
    for i, layer in enumerate(array):
        print(f"🔹 Ebene {i}:")
        for j, element in enumerate(layer):
            print(f"  ▪ Element {j}: {{'weights': {element["weights"]}, 'bias': {element['bias']}, 'activation': {element['activation']}, 'target_activation': {element['activation']}, 'error': {element['error']}}}")
        print("\n")

print(f"\n------------------- Netzwerk (v.1) vor der Forward-Propagation mit initialisierten b, w -------------------\n")
print_array_structure(network1)


------------------- Netzwerk (v.1) vor der Forward-Propagation mit initialisierten b, w -------------------

🔹 Ebene 0:
  ▪ Element 0: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 1: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 2: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 3: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 4: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 5: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 6: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Element 7: {'weights': None, 'bias': None, 'activation': None, 'target_activation': None, 'error': None}
  ▪ Ele

## forward propagation
- funktioen definieren
  - aktivierungsfunktionen
- funktionen aufrufen

In [29]:
# aktivierungsfunktionen

def activation_relu(x): # hidden layers (werden hier die resultate nicht immer mit jedem layer höher?)
    return max(0, x)

def activation_sigmoid(x):
    return 1 / (1 + math.exp(-x))

def softmax(x, x_list): # output layer
    x_list = [math.exp(i) for i in x_list]
    return math.exp(x) / sum(x_list)

print(softmax(2.0, [2.0, 1.0, 0.1]))

0.6590011388859679


In [30]:
# forwardpropagation

def forward_propagation(pixel_bild, netzwerk): # im pronzip füllt diese fuktion das feld "activation" des dictinaries!
    print(f"Input Pixelbild: {pixel_bild}")

    new_network = netzwerk

    # INPUT-LAYER: den inputwert des inputlayers als activation setzen
    for neuron in range(network_dimension[0]):
        new_network[0][neuron]["activation"] = pixel_bild[neuron] 

    # HIDDEN-LAYERS und OUTPUT-LAYER: die informationen n-ten layers werden ans n+1-ten layer weitergegeben (für das letzte layer muss eine sigmoid-funktin verwendet werden damit man die klassifiezierung so durchführen kann dass  näher bei 1 oder näher bei 0 aufteilen kann)
    for n in range(1, len(new_network)):
        outputs = []

        # folgendes wird für jedes neuron eines layers gemacht
        for neuron in range(network_dimension[n]):
            prev_activations = [new_network[n-1][i]["activation"] for i in range(network_dimension[n-1])] # liste mit activations des vorherigen layers
            akt_weights = new_network[n][neuron]["weights"] # liste mit den weights eines neurons des 2ten layers
            akt_bias = new_network[n][neuron]["bias"]
            
            # output-layer
            if n == len(new_network)-1:
                outputs.append(sum([prev_activations[x] * akt_weights[x] for x in range(len(prev_activations))]) + akt_bias)
                if neuron == network_dimension[n]-1:
                    pixel_updated_output = [softmax(outputs[output], outputs) for output in range((network_dimension[n]))]
                    for sm in range(len(pixel_updated_output)):
                        new_network[n][sm]["activation"] = pixel_updated_output[sm] # summe aller activations aus dem letzen layer  
            
            # alle anderen hidden layers
            else:
                pixel_updated = activation_relu(sum([prev_activations[x] * akt_weights[x] for x in range(len(prev_activations))]) + akt_bias)
                new_network[n][neuron]["activation"] = pixel_updated # summe aller activations aus dem letzen layer  

    return new_network, [node["activation"] for node in new_network[-1]] # mit pixelbild ist hier der semantsche vektor des letzen layers gemeint, also der activations des letzen layers

network_f = forward_propagation(training_data_sample[0], network1)[0]

print(f"\n------------------- Netzwerk (v.2) nach der Forward-Propagation mit initialisierten a -------------------\n")
print(print_array_structure(network_f))
print(f"Outputs des letzten Layers: {(forward_propagation(training_data_sample[0], network1)[1])}")

Input Pixelbild: [1, 1, 1, 0, 0, 0, 0, 0, 0]

------------------- Netzwerk (v.2) nach der Forward-Propagation mit initialisierten a -------------------

🔹 Ebene 0:
  ▪ Element 0: {'weights': None, 'bias': None, 'activation': 1, 'target_activation': 1, 'error': None}
  ▪ Element 1: {'weights': None, 'bias': None, 'activation': 1, 'target_activation': 1, 'error': None}
  ▪ Element 2: {'weights': None, 'bias': None, 'activation': 1, 'target_activation': 1, 'error': None}
  ▪ Element 3: {'weights': None, 'bias': None, 'activation': 0, 'target_activation': 0, 'error': None}
  ▪ Element 4: {'weights': None, 'bias': None, 'activation': 0, 'target_activation': 0, 'error': None}
  ▪ Element 5: {'weights': None, 'bias': None, 'activation': 0, 'target_activation': 0, 'error': None}
  ▪ Element 6: {'weights': None, 'bias': None, 'activation': 0, 'target_activation': 0, 'error': None}
  ▪ Element 7: {'weights': None, 'bias': None, 'activation': 0, 'target_activation': 0, 'error': None}
  ▪ Element 

## prediction machen

In [31]:
# prediction machen
def predict(image, network):
    return 0

## Backpropagation

**loss funktion:** 
warum ein log? für kleine werte (tiefe wks) gibt es grosse outputs! das heisst dass für eine kleine WK wie 0.1 ein grosser fehler berechnet wird! (das sorgt dafür dasss die back-prop nicht nur für die momentanen resultate optimiet sondern such für vergangene)

![image.png](attachment:8d085fb2-d880-4361-ae32-4cbbd1250bdd.png)![image.png](attachment:c6bfdb5a-1673-4146-b292-418b25facdf1.png)

**gradient descent:**

was macht gradient descent = es berechnet für das aktuelle neuron das neu gewicht!

was ist ein gradient?
- ein gradients ist eine menge (liste) von partiellen ableitungen. wenn man eine funktion f(x, y, z) ableitet bekommt man 3 partielle abletungen, eine für x, y, z! hier kann man x, y, z als die verschiedenen weigts sehen oder vilmehr ihre faktoren !
- den partiellen gradient berechnet man für jedes gewicht eines neurons, dieser gradient sagt uns dann wie stark dieses gewicht zum loss beigetragen hat!

   - a = lernrate, so stark werden die gewichte verändert (werte zwischen 0.001 und 0.01)
   - gradient (ableitung) = aprev * error = bringt variatät hinein damit alle neuronen der selben schicht nicht gleich sind. da sie bei der berechnung der aktuellen activation mit den weights multipliziert wurden habe sie bestimmt wie stark das weigth einfluss auf den error hatte, es ist also ein einflussfaktor bei der berechnung des errors (ich verwende hier die vereinfachte variante!)
   - w = das letzte weight muss auch noch miteinfliessen damit das model nicht komplett neu überschrieben wird! wenn neue gewichte entstehen passiert das immer nter berücksichtigung der alten gewichte!

![image.png](attachment:41d55c0f-d1ed-420e-9090-d701fe6352e8.png)![image.png](attachment:d9f1d649-b718-4b19-8c5c-1d59c3bec49e.png)

In [54]:
# funktionen

# der output ist eine zahl für ein layer: den error für das gesamte outputlayer berechnen (das braucht man nur um zu messen wie gut das modell ist!)
def cross_entropy_loss(predictions, targets):
    
    epsilon = 1e-15  # Kleiner Wert, um log(0) zu vermeiden
    predictions = [max(p, epsilon) for p in predictions]  # Verhindert log(0)
    
    return -sum(tar * math.log(pred) for pred, tar in zip(predictions, targets)) # mathematische formel für das loss

# das berechnet den loss für nur ein neuron mit allen weights einberechnet
def calc_gradients(prev_activations, error):

    # das sind die partiellen ableitungen von jedem gewicht eines neurons in einer liste zusammengetragen
    gradients = [(error * prev_activations[i]) for i in range(len(prev_activations))] # error * pred_previous

    return gradients

def calc_error(pred, target):
    return target - pred


print(cross_entropy_loss([1, 0], [1, 0])) # der loss ist nicht null wenn es dem target entspricht sondern wenn 100% zu 0% steht!
print(cross_entropy_loss([0.9, 0.1], [1, 0])) # ein sehr geringes loss für eine sehr gute prediction!

-0.0
0.10536051565782628


In [59]:
# backpropagation
def backprop(netzwerk, target, lr):

    network_b = netzwerk

    # LOSS wie gut ist das modell? (LOSS für das letzte layer berechnen)
    predictions = [network_b[-1][pred]["activation"] for pred in range(len(network_b[-1]))]
    targets = [tar for tar in target]
    loss = cross_entropy_loss(predictions, targets)
    print(f"Loss: {loss}")
    
    # OUTPUT-LAYER -----------------------
    for neuron in range(len(network_b[-1])):
        
        # den error berechnen für jedes neuron
        error = calc_error(network_b[-1][neuron]["activation"], target[neuron]) # ERROR-BERECHNEN-FUNKTION
        network_b[-1][neuron]["error"] = error
        print(f"Error: {error}")

        # gradienten berechnen
        prev_activations = [network_b[-2][n]["activation"] for n in range(len(network_b[-2]))]
        gradients = calc_gradients(prev_activations, error) # GRADIENT-BERECHNEN-FUNKTION für die weigths
        gradient = error
        print(f"Gradients of neuron Nr.{neuron}: {gradients}")

        # die neuen gewichte berechnen
        weights = network_b[-1][neuron]["weights"]
        new_weights = [weights[w] - lr * gradients[w] for w in range(len(weights))] # WEIGHT-UPDATE-FUNKTION
        network_b[-1][neuron]["weights"] = new_weights
        print(f"Die weights: {weights} werden mit den weights {new_weights} ersetzt!")
        
        # den bias anpassen
        bias = network_b[-1][neuron]["bias"]
        new_bias = bias - lr * gradient 
        network_b[-1][neuron]["bias"] = new_bias
        print(f"Der Bias: {bias} wurde mit {new_bias} ersetzt!")


    # HIDDEN/INPUT-LAYER -----------------------
    for layer in range(len(network_b)-1):
        
    for neuron in range(len(network_b[-2])):
        
        # den error berechnen für jedes neuron
        next_errors = [network_b[layer + 1][j]["error"] * network_b[layer + 1][j]["weights"][neuron] for j in range(len(network_b[layer + 1]))]
        error = sum(next_errors)
        network_b[-1][neuron]["error"] = error
        print(f"Error: {error}")

        # gradienten berechnen
        prev_activations = [network_b[-2][n]["activation"] for n in range(len(network_b[-2]))]
        gradients = calc_gradients(prev_activations, error) # GRADIENT-BERECHNEN-FUNKTION für die weigths
        gradient = error
        print(f"Gradients of neuron Nr.{neuron}: {gradients}")

        # die neuen gewichte berechnen
        weights = network_b[-1][neuron]["weights"]
        new_weights = [weights[w] - lr * gradients[w] for w in range(len(weights))] # WEIGHT-UPDATE-FUNKTION
        network_b[-1][neuron]["weights"] = new_weights
        print(f"Die weights: {weights} werden mit den weights {new_weights} ersetzt!")
        
        # den bias anpassen
        bias = network_b[-1][neuron]["bias"]
        new_bias = bias - lr * gradient 
        network_b[-1][neuron]["bias"] = new_bias
        print(f"Der Bias: {bias} wurde mit {new_bias} ersetzt!")

        

    return network_b

network_b = backprop(network_f, [0, 1], 0.01)

print(f"\n------------------- Netzwerk (v.3) nach der Backward-Propagation mit veränderten w, b -------------------\n")
print_array_structure(network_b)

Loss: 0.6197955639279934
Error: -0.4619455759153258
Gradients of neuron Nr.0: [-0.32668803005832997, -0.27958893720088496, -0.0, -0.0, -0.0]
Die weights: [-0.14227383299500584, -0.4426801429327831, -0.05429094452338401, -0.2879637820724946, 0.3763541525117583] werden mit den weights [-0.13900695269442254, -0.43988425356077426, -0.05429094452338401, -0.2879637820724946, 0.3763541525117583] ersetzt!
Der Bias: -0.16759458109935577 wurde mit -0.1629751253402025 ersetzt!
Error: 0.4619455759153259
Gradients of neuron Nr.1: [0.32668803005833, 0.279588937200885, 0.0, 0.0, 0.0]
Die weights: [-0.2358698323316436, 0.4380545067753925, -0.43912982762512, -0.19355796063511888, -0.04431123535539827] werden mit den weights [-0.2391367126322269, 0.4352586174033836, -0.43912982762512, -0.19355796063511888, -0.04431123535539827] ersetzt!
Der Bias: -0.4819485742730124 wurde mit -0.48656803003216564 ersetzt!

------------------- Netzwerk (v.3) nach der Backward-Propagation mit veränderten w, b ------------