# Travelng Salesman Problem

### Die zugrundeliegenden Problemstellung 
Das Traveling Salesman Problem befasst sich damit die Optimale Route auf einem vollständigen Graphen zu bestimmen.

<div><img src="traditionellerAnsatz.png" width="300")</div>

[Bild] Lotz, S. (no date) Shortest round trips, The Traveling Salesman Problem. Available at: https://algorithms.discrete.ma.tum.de/graph-games/tsp-game/index_en.html (Accessed: October 20, 2022).

## Der Ansatz in diesem Projekt

Das Travelng Salesman Problem vom einen Graphen in eine Grid-World umwandeln indem ein Agent sich bewegt und das Problem lösen soll.
<div>
    <img src="projektAnsatz.png" width="300")
</div>

## Die Motivation

Ich wollte im kontrast zum Graphentheoretischen Ansatz einen Anatz kreiren der ohne neubrechnungen damit umgehen kann das Ziele auf der Route währen der Berrechnung hinzugefüht oder herausgenommen werden können ohne das, dass gesammte problem neu berrechnet werden muss. 

## Die Daten
Der Link zu den Daten: <br>
http://comopt.ifi.uni-heidelberg.de/software/TSPLIB95/tsp/ 31.12.2022 16:16 <br>
<br>
Die Dokumentation zu den Daten:<br>
http://comopt.ifi.uni-heidelberg.de/software/TSPLIB95/tsp95.pdf 31.12.2022 16:16

Da die Daten nicht einfach dierekt lesbar sind habe ich eine Klasse geschrieben die die daten so aufbereitet das ich diese im meinem weiteren code einsetzen kann.

### Formatierung
Eine Zeile aus einem Datensatz sieht beispielsweise so aus: <br>
'19 510.0 875.0  \n'<br>
Die 19 ist die Konten nummer, 510.0 der X-Wert und 875.0 der Y Wert<br>

In [None]:
import string
import numpy as np


# Als Grundlageninformation https://www.python-lernen.de/dateien-auslesen.htm
class DataExtractor():
    
    def extraktData(dataSet = None):
        metadata = {"dataSet": ["a280.tsp", "brd14051.tsp", "berlin52.tsp"]}

        assert dataSet is None or dataSet in metadata["dataSet"]


        data = open(dataSet, 'r')

        # Formatiere Name
        name = str(data.readline())
        find = name.find(": ")
        if find != -1:
            name = name[find+2:len(name)-1]
        else: 
            name = name[name.find(":")+1:len(name)-1]

        # Formatiere Comment
        comment = str(data.readline())
        find = comment.find(": ")
        if find != -1:
            comment = comment[find+2:len(comment)-1]
        else: 
            comment = comment[comment.find(":")+1:len(comment)-1]
        
        # Formatiere Type
        type = str(data.readline())
        find = type.find(": ")
        if find != -1:
            type = type[find+2:len(type)-1]
        else: 
            type = type[type.find(":")+1:len(type)-1]

        # Formatiere Dimension   
        dimension = str(data.readline())
        find = dimension.find(": ")
        if find != -1:
            dimension = int(float(dimension[find+2:len(dimension)-1]))
        else: 
            dimension = int(float(dimension[dimension.find(":")+1:len(dimension)-1]))

        # Formatiere Edge_weight_type
        edge_weight_type = str(data.readline())
        find = edge_weight_type.find(": ")
        if find != -1:
            edge_weight_type = edge_weight_type[find+2:len(edge_weight_type)-1]
        else: 
            edge_weight_type = edge_weight_type[edge_weight_type.find(":")+1:len(edge_weight_type)-1]

        # Formatiere Node_coord_section
        node_coord_section = str(data.readline())
        node_coord_section = node_coord_section[:len(node_coord_section)-1]

        maxValue = 0

        target_location = []

        while True:
            dataPoints = data.readline()
            # Fall ist EOF erreicht == Alle Daten eingelesen
            if dataPoints.find("EOF") != -1:
                break


            index = int(str(dataPoints).index(" "))
            while index == 0:
                dataPoints = dataPoints[1:]
                index = int(str(dataPoints).index(" "))

            dataPoints = dataPoints[index:]
            index = 0

            while index == 0:
                dataPoints = dataPoints[1:]
                index = int(str(dataPoints).index(" "))

            x = int(float(dataPoints[:int(str(dataPoints).index(" "))]))

            if x > maxValue:
                maxValue = x

            dataPoints = dataPoints[index:]
            find = 0

            while find != -1 and find == 0:
                dataPoints = dataPoints[1:]
                find = int(str(dataPoints).find(" ")) 

            if find != -1:
                y = int(float(dataPoints[:len(dataPoints)-1])) # vor \n am ende jeder Zeile ist noch ein Leerzeichen
            else:
                y = int(float(dataPoints[:len(dataPoints)-1])) # -2 da \n am ende jeder Zeile

            if y > maxValue:
                maxValue = y


            target_location.append(np.array([x,y]))

        info = {
                "name": name, 
                "comment": comment, 
                "type": type, 
                "dimension": dimension,
                "edge_weight_type": edge_weight_type, 
                "node_coord_section": node_coord_section,
                "maxValue": maxValue
                }

        return target_location, info

# Enviorment
Für Reininforced Learning benötigt man einen Agent und ein Enviorment <br><br>
Für das Enviorment nutze ich GYM und orientiere mich dabei an: <br>
https://www.gymlibrary.dev/content/environment_creation/ <br><br>
Änderungen die ich vornehmen muss: <br>
-- Mehrere Ziele für den Agenten <br>
Schwirigkeiten: <br>
-- Alles in einen Jupiter Nodebook möglichmachen
-- Observation space richtig zu definieren

### Requierments
Folgendes muss installiert werden: <br>
pip install pygame <br>
pip install gym <br>

#### Ordnerstruktur für die Enviorment Dateien um dieses zu Regiesteren damit es im Folgenden genutzt werden kann
gym-Tsp/ <br> 
        README.md <br>
        setup.py <br>
        gym_TSP/ <br>
            __init__.py <br>
            envs/ <br>
               __init__.py <br>
               TSP_Env.py <br>
               
Daran gehalten https://medium.com/@apoddar573/making-your-own-custom-environment-in-gym-c3b65ff8cdaa

#### Im folgenden wird gezeit was sich in welcher Datei befindet

gym-TSP\README.md sollte eine kurze Beschreibung des Enviomrents enthalten

gym-TSP\setup.py der Name (name="gym_TSP") den wir hier vergeben ist der Name der später bei import gym_TSP benutzt wird

In [None]:
#gym-TSP\setup.py

#from setuptools import setup

#setup(
#    name="gym_TSP",
#    version="0.0.1",
#    install_requires=["gym==0.26.0", "pygame==2.1.0"],
#)

gym-TSP\gym_TSP\__init__.py hier wird das Enviorment in gym registiert

In [None]:
#gym-TSP\gym_TSP\__init__.py

#from gym.envs.registration import register

#register(
#    id='TSPEnv-v0', #wir in gym.make() für die Instatzierung aufgerufen 
#    entry_point='gym_TSP.envs:TSPEnv',
#)

gym-TSP\gym_TSP\envs\__init__.py

In [None]:
#gym-TSP\gym_TSP\envs\__init__.py

#from gym_TSP.envs.TSP_Env import TSPEnv

gym-TSP\gym_TSP\envs\TSP_Env.py enthält das custom Enviorment

In [None]:
#Mehere Ziele abgeleitet von https://github.com/TheoLvs/reinforcement-learning/blob/master/5.%20Delivery%20Optimization/delivery.py

#gym-TSP\gym_TSP\envs\TSP_Env.py

import gym # für das Enviorment zuständig
from gym import spaces

import pygame # für die Visualisierung zuständig und auführung der Actionen
import numpy as np
from numpy import random
from numpy.linalg import norm
from DataExtractor import dataExtractor

# Datenstrucktur in die das Memory gespeichert wir
from collections import deque

# wird zur berechnung der euklidichen distanz benötigt
import mpmath 

class TSPEnv(gym.Env):
    metadata = {"render_modes": ["human", "rgb_array"], "render_fps": 24,}
    
    def __init__(self, render_mode = None, dataSet = None, size = None, maxMemory = 100):
        # initalisierung Ausgabe Variablen
        self.steps = 0 # zur Ausgabe: wieviele Steps wurden gemacht
        self.openTargets = 0 # zur Ausgabe: wieviele Targets sind noch offen
        self.closedTargets = 0 # zur Ausgabe: wieviele Targets sind schon abgearbeitet

        # initalisierung Env Variablen
        self.size = size
        self.dataSet = dataSet
        self.window_size = 800 #size of the PyGame window
        self.dataSetOrSize = True if self.dataSet != None else False

        # initalisierung Mermory für gemachte schritte
        self.memory = self.memory = deque(maxlen = maxMemory)

        # spezielle initalisierungen wenn ein Datensatz verwendet wird
        if self.dataSetOrSize:
            _, info = dataExtractor.extractData(dataSet)

            self.size = info["maxValue"]//10 #size of the square grid
            self.maxValue = info["maxValue"]//10
            self.minValue = info["minValue"]//10
            self.offset = info["offset"]
            self.dimension = info["dimension"]  # -1 wenn der 52. Punkt nicht richtig angezeigt wird
            self.quotient = 1
            self.oneOrZero = 1

            #Observations sind dictionaries mit der Positions des agent und des Ziels
            # Each location is encoded as an element of {0, ..., `size`}^2, i.e. MultiDiscrete([size, size]).
            self.observation_space = spaces.Dict(
                {
                    "agent": spaces.Box(0, self.size-1, shape=(2,), dtype=int),
                }
            )

            self.openTargets = self.dimension # setzt initial die Anzahl der noch offenen Ziele

        else:
            self.quotient = 1
            self.oneOrZero = 0

            self.observation_space = spaces.Dict(
                {
                    "agent": spaces.Box(0, self.size, shape=(2,), dtype=int ),
                }
            )   

            self.openTargets = self.size # setzt initial die Anzahl der noch offenen Ziele



        #o = self.observation_space["targets_open"].sample()

        # Weil wir vier Bewegungsmöglichkeiten haben ist die action_space = 4
        self.action_space = spaces.Discrete(4)
        
        #der Agent kann vier actionen durchführen "right", "up", "left", "down"
        #hier werden actionen in richtungen umgewandelt
        self._action_to_direction = {
            0: np.array([1,0]), # nach rechts bewegen
            1: np.array([0,1]), # nach oben bewegen
            2: np.array([-1,0]), #nach links bewegen
            3: np.array([0,-1]), #nach unten bewegen
        }
        
        assert render_mode is None or render_mode in self.metadata["render_modes"]
        self.render_mode = render_mode
        
        """
        If human-rendering is used, `self.window` will be a reference
        to the window that we draw to. `self.clock` will be a clock that is used
        to ensure that the environment is rendered at the correct framerate in
        human-mode. They will remain `None` until human-mode is used for the
        first time.
        """
        self.window = None
        self.clock = None

    def get_size(self):
        return self.size

    def get_Steps(self):
        return self.steps

    def get_openTargets(self):
        return self.openTargets

    def get_closedTargets(self):
        return self.closedTargets

    def get_Terminated(self):
        return self.terminated

    def get_agentPosition(self):
        return self._agent_location

    def get_targets_target_location_open(self):
        return self._target_location_open

    def get_target_location_done(self):
        return self._target_location_done

    def get_printInfo(self):
        return self.printInfo

    def get_Reward(self):
        return self.reward
    
    def showRoute(self):
        # der Startpunkt wird an das ende angehangen damit ein Kreis entsteht
        return self._target_location_done.append(self.startPoint) 
        
    def _get_obs(self):
        return {"agent": self._agent_location}

    def _get_info(self):
        # hier könnte man self._target_location_done zurükgeben
        #funktioniert aber so nicht 
        #return {np.array(self._target_location_done)}
        return {"reward": self.reward}
    # wenn wir auf informationen die nur in der step methode sind zugreifen wollen müssen wir das dictionary das bei _get_info in step zurückgegeben ist updaten

    def _getState(self):
        # diese Methode dient ermöglicht es den Zielen eine affection zu geben und auch einen Nagativen reward für das laufen in die Außenwand zu geben
        
        agentRow, agentColum = self._agent_location
        state = []
        
        for i in range(0, len(self._target_location_open)):
            targetRow, targetColum = self._target_location_open[i]
            state.append(((targetRow-agentRow)**2)+((targetColum-agentColum)**2)) # die oben gennante Funktion
            
        # damit der State immer die Selbe größe hat werden die geschlossenen Ziele mit 0 aufgefüllt    
        for i in range(0, len(self._target_location_done)):
            state.append(0)
        
        return state

    def _get_euklidische_Distanz(self):
        distance = 0

        for i in range(0, len(self._target_location_done)):
            xi,yi = self._target_location_done[i]

            if i+1 < len(self._target_location_done):
                xj,yj = self._target_location_done[i+1]
            else:
                xj,yj = self._target_location_done[-1] # für den Letzen Punkt wird der weg zum Startpunkt verbunden damit ein rundweg entsteht

            x = xi - xj
            y = yi - yj

            distance += mpmath.nint(mpmath.sqrt(x * x + y * y))

        return distance

    # reset initialieiert eine neue episode und wir immer aufgerufen wenn step done zurückgibt
    def reset(self, seed=None, options=None, size=None, **hyperparam):

        # Ausgabewerte zurücksetzen
        # zur Ausgabe: wieviele Steps wurden gemacht
        self.steps = 0 

        # zur Ausgabe: wieviele Targets sind schon abgearbeitet
        self.closedTargets = 0 

        # zur Ausgabe: wieviel punkte mehrfach besucht worden
        self.visitedTwice = 0

        # hier geben wir self.np_random einen seed 
        super().reset(seed=seed)

        # für die variable erhöhung der size während des Trainings (nur mit convolutional neural network)
        if size != None:
            self.size = size

        # liste für die Fertigen Ziele 
        self._target_location_done = []

        if self.dataSetOrSize:
            # Ziele ertselle unter der Berücksichtigung des Ofsets
            self._target_location_open, info = dataExtractor.extractData(self.dataSet)
            self._target_location_open = self._target_location_open
            
            """Der letzte Punkt wird momentan gelöscht da dieser ausseralb des Sichbaren und begehbaren raums liegt"""
            del self._target_location_open[-1]
        else:
            self._target_location_open = []

            
            while len(self._target_location_open) < self.size:
                x, y = self.np_random.integers(0, self.size, size=2, dtype=int)
                
                NoDuplicate = True

                # hier wird überprüft das nicht zufällig zwei Ziele an der selben Koordinate erstellt werden
                for i in range(len(self._target_location_open)):
                    if np.array_equal(self._target_location_open[i], np.array([x,y])):
                        NoDuplicate = False 
                        break                    
            
                if NoDuplicate:
                    self._target_location_open.append(np.array([x,y]))

        
        # eine zufällige position für den Agent auswählen 
        self.indexStartPoint = random.randint(0, len(self._target_location_open)-self.oneOrZero)
        self._agent_location = self._target_location_open[self.indexStartPoint]//self.quotient # für random Agenent start location self.np_random.integers(0, self.size, size = 2, dtype = int))
        
        #start punkt setzen
        self.startPoint = self._agent_location

        # reward initialisieren 
        self.reward = 0

        # das Eepsilon bestimmt für wie viele Schritte die Targets eine Affection haben
        self.epsilon = 6000

        # zur Ausgabe: wieviele Targets sind noch offen
        self.openTargets = self.dimension if self.dataSetOrSize else len(self._target_location_open) 
            
        observation = self._get_obs()
        info = self._get_info()
        
        if self.render_mode == "human":
            self._render_frame()


        return observation, info
    
    def step(self, action):
        oldState = self._getState()

        # initialisierung des stepRewards
        stepReward = 0 

        # der indexTargetAffection bestimmt von welchem Target die Affection ausgeht
        tmpListe = oldState.copy()

        # alle Elemente aus der Liste die 0 sind müssen entfernt werden da diese Punkte
        # bereits abgearbeitet sind und keine affection mehr haben sollen       
        tmp = min(tmpListe)
        
        while tmp == 0 and len(tmpListe) != 1: 
            tmpListe.remove(0)          
            tmp = min(tmpListe)

        indexTargetAffection = oldState.index(tmp)

        # überprüfung das der Startpunkt keine Affection bekommt
        if indexTargetAffection == self.indexStartPoint and (len(tmpListe) != 1): 
            tmpListe.pop(self.indexStartPoint)
            tmp = min(tmpListe)
            indexTargetAffection = oldState.index(tmp)

        tmpOldState = tmp
        tmpListeOldState = tmpListe
        indexTargetAffectionOldState = indexTargetAffection

        # für die Ausgabe der gemachten Schritte
        self.steps += 1

        # Mapping der action auf die richtig in die gelaufen werden soll
        direction = self._action_to_direction[action]
        
        # hier wird np.clip genutzt damit der agent nicht das grid verlassen kann
        self._agent_location = np.clip(self._agent_location + direction, 0, self.size -1)

        # reward für den algorithmus 1 für einen ereichten punkt -0.1 für jede action bis zum punkt und -1 wenn ein bereits abgearbeiteter punkt erneut besucht wird
        
        # negativer reward für jeden gemachten step
        stepReward -= 10

        afterTargetDoneIndexTargetAffection = indexTargetAffection        

        # Ziele von der Open Liste nehmen und als done makieren + prositiver reward für abgearbeiteten Punkt
        for i in range(0,len(self._target_location_open)):
            if np.array_equal(np.array(self._agent_location), np.array(self._target_location_open[i]//self.quotient)):
                if np.array_equal(np.array(self._agent_location), np.array(self.startPoint)):
                    # dieser Teil ist dafür da das der Letzte Punkt wieder der Startpunkt sein muss
                    if len(self._target_location_open)-self.oneOrZero == 1:
                        self._target_location_done.append(self._target_location_open[i])
                        stepReward += 100000 # reward für das Beenden der Route
                        del self._target_location_open[i]

                        # für die Ausgabe Offene/Fertige Ziele
                        self.openTargets -= 1
                        self.closedTargets += 1

                        break
                    else:
                        break 
                
                self._target_location_done.append(self._target_location_open[i])
                stepReward += 100000
                del self._target_location_open[i]

                # wenn ein Target mit eienem kleinerem Index aus der Liste entfernt wird muss der self.indexStartPoint 
                # dem enstrechend um einen nach Links verschoben werden damit die berechnung der affection weiterhin
                # wie erwartet funktioniert
                if i < self.indexStartPoint:
                    self.indexStartPoint -= 1

                # wenn ein Target mit eienem kleinerem Index aus der Liste entfernt wird muss afterTargetDoneIndexTargetAffection
                # dem enstrechend um einen nach Links verschoben werden damit die berechnung der affection weiterhin
                # wie erwartet funktioniert
                if i < indexTargetAffection:
                    afterTargetDoneIndexTargetAffection -= 1

                # für die Ausgabe Offene/Fertige Ziele
                self.openTargets -= 1
                self.closedTargets += 1
                break
                
        # eine Episode ist fertig wenn der argent alle targets erreicht hat
        self.terminated = True if len(self._target_location_open)-self.oneOrZero == 0 else False
        
        newState = self._getState()

        runAgainstWall = False
        # negativer reward für das Laufen gegen die grenze der Welt
        if newState == oldState:
            stepReward -= 1000000
            runAgainstWall = True

        if indexTargetAffection < 0 or indexTargetAffection >= len(oldState) or indexTargetAffection >= len(newState):
            print(indexTargetAffection)
            print(len(newState))
            print(len(oldState))
            print(self.indexStartPoint)

        # reward wenn der agent in die richtung der Ziele Läuft
        affectionReward = oldState[indexTargetAffection] - newState[afterTargetDoneIndexTargetAffection] # dieser reward kann auch negativ werden
        
        # der affectionReward wird mit den gemachten Schritten immer weiter abflachen
        affectionReward = affectionReward * (self.epsilon/2) if affectionReward < 1 else affectionReward * (self.epsilon/2)
        
        stepReward += affectionReward

        # wenn der Agent an einem ort schon war soll er einen negativen reward erhalten
        for element in self.memory:
            if np.array_equal(self._agent_location, element):
                stepReward -= affectionReward
                stepReward -= 100000

                self.visitedTwice += 1

        # besuchten punkt in das memory setzten
        self.memory.append(self._agent_location)


        self.reward += stepReward


        self.printInfo = {
                        "runAgainstWall":  runAgainstWall,
                        "oldState": oldState,
                        "newState": newState,
                        "indexTargetAffectionOldState": indexTargetAffectionOldState,
                        "affectionReward": affectionReward,
                        "indexStartPoint": self.indexStartPoint,
                        "tmpOldState": tmpOldState,
                        "tmpListeOldState": tmpListeOldState,
                        "stepReward": stepReward,
                        "euklidische_Distanz": self._get_euklidische_Distanz(), 
                        "visitedTwice": self.visitedTwice,
                    }


        # das epsilon decrementieren damit die affection der Punkte nachlässt
        self.epsilon -= 1

        observation = self._get_obs()
        info = self._get_info()
        
        if self.render_mode == "human":
            self._render_frame()

            
        return observation, stepReward, self.terminated, False, info
    
    def render(self):
        if self.render_mode == "rgb_array":
            return self._render_frame()
        
    def _render_frame(self):
        if self.window is None and self.render_mode == "human":
            pygame.init() # initilation PyGame
            pygame.display.init() # initilation display
            self.window = pygame.display.set_mode((self.window_size, self.window_size))
            
        if self.clock is None and self.render_mode == "human":
            self.clock = pygame.time.Clock() # wird für die FPS benötigt 
            
        canvas = pygame.Surface((self.window_size, self.window_size))
        canvas.fill((255,255,255))
        
        pix_square_size = (self.window_size / self.size) # für die größe eines quadretes im raster
        

        coordinatesTargetsOpen = []
        # die noch offenen Ziele auf den PyGame Window ausgeben
        for i in range(0, len(self._target_location_open)):
            a =np.array(self._target_location_open[i]//self.quotient)
            pygame.draw.rect(
            canvas,
            (0, 145, 0),
            pygame.Rect(
                pix_square_size * a,
                (pix_square_size, pix_square_size),
            ),
            )
            coordinatesTargetsOpen.append(a)


        # testet ob zwei oder mehrere Punkte die selben Koordinaten haben
        # dies könnte durch die Umrechnung der Daten auftreten bei zwei punkten die sehr nah bei einander sind
        Mehfrach = False
        offsetA = 1
        offsetB = 0
        for a in range(0,len(coordinatesTargetsOpen)):
            for b in range(offsetA,len(coordinatesTargetsOpen)):
                if np.array_equal(coordinatesTargetsOpen[a], coordinatesTargetsOpen[b]): Mehfrach = True 
            for k in range(0, offsetB):
                if np.array_equal(coordinatesTargetsOpen[a], coordinatesTargetsOpen[k]): Mehfrach = True
            offsetA += 1
            offsetB += 1
        self._target_dupplicate = Mehfrach # eingebaut für Fehleranalyse

  
        # den Startpunkt farblich hervorheben
        pygame.draw.rect(
            canvas,
            (255, 192, 0),
            pygame.Rect(
                pix_square_size * self.startPoint,
                (pix_square_size, pix_square_size),
            ),
            )


        # die fertigen Ziele auf den PyGame Window ausgeben
        for i in range(0, len(self._target_location_done)):
            a =np.array(self._target_location_done[i]//self.quotient)
            pygame.draw.rect(
            canvas,
            (255, 0, 0),
            pygame.Rect(
                pix_square_size * a,
                (pix_square_size, pix_square_size),
            ),
            )
               
        # den Agent auf dem PyGame Window ausgeben
        pygame.draw.circle(
            canvas,
            (0,0,255),
            (self._agent_location + 0.5)* pix_square_size,
            pix_square_size/2,
        )


        if self.render_mode == "human":
            self.window.blit(canvas, canvas.get_rect()) # kopiert die zufor diefienierten ausgaben in das sichbare Window
            pygame.event.pump()
            pygame.display.update()
            
            self.clock.tick(self.metadata["render_fps"]) # hält die FPS stabiel und setzt die FPS auf den wert in den Metadaten
        else: # the case of rgb_array
            return np.transpose(
                np.array(pygame.surfarray.pixels3d(canvas)), axes=(1,0,2))
        
    def close(self): # nachdem man diese methode aufgerufen hat sollte man nicht mehr mit dem enviorment interagieren
        if self.window is not None:
            pygame.display.quit()
            pygame.quit()

folgender Befehl muss noch ausgeführ werden
pip install -e C:\Users\fabia\OneDrive\Semester3\ProjektSeminar\gym-TSP --user

#### Initzialisierung des Enviorments
Abgeleitet von: <br>
https://towardsdatascience.com/ultimate-guide-for-reinforced-learning-part-1-creating-a-game-956f1f2b0a91 <br>
https://www.gymlibrary.dev/content/environment_creation <br>
Schwirigkeit: <br>
Zusammenführung der Touturial inhalt und deren Abstraktion auf unsere Anwendung<br>
<br>
Eigenanteil: <br>
Umsetzung der Steuerung da diese aus den Jupyter Notbooks nicht funktioniert wie im Toutorial + logig das Spiel zu schließen wenn der Punkt erreicht wird

In [None]:
import gym
import gym_TSP
import pygame

env = gym.make("TSPEnv-v0", render_mode="human", size = 7)

pygame.init()



observation, info = env.reset()
run = True


while run:
    get_event = pygame.event.get()
    
    for event in get_event:
        
        if event.type == pygame.QUIT:
            env.close()
            run = False
        
        # hier beginnt der Eigenanteil
        if event.type == pygame.KEYDOWN: 


            if event.key == pygame.K_DOWN: # nach unten bewegen
                observation, reward, terminated, boo, info = env.step(action = 1)
                print(env.showRoute())
                if terminated:
                    env.close()
                    run = False

            if  event.key == pygame.K_UP: # nach oben bewegen
                observation, reward, terminated, boo, info = env.step(action = 3)
                print(env.showRoute())
                if terminated:
                    env.close()
                    run = False
  
            if event.key == pygame.K_RIGHT: # nach rechts bewegen
                observation, reward, terminated, boo, info = env.step(action = 0)
                print(env.showRoute())
                if terminated:
                    env.close()
                    run = False

            if event.key == pygame.K_LEFT: # nach links bewegen
                observation, reward, terminated, boo, info = env.step(action = 2)
                print(env.showRoute())
                if terminated:
                    env.close()
                    run = False
                    
        env.render()
            
#Tasten Beschreibung  https://www.pygame.org/docs/ref/key.html#key-constants-label

# Erster Ansatz convolutional network
mit hilfe von diesem Toutorial
https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html 06.01.2023 20:30

#### Grundlegende Imports

In [None]:
import math
import random
import numpy as np
from collections import namedtuple, deque
from itertools import count

#### Imports für Plots

In [None]:
import collections
from IPython.display import clear_output
import matplotlib
import matplotlib.pyplot as plt

# set up matplotlib
is_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:
    from IPython import display

#### Pytorch imports

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as T

#### Imports für gym Enviorment

In [None]:
import gym
import gym_TSP
import pygame

# set up enviorment 
env = gym.make("TSPEnv-v0", render_mode="rgb_array", size = 7)
observation, info = env.reset()
print(observation)

# set up pygame
pygame.init()

# set up device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


### Replay memory 


In [None]:
# mapt State und ation an next state und reward
Transition = namedtuple('Transition', ('state', 'action', 'next_state', 'reward'))

class ReplayMemory(object):
    
    def __init__(self, capacity):
        self.memory = deque([], maxlen=capacity)
        
    def push(self, *args):
        self.memory.append(Transition(*args))
        
    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)
    
    def __len__(self):
        return len(self.memory)

### DQN algorithm

Q-Network

abgeleitet von https://unnatsingh.medium.com/deep-q-network-with-pytorch-d1ca6f40bfda (absatz DQN -Implementation)

In [None]:
class DQN(nn.Module):

    def __init__(self, h, w, outputs):
        
        super(DQN, self).__init__()
        
        # drei Convolution layers
        
        self.conv1 = nn.Conv2d(3, 16, kernel_size=5, stride=2) #input layer
        self.bn1 = nn.BatchNorm2d(16)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=5, stride=2) #hidden layer
        self.bn2 = nn.BatchNorm2d(32)
        self.conv3 = nn.Conv2d(32, 32, kernel_size=5, stride=2) #output Layer
        self.bn3 = nn.BatchNorm2d(32)

        # Number of Linear input connections depends on output of conv2d layers
        # and therefore the input image size, so compute it.
        def conv2d_size_out(size, kernel_size = 5, stride = 2):
            return (size - (kernel_size - 1) - 1) // stride  + 1
        convw = conv2d_size_out(conv2d_size_out(conv2d_size_out(w)))
        convh = conv2d_size_out(conv2d_size_out(conv2d_size_out(h)))
        linear_input_size = convw * convh * 32
        self.head = nn.Linear(linear_input_size, outputs)

    # Called with either one element to determine next action, or a batch
    # during optimization. Returns tensor([[left0exp,right0exp]...]).
    def forward(self, x):

        x = x.to(device)
        x = F.relu(self.bn1(self.conv1(x)))
        x = F.relu(self.bn2(self.conv2(x)))
        x = F.relu(self.bn3(self.conv3(x)))
        return self.head(x.view(x.size(0), -1))

Input extraction wandelt die gridword so um das dqn ihn als rgb array "sehen" kann

In [None]:
#resize = T.Compose([T.ToPILImage(), T.Resize(40, interpolation=Image.CUBIC), T.ToTensor()])

def get_agent_location():
    return

def get_screen():
    # Returned screen requested by gym is 400x600x3, but is sometimes larger
    # such as 800x1200x3. Transpose it into torch order (CHW).
    screen = env.render().transpose((2, 0, 1))
    _, screen_height, screen_width = screen.shape
    
    # Convert to float, rescale, convert to torch tensor
    # (this doesn't require a copy)
    screen = np.ascontiguousarray(screen, dtype=np.float32) / 255
    screen = torch.from_numpy(screen)
    # Resize, and add a batch dimension (BCHW)
    _, screen_height, screen_width = screen.shape

    return screen.unsqueeze(0)


Training

In [None]:
BATCH_SIZE = 20000
GAMMA = 0.999
ESP_START = 0.9
ESP_END = 0.05
ESP_DECAY = 200
TARGET_UPDATE = 10

n_actions = env.action_space.n

# 800 fixer Wert aufgrund der window Breite und Höhe
policy_net = DQN(800, 800, n_actions).to(device)
target_net = DQN(800, 800, n_actions).to(device)

target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

optimizer = optim.RMSprop(policy_net.parameters())
memory = ReplayMemory(10000)

steps_done = 0

def select_action(state):
    global steps_done
    sample = random.random()
    eps_threshold = ESP_END + (ESP_START - ESP_END) * math.exp(-1. * steps_done / ESP_DECAY)
    steps_done += 1
    
    if sample > eps_threshold:
        with torch.no_grad():
            # t.max(1) will return largest column value of each row.
            # second column on max result is index of where max element was
            # found, so we pick action with the larger expected reward.
            return policy_net(state).max(1)[1].view(1, 1)
    else:
        return torch.tensor([[random.randrange(n_actions)]], device = device, dtype = torch.long)
    
episode_durations = []

def plot_durations():
    plt.figure(2)
    plt.clf()
    durations_t = torch.tensor(episode_durations, dtype = torch.float)
    plt.title('Training...')
    plt.xlabel('Episode')
    plt.ylabel('Duration')
    plt.plot(durations_t.numpy())
    
    # plot: durchnitt von 100 Durchgängen
    if (len(durations_t) >= 100):
        means = durations_t.unfold(0, 100, 1).mean(1).view(-1)
        means = torch.cat((torch.zeros(99), means))
        plt.plot(means.numpy())
        
    plt.pause(0.001) # pause a bit so that plots are updated
    if is_ipython:
        display.clear_output(wait=True)
        display.display(plt.gcf())
    
    

Training loop

In [None]:
def optimize_model():
    if len(memory) < BATCH_SIZE:
        return
    transitions = memory.sample(BATCH_SIZE)
    # Transpose the batch (see https://stackoverflow.com/a/19343/3343043 for
    # detailed explanation). This converts batch-array of Transitions
    # to Transition of batch-arrays.
    batch = Transition(*zip(*transitions))

    # Compute a mask of non-final states and concatenate the batch elements
    # (a final state would've been the one after which simulation ended)
    non_final_mask = torch.tensor(tuple(map(lambda s: s is not None,
                                          batch.next_state)), device=device, dtype=torch.bool)
    non_final_next_states = torch.cat([s for s in batch.next_state
                                                if s is not None])
    state_batch = torch.cat(batch.state)
    action_batch = torch.cat(batch.action)
    reward_batch = torch.cat(batch.reward)

    # Compute Q(s_t, a) - the model computes Q(s_t), then we select the
    # columns of actions taken. These are the actions which would've been taken
    # for each batch state according to policy_net
    state_action_values = policy_net(state_batch).gather(1, action_batch)

    # Compute V(s_{t+1}) for all next states.
    # Expected values of actions for non_final_next_states are computed based
    # on the "older" target_net; selecting their best reward with max(1)[0].
    # This is merged based on the mask, such that we'll have either the expected
    # state value or 0 in case the state was final.
    next_state_values = torch.zeros(BATCH_SIZE, device=device)
    next_state_values[non_final_mask] = target_net(non_final_next_states).max(1)[0].detach()
    # Compute the expected Q values
    expected_state_action_values = (next_state_values * GAMMA) + reward_batch

    # Compute Huber loss
    criterion = nn.SmoothL1Loss()
    loss = criterion(state_action_values, expected_state_action_values.unsqueeze(1))

    # Optimize the model
    optimizer.zero_grad()
    loss.backward()
    for param in policy_net.parameters():
        param.grad.data.clamp_(-1, 1)
    optimizer.step()

Main training Loop

In [None]:
# änderungen/abweichungen vom toutorial die übergabe des states

num_episodes = 50
for i in range(num_episodes):
    # das Invorment zurück in den uhrsprünglichen Zustand versetzen
    env.reset()
    
    last_screen = get_screen()
    current_screen = get_screen()
    state = current_screen - last_screen
    
    for t in count():
        # eine Aktion auswählen und ausführen
        action = select_action(state)
        _, rewardEnv, done, _, _ = env.step(action.item())
        reward = torch.tensor([rewardEnv], device=device)
        
        # Echtzeit output von dem wasa der Agent macht
        clear_output(wait=True)
        plt.figure(figsize=(5.,12.))
        plt.imshow(env.render())
        plt.title(f'Step: {t}, Reward: {rewardEnv}')
        #targets_open = env.get_targets_target_location_open()
        #for i in range(0, len(targets_open)):
        #    x, y = targets_open[i]
        #    plt.text(x//3, y//3, f'({x//9},{y//9})')
        plt.show()
        
        # den neuen Zustand analysieren 
        last_screen = current_screen
        current_screen = get_screen()
        if not done:
            next_state = current_screen - last_screen
        else:
            next_state = None
            
        # den Übergang in Menory speichern
        memory.push(state, action, next_state, reward)
        
        # in den Nächsten zustand wechseln    
        state = next_state
        
        # Optimieren
        optimize_model()
        if done:
            episode_durations.append(t + 1)
            plot_durations()
            break
    # Das target network updaten
    if t % TARGET_UPDATE == 0:
        target_net.load_state_dict(policy_net.state_dict())
        
print('Complete')
env.render()
env.close()
plt.ioff()
plt.show()

# Zweiter Ansatz liniar Network
https://www.youtube.com/watch?v=6pJBPPrDO40&t=872s Stand: 03.12.2022 13:21
https://github.com/patrickloeber/snake-ai-pytorch Stand: 13.12.2022 11:33

install requrement für die berrechnung der Euklidichen Distanz <br>
pip install mpmath

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import os
os.environ["KMP_DUPLICATE_LIB_OK"]="TRUE" # ohne diese Zeile wird der volgende Fehler ausgelößt
"""OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.
OMP: Hint This means that multiple copies of the OpenMP runtime have been linked into the program. 
That is dangerous, since it can degrade performance or cause incorrect results. The best thing to 
do is to ensure that only a single OpenMP runtime is linked into the process, e.g. by avoiding 
static linking of the OpenMP runtime in any library. As an unsafe, unsupported, undocumented 
workaround you can set the environment variable KMP_DUPLICATE_LIB_OK=TRUE to allow the program 
to continue to execute, but that may cause crashes or silently produce incorrect results. 
For more information, please see http://www.intel.com/software/products/support/."""

import random 
import numpy as np

Für auswertungen und Hyperparametertunige verwende ich tensorboard welcher aus dem env die informattionen bekommt

Install requirement: <br>
conda install pytorch torchvision -c pytorch <br>
alternative pip install torch torchvision <br> <br>
pip install tensorboard <br><br>
um mit Tensorboard etwas aufzuzeichnen <br>
tensorboard --logdir=C:\Users\fabia\OneDrive\Semester3\ProjektSeminar\runs

In [None]:
from torch.utils.tensorboard import SummaryWriter
writer = SummaryWriter('C:/Users/fabia/OneDrive/Semester3/ProjektSeminar/runs')

In [None]:
# Datenstrucktur in die das Memory gespeichert wir
from collections import deque

In [None]:
import gym
import gym_TSP
import pygame

In [None]:
import matplotlib
import matplotlib.pyplot as plt
from IPython import display
from IPython.display import clear_output
from itertools import count

TQDM wird für die visualiserung des Trainingsfortschrittes genutz insbesonders wenn kein Plot ausgeführ wird <br>
Install requirment: <br>
pip install tqdm

In [None]:
from tqdm import tqdm

ipywigest werden genutz zur textausgabe während des Trainings um die wichtigsten Informationen auszugeben <br>
Angelegt an: <br>
https://www.elab2go.de/demo-py1/jupyter-notebook-widgets.php

In [None]:
import ipywidgets as widgets
from ipywidgets import interact, Layout
from ipywidgets import Text

time wird für das automatisieren des Trainings benutzt damit ein agent nicht endlos trainiert

In [None]:
import time

#### Hyperparameter als globale Konstanten setzen

In [None]:
hyperparameter = {
                    "Agent_MaxMemory": 100000,
                    "Agent_BatchSize": 250,
                    "Agent_LearningRate": 0.00100,
                    "Agent_EpsilonStartValue": 80, 
                    "Agent_Gamma": 0.9,
                    "Env_Memory": 10000,
                    "Env_Epsilon": 8000,
                    "Env_Size": 7,
                    "Reward_SameWayTwice": -100000,
                    "Reward_ClosedTarget": 1000000,
                    "Reward_Terminated": 1000000,
                    "Reward_RunAgainstWall": -100000,
                    "Run_NumEpisoden": 10,
                 }

#### Das Enviorment global initialisieren
Damit die einzelen Methoden auf das Env zugreifen könne muss die global initialisiert werden.

In [None]:
env = gym.make("TSPEnv-v0", render_mode="rgb_array", size=hyperparameter["Env_Size"])
observation, info = env.reset()

# set up pygame
pygame.init()

#### Liner Q Net
Feedforward net mit 3 Layern (input layer, hidden layer, output layer)

In [None]:
class LinearQNet(nn.Module):
    def __init__(self, inputSize, hiddenSize, outputSize):
        super().__init__()
        
        self.linear1 = nn.Linear(inputSize,hiddenSize) # input Layer
        self.linear2 = nn.Linear(hiddenSize,outputSize) # hidden Layer
        self.linear3 = nn.Linear(outputSize,outputSize) # output Layer
    
    def forward(self, x): # ist die "prediction" Funktion
        x = F.relu(self.linear1(x)) # Aktivierungsfunktion
        x = self.linear2(x)
        
        return x
    
    def save(self, fileName='model.pth'): # dient dazu das Model zu speichern
        modelFolderPath = './model'
        
        if not os.path.exists(modelFolderPath):     # wenn es den Ordner noch nicht gibt wird hier ein neuer erzeugt
            os.makedirs(modelFolderPath)
            
        fileName = os.path.join(modelFolderPath, fileName) # hier wird der gesammte Filename zusammengesetzt
        torch.save(self.state_dict(), fileName) # das Model speicher 
        

#### Trainer Klasse

In [None]:
class QTrainer:
    def __init__(self, model, learningRate, gamma):
        self.model = model
        self.learningRate = learningRate
        self.gamma = gamma
        
        self.optimizer = optim.Adam(model.parameters(), lr = self.learningRate) # als Otimizer Adam gewählt kann aber auch asugewechselt werden
        self.criterion = nn.MSELoss() # loss Funktion mit "Mean Squared Error"
        
    def train_step(self, state, action, reward, nextState, done):
        state = torch.tensor(state, dtype = torch.float)
        nextState = torch.tensor(nextState, dtype = torch.float)
        action = torch.tensor(action, dtype = torch.long)
        reward = torch.tensor(reward, dtype = torch.float)
        
        # die volgenden Schritte dienen dazu das sowohl einzelne werte als auch Batches von werten verarbeitet werden können        
        if len(state.shape) == 1:
            # die Werte werden in der Form (n,x) benötig weshalb hier noch eine dimension hinzugefüght werden muss
            state = torch.unsqueeze(state, 0)
            nextState = torch.unsqueeze(nextState, 0)
            action = torch.unsqueeze(action, 0)
            reward = torch.unsqueeze(reward, 0)
            done = (done, ) # touple mit nur einem wert
            
        # Schritt 1: predictet Q-Werte mit dem actuellen Wert
        prediction = self.model(state)
        
        # Schritt 2: Formel reward + gamme * max(nextPredictetQValue) nur wenn done = False
        tmp = prediction.clone() 

        for index in range(len(done)):
            QNew = reward[index]
            if not done[index]:
                QNex = reward[index] + self.gamma * torch.max(self.model(nextState[index])) # die Oben genannte Formel wird hier angewant
            tmp[index][action] = QNew
            
        # Schritt 3: Loss Funktion    
        self.optimizer.zero_grad() # Funktion um die Gradient zu leeren
        loss = self.criterion(tmp, prediction) # repräsentieren QNew and Q
        loss.backward() # backpropagation anwenden und gradient setzen
        
        self.optimizer.step()

#### Get State
Die getState() Methode weicht vom Toutorial ab und ist und baut auf "The agent’s current position as current_row * nrows + current_col (where both the row and col start at 0)." auf. gymlibrary.dev/environments/toy_text/frozen_lake/ Stand 03.12.2022 13:52 Die überlegung hier war eine Matematischeformel zu findn die den Abstand zu den einzelnen Zeihen darstellt und dann über die Sates mitgegeben werden kann die Formel die ich hierfür erstellt habe ist (TargetRow-AgentRow)^2+(TargetColum-AgentColum)^2. Die Quadrierung wird benötigt damit alle Positionen rund um ein Ziel gleich gewichtet werden.

In [None]:
def getState():
    targetsOpen = env.get_targets_target_location_open()
    targetsDone = env.get_target_location_done()
    agentPosition = env.get_agentPosition()
    
    agentRow, agentColum = agentPosition
    state = []
    
    for i in range(0, len(targetsOpen)):
        targetRow, targetColum = targetsOpen[i]
        state.append(((targetRow-agentRow)**2)+((targetColum-agentColum)**2)) # die oben gennante Funktion
        
    # damit der State immer die Selbe größe hat werden die geschlossenen Ziele mit 0 aufgefüllt    
    for i in range(0, len(targetsDone)):
        state.append(0)
    
    return state

#### Agent

In [None]:
class Agent:
    def __init__(self, load = None):
        # um Nachzuvolziehen wie viele durchläufe es gab
        self.NumberOfFoundTargets = 0
        # steuert den übergang zwichen random actions und gelernten actions
        self.epsilon = 0 
        # discount rate muss kleiner als Eins sein uns ist meist 0.8 oder 0.9
        self.gamma = hyperparameter["Agent_Gamma"]
        # das "Gedächtnis" wenn das deque "voll" ist wird ein popleft() ausgeführt
        self.memory = deque(maxlen = hyperparameter["Agent_MaxMemory"])
        
        # inputSize entspricht der größe des States welcher wiederum der anzahl der Ziele entspricht
        inputSize = hyperparameter["Env_Size"]
        # hiddenSize als konstante ausgesucht dieser wert kann angepasst werden
        hiddenSize = 256 
        # outputSize entpricht der anzahl der Möglichen actions hier 4
        outputSize = 4
        
        self.model = LinearQNet(inputSize, hiddenSize, outputSize) 
        
        if load != None:
            self.model.load_state_dict(torch.load(load))
            self.model.eval()
            # Zum ausgeben der Model Paramter
            # print(self.model.state_dict())
        
        self.trainer = QTrainer(self.model, learningRate=hyperparameter["Agent_LearningRate"], gamma=self.gamma)
        
    def remember(self, state, action, reward, next_state, done):
        self.memory.append((self, state, action, reward, next_state, done)) # wird als Touple angehängt
        
    def train_long_memory(self):
        if len(self.memory) > hyperparameter["Agent_BatchSize"]:
            miniSample = random.sample(self.memory, hyperparameter["Agent_BatchSize"])
        else:
            miniSample = self.memory 
        _, states, actions, rewards, next_states, dones = zip(*miniSample) # zip sorgt dafür das die Daten richtig extrahiert werden damit alle rewards zusammen sind
        self.trainer.train_step(states, actions, rewards, next_states, dones)           
        
    def train_short_memory(self, state, action, reward, next_state, done):
        self.trainer.train_step(state, action, reward, next_state, done)
        
    def get_action(self, state):
        # das epsison steuert das verhältniss zwichen exploration / explotatio
        # exploration wird durch random moves gesteuert damit der Agent das Enviornment erkundet
        # explotation ist das anwenden des gesammelten Wissen
        
        self.epsilon = hyperparameter["Agent_EpsilonStartValue"] - self.NumberOfFoundTargets
        
        # die Art wie eine action ausgewählt wird weicht hier vom Tutorial ab da dort eine andere steuerungslogik verwendet wird
        
        # ließt die möglichen actions aus dem Enviorment aus
        n_actions = env.action_space.n
        
        if random.randint(0,200) < self.epsilon: # daher das das epsilon negativ werden kann, wenden hier irgendwann keine random actions mehr gewählt
            action = random.randrange(n_actions) # auswahl einer Zufälligen action
        else: 
            state0 = torch.tensor(state, dtype=torch.float)
            prediction = self.model(state0)
            action = torch.argmax(prediction).item() # hier müssen vielleicht noch änderungen gemacht werden 
            
        return action

#### Training
Abweichugen vom Tutorial sind an dieser Stelle die Ergänzung von Episoden und die darasresultierenden Anpassungen

In [None]:
def train(render = False, info = False, numEpisodes = 50, auto = False, timeoutTime = 60, load = None):
    maxReward = 0
    if load == None:
        agent = Agent()
    else:
        agent = Agent(load)
    
    outOfTime = False
    
    for i in tqdm(range(numEpisodes)):
        # das Enviornment für die Nächste Episode zurücksetzten (hier kann auch der Parameter Size mit gegeben werden)
        env.reset(hyperparam=hyperparameter)
        
        # terminated ist true wenn das TSP Problem gelöst wurde
        terminated = False
        
        # zu ermitteln ob ein neuer Punkt abgearbeitet wurde
        done = False
        doneTargets = env.get_target_location_done().copy()

        timeout = time.time() + 60*timeoutTime
        
        while not terminated:
            
            # get old State
            stateOld = getState()

            # action treffen
            action = agent.get_action(stateOld)

            # action ausführen
            _, reward, terminated, _, _ = env.step(action)

            # get new State
            stateNew = getState()
            
            if doneTargets != env.get_target_location_done():
                doneTargts = env.get_target_location_done().copy()
                done = True

            # das short_momory trainieren
            agent.train_short_memory(stateOld, action, reward, stateNew, done)

            # remeremember 
            agent.remember(stateOld, action, reward, stateNew, done)

            if terminated:
                # maximalen reward setzen
                if reward > maxReward:
                    maxReward = reward
                    
                printInfo = env.get_printInfo()
                
                writer.add_scalar('test/steps', env.get_Steps(), i)
                writer.add_scalar('test/reward', reward, i)
                writer.add_scalar('test/euklidischeDistanz', printInfo["euklidische_Distanz"], i)
                
                writer.add_hparams(
                        {
                         'Agent_MaxMemory': hyperparameter["Agent_MaxMemory"],
                         'Agent_BatchSize': hyperparameter["Agent_BatchSize"],
                         'Agent_LearningRate': hyperparameter["Agent_LearningRate"],
                         'Agent_EpsilonStartValue': hyperparameter["Agent_EpsilonStartValue"],
                         'Agent_Gamma': hyperparameter["Agent_Gamma"],
                         'Env_Memory': hyperparameter["Env_Memory"],
                         'Env_Epsilon': hyperparameter["Env_Epsilon"],
                         'Env_Size': hyperparameter["Env_Size"],
                         'Reward_SameWayTwice': hyperparameter["Reward_SameWayTwice"],
                         'Reward_ClosedTarget': hyperparameter["Reward_ClosedTarget"],
                         'Reward_Terminated': hyperparameter["Reward_Terminated"],
                         'Reward_RunAgainstWall': hyperparameter["Reward_RunAgainstWall"],
                         'Run_NumEpisoden': hyperparameter["Run_NumEpisoden"]
                        }, 
                        {
                         'hparam/steps': env.get_Steps(),
                         'hparam/reward': reward,
                         'hparam/Episode': i,
                         'hparam/euklidischeDistanz': printInfo["euklidische_Distanz"]
                        }
                      )
            
            # dient dem optionalen rendern des Enviornments
            if render: 
                clear_output(wait=True)
                plt.figure(figsize=(5.,12.))
                plt.imshow(env.render())
                plt.show()
                
            # dient der optimalen ausgabe von Informationen
            if info:
                printInfo = env.get_printInfo()
                
                # damit info auch mit render aktiv verfügbar ist
                if not render:
                    clear_output(wait=True) 
                print("Episode")
                print(i)
                
                print("Steps:")
                print(env.get_Steps())
                
                print("Reward:")
                print(env.get_Reward())
                
                print("Step Reward:")
                print(printInfo["stepReward"])
                
                print("Offene Ziele:")
                print(env.get_openTargets())
                print(env.get_targets_target_location_open())
            
                print("Fertige Ziele:")
                print(env.get_closedTargets())
                print(env.get_target_location_done())
                
                print("Agent position:")
                print(env.get_agentPosition())
                
                print("\n")
                
                print("Old State:")
                print(stateOld)
                
                print("Old State Env:")
                print(printInfo["oldState"])
                
                print("Index Target Affection Old State:")
                print(printInfo["indexTargetAffectionOldState"])
                
                print("New State:")
                print(stateNew)
                                
                print("Nex State Env:")
                print(printInfo["newState"])

                print("Affection reward:")
                print(printInfo["affectionReward"])
                
                print("Index StartPoint:")
                print(printInfo["indexStartPoint"])
                
                print("\n")
                
                print("tmpOldState:")
                print(printInfo["tmpOldState"])
                
                print("tmpListeOldState:")
                print(printInfo["tmpListeOldState"])

                if  printInfo["runAgainstWall"]:
                    print("runAgainstWall")
                else:
                    print()
                    
                print("visitedTwice")
                print(printInfo["visitedTwice"])
                    
                print("euklidische Distanz")
                print(printInfo["euklidische_Distanz"])
                
                print("Bisherige Route")
                print(env.showRoute())
                    

            if done:
                agent.NumberOfFoundTargets += 1

                # das lang Zeit memorytrainieren
                agent.train_long_memory()

                done = False
                
            if timeout < time.time():
                outOfTime = True
                break
    
        if outOfTime:
            break
          
        # Model wird nur gespeichert wenn es alle Testläufe ohne timout bestanden hat
        fileName = "model_" + time.strftime('%H%M%S_%d%m%Y') + ".pth"
        agent.model.save(fileName = fileName)   
        
    if not auto:        
        writer.close()

Automatisiertes Training für Hyperparamterttuning

In [None]:
auto = True

# steuerungsparameter
trainEpisodes = 1000
# da Targest zufällig positioniert werden soll das selbe
# hyperparameter set mehrfach getestet erden für aussagekräftige Ergebnisse 
setTests = 2


# training um kombinations effecte zwichenden einzenlnen Hyperparamteren herrauszufinden
kombinationTraining = 1000
    
intToHyperparameter={
                        0:"Agent_MaxMemory",
                        1:"Agent_BatchSize",
                        2:"Agent_LearningRate",
                        3:"Agent_EpsilonStartValue", 
                        4:"Agent_Gamma",
                        5:"Env_Memory",
                        6:"Env_Epsilon",
                        7:"Env_Size",
                        8:"Reward_SameWayTwice",
                        9:"Reward_ClosedTarget",
                        10:"Reward_Terminated",
                        11:"Reward_RunAgainstWall",
                     }

Agent_MaxMemory = np.empty(0)
Agent_BatchSize = np.empty(0)
Agent_LearningRate = np.empty(0)
Agent_EpsilonStartValue = np.empty(0)
Agent_Gamma = np.empty(0)
Env_Memory = np.empty(0)
Env_Epsilon = np.empty(0)
Env_Size = np.empty(0)
Reward_SameWayTwice = np.empty(0)
Reward_ClosedTarget = np.empty(0)
Reward_Terminated = list(range(1000000, 1500000, 100000))
Reward_RunAgainstWall = list(range(-2000000, -50000, 10000))
    
hyperparameterSet = [
                     Agent_MaxMemory, 
                     Agent_BatchSize, 
                     Agent_LearningRate,
                     Agent_EpsilonStartValue,
                     Agent_Gamma,
                     Env_Memory,
                     Env_Epsilon,
                     Env_Size,
                     Reward_SameWayTwice,
                     Reward_ClosedTarget,
                     Reward_Terminated,
                     Reward_RunAgainstWall
                    ]

# Kopie der Hyperparameter erstellen damit die werte anschließend wieder zurückgesetzt werden
hParamBase = hyperparameter.copy()

    
for i in range(len(hyperparameterSet)):   
    for j in range(len(hyperparameterSet[i])):
        print(intToHyperparameter[i])
        hyperparameter[intToHyperparameter[i]] = hyperparameterSet[i][j]
        print(hyperparameter)

        for k in range(setTests):
            print(k)
            # die Timeout Time bestimmt nach wieviel Minuten ein Run abbricht
            train(info = False, numEpisodes = hyperparameter["Run_NumEpisoden"], auto = auto, timeoutTime = 30)
     
    hyperparameter[intToHyperparameter[i]] = hParamBase[intToHyperparameter[i]]
    clear_output(wait=True)
            
        
for k in range(0,kombinationTraining):
    chooseRandomHyperparameter = random.randint(0, len(hyperparameterSet)-1)
    
    sample = random.sample(hyperparameterSet[chooseRandomHyperparameter], k=1) 
        
    hyperparameter[intToHyperparameter[chooseRandomHyperparameter]] = sample[0]

    for l in range(setTests):
        # die Timeout Time bestimmt nach wieviel Minuten ein Run abbricht
        train(info = False, numEpisodes = hyperparameter["Run_NumEpisoden"], auto = auto, timeoutTime = 30)
        
        clear_output(wait=True)
     
    hyperparameter = hParamBase
writer.close()

Trainieren mit einen Hyperparameter satz

In [None]:
train(render = False, info = False, numEpisodes = hyperparameter["Run_NumEpisoden"])

### Laden von einem Model
Anhand von https://www.youtube.com/watch?v=9L9jEOwRrCg&feature=youtu.be 08.01.2023

Das baseline Model

In [None]:
train(render = True, info = False, numEpisodes = hyperparameter["Run_NumEpisoden"], load = "C:/Users/fabia/OneDrive/Semester3/ProjektSeminar/Projektseminar-DeepLearing-FabianFleischer/model/baselineModel.pth")

id 1673235165.4452035 <br>
Unterschied zum baseline Model ist Reward_SameWayTwice = -120000 <br>

In [None]:
hyperparameter = {
                    "Agent_MaxMemory": 100000,
                    "Agent_BatchSize": 250,
                    "Agent_LearningRate": 0.00100,
                    "Agent_EpsilonStartValue": 80, 
                    "Agent_Gamma": 0.9,
                    "Env_Memory": 10000,
                    "Env_Epsilon": 8000,
                    "Env_Size": 7,
                    "Reward_SameWayTwice": -120000,
                    "Reward_ClosedTarget": 1000000,
                    "Reward_Terminated": 1000000,
                    "Reward_RunAgainstWall": -100000,
                    "Run_NumEpisoden": 10,
                 }

train(render = True, info = False, numEpisodes = hyperparameter["Run_NumEpisoden"], load = "C:/Users/fabia/OneDrive/Semester3/ProjektSeminar/Projektseminar-DeepLearing-FabianFleischer/model/model_043426_09012023.pth")

## Auswertung der Daten

In [None]:
import pandas as pd
import numpy as np
from IPython.display import display



In [None]:
pd.options.display.float_format = '{:.2f}'.format
data = pd.read_csv('C:/Users/fabia/OneDrive/Semester3/ProjektSeminar/testDataCSV/hparams_table.csv', sep=',')
data

Die Daten werden nach den Hyperparamerter Konstelationen Gruppiert.

In [None]:
pd.options.display.float_format = '{:.6f}'.format
dataGbHypaparameter = data.groupby(['Agent_MaxMemory','Agent_BatchSize','Agent_LearningRate','Agent_EpsilonStartValue','Agent_Gamma','Env_Memory','Env_Epsilon','Reward_SameWayTwice','Reward_ClosedTarget','Reward_Terminated','Reward_RunAgainstWall'])

dataGbHypaparameterAgg = dataGbHypaparameter.agg({
                                                    'hparam/reward': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/steps': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/euklidischeDistanz': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/Episode': ['mean', 'max', 'std', 'var']
                                                })
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(dataGbHypaparameterAgg.reset_index())

Die Daten werden nach den Hyperparamerter Konstelationen und der Episode Gruppiert.

In [None]:
pd.options.display.float_format = '{:.6f}'.format

dataGbHypaparameterEpisode = data.groupby(['Agent_MaxMemory','Agent_BatchSize','Agent_LearningRate','Agent_EpsilonStartValue','Agent_Gamma','Env_Memory','Env_Epsilon','Reward_SameWayTwice','Reward_ClosedTarget','Reward_Terminated','Reward_RunAgainstWall','hparam/Episode'])

dataGbHypaparameterAggEpisode = dataGbHypaparameterEpisode.agg({
                                                    'hparam/reward': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/steps': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/euklidischeDistanz': ['mean', 'min', 'max', 'std', 'var'],
                                                })
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(dataGbHypaparameterAggEpisode.reset_index())

Datensatz laden mit nur den Testergebissen der 9. Episode da diese zeigen das der Agent erfolgreich den Testlauf zu durchlaufe ohne ein Timeout auszulösen. Zudem ist hier das Epsilon am weitesten abgeflacht un der Agent trifft kaum noch random actions.

In [None]:
dataEpisode9 = pd.read_csv('C:/Users/fabia/OneDrive/Semester3/ProjektSeminar/testDataCSV/hparams_table_Episode9.csv', sep=',')

dataEpisode9GbHypaparameter = dataEpisode9.groupby(['Agent_MaxMemory','Agent_BatchSize','Agent_LearningRate','Agent_EpsilonStartValue','Agent_Gamma','Env_Memory','Env_Epsilon','Reward_SameWayTwice','Reward_ClosedTarget','Reward_Terminated','Reward_RunAgainstWall'])

dataEpisode9GbHypaparameterAgg = dataEpisode9GbHypaparameter.agg({
                                                    'hparam/reward': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/steps': ['mean', 'min', 'max', 'std', 'var'],
                                                    'hparam/euklidischeDistanz': ['mean', 'min', 'max', 'std', 'var'],
                                                })
with pd.option_context('display.max_rows', None, 'display.max_columns', None):
    display(dataEpisode9GbHypaparameterAgg.reset_index())

Im volgenden werden die gesamten Resultate all der Kombinationen verglichen die, die 9. Episode erreicht haben.

In [None]:
hparam = dataEpisode9[['Agent_MaxMemory','Agent_BatchSize','Agent_LearningRate','Agent_EpsilonStartValue','Agent_Gamma','Env_Memory','Env_Epsilon','Reward_SameWayTwice','Reward_ClosedTarget','Reward_Terminated','Reward_RunAgainstWall']].to_numpy()
steps = dataEpisode9['hparam/steps'].to_numpy()
reward = dataEpisode9['hparam/reward'].to_numpy()
euklidischeDistanz = dataEpisode9['hparam/euklidischeDistanz'].to_numpy()

Hilfsdictonary

In [None]:
intToHyperparameter={
                        0:"Agent_MaxMemory",
                        1:"Agent_BatchSize",
                        2:"Agent_LearningRate",
                        3:"Agent_EpsilonStartValue", 
                        4:"Agent_Gamma",
                        5:"Env_Memory",
                        6:"Env_Epsilon",
                        7:"Reward_SameWayTwice",
                        8:"Reward_ClosedTarget",
                        9:"Reward_Terminated",
                        10:"Reward_RunAgainstWall",
                     }

Auswertung der anzahl der Steps in Episode 9

In [None]:
maxSteps = max(steps)
minSteps = min(steps)
meanSteps = steps.mean()
varSteps = np.var(steps)
stdSteps = np.std(steps, ddof=1)

print('maxSteps:', maxSteps, 'minSteps:', minSteps, 'meanSteps:', meanSteps, 'varSteps:', varSteps, 'stdSteps:', stdSteps)

Hyperparametersatz der die wenigsten steps in der 9. Episode benötigt hat.

In [None]:
index = np.where(steps == minSteps)[0][0]

for i in range(0,10):
    print(intToHyperparameter[i], '=', hparam[index][i])

Auswertung des Reward in der 9. Episode.

In [None]:
maxReward = max(reward)
minReward = min(reward)
meanReward = reward.mean()
varReward = np.var(reward)
stdReward = np.std(reward, ddof=1)

print('maxReward:', maxReward, 'minReward:', minReward, 'meanReward:', meanReward, 'varReward:', varReward, 'stdReward:', stdReward)

Hyperparametersatz mit dem höchsten reward in der 9. Episode

In [None]:
index = np.where(reward == maxReward)[0][0]

for i in range(0,10):
    print(intToHyperparameter[i], '=', hparam[index][i])

In [None]:
maxEuklidischeDistanz = max(euklidischeDistanz)
minEuklidischeDistanz = min(euklidischeDistanz)
meanEuklidischeDistanz = euklidischeDistanz.mean()
varEuklidischeDistanz = np.var(euklidischeDistanz)
stdEuklidischeDistanz = np.std(euklidischeDistanz, ddof=1)

print('maxEuklidischeDistanz:', maxEuklidischeDistanz , 'minEuklidischeDistanz:', minEuklidischeDistanz , 'meanEuklidischeDistanz:', meanEuklidischeDistanz , 'varEuklidischeDistanz:', varEuklidischeDistanz , 'stdEuklidischeDistanz:', stdEuklidischeDistanz)

In [None]:
index = np.where(euklidischeDistanz == minEuklidischeDistanz)[0][0]
print(euklidischeDistanz[index])

for i in range(0,10):
    print(intToHyperparameter[i], '=', hparam[index][i])

### Ergebniss
Was hierbei ersichtlich wird ist das der ein Hyperparametersatz die geringsten Steps, den maximalen Rewrad und die geringste Euklidische Distanz erziehlte. Dieser Hyperparametersatz hat es in 3 verscheiden Testläufen in die 9. Episode geschafft. Was bei diesem Hyperprametersatz aufällig ist und sich insbesonder in den Basline Testdaten wiederspiegelt ist die hohe varianz der ergebnisse bei gleichem Hyperparametersatz. Hierdurch ist es schwer bis unmöglich aus den gegeben Testdaten tatsächlich die besten Hyperparameterwerte festzustellen.

In [None]:
pd.options.display.float_format = '{:.3f}'.format

dataEpisode9GbHypaparameterAgg.reset_index().iloc[51]

### Ausblick
Testen mit weitaus mehreren testläufen pro Hyperparametersatz mit dem Ziel die Varianz der Resultate zu veringern und dadurch stcihhaltige aussagen über die performance eines Hyperparameters gegenüber der Baseline zu machen. <br><br>
Den ersten Agent überarbeiten und mit ihn mit dem Zweiten agent zu vergelichen. <br><br>
Eine AI mit den Hyperparameterdaten trainerum um diese die beste Hyperparameter konstellation finden zu lassen.
