# PyGame Snake

## Einführung
Das klassische Spiel "Snake" ist ein einfaches Videospiel, welches auf Personal-Computern zuerst im Jahr 1978 von  Peter Trefonas unter dem Namen "Worm" auf dem TRS-80 implementiert wurde [1]. Seitdem hat es zahlreiche Iterationen und Variationen erfahren. Das Spielprinzip ist einfach, aber mit fortschreitender Spieldauer immer anspruchsvoller. Aufgrund seiner hohen bekanntheit (früher und heute) kann es als zeitloser Klassiker bezeichnet werden.

### Spielprinzip
Das Hauptziel des Spiels besteht darin, eine Schlange durch ein begrenztes Spielfeld zu steuern und dabei so viele Nahrungsmittel wie möglich zu fressen. Mit jedem verzehrten Nahrungsmittel wächst die Schlange, was das Spiel den Schwierigkeitsgrad kontinuirlich erhöht. Eine Berührung einer der Wände oder des Körpers der Schlange führt zum Spielende.

### Herausforderungen
Der Spieler benötigt Geschicklichkeit und strategisches Denken, um optimale Entscheidungen in Echtzeit zu treffen. Es muss vorrausschauend geplant werden, um die Schlange sicher durch das Spielfeld zu führen und gleichzeitig die wachsende Länge der Schlange beachtet werden.

### Ziel der Untersuchung
Im folgenden werden verschiedene KI Modelle darauf trainiert, das Spiel Snake zu meistern. Der Fokus liegt auf der Anwendung verschiedener Deep Learning-Verfahren, um die Leistung der KI-Modelle zu vergleichen. Diese Modelle werden darauf trainiert, intelligente Entscheidungen zu treffen, um die Schlange effektiv zu steuern und dabei möglichst viele Nahrungsmittel zu fressen. 

Außerdem soll untersucht werden, wie einfach fertig trainierte Modelle an geänderte Spielregeln angepasst werden können. Dabei sollen die Modelle zunächst auf das klassiche Spiel Snake trainiert werden und danach auf Varianten von Snake mit geänderten Regeln angwandt werden. Folgende Regelanpassungen sind vorgesehen:
- Weitere Hindernisse auf dem Spielfeld
- Nahrungsmittel mit Verschiedenen Punktzahlen, die gleichzeitig erscheinen
- Maximale Dauer zwischen zwei Nahrungsaufnahmen
- Keine Wände am Bildschirmrand

Der Vergleich der verschiedenen Ansätze ermöglicht Einblicke in die Wirksamkeit unterschiedlicher Deep Learning-Techniken bei der Bewältigung von komplexen Aufgaben und deren Adaptionsfähigkeit auf geänderte Problemstellungen.

## Verfahren
In der Arbeit werden die folgenden drei Verfahren untersucht. Sie werden im Folgenden kurz vorgestellt.  
Einige Verfahren nutzen sogenannte Agenten. Das bedeutet, dass das jeweilige Verfahren auf das gestellte Problem angewendet wird.
### Deep Q-Networks/Deep Q-Learning
Deep Q-Learning (DQL) ist eine Methode, die auf künstlichen neuronalen Netzwerken basiert und dazu dient, komplexe Entscheidungsprozesse zu erlernen.Dabei werden tiefe neuronale Netzwerke mit dem sogenanten Q-Learning, einer Methode des verstärkenden lernens, kombiniert.
> "Q-Learning ist eine Form des zeitlichen Differenzlernens. Als solches ist es eine modellfreie Verstärkungslernmethode, die Elemente der dynamischen Programmierung mit Monte-Carlo-Schätzungen kombiniert. Unter anderem aufgrund des Beweises von Watkins (1989), dass es zur optimalen Wertfunktion konvergiert, gehört das Q-Learning zu den am häufigsten verwendeten und bekanntesten Verstärkungslernalgorithmen." [2, S. 1033]  


Der Kern des Q-Learning ist die Aktionswert-Funktion Q(s,a). Diese Funktion gibt den Ertrag für eine Aktion a aus, die von einem Agenten im Zustand s ausgeführt wird [3]. 
Die Ergebnisse der Aktionswert-Funktion werden in der Q-Tabelle gespeichert. 
Der gesamte Algorithmus lässt sich wie folgt beschreiben:
1. Die Q-Tabelle wird mit zufälligen Werten (oder nullen) initialisiert.
2. Der Agent interagiert mit der Umgebung und erhält das Tuple (s,a,r,s')  
Zustand (s), Aktion (a), Ertrag (r), Folgezustand (s'). Dabei wird auch die Entscheidung getroffen, welche Aktion als nächstes durchgeführt wird. Diese Entscheidungsfindung ist ein Dilemma zwischen Erkundung und Ausbeutung (exploration and exploitation)[4, S. 127] und lässt sich nicht eindeutig lösen.
3. Der Ertrag wird in die Q-Tabelle aufgenommen. Dieser Errechnet sich wie folgt  
Q(s,a) = r + $\gamma$  $max_{a' \in A}(Q(s',a'))$
4. Schritte zwei und drei wiederholen.  
[4, S.121]
### Reinforcement Learning 
### Deep Policy Networks

\gamma

## Implementierung und Vorgehen
Das eigentliche Spiel ist als Klasse implementiert, so dass mehrere Ausführungen gleichzeitig möglich sind. Die Darstellung des Spiels erfolgt mit dem PyGame Framwork[99]. Für eine effiziente Berechung während des Trainings eines Machine Learning Modells muss das Rendering jedoch abschaltbar sein. Außerdem ist es notwendig, dass das Spiel mit hoher Geschwindigkeit läuft. Auch dies ist für ein effektives Training notwendig und möglich, da ein Computer nicht den gleichen Einschränkungen der Reaktionszeit unterliegt wie ein Mensch.


In [2]:
import math
import random as rnd
import pygame


pygame 2.5.2 (SDL 2.28.3, Python 3.9.5)
Hello from the pygame community. https://www.pygame.org/contribute.html


In [3]:
class Agent:
    def __init__(self,pg):
        self.pg = pg
    def tick(self, head_position, tails, target, target_points):
        keys = [False]*512
        return keys
        


In [4]:
class RandomAgent(Agent): 
    def tick(self, head_position, tails, target, target_points):
        keys = [False]*512
        if rnd.randint(0,100) <30:
            keys[rnd.choice([pygame.K_w,pygame.K_a,pygame.K_s,pygame.K_d])] = True
        return keys
    
            


In [5]:
def get_distance(a,b):
    return math.sqrt( (a.y-b.y) ** 2 + (a.x-b.x) ** 2 )

In [26]:
def main():
    global SCREEN, CLOCK
    pg = pygame.init()
    SCREEN = pygame.display.set_mode((1280, 720))
    CLOCK = pygame.time.Clock()
    SCREEN.fill(BLACK)

    while True:
        draw_grid(1280, 720,20,SCREEN)
        for event in pygame.event.get():
            if event.type == pygame.QUIT:
                pygame.quit()
                

        pygame.display.update()
main()

KeyboardInterrupt: 

In [None]:
class SnakeGame():
    BLACK = (0, 0, 0)
    WHITE = (200, 200, 200)

    def __init__(self,render_game,agent,screen_width,screen_height,speed_factor):
        self.render_game = render_game
        self.agent_game = not agent == None
        self.agent = agent
        self.screen_width = screen_width
        self.screen_height = screen_height
        self.speed_factor = speed_factor
        self.screen =None
        self.clock = None
        self.block_size =20
        self.snake = [(screen_width // 2*self.block_size, screen_height // 2*self.block_size)]
        
        if render_game:
            pygame.init()
            self.screen = pygame.display.set_mode((self.screen_width, self.screen_height))
            self.clock  = pygame.time.Clock()
    #def run_game(self):
        
    def handle_input(self):
        if(self.agent_game):
            keys = self.agent.tick(None,None,None,None)    
        else:
            keys = pygame.key.get_pressed()
        return keys
    def draw_grid(self):
        for x in range(0,self.screen_width,self.block_size):
            for y in range(0, self.screen_height, self.block_size):
                rct = pygame.Rect(x,y,self.block_size,selfblock_size)
                pygame.draw.rect(self.screen,WHITE,rct,1)

In [10]:
#https://www.pygame.org/docs/
# Example file showing a circle moving on screen
render_game = True
agent_game = True
screen_width = 1280
screen_height = 720

speed_factor = 3

# pygame setup
pygame.init()
agt = RandomAgent(pygame)
if render_game:
    screen = pygame.display.set_mode((screen_width, screen_height))
clock = pygame.time.Clock()
running = True

dt = 0

pygame.font.init() # you have to call this at the start, 
                   # if you want to use this module.
my_font = pygame.font.SysFont('Arial', 30)

player_pos = pygame.Vector2(screen_width / 2, screen_height / 2)
tails=[]
tail_length =1
player_dest_y = 100
player_dest_x = 0

points =0
ct=0
random_obj = pygame.Vector2(rnd.randint(0,screen_width), rnd.randint(0,screen_height))   
text_surface = my_font.render(f'Points {points}', False, (0, 0, 0))

while running:
    if render_game:
        screen.blit(text_surface, (0,0))
    # poll for events
    # pygame.QUIT event means the user clicked X to close your window
    for event in pygame.event.get():
        if event.type == pygame.QUIT:
            running = False
    
    #dst = math.sqrt( (player_pos.y-random_obj.y) ** 2 + (player_pos.x-random_obj.x) ** 2 )
    
    dst = get_distance(player_pos,random_obj) 
    if dst < 80:
        rnd.randint(0,screen.get_width())
        random_obj = pygame.Vector2(rnd.randint(0,screen_width), rnd.randint(0,screen_height))   
        tail_length+=1
        points+=1
        text_surface = my_font.render(f'Points {points}', False, (0, 0, 0))

    if (screen_width <= player_pos.x or screen_height <= player_pos.y 
        or  player_pos.x <=0 or player_pos.y <=0) :
        break

    if render_game:
        screen.fill("purple")

        pygame.draw.circle(screen, "red", player_pos, 40)
        for t in tails:
            pygame.draw.circle(screen, "red", t, 40)
        pygame.draw.circle(screen, "blue", random_obj, 40)

    
    if(agent_game):
        keys = agt.tick(None,None,None,None)    
    else:
        keys = pygame.key.get_pressed()
    
    if keys[pygame.K_w]:
        player_dest_y,player_dest_x = -100,0
    elif keys[pygame.K_s]:
        player_dest_y,player_dest_x = 100,0
    elif keys[pygame.K_a]:
        player_dest_y,player_dest_x = 0,-100
    elif keys[pygame.K_d]:
        player_dest_y,player_dest_x = 0,100

    ct+=1
    if ct%(30//speed_factor) == 0:
        tails.append(player_pos.copy())
        ct=0

    if len(tails) > tail_length:
        tails = tails[-tail_length:]
    player_pos.y += player_dest_y* dt
    player_pos.x += player_dest_x * dt    
    end_game = False
    for t in tails[:-1]:
        if get_distance(t,player_pos)< 5:
            end_game =True
            break

    if end_game:
        break

    if render_game:
        pygame.display.flip()

    # limits FPS to 60
    # dt is delta time in seconds since last frame, used for framerate-
    # independent physics.
    dt = clock.tick(60) /(1000//speed_factor)

pygame.quit()

## Literatur:
[1]: "Snake (Computerspiel)", [Online] Verfügbar: https://de.wikipedia.org/w/index.php?title=Snake_(Computerspiel)&oldid=236710907 , Abgerufen 13.01.2023  
[2]:  Sammut, Claude; Webb, Geoffrey I., "Encyclopedia of machine learning and data mining", 2017, Springer, ISBN: 9781489976871  
[3]: Artem Oppermann, "Deep Q-Learning", [Online] Verfügbar: https://artemoppermann.com/de/deep-q-learning/ , Abgerufen 13.01.2023  
[4]:  Lapan, Maxim, "Deep reinforcement learning hands-on", 2018, Packt, ISBN: 978-1-78883-424-7  
[99]: https://www.pygame.org/ ,Abgerufen 10.01.2023  


| Stretch/Untouched | ProbDistribution | Accuracy |
| --- | --- | --- |
| Stretched | Gaussian | .843 |