In [1]:
import gym
import numpy as np
from time import sleep

In [2]:
class Agent():
    """Der Agent der trainiert werden soll."""

    def __init__(self, env):
        """
        Zur Initialisierung neuer Instanzen.
        
        Parameters
        ----------
        env: gym.wrappers.time_limit.TimeLimit
            Spiel-Umgebung.
        """
        self.actions = []
        for i in range(env.action_space.n):
            self.actions.append(i)
        states = set()
        for i in range(16):
            states.add(i)
        self.table = {}
        for state in states:
            self.table[state] = {}
            for action in self.actions:
                self.table[state][action] = 0

    def move(self, state, epsilon = 0.1):
        """
        Setzt den nächsten besten Zug.
        
        Parameters
        ----------
        state: int
            Aktueller Zustand der Umgebung, Standort.
        epsilon: float
            .
        
        Returns
        -------
        bestAction: int
            Bester errechneter Zug.
        """
        if np.random.random() < epsilon:
            return np.random.choice(self.actions)
        else:
            actionValue = 0
            bestAction = 0
            for action in self.table[state]:
                if self.table[state][action] >= actionValue:
                    actionValue = self.table[state][action]
                    bestAction = action
            return bestAction


In [3]:
def playGame(agent, env, alpha, gamma):
    """
    Spielt das Spiel.
    
    Parameters
    ----------
    agent: Agent
    env: gym.wrappers.time_limit.TimeLimit
    alpha: int
    gamma: float


    Returns
    -------
    total: int
    """
    done = False
    s = env.reset()
    total = 0
    while not done:
        a = agent.move(s)
        prime, r, done, _ = env.step(a)
        if done:
            r = -2
        #env.render()
        agent.table[s][a] = alpha * (r + gamma * (np.max(list(agent.table[prime].values())) - agent.table[s][a]))
        s = prime
        total += r
    return total


In [4]:
# Start.
env = gym.make('FrozenLake-v1')
agent = Agent(env)
totals = []
for i in range(1000):
    print("Spiel ", i + 1)
    total = playGame(agent, env, 1, 0.5)
    totals.append(total)
print(np.mean(totals))

Spiel  1
Spiel  2
Spiel  3
Spiel  4
Spiel  5
Spiel  6
Spiel  7
Spiel  8
Spiel  9
Spiel  10
Spiel  11
Spiel  12
Spiel  13
Spiel  14
Spiel  15
Spiel  16
Spiel  17
Spiel  18
Spiel  19
Spiel  20
Spiel  21
Spiel  22
Spiel  23
Spiel  24
Spiel  25
Spiel  26
Spiel  27
Spiel  28
Spiel  29
Spiel  30
Spiel  31
Spiel  32
Spiel  33
Spiel  34
Spiel  35
Spiel  36
Spiel  37
Spiel  38
Spiel  39
Spiel  40
Spiel  41
Spiel  42
Spiel  43
Spiel  44
Spiel  45
Spiel  46
Spiel  47
Spiel  48
Spiel  49
Spiel  50
Spiel  51
Spiel  52
Spiel  53
Spiel  54
Spiel  55
Spiel  56
Spiel  57
Spiel  58
Spiel  59
Spiel  60
Spiel  61
Spiel  62
Spiel  63
Spiel  64
Spiel  65
Spiel  66
Spiel  67
Spiel  68
Spiel  69
Spiel  70
Spiel  71
Spiel  72
Spiel  73
Spiel  74
Spiel  75
Spiel  76
Spiel  77
Spiel  78
Spiel  79
Spiel  80
Spiel  81
Spiel  82
Spiel  83
Spiel  84
Spiel  85
Spiel  86
Spiel  87
Spiel  88
Spiel  89
Spiel  90
Spiel  91
Spiel  92
Spiel  93
Spiel  94
Spiel  95
Spiel  96
Spiel  97
Spiel  98
Spiel  99
Spiel  100
Spiel  1

In [5]:
env.close()