In [1]:
# reinforcement learning için kullanılan kütüphane
# pip install gym
import gym
# aritmetik operasyonlar için kullanılan kütüphane
import numpy as np
# random sayı üretmek için kullanılan kütüphane
import random
# display almak için kullanılan kütüphane
from IPython.display import clear_output
# sistemi belli bir süre boyunca işlem yapmamasını sağlayan kütüphane
from time import sleep


In [7]:
# Frozen lake isimli bir environment yaratıyor
env = gym.make("FrozenLake-v0")

In [8]:
# Q table for q learning
Q = {}

# s state
for s in range(env.observation_space.n):
    # a action
    for a in range(env.action_space.n):
        # initializing the states and actions table with 0
        Q[(s,a)] = 0.0

In [9]:
# action'ın ayarlanması
def epsilon_greedy(state, epsilon):
    if random.uniform(0,1) < epsilon:
        return env.action_space.sample()
    else:
        return max(list(range(env.action_space.n)), key = lambda x:Q[(state,x)])

In [10]:
# gerekli parametrelerin ayarlanması
alpha = 0.99
gamma = 0.9
epsilon = 0.99

In [11]:
num_episodes = 50000
num_timesteps = 1000

In [None]:
frames = []
# environment'in öğrenilmesi ve eğitimi
for i in range(num_episodes):
    s = env.reset()
    for t in range(num_timesteps):
        a = epsilon_greedy(s,epsilon)
        # s_ s' -> bir sonraki state
        # r -> reward
        # done bitip bitmediğini gösteriyor
        s_, r, done, _ = env.step(a)
        # Q tablosuna göre a durumundaki en yüksek paunlısını alıyor
        a_ = np.argmax(Q[(s_, a)] for a in range(env.action_space.n))
        # Q tablosuna yerleştirme yapıyor
        Q[(s,a)] += alpha * (r + gamma * Q[(s_, a_)] - Q[(s,a)])
        # eski state'i yenisiyle güncelliyor
        s = s_
        # animasyon için frames list'ine ekleme yapıyor
        frames.append({
        'frame': env.render(mode='ansi'),
        'state': s_,
        'action': a,
        'reward': r
        }
    )
        if done:
            break

In [None]:
# animasyonun oynatılması için gerekli fonskyion ve oynatılması
def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.1)
        
print_frames(frames)

    """
    Winter is here. You and your friends were tossing around a frisbee at the
    park when you made a wild throw that left the frisbee out in the middle of
    the lake. The water is mostly frozen, but there are a few holes where the
    ice has melted. If you step into one of those holes, you'll fall into the
    freezing water. At this time, there's an international frisbee shortage, so
    it's absolutely imperative that you navigate across the lake and retrieve
    the disc. However, the ice is slippery, so you won't always move in the
    direction you intend.
    The surface is described using a grid like the following
        SFFF
        FHFH
        FFFH
        HFFG
    S : starting point, safe
    F : frozen surface, safe
    H : hole, fall to your doom
    G : goal, where the frisbee is located
    The episode ends when you reach the goal or fall in a hole.
    You receive a reward of 1 if you reach the goal, and zero otherwise.
    """