In [5]:
import numpy as np
import random

In [6]:
#ukuran grid 5x5
grid_size = 5
#state tujuan (goal state)
goal_state = (4, 4)
#state awal
start_state = (0, 0)

# Q-table dengan dimensi (grid_size, grid_size, 4)
# diinisialisasi ke nol, dimana 4 adalah jumlah aksi (atas, bawah,kiri,kanan)
Q = np.zeros((grid_size, grid_size, 4))
#daftar aksi: 0=atas, 1=bawah, 2=kiri, 3=kanan
actions = [0, 1, 2, 3]

#fungsi untuk memilih aksi menggunakan epsilon-greedy
def take_action(state, epsilon=0.1):
  #dengan probilitas epsilon, pilih aksi secara acak (eksplorasi)
    if random.uniform(0, 1) < epsilon:
        return random.choice(actions)
    else:
      #dengan probilitas (1 - epsilon), pilih aksi terbaik berdasarkan Q-table (eksploitasi)
        return np.argmax(Q[state[0], state[1]])

#fungsi untuk menentukan state berikutnya berdasarkan aksi
def get_next_state(state, action):
    if action == 0: #aksi 'atas'
        next_state = (max(state[0] - 1, 0), state[1])
    elif action == 1: #aksi 'bawah'
        next_state = (min(state[0] + 1, grid_size -1), state[1])
    elif action == 2: #aksi 'kiri'
        next_state = (state[0], max(state[1] - 1, 0))
    elif action == 3: #aksi 'kanan'
        next_state = (state[0], min(state[1] + 1, grid_size -1))
    return next_state

#fungsi untuk menentukan reward
def get_reward(state, next_state):
    if next_state == goal_state:
        return 1 #reward positif jika mencapai goal state
    else:
        return -0.01 #penalti kecil untuk setiap langkah (agar jalur optimal ditemukan )

#parameter pembelajaran
alpha = 0.1 #learning rate
gamma = 0.9 #discount factor
epsilon = 0.1 #probalitas eksplorasi awal
episodes = 1000 #jumlah episode

#pelatihan menggunakan Q-learning
for episode in range(episodes):
    state =start_state #mulai dari state awal
    while state != goal_state: #loop hingga mencapai goal state
    #pilih aksi menggunkan epsilon-greedy
        action = take_action(state, epsilon)
        #dapatkan state berikutnya berdasarkan aksi
        next_state = get_next_state(state, action)
        #hitung reward
        reward = get_reward(state, next_state)

        #update nilai Q untuk state dan aksi saat ini
        Q[state[0], state[1], action] = Q[state[0], state[1], action] + alpha * (reward + gamma * np.max(Q[next_state[0], next_state[1]]) - Q[state[0], state[1], action])

        #pindah ke state berikutnya
        state = next_state
  #kurangi epsilon untuk mengurangi eksplorasi secara bertahap
    epsilon = max(0.01, epsilon * 0.995)

#cetak Q-table setelah pelatihan
print("Q-table setelah pelatihan: ")
print(Q)

#fungsi untuk mendapatkan aksi terbaik dari Q-table
def get_best_action(state):
    return np.argmax(Q[state[0], state[1]])

#menentukan jalur terbaik setelah pelatihan
state = start_state #mulai dari state awal
path = [state] #simpan jalur yang dilalui
while state != goal_state:
    action = get_best_action(state) #ambil aksi terbaik dari Q-table
    state = get_next_state(state, action) #pindah ke state berikutnya
    path.append(state) #tambahkan ke jalur

#cetak jalur terbaik yang ditemukan
print("\njalan terbaik yang ditemukan oleh agen:")
print(path)


Q-table setelah pelatihan: 
[[[ 0.23603421  0.04682182  0.08905241  0.42612659]
  [ 0.04925188  0.4845851   0.2269085   0.07325879]
  [-0.01040654  0.38463159  0.07179876 -0.00995703]
  [-0.00772553 -0.00595398 -0.00752185 -0.00745009]
  [-0.00670788 -0.00644648 -0.00711455 -0.00679347]]

 [[-0.01588487 -0.01455843 -0.01485358  0.26772718]
  [ 0.16785813  0.00408694  0.00831316  0.549539  ]
  [ 0.12190713  0.62171     0.1029345   0.03610554]
  [-0.00618918  0.23624471 -0.0050836  -0.00585161]
  [-0.00591674 -0.00520805 -0.00500721 -0.00490034]]

 [[-0.01191717 -0.0093438  -0.00950103 -0.00794629]
  [-0.0073715  -0.00480841 -0.0070131   0.34428726]
  [ 0.25272462  0.7019      0.08775855  0.21240442]
  [-0.00360177  0.68834567 -0.00224029 -0.00199   ]
  [-0.00394688  0.14214234 -0.0021601  -0.00199   ]]

 [[-0.00607801 -0.0063351  -0.00679347 -0.00550957]
  [-0.00509675 -0.00532987 -0.005131    0.28364293]
  [ 0.32905015  0.12243727  0.06327311  0.791     ]
  [ 0.1682718   0.33738271  0.