In [2]:
# Importing necessary libraries
import numpy as np
import random


### تنظیمات اولیه
در این بخش، پارامترهای اولیه الگوریتم Q-Learning تعریف می‌شوند.


In [3]:
# تنظیمات اولیه
gamma = 0.9  # ضریب تخفیف
alpha = 0.1  # نرخ یادگیری
epsilon = 0.1  # احتمال انجام عمل تصادفی (جستجو در برابر بهره‌برداری)

# تعریف محیط (شبکه 5x5)
n_states = 25  # تعداد کل حالات (5x5)
n_actions = 4  # تعداد کل اعمال (بالا، پایین، چپ، راست)
goal_state = 24  # هدف در آخرین خانه
actions = ['up', 'down', 'left', 'right']


### تعریف Q-Table
در این قسمت، جدول Q برای نگهداری مقادیر Q برای هر حالت و عمل تعریف می‌شود.


In [4]:
# تعریف Q-Table
Q = np.zeros((n_states, n_actions))


### تابعی برای محاسبه حالت بعدی و پاداش
این تابع، با توجه به وضعیت فعلی و عملی که انتخاب می‌شود، وضعیت بعدی و پاداش آن را محاسبه می‌کند.


In [5]:
# تابعی برای محاسبه حالت بعدی و پاداش
def step(state, action):
    row, col = divmod(state, 5)  # تبدیل ایندکس به مختصات
    if action == 0 and row > 0:  # بالا
        row -= 1
    elif action == 1 and row < 4:  # پایین
        row += 1
    elif action == 2 and col > 0:  # چپ
        col -= 1
    elif action == 3 and col < 4:  # راست
        col += 1
    next_state = row * 5 + col  # تبدیل دوباره مختصات به ایندکس
    reward = 1 if next_state == goal_state else -0.01  # پاداش 1 اگر هدف رسید، در غیر این صورت -0.01
    return next_state, reward


### اجرای الگوریتم Q-Learning
در این بخش، الگوریتم Q-Learning برای آموزش عامل بر روی محیط تعریف شده اجرا می‌شود.


In [6]:
# اجرای الگوریتم Q-Learning
episodes = 1000
for episode in range(episodes):
    state = random.randint(0, n_states - 1)  # شروع از یک حالت تصادفی
    while state != goal_state:
        # انتخاب عمل (جستجو در برابر بهره‌برداری)
        if random.uniform(0, 1) < epsilon:
            action = random.randint(0, n_actions - 1)  # عمل تصادفی
        else:
            action = np.argmax(Q[state])  # بهترین عمل
        
        # اجرای عمل و دریافت پاداش
        next_state, reward = step(state, action)
        
        # به‌روزرسانی Q-Table
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
        
        state = next_state  # انتقال به حالت بعدی


### نمایش Q-Table
در اینجا جدول Q که عامل طی آموزش آن را یاد گرفته است، نمایش داده می‌شود.


In [7]:
# نمایش Q-Table
print("Q-Table:")
print(Q)


Q-Table:
[[ 0.02486045 -0.01009294 -0.01045297  0.41037123]
 [ 0.01279772  0.03786872  0.03502297  0.4841769 ]
 [ 0.16215587  0.15990678  0.05612543  0.54953454]
 [ 0.19547802  0.62170994  0.2200676   0.23222073]
 [-0.004901    0.68440638  0.04978397  0.07694901]
 [-0.00837281  0.03972902 -0.00916606  0.45870967]
 [ 0.05457105  0.54887115  0.07504132  0.04201428]
 [-0.00468317  0.03396159  0.04468689  0.61645986]
 [ 0.18749086  0.7019      0.17377106  0.12394631]
 [ 0.08583514  0.79092534  0.00461579  0.23336492]
 [-0.00398179  0.03930775  0.03954338  0.53910999]
 [ 0.14862749  0.16314599  0.23660536  0.62170929]
 [ 0.07169874  0.44099864  0.18631425  0.7019    ]
 [ 0.45340241  0.791       0.39352154  0.65751183]
 [ 0.38378806  0.88999998  0.28659943  0.30594048]
 [ 0.03801806  0.07388986  0.01774936  0.58554322]
 [ 0.04863219 -0.00387333  0.02774258  0.70125936]
 [ 0.11025344  0.23378948  0.10068081  0.79099903]
 [ 0.55854215  0.7022164   0.44937792  0.89      ]
 [ 0.72325311  1.     

### آزمایش عامل آموزش‌دیده
در این قسمت، عامل آموزش‌دیده به شروع از خانه اول می‌پردازد و مسیر خود را تا رسیدن به هدف طی می‌کند.


In [8]:
# آزمایش عامل آموزش‌دیده
state = 0  # شروع از اولین خانه
path = [state]
while state != goal_state:
    action = np.argmax(Q[state])  # انتخاب بهترین عمل
    state, _ = step(state, action)
    path.append(state)

print("\nمسیر به سمت هدف:", path)



مسیر به سمت هدف: [0, 1, 2, 3, 8, 13, 18, 19, 24]
