In [1]:
import numpy as np
import gym
from gym import spaces


In [17]:
class KArmedBanditEnv(gym.Env):
    """
    K-Armed Bandit Environment
    """
    def __init__(self, k=10):
        super(KArmedBanditEnv, self).__init__()
        self.k = k
        self.action_space = spaces.Discrete(k)
        self.probabilities = np.random.rand(k)  # Randomly generated probabilities for each arm
        print(f"赌博机创建完成。臂数：{k}")
        print(f"动作空间（可选臂数）：{self.action_space}")
        print(f"每个臂的奖励概率：{self.probabilities} ")



    def step(self, action):
        assert self.action_space.contains(action)
        # Reward is 1 with the probability of the selected arm, else 0
        reward = np.random.rand() < self.probabilities[action]
        print(f"选择臂 {action}，获得奖励：{'是' if reward else '否'}")
        return action, reward, True, {}

    def reset(self):
        return None

In [18]:
'''
ε-greedy 策略平衡了探索（尝试可能不是最佳的动作以获得更多信息）和利用（选择当前估计最好的动作）之间的权衡
'''

def epsilon_greedy_policy(k, epsilon, q_values):
    if np.random.rand() < epsilon:
        action = np.random.choice(k)
        print(f"探索：随机选择臂 {action}")
    else:
        action = np.argmax(q_values)
        print(f"利用：选择当前最佳臂 {action}")
    return action

In [19]:
k = 10
episodes = 10
epsilon = 0.1

env = KArmedBanditEnv(k=k)
q_values = np.zeros(k)
counts = np.zeros(k)

for i in range(episodes):
    print(f"\n第 {i+1} 轮")
    action = epsilon_greedy_policy(k, epsilon, q_values)
    _, reward, _, _ = env.step(action)
    counts[action] += 1
    q_values[action] += (reward - q_values[action]) / counts[action]

print("\n估计的价值：", q_values)

赌博机创建完成。臂数：10
动作空间（可选臂数）：Discrete(10)
每个臂的奖励概率：[0.82536508 0.76981445 0.25404779 0.49530496 0.12743967 0.64939569
 0.58881935 0.75907715 0.97504082 0.36567745] 

第 1 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 2 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 3 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 4 轮
探索：随机选择臂 6
选择臂 6，获得奖励：是

第 5 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 6 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 7 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 8 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：是

第 9 轮
利用：选择当前最佳臂 0
选择臂 0，获得奖励：否

第 10 轮
利用：选择当前最佳臂 6
选择臂 6，获得奖励：是

估计的价值： [0.875 0.    0.    0.    0.    0.    1.    0.    0.    0.   ]
