In [3]:
# 导入一些需要的库
import numpy as np
import random

# 定义一些常量
NUM_NORMAL = 6 # 普通数字的个数
NUM_SPECIAL = 1 # 特殊数字的个数
RANGE_NORMAL = 33 # 普通数字的范围
RANGE_SPECIAL = 16 # 特殊数字的范围
MAX_EPISODES = 1000 # 最大游戏次数
ALPHA = 0.1 # 学习率
GAMMA = 0.9 # 折扣因子
EPSILON = 0.1 # 探索率

# 定义一个函数，用来生成一个随机的答案
def generate_answer():
    normal_numbers = random.sample(range(1, RANGE_NORMAL + 1), NUM_NORMAL) # 随机选择6个不同的普通数字
    special_number = random.randint(1, RANGE_SPECIAL) # 随机选择一个特殊数字
    answer = normal_numbers + [special_number] # 合并成一个答案
    return answer

# 定义一个函数，用来计算两个答案之间的匹配程度，作为奖励
def calculate_reward(answer, guess):
    normal_match = len(set(answer[:-1]) & set(guess[:-1])) # 计算普通数字的匹配个数
    special_match = int(answer[-1] == guess[-1]) # 计算特殊数字是否匹配
    reward = normal_match + special_match * 2 # 计算总的奖励，特殊数字匹配得分更高
    return reward

# 定义一个函数，用来根据Q表选择一个动作，即一个猜测的答案
def choose_action(state, q_table):
    if np.random.uniform() < EPSILON: # 以一定的概率进行探索，随机选择一个动作
        action = generate_answer()
    else: # 以一定的概率进行利用，选择Q值最大的动作
        action = q_table[state].argmax()
    return action

# 定义一个函数，用来更新Q表
def update_q_table(state, action, reward, next_state, q_table):
    best_q = q_table[next_state].max() # 找到下一个状态对应的最大Q值
    q_table[state, action] += ALPHA * (reward + GAMMA * best_q - q_table[state, action]) # 根据贝尔曼方程更新Q值

# 初始化一个Q表，用来存储每个状态和动作对应的Q值，初始值为0
q_table = np.zeros((RANGE_NORMAL ** NUM_NORMAL * RANGE_SPECIAL ** NUM_SPECIAL, RANGE_NORMAL ** NUM_NORMAL * RANGE_SPECIAL ** NUM_SPECIAL))
print(q_table)
# 开始游戏循环

ValueError: array is too big; `arr.size * arr.dtype.itemsize` is larger than the maximum possible size.

In [2]:
for i in range(MAX_EPISODES):
    answer = generate_answer() # 生成一个随机的答案
    state = 0 # 初始化状态为0，表示没有任何猜测过程
    done = False # 初始化结束标志为False
    print(f"Episode {i+1}: The answer is {answer}") # 打印当前回合的答案
    while not done:
        action = choose_action(state, q_table) # 根据Q表选择一个动作，即一个猜测的答案
        reward = calculate_reward(answer, action) # 计算当前动作对应的奖励，即匹配程度
        next_state = state + 1 # 更新下一个状态，即增加一次猜测次数
        update_q_table(state, action, reward, next_state, q_table) # 更新Q表
        print(f"Guess {next_state}: {action}, reward: {reward}") # 打印当前的猜测和奖励
        state = next_state # 更新状态
        if reward == NUM_NORMAL + NUM_SPECIAL * 2: # 如果奖励等于最大值，即完全匹配，结束游戏
            done = True
            print("You win!")
        elif state == RANGE_NORMAL ** NUM_NORMAL * RANGE_SPECIAL ** NUM_SPECIAL: # 如果状态等于最大值，即猜测次数用完，结束游戏
            done = True
            print("You lose!")
    print("End of episode\n")

Episode 1: The answer is [15, 18, 25, 5, 20, 31, 14]


NameError: name 'q_table' is not defined