In [9]:
import numpy as np
def place_piece_in_center(piece_body, board_shape=(4, 4)):
    """
    将方块放置到空棋盘的中央位置
    参数:
    piece_body: 方块的body数组 (numpy array)
    board_shape: 棋盘大小，默认(20, 10)
    
    返回:
    centered_board: 包含居中方块的棋盘
    center_pos: 方块在棋盘上的中心位置 (row, col)
    """
    board_height, board_width = board_shape
    piece_height, piece_width = piece_body.shape
    # 计算中心位置
    center_row = (board_height - piece_height) // 2
    center_col = (board_width - piece_width) // 2
    # 创建空棋盘
    centered_board = np.zeros(board_shape, dtype=bool)
    # 将方块放置到中心位置
    centered_board[center_row:center_row + piece_height, center_col:center_col + piece_width] |= piece_body
    return centered_board
def expand_to_4_rotations(X):
    # X: (N, 4, 4) -> (N, 4, 4, 4)
    rotations = [np.rot90(X, k=i, axes=(1, 2)) for i in range(4)]  # 每次绕 (4,4) 平面旋转
    return np.stack(rotations, axis=1)  # (N, 4, 4, 4)

In [10]:
import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from tetris import toolF,TetrisGame,place_piece_in_center
from tnn import TetrisNN,TetrisNN3,FrontEndNet,miniNN33
class TetrisDQN(nn.Module):
    def __init__(self, num_actions=120, dropout_rate=0.3):  # 10*4*3 = 120个可能的动作组合
        super().__init__()
        # 重用TetrisNN的特征提取部分
        self.frontend = FrontEndNet()
        self.nowpiece = miniNN33()
        self.nextpiece = miniNN33()
        
        # 重用共享层
        self.shared_fc = nn.Sequential(
            nn.Linear(128 + 32 + 32, 256),
            nn.ReLU(),
            nn.Dropout(dropout_rate),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Dropout(dropout_rate)
        )
        
        # DQN输出头 - 输出每个动作的Q值
        self.q_head = nn.Sequential(
            nn.Linear(128, 256),
            nn.ReLU(),
            nn.Dropout(dropout_rate),
            nn.Linear(256, 128),
            nn.ReLU(),
            nn.Dropout(dropout_rate),
            nn.Linear(128, num_actions)  # 输出所有可能动作的Q值
        )

    def forward(self, x_board, x_now, x_next):
        # 特征提取（与TetrisNN相同）
        board_features = self.frontend(x_board)    # (B, 128)
        piece_features1 = self.nowpiece(x_now)     # (B, 32)
        piece_features2 = self.nextpiece(x_next)   # (B, 32)
        
        # 特征融合
        combined_features = torch.cat([board_features, piece_features1, piece_features2], dim=1)  # (B, 192)
        shared_features = self.shared_fc(combined_features)  # (B, 128)
        
        # 输出Q值
        q_values = self.q_head(shared_features)  # (B, num_actions)
        
        return q_values
def load_pretrained_tetris_to_dqn(dqn_model, tetris_model_path):
    """
    从预训练的TetrisNN模型加载参数到DQN模型
    
    Args:
        dqn_model: TetrisDQN实例
        tetris_model_path: 预训练TetrisNN模型的路径
    """
    # 加载预训练的TetrisNN参数
    tetris_checkpoint = torch.load(tetris_model_path, map_location='cpu')
    
    # 如果保存的是完整模型状态
    if 'model_state_dict' in tetris_checkpoint:
        tetris_state_dict = tetris_checkpoint['model_state_dict']
    else:
        tetris_state_dict = tetris_checkpoint
    
    # 获取DQN模型的状态字典
    dqn_state_dict = dqn_model.state_dict()
    
    # 复制共享的参数
    shared_keys = [
        # FrontEndNet参数
        'frontend.conv1.0.weight', 'frontend.conv1.0.bias',
        'frontend.conv1.1.weight', 'frontend.conv1.1.bias',
        'frontend.conv1.1.running_mean', 'frontend.conv1.1.running_var',
        'frontend.conv2.0.weight', 'frontend.conv2.0.bias',
        'frontend.conv2.1.weight', 'frontend.conv2.1.bias',
        'frontend.conv2.1.running_mean', 'frontend.conv2.1.running_var',
        'frontend.incep1.branch1.weight', 'frontend.incep1.branch1.bias',
        'frontend.incep1.branch2.0.weight', 'frontend.incep1.branch2.0.bias',
        'frontend.incep1.branch2.2.weight', 'frontend.incep1.branch2.2.bias',
        'frontend.incep1.branch3.0.weight', 'frontend.incep1.branch3.0.bias',
        'frontend.incep1.branch3.2.weight', 'frontend.incep1.branch3.2.bias',
        'frontend.incep1.branch4.1.weight', 'frontend.incep1.branch4.1.bias',
        'frontend.bn1.weight', 'frontend.bn1.bias',
        'frontend.bn1.running_mean', 'frontend.bn1.running_var',
        'frontend.conv3.weight', 'frontend.conv3.bias',
        'frontend.conv4.weight', 'frontend.conv4.bias',
        
        # miniNN3参数
        'nowpiece.net.0.weight', 'nowpiece.net.0.bias',      # Conv2d(4,8)
        'nowpiece.net.2.weight', 'nowpiece.net.2.bias',      # Conv2d(8,16)
        'nowpiece.net.6.weight', 'nowpiece.net.6.bias',      # Linear(64,32)
        'nextpiece.net.0.weight', 'nextpiece.net.0.bias',
        'nextpiece.net.2.weight', 'nextpiece.net.2.bias',
        'nextpiece.net.6.weight', 'nextpiece.net.6.bias',
        
        # 共享FC层参数
        'shared_fc.0.weight', 'shared_fc.0.bias',
        'shared_fc.3.weight', 'shared_fc.3.bias'
    ]
    
    # 复制参数
    loaded_count = 0
    for key in shared_keys:
        if key in tetris_state_dict and key in dqn_state_dict:
            dqn_state_dict[key].copy_(tetris_state_dict[key])
            loaded_count += 1
            print(f"✓ Loaded: {key}")
        else:
            print(f"✗ Missing: {key}")
    
    print(f"\n成功加载 {loaded_count}/{len(shared_keys)} 个预训练参数")
    print("注意: Q网络输出头参数将保持随机初始化")
    
    return dqn_model


# 动作编码/解码工具函数
def encode_action(translation, rotation, slide):
    """
    将动作三元组编码为单一动作索引
    
    Args:
        translation: -4 到 5 (编码为 0-9)
        rotation: 0-3
        slide: -1,0,1 (编码为 0-2)
    
    Returns:
        action_index: 0 到 119
    """
    trans_encoded = translation + 4  # -4~5 -> 0~9
    slide_encoded = slide + 1        # -1~1 -> 0~2
    
    return trans_encoded * 12 + rotation * 3 + slide_encoded

def decode_action(action_index):
    """
    将动作索引解码为动作三元组
    
    Args:
        action_index: 0 到 119
        
    Returns:
        (translation, rotation, slide)
    """
    slide_encoded = action_index % 3
    rotation = (action_index // 3) % 4
    trans_encoded = action_index // 12
    
    translation = trans_encoded - 4  # 0~9 -> -4~5
    slide = slide_encoded - 1        # 0~2 -> -1~1
    
    return translation, rotation, slide

In [11]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import numpy as np
import random
from collections import deque, namedtuple
import matplotlib.pyplot as plt
from tqdm import tqdm
import threading
import queue
import time
import multiprocessing as mp

# 设置设备
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"使用设备: {device}")
if torch.cuda.is_available():
    print(f"GPU: {torch.cuda.get_device_name()}")
    print(f"GPU内存: {torch.cuda.get_device_properties(0).total_memory / 1e9:.1f} GB")

# 经验回放缓冲区
Experience = namedtuple('Experience', ['state', 'action', 'reward', 'next_state', 'done'])

class ReplayBuffer:
    def __init__(self, capacity):
        self.buffer = deque(maxlen=capacity)
    
    def push(self, *args):
        self.buffer.append(Experience(*args))
    
    def sample(self, batch_size):
        return random.sample(self.buffer, batch_size)
    
    def __len__(self):
        return len(self.buffer)

class PrioritizedReplayBuffer:
    """优先级经验回放"""
    def __init__(self, capacity, alpha=0.6):
        self.capacity = capacity
        self.alpha = alpha
        self.buffer = []
        self.priorities = np.zeros((capacity,), dtype=np.float32)
        self.pos = 0
        self.max_priority = 1.0
    
    def push(self, *args):
        experience = Experience(*args)
        
        if len(self.buffer) < self.capacity:
            self.buffer.append(experience)
        else:
            self.buffer[self.pos] = experience
        
        self.priorities[self.pos] = self.max_priority
        self.pos = (self.pos + 1) % self.capacity
    
    def sample(self, batch_size, beta=0.4):
        if len(self.buffer) == self.capacity:
            priorities = self.priorities
        else:
            priorities = self.priorities[:self.pos]
        
        probs = priorities ** self.alpha
        probs /= probs.sum()
        
        indices = np.random.choice(len(self.buffer), batch_size, p=probs)
        samples = [self.buffer[idx] for idx in indices]
        
        total = len(self.buffer)
        weights = (total * probs[indices]) ** (-beta)
        weights /= weights.max()
        
        return samples, indices, torch.FloatTensor(weights).to(device)
    
    def update_priorities(self, indices, priorities):
        for idx, priority in zip(indices, priorities):
            self.priorities[idx] = priority
            self.max_priority = max(self.max_priority, priority)
    
    def __len__(self):
        return len(self.buffer)

class TetrisEnvironment:
    """基于真实俄罗斯方块游戏的DQN环境"""
    def __init__(self, seed=None):
        self.seed = seed or np.random.randint(0, 10000)
        self.reset()
    
    def reset(self):
        """重置游戏环境"""
        self.game = TetrisGame(rows=20, cols=10, seed=self.seed)
        self.total_lines_cleared = 0
        self.step_count = 0
        self.max_height_history = []
        return self.get_state()
    
    def get_state(self):
        """获取当前状态 - 返回神经网络需要的三个输入"""
        # 1. 棋盘状态：20×10 -> 20×20 (左右各填充5列)
        board = self.game.board.astype(np.float32)  # (20, 10)
        
        # 左右各填充5列空白
        padded_board = np.pad(board, ((0, 0), (5, 5)), mode='constant', constant_values=0)  # (20, 20)
        
        # 转换为tensor格式 (1, 1, 20, 20)
        board_state = torch.FloatTensor(padded_board).unsqueeze(0).unsqueeze(0)
        
        # 2. 当前方块的4种旋转状态 (4, 4, 4)
        current_piece = place_piece_in_center(self.game.current.body)
        current_rotations = expand_to_4_rotations(current_piece[None])
        current_tensor = torch.FloatTensor(current_rotations.squeeze(0))
        
        # 3. 下一个方块的4种旋转状态 (4, 4, 4)
        next_piece = place_piece_in_center(self.game.next.body)
        next_rotations = expand_to_4_rotations(next_piece[None])
        next_tensor = torch.FloatTensor(next_rotations.squeeze(0))
        
        return board_state, current_tensor, next_tensor
    def step(self, action):
        """执行一个动作"""
        # 解码动作
        translation, rotation, slide = decode_action(action)
        
        # 记录执行前的状态
        old_score = self.game.score
        old_lines = getattr(self.game, 'lines_cleared', 0)
        old_height = self._get_board_height()
        
        # 执行动作
        reward = 0.0
        done = False
        
        try:
            # 1. 先执行旋转
            for _ in range(rotation % self.game.current.rotateCount):
                success = self.game.rotate()
                if not success:
                    break
            
            # 2. 然后执行水平移动
            if translation != 0:
                for _ in range(abs(translation)):
                    direction = 1 if translation > 0 else -1
                    success = self.game.move(direction)
                    if not success:
                        break
            
            # 3. 最后执行垂直移动/下落            
            if slide == 0:
                # 直接快速下落
                lines_cleared = self.game.step(4)
            else:
                # 先下落到底部
                while not self.game._collides(self.game.current, [self.game.current_pos[0] + 1, self.game.current_pos[1]]):
                    self.game.step(0)  # 向下移动一格
                # 执行滑行
                if slide == -1:
                    self.game.step(1)  # 左滑
                elif slide == 1:
                    self.game.step(2)  # 右滑
                # 强制落锁
                lines_cleared = self.game.step(4)
            
            reward += self._calculate_lock_reward(lines_cleared, old_height)
            # 检查游戏是否结束
            done = getattr(self.game, 'game_over', False)
            if done and self.step_count<40:
                # 如果游戏结束且步数少于40，给予较大惩罚
                reward -= (40-self.step_count) * 10.0
            if self.step_count>60 and done:
                reward+= 100.0
        except Exception as e:
            print(f"Error in step: {e}")
            done = True
            reward = -100.0
        
        self.step_count += 1
        next_state = self.get_state()
        
        return next_state, reward, done
    
    def _calculate_lock_reward(self, lines_cleared, old_height):
        """计算方块锁定时的奖励"""
        reward = 0.0
        
        # 1. 消除行数奖励（主要奖励）
        if lines_cleared > 0:
            line_rewards = {1: 300, 2: 700, 3: 1500, 4: 2000}
            reward += line_rewards.get(lines_cleared, lines_cleared * 200)
            self.total_lines_cleared += lines_cleared

        
        # 3. 计算layers惩罚（重点惩罚空洞层）
        board = self.game.board.astype(np.int8)
        # 计算空洞层数：上面是填充块，下面是空块的情况
        layers = ((board[:-1] == 1) & (board[1:] == 0)).sum() / 10
        # print(f"空洞层数: {layers}")
        reward -= layers*0.2  # 重点惩罚空洞层
        if layers < 0.1:
            reward += 15
        # 5. 计算special_var惩罚（高度分布不均匀性）
        height_array = np.zeros(self.game.cols)
        for col in range(self.game.cols):
            column = board[:, col]
            filled_indices = np.where(column)[0]
            if len(filled_indices) > 0:
                height_array[col] = self.game.rows - filled_indices[0]
            else:
                height_array[col] = 0
        
        # 计算special_var
        real_var = board.sum(axis=0).var()
        avg_height = np.average(height_array)
        min_height = np.min(height_array)
        
        if avg_height - min_height < 5:
            # 高度差异较小时，使用排序后的高度方差（去掉最低的一列）
            special_var = np.sort(height_array)[1:].var() if len(height_array) > 1 else 0
        else:
            # 高度差异较大时，使用真实方差
            special_var = real_var
        
        reward -= special_var * 0.3  # 惩罚高度分布不均匀
        # 6. 存活步数小奖励
        reward += 1
        return reward
    
    def _get_board_height(self):
        """获取棋盘的最大高度"""
        for row in range(self.game.rows):
            if np.any(self.game.board[row]):
                return self.game.rows - row
        return 0
    
    
    def get_info(self):
        """获取额外信息用于监控"""
        return {
            'score': self.game.score,
            'level': self.game.level,
            'lines_cleared': self.total_lines_cleared,
            'step_count': self.step_count,
            'board_height': self._get_board_height()    
        }


使用设备: cuda
GPU: NVIDIA GeForce RTX 2060
GPU内存: 12.9 GB


In [12]:

class DQNTrainer:
    def __init__(self, model, target_model, env, config):
        self.model = model.to(device)
        self.target_model = target_model.to(device)
        self.env = env
        self.config = config
        
        # 优化器
        self.optimizer = optim.Adam(self.model.parameters(), 
                                  lr=config['learning_rate'],
                                  weight_decay=config['weight_decay'])
        
        # 学习率调度器
        self.scheduler = optim.lr_scheduler.StepLR(
            self.optimizer, 
            step_size=config['lr_step_size'], 
            gamma=config['lr_gamma']
        )
        
        # 经验回放
        if config['use_prioritized_replay']:
            self.replay_buffer = PrioritizedReplayBuffer(config['buffer_size'])
        else:
            self.replay_buffer = ReplayBuffer(config['buffer_size'])
        
        # 训练统计
        self.episode_rewards = []
        self.episode_lengths = []
        self.losses = []
        self.episode_lines_cleared = []
        
        # 多线程数据生成
        self.data_queue = queue.Queue(maxsize=config['queue_size'])
        self.stop_data_generation = threading.Event()
    
    def epsilon_by_episode(self, episode):
        """epsilon衰减策略"""
        epsilon_start = self.config['epsilon_start']
        epsilon_end = self.config['epsilon_end']
        epsilon_decay = self.config['epsilon_decay']
        
        return epsilon_end + (epsilon_start - epsilon_end) * np.exp(-episode / epsilon_decay)
    
    def select_action(self, state, epsilon):
        """选择动作"""
        if random.random() > epsilon:
            with torch.no_grad():
                board, current, next_piece = state
                board = board.to(device)
                current = current.unsqueeze(0).to(device)
                next_piece = next_piece.unsqueeze(0).to(device)
                
                q_values = self.model(board, current, next_piece)
                return q_values.max(1)[1].item()
        else:
            return random.randrange(self.config['num_actions'])
    
    def data_generation_worker(self, worker_id):
        """数据生成线程"""
        local_env = TetrisEnvironment()
        
        while not self.stop_data_generation.is_set():
            try:
                # 生成一个episode的数据
                episode_data = []
                state = local_env.reset()
                epsilon = self.epsilon_by_episode(len(self.episode_rewards))
                
                for step in range(self.config['max_episode_length']):
                    action = self.select_action(state, epsilon)
                    next_state, reward, done = local_env.step(action)
                    
                    episode_data.append((state, action, reward, next_state, done))
                    
                    if done:
                        break
                    state = next_state
                # 记录该轮游戏总消行数
                lines_cleared_this_episode = local_env.get_info()['lines_cleared']
                # 将数据放入队列
                if not self.data_queue.full():
                    self.data_queue.put((worker_id, episode_data,lines_cleared_this_episode))
                    
            except Exception as e:
                print(f"Worker {worker_id} error: {e}")
                time.sleep(1)
    
    def optimize_model(self):
        """优化模型"""
        if len(self.replay_buffer) < self.config['batch_size']:
            return None
        
        # 采样批次数据
        if self.config['use_prioritized_replay']:
            experiences, indices, weights = self.replay_buffer.sample(
                self.config['batch_size'], 
                beta=min(1.0, 0.4 + len(self.episode_rewards) * 0.00001)
            )
        else:
            experiences = self.replay_buffer.sample(self.config['batch_size'])
            weights = torch.ones(self.config['batch_size']).to(device)
        
        # 解析批次数据
        batch = Experience(*zip(*experiences))
        
        # 准备状态数据
        board_batch = torch.cat([s[0] for s in batch.state]).to(device)
        current_batch = torch.stack([s[1] for s in batch.state]).to(device)
        next_batch = torch.stack([s[2] for s in batch.state]).to(device)
        
        action_batch = torch.LongTensor(batch.action).to(device)
        reward_batch = torch.FloatTensor(batch.reward).to(device)
        
        # 非终止状态掩码
        non_final_mask = torch.BoolTensor([not done for done in batch.done]).to(device)
        
        if non_final_mask.sum() > 0:
            non_final_next_board = torch.cat([s[0] for s, done in zip(batch.next_state, batch.done) if not done]).to(device)
            non_final_next_current = torch.stack([s[1] for s, done in zip(batch.next_state, batch.done) if not done]).to(device)
            non_final_next_next = torch.stack([s[2] for s, done in zip(batch.next_state, batch.done) if not done]).to(device)
        
        # 当前Q值
        current_q_values = self.model(board_batch, current_batch, next_batch).gather(1, action_batch.unsqueeze(1))
        
        # 目标Q值
        next_q_values = torch.zeros(self.config['batch_size']).to(device)
        if non_final_mask.sum() > 0:
            with torch.no_grad():
                if self.config['use_double_dqn']:
                    # Double DQN
                    next_actions = self.model(non_final_next_board, non_final_next_current, non_final_next_next).max(1)[1]
                    next_q_values[non_final_mask] = self.target_model(
                        non_final_next_board, non_final_next_current, non_final_next_next
                    ).gather(1, next_actions.unsqueeze(1)).squeeze()
                else:
                    # 标准DQN
                    next_q_values[non_final_mask] = self.target_model(
                        non_final_next_board, non_final_next_current, non_final_next_next
                    ).max(1)[0]
        
        target_q_values = reward_batch + (self.config['gamma'] * next_q_values)
        
        # 计算损失
        td_errors = target_q_values.unsqueeze(1) - current_q_values
        
        if self.config['use_huber_loss']:
            loss = F.smooth_l1_loss(current_q_values, target_q_values.unsqueeze(1), reduction='none')
        else:
            loss = F.mse_loss(current_q_values, target_q_values.unsqueeze(1), reduction='none')
        
        # 优先级权重
        loss = (loss * weights.unsqueeze(1)).mean()
        
        # 优化
        self.optimizer.zero_grad()
        loss.backward()
        
        # 梯度裁剪
        torch.nn.utils.clip_grad_norm_(self.model.parameters(), self.config['grad_clip'])
        
        self.optimizer.step()
        
        # 更新优先级
        if self.config['use_prioritized_replay']:
            priorities = td_errors.abs().detach().cpu().numpy() + 1e-6
            self.replay_buffer.update_priorities(indices, priorities)
        
        return loss.item()
    
    def train(self):
        """主训练循环"""
        print("开始训练DQN...")
        
        # 启动数据生成线程
        num_workers = min(4, mp.cpu_count())
        workers = []
        for i in range(num_workers):
            worker = threading.Thread(target=self.data_generation_worker, args=(i,))
            worker.daemon = True
            worker.start()
            workers.append(worker)
        
        try:
            for episode in tqdm(range(self.config['num_episodes']), desc="Training"):
                # 从队列获取数据
                try:
                    worker_id, episode_data,lines_cleared_this_episode = self.data_queue.get(timeout=10)
                    
                    # 添加到经验回放
                    for experience in episode_data:
                        self.replay_buffer.push(*experience)
                    
                    # 记录统计信息
                    episode_reward = sum([exp[2] for exp in episode_data])
                    self.episode_rewards.append(episode_reward)
                    self.episode_lengths.append(len(episode_data))
                    self.episode_lines_cleared.append(lines_cleared_this_episode)
                except queue.Empty:
                    print("数据队列为空，跳过此次更新")
                    continue
                
                # 模型优化
                if len(self.replay_buffer) >= self.config['batch_size']:
                    for _ in range(self.config['update_frequency']):
                        loss = self.optimize_model()
                        if loss is not None:
                            self.losses.append(loss)
                
                # 更新目标网络
                if episode % self.config['target_update_frequency'] == 0:
                    self.target_model.load_state_dict(self.model.state_dict())
                
                # 学习率调度
                if episode % self.config['lr_step_size'] == 0:
                    self.scheduler.step()
                
                # 保存检查点
                if episode % self.config['save_frequency'] == 0:
                    self.save_checkpoint(episode)
                
                # 打印进度
                if episode % self.config['print_frequency'] == 0:
                    self.print_progress(episode)
        
        finally:
            # 停止数据生成线程
            self.stop_data_generation.set()
            for worker in workers:
                worker.join(timeout=5)
    
    def save_checkpoint(self, episode):
        """保存检查点"""
        checkpoint = {
            'episode': episode,
            'model_state_dict': self.model.state_dict(),
            'target_model_state_dict': self.target_model.state_dict(),
            'optimizer_state_dict': self.optimizer.state_dict(),
            'scheduler_state_dict': self.scheduler.state_dict(),
            'episode_rewards': self.episode_rewards,
            'episode_lengths': self.episode_lengths,
            'losses': self.losses,
            'config': self.config
        }
        
        torch.save(checkpoint, f'dqn_checkpoint_episode_{episode}.pth')
        
        # 保存最佳模型
        if len(self.episode_rewards) > 100:
            recent_avg = np.mean(self.episode_rewards[-100:])
            if not hasattr(self, 'best_avg_reward') or recent_avg > self.best_avg_reward:
                self.best_avg_reward = recent_avg
                torch.save(self.model.state_dict(), 'best_dqn_model.pth')
    
    def print_progress(self, episode):
        """打印训练进度"""
        if len(self.episode_rewards) == 0:
            return
            
        recent_rewards = self.episode_rewards[-100:] if len(self.episode_rewards) >= 100 else self.episode_rewards
        recent_lengths = self.episode_lengths[-100:] if len(self.episode_lengths) >= 100 else self.episode_lengths
        recent_losses = self.losses[-100:] if len(self.losses) >= 100 else self.losses
        recent_lines = self.episode_lines_cleared[-100:] if len(self.episode_lines_cleared) >= 100 else self.episode_lines_cleared
        
        avg_reward = np.mean(recent_rewards)
        avg_length = np.mean(recent_lengths)
        avg_loss = np.mean(recent_losses) if recent_losses else 0
        avg_cleared = np.mean(recent_lines) if recent_lines else 0
        epsilon = self.epsilon_by_episode(episode)
        lr = self.scheduler.get_last_lr()[0]
        
        print(f"\nEpisode {episode}")
        print(f"平均奖励: {avg_reward:.2f}")
        print(f"平均长度: {avg_length:.1f}")
        print(f"平均损失: {avg_loss:.4f}")
        print(f"平均消行: {avg_cleared:.2f}")
        print(f"Epsilon: {epsilon:.3f}")
        print(f"学习率: {lr:.6f}")
        print(f"缓冲区大小: {len(self.replay_buffer)}")

# 训练配置
config = {
    'num_episodes': 100000,
    'max_episode_length': 1000,
    'batch_size': 64,
    'buffer_size': 10000,
    'learning_rate': 5e-4,
    'weight_decay': 1e-5,
    'gamma': 0.85,
    'epsilon_start': 0.8,
    'epsilon_end': 0.05,
    'epsilon_decay': 7000,
    'target_update_frequency': 300,
    'update_frequency': 4,
    'lr_step_size': 1500,
    'lr_gamma': 0.9,
    'grad_clip': 10.0,
    'save_frequency': 2000,
    'print_frequency': 100,
    'queue_size': 50,
    'num_actions': 120,
    'use_prioritized_replay': True,
    'use_double_dqn': True,
    'use_huber_loss': True
}

# 创建训练器并开始训练
if __name__ == "__main__":
    # 创建环境
    env = TetrisEnvironment()
    dqn_model = TetrisDQN(num_actions=120, dropout_rate=0.3)
    load_pretrained_tetris_to_dqn(dqn_model, 'tetris_model3_1.2M.pth')
    # dqn_model.load_state_dict(torch.load('best_dqn_model.pth', map_location=device))#
    print("DQN模型创建完成!")
    print(f"模型参数数量: {sum(p.numel() for p in dqn_model.parameters()):,}")
    print(f"可训练参数数量: {sum(p.numel() for p in dqn_model.parameters() if p.requires_grad):,}")
    target_model = TetrisDQN(num_actions=120, dropout_rate=0.1)
    load_pretrained_tetris_to_dqn(target_model, 'tetris_model3_1.2M.pth')
    # target_model.load_state_dict(torch.load('best_dqn_model.pth', map_location=device))
    # 创建训练器
    trainer = DQNTrainer(dqn_model, target_model, env, config)
    # 开始训练
    trainer.train()
    
    print("训练完成！")

Training:  62%|██████▏   | 61902/100000 [2:40:25<1:35:00,  6.68it/s]


Episode 61900
平均奖励: -56.98
平均长度: 28.7
平均损失: 1.0620
平均消行: 0.14
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  62%|██████▏   | 62002/100000 [2:40:41<2:50:14,  3.72it/s]


Episode 62000
平均奖励: 8.06
平均长度: 29.8
平均损失: 1.0798
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  62%|██████▏   | 62102/100000 [2:40:56<1:38:47,  6.39it/s]


Episode 62100
平均奖励: -30.40
平均长度: 29.2
平均损失: 0.9845
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  62%|██████▏   | 62202/100000 [2:41:11<1:35:22,  6.60it/s]


Episode 62200
平均奖励: -18.70
平均长度: 28.8
平均损失: 0.9310
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  62%|██████▏   | 62302/100000 [2:41:26<1:35:57,  6.55it/s]


Episode 62300
平均奖励: 3.03
平均长度: 29.9
平均损失: 1.0684
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  62%|██████▏   | 62402/100000 [2:41:42<1:38:33,  6.36it/s]


Episode 62400
平均奖励: -20.18
平均长度: 28.5
平均损失: 1.1445
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 62502/100000 [2:41:57<1:35:45,  6.53it/s]


Episode 62500
平均奖励: -31.30
平均长度: 29.1
平均损失: 0.9319
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 62602/100000 [2:42:12<1:34:46,  6.58it/s]


Episode 62600
平均奖励: -8.44
平均长度: 29.6
平均损失: 1.0425
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 62702/100000 [2:42:27<1:36:04,  6.47it/s]


Episode 62700
平均奖励: -25.79
平均长度: 29.7
平均损失: 1.0454
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 62802/100000 [2:42:42<1:33:45,  6.61it/s]


Episode 62800
平均奖励: -40.56
平均长度: 28.6
平均损失: 1.0478
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 62902/100000 [2:42:58<1:35:36,  6.47it/s]


Episode 62900
平均奖励: -24.15
平均长度: 28.2
平均损失: 1.0872
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 63002/100000 [2:43:13<1:34:09,  6.55it/s]


Episode 63000
平均奖励: -27.38
平均长度: 28.3
平均损失: 1.1012
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 63102/100000 [2:43:28<1:32:59,  6.61it/s]


Episode 63100
平均奖励: -29.36
平均长度: 29.1
平均损失: 1.0912
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 63202/100000 [2:43:43<1:34:10,  6.51it/s]


Episode 63200
平均奖励: -53.92
平均长度: 27.6
平均损失: 1.0910
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 63302/100000 [2:43:59<1:33:48,  6.52it/s]


Episode 63300
平均奖励: -33.96
平均长度: 28.9
平均损失: 1.1198
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  63%|██████▎   | 63402/100000 [2:44:14<1:34:58,  6.42it/s]


Episode 63400
平均奖励: -5.98
平均长度: 29.1
平均损失: 1.0470
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▎   | 63502/100000 [2:44:29<1:33:31,  6.50it/s]


Episode 63500
平均奖励: -19.86
平均长度: 29.5
平均损失: 0.9846
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▎   | 63602/100000 [2:44:44<1:31:24,  6.64it/s]


Episode 63600
平均奖励: -29.32
平均长度: 29.2
平均损失: 1.0388
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▎   | 63702/100000 [2:44:59<1:34:55,  6.37it/s]


Episode 63700
平均奖励: -31.29
平均长度: 28.7
平均损失: 1.0084
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 63802/100000 [2:45:14<1:32:09,  6.55it/s]


Episode 63800
平均奖励: -55.44
平均长度: 28.5
平均损失: 1.0510
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 63902/100000 [2:45:30<1:32:14,  6.52it/s]


Episode 63900
平均奖励: 4.48
平均长度: 29.0
平均损失: 1.0528
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 64002/100000 [2:45:45<2:47:51,  3.57it/s]


Episode 64000
平均奖励: -10.24
平均长度: 29.9
平均损失: 1.0957
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 64102/100000 [2:46:01<1:34:29,  6.33it/s]


Episode 64100
平均奖励: -39.13
平均长度: 29.3
平均损失: 1.0949
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 64202/100000 [2:46:16<1:33:09,  6.40it/s]


Episode 64200
平均奖励: -23.55
平均长度: 29.0
平均损失: 1.0693
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 64302/100000 [2:46:31<1:30:02,  6.61it/s]


Episode 64300
平均奖励: 10.36
平均长度: 29.1
平均损失: 1.1112
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  64%|██████▍   | 64402/100000 [2:46:46<1:31:22,  6.49it/s]


Episode 64400
平均奖励: 4.43
平均长度: 29.1
平均损失: 1.1288
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▍   | 64502/100000 [2:47:02<1:34:05,  6.29it/s]


Episode 64500
平均奖励: -37.61
平均长度: 28.1
平均损失: 1.1704
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▍   | 64602/100000 [2:47:17<1:29:16,  6.61it/s]


Episode 64600
平均奖励: -13.53
平均长度: 29.0
平均损失: 1.1754
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▍   | 64702/100000 [2:47:32<1:30:13,  6.52it/s]


Episode 64700
平均奖励: -29.47
平均长度: 29.2
平均损失: 1.0831
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▍   | 64802/100000 [2:47:47<1:29:18,  6.57it/s]


Episode 64800
平均奖励: -41.47
平均长度: 28.5
平均损失: 1.0931
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▍   | 64902/100000 [2:48:02<1:29:31,  6.53it/s]


Episode 64900
平均奖励: -25.85
平均长度: 28.9
平均损失: 1.1216
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▌   | 65002/100000 [2:48:18<1:28:29,  6.59it/s]


Episode 65000
平均奖励: -14.16
平均长度: 29.7
平均损失: 1.0195
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▌   | 65102/100000 [2:48:33<1:27:11,  6.67it/s]


Episode 65100
平均奖励: -55.83
平均长度: 28.2
平均损失: 1.1436
平均消行: 0.18
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▌   | 65202/100000 [2:48:48<1:27:20,  6.64it/s]


Episode 65200
平均奖励: -3.61
平均长度: 29.2
平均损失: 1.0331
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▌   | 65302/100000 [2:49:03<1:28:54,  6.50it/s]


Episode 65300
平均奖励: -66.74
平均长度: 27.7
平均损失: 1.0201
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  65%|██████▌   | 65402/100000 [2:49:18<1:27:32,  6.59it/s]


Episode 65400
平均奖励: -34.45
平均长度: 28.2
平均损失: 1.1690
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 65502/100000 [2:49:33<1:27:37,  6.56it/s]


Episode 65500
平均奖励: -31.43
平均长度: 29.6
平均损失: 1.1538
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 65602/100000 [2:49:49<1:26:57,  6.59it/s]


Episode 65600
平均奖励: -33.85
平均长度: 29.3
平均损失: 0.9817
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 65702/100000 [2:50:04<1:26:11,  6.63it/s]


Episode 65700
平均奖励: -29.82
平均长度: 29.1
平均损失: 1.0079
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 65802/100000 [2:50:19<1:25:50,  6.64it/s]


Episode 65800
平均奖励: -6.31
平均长度: 29.6
平均损失: 0.9679
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 65902/100000 [2:50:34<1:23:42,  6.79it/s]


Episode 65900
平均奖励: 20.61
平均长度: 29.4
平均损失: 1.2241
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 66002/100000 [2:50:50<2:36:40,  3.62it/s]


Episode 66000
平均奖励: 12.71
平均长度: 29.9
平均损失: 1.1623
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 66102/100000 [2:51:05<1:24:05,  6.72it/s]


Episode 66100
平均奖励: -18.82
平均长度: 28.9
平均损失: 1.0915
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▌   | 66202/100000 [2:51:20<1:24:29,  6.67it/s]


Episode 66200
平均奖励: -77.20
平均长度: 27.3
平均损失: 1.0355
平均消行: 0.16
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▋   | 66302/100000 [2:51:35<1:27:18,  6.43it/s]


Episode 66300
平均奖励: -16.02
平均长度: 29.2
平均损失: 1.1342
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  66%|██████▋   | 66402/100000 [2:51:50<1:21:43,  6.85it/s]


Episode 66400
平均奖励: -25.37
平均长度: 28.6
平均损失: 1.1473
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 66502/100000 [2:52:05<1:23:12,  6.71it/s]


Episode 66500
平均奖励: -25.14
平均长度: 28.7
平均损失: 1.1856
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 66602/100000 [2:52:20<1:28:31,  6.29it/s]


Episode 66600
平均奖励: -48.33
平均长度: 28.0
平均损失: 1.1087
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 66702/100000 [2:52:36<1:23:50,  6.62it/s]


Episode 66700
平均奖励: -64.51
平均长度: 26.2
平均损失: 1.0641
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 66802/100000 [2:52:51<1:24:41,  6.53it/s]


Episode 66800
平均奖励: -54.60
平均长度: 28.1
平均损失: 1.1131
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 66902/100000 [2:53:06<1:24:10,  6.55it/s]


Episode 66900
平均奖励: -56.43
平均长度: 28.6
平均损失: 1.0673
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 67002/100000 [2:53:21<1:22:00,  6.71it/s]


Episode 67000
平均奖励: -43.33
平均长度: 28.6
平均损失: 1.1111
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 67102/100000 [2:53:36<1:22:04,  6.68it/s]


Episode 67100
平均奖励: -47.97
平均长度: 28.6
平均损失: 1.0638
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 67202/100000 [2:53:51<1:21:22,  6.72it/s]


Episode 67200
平均奖励: -51.41
平均长度: 28.4
平均损失: 1.0329
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 67302/100000 [2:54:06<1:22:19,  6.62it/s]


Episode 67300
平均奖励: -66.83
平均长度: 28.6
平均损失: 1.0316
平均消行: 0.16
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  67%|██████▋   | 67402/100000 [2:54:21<1:20:56,  6.71it/s]


Episode 67400
平均奖励: -42.26
平均长度: 28.9
平均损失: 1.0253
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 67502/100000 [2:54:37<1:24:27,  6.41it/s]


Episode 67500
平均奖励: -21.94
平均长度: 28.7
平均损失: 0.9497
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 67602/100000 [2:54:52<1:23:24,  6.47it/s]


Episode 67600
平均奖励: -18.91
平均长度: 29.8
平均损失: 1.0080
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 67702/100000 [2:55:07<1:21:36,  6.60it/s]


Episode 67700
平均奖励: -34.28
平均长度: 29.3
平均损失: 1.0604
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 67802/100000 [2:55:22<1:19:00,  6.79it/s]


Episode 67800
平均奖励: -64.81
平均长度: 27.3
平均损失: 1.0164
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 67902/100000 [2:55:37<1:22:04,  6.52it/s]


Episode 67900
平均奖励: -56.37
平均长度: 29.1
平均损失: 0.9950
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 68002/100000 [2:55:53<2:09:26,  4.12it/s]


Episode 68000
平均奖励: -37.10
平均长度: 29.3
平均损失: 1.0334
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 68102/100000 [2:56:07<1:19:42,  6.67it/s]


Episode 68100
平均奖励: -0.60
平均长度: 30.2
平均损失: 1.0485
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 68202/100000 [2:56:22<1:18:40,  6.74it/s]


Episode 68200
平均奖励: -33.10
平均长度: 29.5
平均损失: 0.9580
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 68302/100000 [2:56:37<1:19:36,  6.64it/s]


Episode 68300
平均奖励: -18.76
平均长度: 28.7
平均损失: 1.0462
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  68%|██████▊   | 68402/100000 [2:56:52<1:17:33,  6.79it/s]


Episode 68400
平均奖励: -0.63
平均长度: 29.0
平均损失: 1.0775
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▊   | 68502/100000 [2:57:07<1:19:48,  6.58it/s]


Episode 68500
平均奖励: 6.62
平均长度: 29.2
平均损失: 1.0904
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▊   | 68602/100000 [2:57:22<1:18:04,  6.70it/s]


Episode 68600
平均奖励: -10.68
平均长度: 29.7
平均损失: 1.0994
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▊   | 68702/100000 [2:57:37<1:18:14,  6.67it/s]


Episode 68700
平均奖励: -65.46
平均长度: 28.2
平均损失: 1.0505
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 68802/100000 [2:57:52<1:19:02,  6.58it/s]


Episode 68800
平均奖励: -52.27
平均长度: 28.4
平均损失: 0.9737
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 68902/100000 [2:58:07<1:19:01,  6.56it/s]


Episode 68900
平均奖励: -19.49
平均长度: 28.6
平均损失: 1.0333
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 69002/100000 [2:58:22<1:15:57,  6.80it/s]


Episode 69000
平均奖励: -50.27
平均长度: 28.3
平均损失: 0.9624
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 69102/100000 [2:58:37<1:17:10,  6.67it/s]


Episode 69100
平均奖励: -30.63
平均长度: 29.6
平均损失: 1.0665
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 69202/100000 [2:58:52<1:15:38,  6.79it/s]


Episode 69200
平均奖励: -52.70
平均长度: 27.9
平均损失: 1.0120
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 69302/100000 [2:59:07<1:19:19,  6.45it/s]


Episode 69300
平均奖励: -8.61
平均长度: 29.5
平均损失: 0.9859
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  69%|██████▉   | 69402/100000 [2:59:22<1:15:50,  6.72it/s]


Episode 69400
平均奖励: -47.72
平均长度: 28.8
平均损失: 1.0574
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|██████▉   | 69502/100000 [2:59:37<1:16:54,  6.61it/s]


Episode 69500
平均奖励: -111.70
平均长度: 25.2
平均损失: 1.0637
平均消行: 0.14
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|██████▉   | 69602/100000 [2:59:52<1:16:01,  6.66it/s]


Episode 69600
平均奖励: -23.46
平均长度: 28.9
平均损失: 0.9769
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|██████▉   | 69702/100000 [3:00:07<1:18:38,  6.42it/s]


Episode 69700
平均奖励: -28.06
平均长度: 29.1
平均损失: 0.9212
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|██████▉   | 69802/100000 [3:00:22<1:13:41,  6.83it/s]


Episode 69800
平均奖励: -35.36
平均长度: 28.2
平均损失: 0.9524
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|██████▉   | 69902/100000 [3:00:37<1:16:05,  6.59it/s]


Episode 69900
平均奖励: -23.58
平均长度: 28.7
平均损失: 1.0242
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|███████   | 70002/100000 [3:00:53<2:18:06,  3.62it/s]


Episode 70000
平均奖励: 16.98
平均长度: 29.3
平均损失: 1.0764
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|███████   | 70102/100000 [3:01:07<1:17:21,  6.44it/s]


Episode 70100
平均奖励: -84.56
平均长度: 27.1
平均损失: 1.0557
平均消行: 0.15
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|███████   | 70202/100000 [3:01:22<1:14:05,  6.70it/s]


Episode 70200
平均奖励: -44.83
平均长度: 28.2
平均损失: 1.0221
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|███████   | 70302/100000 [3:01:37<1:14:07,  6.68it/s]


Episode 70300
平均奖励: -49.34
平均长度: 28.7
平均损失: 0.9868
平均消行: 0.18
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  70%|███████   | 70402/100000 [3:01:52<1:13:54,  6.67it/s]


Episode 70400
平均奖励: 3.59
平均长度: 29.9
平均损失: 1.0708
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 70502/100000 [3:02:07<1:13:59,  6.64it/s]


Episode 70500
平均奖励: 6.45
平均长度: 28.6
平均损失: 1.1051
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 70602/100000 [3:02:22<1:12:48,  6.73it/s]


Episode 70600
平均奖励: 0.26
平均长度: 29.0
平均损失: 1.0650
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 70702/100000 [3:02:37<1:12:59,  6.69it/s]


Episode 70700
平均奖励: -14.00
平均长度: 29.3
平均损失: 1.1235
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 70802/100000 [3:02:52<1:13:58,  6.58it/s]


Episode 70800
平均奖励: -36.39
平均长度: 28.3
平均损失: 0.9875
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 70902/100000 [3:03:07<1:13:22,  6.61it/s]


Episode 70900
平均奖励: -38.87
平均长度: 28.8
平均损失: 1.0449
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 71002/100000 [3:03:22<1:15:42,  6.38it/s]


Episode 71000
平均奖励: -4.56
平均长度: 29.4
平均损失: 0.9834
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 71102/100000 [3:03:37<1:13:02,  6.59it/s]


Episode 71100
平均奖励: -30.36
平均长度: 28.5
平均损失: 0.9894
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████   | 71202/100000 [3:03:52<1:13:11,  6.56it/s]


Episode 71200
平均奖励: -22.77
平均长度: 28.5
平均损失: 1.0485
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████▏  | 71302/100000 [3:04:07<1:11:18,  6.71it/s]


Episode 71300
平均奖励: -40.62
平均长度: 28.0
平均损失: 1.1315
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  71%|███████▏  | 71402/100000 [3:04:22<1:10:05,  6.80it/s]


Episode 71400
平均奖励: -32.82
平均长度: 28.4
平均损失: 1.0691
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 71502/100000 [3:04:37<1:11:09,  6.67it/s]


Episode 71500
平均奖励: -47.68
平均长度: 27.9
平均损失: 1.1874
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 71602/100000 [3:04:52<1:10:27,  6.72it/s]


Episode 71600
平均奖励: -9.61
平均长度: 28.8
平均损失: 1.0855
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 71702/100000 [3:05:07<1:10:55,  6.65it/s]


Episode 71700
平均奖励: -31.51
平均长度: 28.3
平均损失: 1.0349
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 71802/100000 [3:05:22<1:11:06,  6.61it/s]


Episode 71800
平均奖励: 12.32
平均长度: 29.9
平均损失: 1.1450
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 71902/100000 [3:05:37<1:10:10,  6.67it/s]


Episode 71900
平均奖励: 17.05
平均长度: 29.5
平均损失: 1.1754
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 72002/100000 [3:05:52<1:55:19,  4.05it/s]


Episode 72000
平均奖励: -40.44
平均长度: 26.9
平均损失: 1.1084
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 72102/100000 [3:06:07<1:09:31,  6.69it/s]


Episode 72100
平均奖励: -7.35
平均长度: 28.9
平均损失: 1.2163
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 72202/100000 [3:06:22<1:09:17,  6.69it/s]


Episode 72200
平均奖励: -10.86
平均长度: 29.1
平均损失: 1.1396
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 72302/100000 [3:06:37<1:12:46,  6.34it/s]


Episode 72300
平均奖励: -32.85
平均长度: 28.5
平均损失: 1.0842
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  72%|███████▏  | 72402/100000 [3:06:52<1:08:13,  6.74it/s]


Episode 72400
平均奖励: -67.27
平均长度: 26.5
平均损失: 1.0616
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 72502/100000 [3:07:07<1:09:24,  6.60it/s]


Episode 72500
平均奖励: -32.05
平均长度: 28.5
平均损失: 1.0359
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 72602/100000 [3:07:22<1:07:32,  6.76it/s]


Episode 72600
平均奖励: -3.48
平均长度: 29.3
平均损失: 1.0886
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 72702/100000 [3:07:37<1:07:36,  6.73it/s]


Episode 72700
平均奖励: -9.33
平均长度: 29.3
平均损失: 1.0477
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 72802/100000 [3:07:52<1:08:36,  6.61it/s]


Episode 72800
平均奖励: -46.27
平均长度: 28.3
平均损失: 1.0805
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 72902/100000 [3:08:07<1:09:58,  6.45it/s]


Episode 72900
平均奖励: -14.05
平均长度: 29.5
平均损失: 1.0074
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 73002/100000 [3:08:22<1:07:17,  6.69it/s]


Episode 73000
平均奖励: 15.46
平均长度: 29.7
平均损失: 1.0730
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 73102/100000 [3:08:37<1:06:10,  6.77it/s]


Episode 73100
平均奖励: 3.79
平均长度: 29.0
平均损失: 1.0205
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 73202/100000 [3:08:52<1:06:54,  6.68it/s]


Episode 73200
平均奖励: -14.33
平均长度: 29.4
平均损失: 1.1638
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 73302/100000 [3:09:08<1:05:43,  6.77it/s]


Episode 73300
平均奖励: -49.54
平均长度: 27.2
平均损失: 1.1004
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  73%|███████▎  | 73402/100000 [3:09:23<1:06:57,  6.62it/s]


Episode 73400
平均奖励: -9.89
平均长度: 27.9
平均损失: 1.0929
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▎  | 73502/100000 [3:09:38<1:07:11,  6.57it/s]


Episode 73500
平均奖励: -7.17
平均长度: 28.2
平均损失: 1.1489
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▎  | 73602/100000 [3:09:53<1:05:31,  6.72it/s]


Episode 73600
平均奖励: 9.05
平均长度: 29.3
平均损失: 1.3094
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▎  | 73702/100000 [3:10:08<1:06:43,  6.57it/s]


Episode 73700
平均奖励: 2.86
平均长度: 28.4
平均损失: 1.2041
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 73802/100000 [3:10:23<1:07:17,  6.49it/s]


Episode 73800
平均奖励: -19.85
平均长度: 28.2
平均损失: 1.2155
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 73902/100000 [3:10:38<1:05:14,  6.67it/s]


Episode 73900
平均奖励: -10.84
平均长度: 27.8
平均损失: 1.2409
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 74002/100000 [3:10:54<2:04:02,  3.49it/s]


Episode 74000
平均奖励: 5.32
平均长度: 28.1
平均损失: 1.3144
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 74102/100000 [3:11:09<1:04:55,  6.65it/s]


Episode 74100
平均奖励: 31.17
平均长度: 29.9
平均损失: 1.1723
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 74202/100000 [3:11:24<1:04:04,  6.71it/s]


Episode 74200
平均奖励: 51.91
平均长度: 29.9
平均损失: 1.1600
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 74302/100000 [3:11:39<1:04:23,  6.65it/s]


Episode 74300
平均奖励: 20.91
平均长度: 29.4
平均损失: 1.0809
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  74%|███████▍  | 74402/100000 [3:11:54<1:05:45,  6.49it/s]


Episode 74400
平均奖励: 71.64
平均长度: 30.4
平均损失: 1.1684
平均消行: 0.48
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▍  | 74502/100000 [3:12:09<1:02:51,  6.76it/s]


Episode 74500
平均奖励: 35.02
平均长度: 29.9
平均损失: 1.2320
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▍  | 74602/100000 [3:12:24<1:02:39,  6.76it/s]


Episode 74600
平均奖励: -34.04
平均长度: 26.7
平均损失: 1.2846
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▍  | 74702/100000 [3:12:40<1:04:39,  6.52it/s]


Episode 74700
平均奖励: -0.19
平均长度: 27.9
平均损失: 1.2715
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▍  | 74802/100000 [3:12:55<1:03:01,  6.66it/s]


Episode 74800
平均奖励: 29.73
平均长度: 29.3
平均损失: 1.3769
平均消行: 0.44
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▍  | 74902/100000 [3:13:10<1:04:08,  6.52it/s]


Episode 74900
平均奖励: -40.55
平均长度: 28.4
平均损失: 1.2836
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▌  | 75002/100000 [3:13:25<1:02:50,  6.63it/s]


Episode 75000
平均奖励: 36.72
平均长度: 29.4
平均损失: 1.3531
平均消行: 0.41
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▌  | 75102/100000 [3:13:40<1:02:32,  6.63it/s]


Episode 75100
平均奖励: 46.49
平均长度: 29.6
平均损失: 1.2400
平均消行: 0.42
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▌  | 75202/100000 [3:13:55<1:03:17,  6.53it/s]


Episode 75200
平均奖励: 34.19
平均长度: 28.9
平均损失: 1.3831
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▌  | 75302/100000 [3:14:10<1:02:01,  6.64it/s]


Episode 75300
平均奖励: 57.74
平均长度: 29.8
平均损失: 1.2793
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  75%|███████▌  | 75402/100000 [3:14:25<1:02:18,  6.58it/s]


Episode 75400
平均奖励: 27.60
平均长度: 29.5
平均损失: 1.2470
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 75502/100000 [3:14:40<1:01:18,  6.66it/s]


Episode 75500
平均奖励: -13.74
平均长度: 27.1
平均损失: 1.3907
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 75602/100000 [3:14:55<1:00:20,  6.74it/s]


Episode 75600
平均奖励: 27.06
平均长度: 29.4
平均损失: 1.3570
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 75702/100000 [3:15:10<1:00:28,  6.70it/s]


Episode 75700
平均奖励: 1.75
平均长度: 28.8
平均损失: 1.2128
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 75802/100000 [3:15:25<1:00:53,  6.62it/s]


Episode 75800
平均奖励: 10.69
平均长度: 29.5
平均损失: 1.1999
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 75902/100000 [3:15:40<1:01:48,  6.50it/s]


Episode 75900
平均奖励: 63.20
平均长度: 29.9
平均损失: 1.2355
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 76002/100000 [3:15:56<1:52:34,  3.55it/s]


Episode 76000
平均奖励: -10.33
平均长度: 28.6
平均损失: 1.1727
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 76102/100000 [3:16:11<1:00:40,  6.56it/s]


Episode 76100
平均奖励: 23.00
平均长度: 30.1
平均损失: 1.2383
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▌  | 76202/100000 [3:16:26<59:44,  6.64it/s]  


Episode 76200
平均奖励: 6.43
平均长度: 29.6
平均损失: 1.2039
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▋  | 76302/100000 [3:16:41<1:00:59,  6.48it/s]


Episode 76300
平均奖励: 38.60
平均长度: 29.7
平均损失: 1.2450
平均消行: 0.44
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  76%|███████▋  | 76402/100000 [3:16:56<58:37,  6.71it/s]  


Episode 76400
平均奖励: 58.49
平均长度: 30.1
平均损失: 1.3570
平均消行: 0.46
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 76502/100000 [3:17:11<57:36,  6.80it/s]  


Episode 76500
平均奖励: -23.76
平均长度: 28.5
平均损失: 1.4508
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 76602/100000 [3:17:26<58:09,  6.70it/s]  


Episode 76600
平均奖励: -73.57
平均长度: 26.4
平均损失: 1.2556
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 76702/100000 [3:17:41<57:26,  6.76it/s]  


Episode 76700
平均奖励: -12.52
平均长度: 29.3
平均损失: 1.2628
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 76802/100000 [3:17:56<56:57,  6.79it/s]  


Episode 76800
平均奖励: 5.81
平均长度: 29.7
平均损失: 1.1447
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 76902/100000 [3:18:11<57:22,  6.71it/s]  


Episode 76900
平均奖励: 38.95
平均长度: 30.2
平均损失: 1.1261
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 77002/100000 [3:18:26<57:30,  6.66it/s]  


Episode 77000
平均奖励: -18.83
平均长度: 28.3
平均损失: 1.2922
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 77102/100000 [3:18:41<59:25,  6.42it/s]  


Episode 77100
平均奖励: -33.95
平均长度: 28.8
平均损失: 1.2610
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 77202/100000 [3:18:56<57:55,  6.56it/s]  


Episode 77200
平均奖励: -2.58
平均长度: 29.6
平均损失: 1.2001
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 77302/100000 [3:19:11<56:20,  6.71it/s]  


Episode 77300
平均奖励: -39.82
平均长度: 28.9
平均损失: 1.0606
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  77%|███████▋  | 77402/100000 [3:19:26<58:13,  6.47it/s]


Episode 77400
平均奖励: -37.85
平均长度: 28.6
平均损失: 1.2040
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 77502/100000 [3:19:41<57:19,  6.54it/s]


Episode 77500
平均奖励: -7.91
平均长度: 29.7
平均损失: 1.1882
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 77602/100000 [3:19:57<57:26,  6.50it/s]  


Episode 77600
平均奖励: 24.69
平均长度: 29.1
平均损失: 1.1101
平均消行: 0.41
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 77702/100000 [3:20:12<56:55,  6.53it/s]


Episode 77700
平均奖励: -61.66
平均长度: 27.3
平均损失: 1.2551
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 77802/100000 [3:20:27<54:26,  6.80it/s]  


Episode 77800
平均奖励: -2.22
平均长度: 28.4
平均损失: 1.2244
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 77902/100000 [3:20:42<58:00,  6.35it/s]


Episode 77900
平均奖励: 82.50
平均长度: 31.0
平均损失: 1.1831
平均消行: 0.52
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 78002/100000 [3:20:57<1:35:01,  3.86it/s]


Episode 78000
平均奖励: 7.39
平均长度: 29.2
平均损失: 1.1828
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 78102/100000 [3:21:13<55:58,  6.52it/s]  


Episode 78100
平均奖励: 24.33
平均长度: 28.6
平均损失: 1.1999
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 78202/100000 [3:21:27<53:13,  6.83it/s]


Episode 78200
平均奖励: 24.75
平均长度: 28.7
平均损失: 1.2956
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 78302/100000 [3:21:42<55:45,  6.48it/s]


Episode 78300
平均奖励: 1.80
平均长度: 28.6
平均损失: 1.2895
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  78%|███████▊  | 78402/100000 [3:21:58<56:24,  6.38it/s]


Episode 78400
平均奖励: 7.34
平均长度: 29.2
平均损失: 1.3665
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▊  | 78502/100000 [3:22:13<53:39,  6.68it/s]  


Episode 78500
平均奖励: 11.82
平均长度: 28.5
平均损失: 1.4134
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▊  | 78602/100000 [3:22:28<54:50,  6.50it/s]


Episode 78600
平均奖励: -35.35
平均长度: 26.7
平均损失: 1.0819
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▊  | 78702/100000 [3:22:43<54:35,  6.50it/s]


Episode 78700
平均奖励: 7.48
平均长度: 29.8
平均损失: 1.1265
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 78802/100000 [3:22:58<52:30,  6.73it/s]


Episode 78800
平均奖励: -8.55
平均长度: 27.6
平均损失: 1.1477
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 78902/100000 [3:23:13<53:12,  6.61it/s]


Episode 78900
平均奖励: 42.00
平均长度: 30.2
平均损失: 1.1841
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 79002/100000 [3:23:28<52:10,  6.71it/s]


Episode 79000
平均奖励: 16.54
平均长度: 29.8
平均损失: 1.1485
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 79102/100000 [3:23:43<51:26,  6.77it/s]  


Episode 79100
平均奖励: -7.43
平均长度: 28.2
平均损失: 1.1676
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 79202/100000 [3:23:58<52:25,  6.61it/s]


Episode 79200
平均奖励: -19.20
平均长度: 27.7
平均损失: 1.1824
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 79302/100000 [3:24:13<53:44,  6.42it/s]


Episode 79300
平均奖励: -59.42
平均长度: 27.7
平均损失: 1.1405
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  79%|███████▉  | 79402/100000 [3:24:28<51:03,  6.72it/s]


Episode 79400
平均奖励: 13.50
平均长度: 29.7
平均损失: 1.1567
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|███████▉  | 79502/100000 [3:24:43<51:12,  6.67it/s]


Episode 79500
平均奖励: -27.94
平均长度: 27.7
平均损失: 1.1672
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|███████▉  | 79602/100000 [3:24:58<51:42,  6.58it/s]


Episode 79600
平均奖励: -2.19
平均长度: 29.1
平均损失: 1.1642
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|███████▉  | 79702/100000 [3:25:13<50:27,  6.71it/s]


Episode 79700
平均奖励: -49.97
平均长度: 28.6
平均损失: 1.2023
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|███████▉  | 79802/100000 [3:25:28<49:43,  6.77it/s]


Episode 79800
平均奖励: -23.87
平均长度: 28.2
平均损失: 1.0717
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|███████▉  | 79902/100000 [3:25:43<50:20,  6.65it/s]


Episode 79900
平均奖励: -10.82
平均长度: 29.3
平均损失: 1.1458
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|████████  | 80002/100000 [3:25:59<1:37:15,  3.43it/s]


Episode 80000
平均奖励: -11.16
平均长度: 29.8
平均损失: 1.1330
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|████████  | 80102/100000 [3:26:13<50:05,  6.62it/s]  


Episode 80100
平均奖励: -7.72
平均长度: 29.2
平均损失: 1.2025
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|████████  | 80202/100000 [3:26:28<49:16,  6.70it/s]


Episode 80200
平均奖励: -28.06
平均长度: 28.6
平均损失: 1.0463
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|████████  | 80302/100000 [3:26:43<48:51,  6.72it/s]


Episode 80300
平均奖励: -49.32
平均长度: 28.0
平均损失: 1.0929
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  80%|████████  | 80402/100000 [3:26:58<48:27,  6.74it/s]


Episode 80400
平均奖励: -26.10
平均长度: 28.9
平均损失: 1.1240
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 80502/100000 [3:27:14<49:29,  6.57it/s]


Episode 80500
平均奖励: -31.62
平均长度: 28.2
平均损失: 1.0539
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 80602/100000 [3:27:29<48:36,  6.65it/s]


Episode 80600
平均奖励: -8.73
平均长度: 28.8
平均损失: 1.0727
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 80702/100000 [3:27:44<48:37,  6.62it/s]


Episode 80700
平均奖励: -35.30
平均长度: 28.3
平均损失: 1.2098
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 80802/100000 [3:27:59<47:42,  6.71it/s]


Episode 80800
平均奖励: 2.80
平均长度: 28.7
平均损失: 1.1615
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 80902/100000 [3:28:14<48:12,  6.60it/s]


Episode 80900
平均奖励: 21.65
平均长度: 29.9
平均损失: 1.2604
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 81002/100000 [3:28:29<48:04,  6.59it/s]


Episode 81000
平均奖励: 3.12
平均长度: 29.4
平均损失: 1.2415
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 81102/100000 [3:28:44<48:05,  6.55it/s]


Episode 81100
平均奖励: 5.51
平均长度: 28.7
平均损失: 1.3509
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████  | 81202/100000 [3:28:59<46:32,  6.73it/s]


Episode 81200
平均奖励: -19.24
平均长度: 28.4
平均损失: 1.2171
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████▏ | 81302/100000 [3:29:14<46:40,  6.68it/s]


Episode 81300
平均奖励: -23.65
平均长度: 28.0
平均损失: 1.3088
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  81%|████████▏ | 81402/100000 [3:29:29<45:25,  6.82it/s]


Episode 81400
平均奖励: 21.24
平均长度: 29.3
平均损失: 1.1407
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 81502/100000 [3:29:45<45:53,  6.72it/s]


Episode 81500
平均奖励: 23.24
平均长度: 29.3
平均损失: 1.1864
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 81602/100000 [3:30:00<46:21,  6.61it/s]


Episode 81600
平均奖励: 20.84
平均长度: 29.1
平均损失: 1.2927
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 81702/100000 [3:30:15<45:54,  6.64it/s]


Episode 81700
平均奖励: 66.26
平均长度: 30.2
平均损失: 1.3010
平均消行: 0.47
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 81802/100000 [3:30:30<45:28,  6.67it/s]


Episode 81800
平均奖励: 5.51
平均长度: 29.4
平均损失: 1.2695
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 81902/100000 [3:30:45<47:34,  6.34it/s]


Episode 81900
平均奖励: 48.87
平均长度: 29.9
平均损失: 1.3510
平均消行: 0.46
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 82002/100000 [3:31:01<1:19:09,  3.79it/s]


Episode 82000
平均奖励: -20.96
平均长度: 29.3
平均损失: 1.2088
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 82102/100000 [3:31:16<43:35,  6.84it/s]  


Episode 82100
平均奖励: -21.87
平均长度: 28.6
平均损失: 1.1935
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 82202/100000 [3:31:31<44:53,  6.61it/s]


Episode 82200
平均奖励: -10.59
平均长度: 28.1
平均损失: 1.1505
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 82302/100000 [3:31:46<44:44,  6.59it/s]


Episode 82300
平均奖励: -40.81
平均长度: 27.9
平均损失: 1.0918
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  82%|████████▏ | 82402/100000 [3:32:01<44:18,  6.62it/s]


Episode 82400
平均奖励: -25.74
平均长度: 28.7
平均损失: 1.1297
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 82502/100000 [3:32:16<43:42,  6.67it/s]


Episode 82500
平均奖励: -17.70
平均长度: 28.8
平均损失: 1.1578
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 82602/100000 [3:32:30<43:28,  6.67it/s]


Episode 82600
平均奖励: -5.62
平均长度: 29.4
平均损失: 1.1230
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 82701/100000 [3:32:45<43:14,  6.67it/s]


Episode 82700
平均奖励: -23.23
平均长度: 28.9
平均损失: 1.1577
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 82802/100000 [3:33:01<44:06,  6.50it/s]


Episode 82800
平均奖励: -19.58
平均长度: 29.5
平均损失: 1.0756
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 82902/100000 [3:33:16<42:29,  6.71it/s]


Episode 82900
平均奖励: -13.22
平均长度: 28.9
平均损失: 1.1001
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 83002/100000 [3:33:31<42:57,  6.59it/s]


Episode 83000
平均奖励: -2.83
平均长度: 29.7
平均损失: 1.0985
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 83102/100000 [3:33:46<42:17,  6.66it/s]


Episode 83100
平均奖励: -1.44
平均长度: 29.2
平均损失: 1.1327
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 83202/100000 [3:34:01<42:49,  6.54it/s]


Episode 83200
平均奖励: -33.97
平均长度: 28.5
平均损失: 1.2917
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 83302/100000 [3:34:16<41:41,  6.68it/s]


Episode 83300
平均奖励: -40.07
平均长度: 28.8
平均损失: 1.0953
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  83%|████████▎ | 83402/100000 [3:34:31<41:49,  6.61it/s]


Episode 83400
平均奖励: -26.67
平均长度: 29.2
平均损失: 1.0900
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▎ | 83502/100000 [3:34:46<41:23,  6.64it/s]


Episode 83500
平均奖励: -45.94
平均长度: 28.6
平均损失: 1.1550
平均消行: 0.20
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▎ | 83602/100000 [3:35:00<40:45,  6.71it/s]


Episode 83600
平均奖励: 0.85
平均长度: 29.0
平均损失: 1.1763
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▎ | 83702/100000 [3:35:15<39:53,  6.81it/s]


Episode 83700
平均奖励: -43.81
平均长度: 28.1
平均损失: 1.0990
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 83802/100000 [3:35:30<39:15,  6.88it/s]


Episode 83800
平均奖励: -19.85
平均长度: 29.0
平均损失: 1.1524
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 83902/100000 [3:35:45<39:58,  6.71it/s]


Episode 83900
平均奖励: 3.43
平均长度: 29.1
平均损失: 1.0521
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 84002/100000 [3:36:01<1:19:19,  3.36it/s]


Episode 84000
平均奖励: -42.27
平均长度: 28.6
平均损失: 1.2037
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 84102/100000 [3:36:16<41:05,  6.45it/s]  


Episode 84100
平均奖励: -16.46
平均长度: 28.9
平均损失: 1.1760
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 84202/100000 [3:36:31<38:47,  6.79it/s]


Episode 84200
平均奖励: 11.37
平均长度: 28.7
平均损失: 1.1023
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 84302/100000 [3:36:46<40:35,  6.45it/s]


Episode 84300
平均奖励: 15.79
平均长度: 29.6
平均损失: 1.1435
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  84%|████████▍ | 84402/100000 [3:37:01<39:28,  6.59it/s]


Episode 84400
平均奖励: 19.76
平均长度: 30.0
平均损失: 1.1578
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▍ | 84502/100000 [3:37:16<38:38,  6.69it/s]


Episode 84500
平均奖励: 30.50
平均长度: 29.3
平均损失: 1.2688
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▍ | 84602/100000 [3:37:31<38:16,  6.70it/s]


Episode 84600
平均奖励: 32.47
平均长度: 29.2
平均损失: 1.1055
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▍ | 84702/100000 [3:37:46<37:02,  6.88it/s]


Episode 84700
平均奖励: -35.67
平均长度: 27.9
平均损失: 1.2081
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▍ | 84802/100000 [3:38:01<36:57,  6.85it/s]


Episode 84800
平均奖励: 11.07
平均长度: 29.3
平均损失: 1.1743
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▍ | 84902/100000 [3:38:16<37:29,  6.71it/s]


Episode 84900
平均奖励: 0.81
平均长度: 29.9
平均损失: 1.1702
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▌ | 85002/100000 [3:38:31<38:14,  6.54it/s]


Episode 85000
平均奖励: 52.07
平均长度: 29.7
平均损失: 1.2330
平均消行: 0.42
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▌ | 85102/100000 [3:38:46<37:22,  6.64it/s]


Episode 85100
平均奖励: 15.16
平均长度: 29.6
平均损失: 1.1745
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▌ | 85202/100000 [3:39:01<37:51,  6.52it/s]


Episode 85200
平均奖励: 30.45
平均长度: 29.7
平均损失: 1.2397
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▌ | 85302/100000 [3:39:16<36:33,  6.70it/s]


Episode 85300
平均奖励: 84.88
平均长度: 30.3
平均损失: 1.2444
平均消行: 0.50
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  85%|████████▌ | 85402/100000 [3:39:31<38:19,  6.35it/s]


Episode 85400
平均奖励: 55.69
平均长度: 30.5
平均损失: 1.1748
平均消行: 0.42
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 85502/100000 [3:39:46<36:16,  6.66it/s]


Episode 85500
平均奖励: 55.20
平均长度: 30.0
平均损失: 1.3095
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 85602/100000 [3:40:01<36:42,  6.54it/s]


Episode 85600
平均奖励: 7.75
平均长度: 28.0
平均损失: 1.2771
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 85702/100000 [3:40:16<34:53,  6.83it/s]


Episode 85700
平均奖励: 37.37
平均长度: 29.6
平均损失: 1.1569
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 85802/100000 [3:40:31<36:17,  6.52it/s]


Episode 85800
平均奖励: -5.84
平均长度: 28.6
平均损失: 1.1834
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 85902/100000 [3:40:46<34:31,  6.81it/s]


Episode 85900
平均奖励: 21.68
平均长度: 29.1
平均损失: 1.2065
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 86002/100000 [3:41:02<1:02:43,  3.72it/s]


Episode 86000
平均奖励: 1.92
平均长度: 29.4
平均损失: 1.2188
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 86102/100000 [3:41:17<35:19,  6.56it/s]  


Episode 86100
平均奖励: 36.88
平均长度: 29.4
平均损失: 1.2028
平均消行: 0.42
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▌ | 86202/100000 [3:41:32<34:27,  6.67it/s]


Episode 86200
平均奖励: -4.84
平均长度: 28.9
平均损失: 1.2788
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▋ | 86302/100000 [3:41:47<34:49,  6.56it/s]


Episode 86300
平均奖励: 75.15
平均长度: 30.4
平均损失: 1.2178
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  86%|████████▋ | 86402/100000 [3:42:02<34:44,  6.52it/s]


Episode 86400
平均奖励: -25.08
平均长度: 28.2
平均损失: 1.2814
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 86502/100000 [3:42:17<33:51,  6.64it/s]


Episode 86500
平均奖励: -0.24
平均长度: 29.2
平均损失: 1.2580
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 86602/100000 [3:42:32<33:56,  6.58it/s]


Episode 86600
平均奖励: 38.56
平均长度: 30.1
平均损失: 1.1800
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 86702/100000 [3:42:47<33:30,  6.61it/s]


Episode 86700
平均奖励: 84.49
平均长度: 30.7
平均损失: 1.0951
平均消行: 0.54
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 86802/100000 [3:43:02<32:52,  6.69it/s]


Episode 86800
平均奖励: -13.24
平均长度: 29.4
平均损失: 1.2344
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 86902/100000 [3:43:17<32:57,  6.62it/s]


Episode 86900
平均奖励: 61.73
平均长度: 30.4
平均损失: 1.2749
平均消行: 0.46
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 87002/100000 [3:43:32<34:06,  6.35it/s]


Episode 87000
平均奖励: 24.49
平均长度: 30.2
平均损失: 1.2313
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 87102/100000 [3:43:47<31:49,  6.76it/s]


Episode 87100
平均奖励: 4.90
平均长度: 29.2
平均损失: 1.1402
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 87202/100000 [3:44:02<31:37,  6.74it/s]


Episode 87200
平均奖励: 55.33
平均长度: 29.8
平均损失: 1.2270
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 87302/100000 [3:44:17<31:09,  6.79it/s]


Episode 87300
平均奖励: 7.34
平均长度: 28.2
平均损失: 1.2520
平均消行: 0.41
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  87%|████████▋ | 87402/100000 [3:44:32<31:48,  6.60it/s]


Episode 87400
平均奖励: 30.79
平均长度: 30.1
平均损失: 1.2623
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 87502/100000 [3:44:47<30:56,  6.73it/s]


Episode 87500
平均奖励: 10.84
平均长度: 29.2
平均损失: 1.2140
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 87602/100000 [3:45:02<31:06,  6.64it/s]


Episode 87600
平均奖励: 22.73
平均长度: 29.4
平均损失: 1.2260
平均消行: 0.39
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 87702/100000 [3:45:17<30:54,  6.63it/s]


Episode 87700
平均奖励: 11.87
平均长度: 29.4
平均损失: 1.2077
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 87802/100000 [3:45:32<30:12,  6.73it/s]


Episode 87800
平均奖励: -15.05
平均长度: 29.2
平均损失: 1.2286
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 87902/100000 [3:45:47<29:27,  6.85it/s]


Episode 87900
平均奖励: 6.62
平均长度: 27.9
平均损失: 1.2028
平均消行: 0.41
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 88002/100000 [3:46:02<54:17,  3.68it/s]  


Episode 88000
平均奖励: 10.94
平均长度: 29.1
平均损失: 1.2661
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 88102/100000 [3:46:17<28:40,  6.92it/s]


Episode 88100
平均奖励: -3.83
平均长度: 29.5
平均损失: 1.1093
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 88202/100000 [3:46:32<29:23,  6.69it/s]


Episode 88200
平均奖励: -3.71
平均长度: 30.2
平均损失: 1.1492
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 88302/100000 [3:46:47<29:09,  6.68it/s]


Episode 88300
平均奖励: -7.91
平均长度: 28.7
平均损失: 1.0877
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  88%|████████▊ | 88402/100000 [3:47:02<30:04,  6.43it/s]


Episode 88400
平均奖励: 27.77
平均长度: 30.4
平均损失: 1.1446
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▊ | 88502/100000 [3:47:17<28:20,  6.76it/s]


Episode 88500
平均奖励: 3.58
平均长度: 29.1
平均损失: 1.0258
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▊ | 88602/100000 [3:47:32<27:53,  6.81it/s]


Episode 88600
平均奖励: 36.65
平均长度: 29.6
平均损失: 1.1292
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▊ | 88702/100000 [3:47:47<28:31,  6.60it/s]


Episode 88700
平均奖励: 16.60
平均长度: 29.9
平均损失: 1.1694
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 88802/100000 [3:48:02<28:28,  6.55it/s]


Episode 88800
平均奖励: 43.53
平均长度: 30.2
平均损失: 1.1573
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 88902/100000 [3:48:17<26:49,  6.90it/s]


Episode 88900
平均奖励: 6.12
平均长度: 29.2
平均损失: 1.3072
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 89002/100000 [3:48:32<27:23,  6.69it/s]


Episode 89000
平均奖励: 35.60
平均长度: 29.2
平均损失: 1.3549
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 89102/100000 [3:48:47<27:00,  6.72it/s]


Episode 89100
平均奖励: 39.48
平均长度: 29.0
平均损失: 1.1652
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 89202/100000 [3:49:02<27:29,  6.55it/s]


Episode 89200
平均奖励: 50.80
平均长度: 30.5
平均损失: 1.0919
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 89302/100000 [3:49:17<26:07,  6.83it/s]


Episode 89300
平均奖励: 61.61
平均长度: 30.1
平均损失: 1.1405
平均消行: 0.47
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  89%|████████▉ | 89402/100000 [3:49:32<26:10,  6.75it/s]


Episode 89400
平均奖励: 48.30
平均长度: 29.1
平均损失: 1.3925
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|████████▉ | 89502/100000 [3:49:47<25:40,  6.81it/s]


Episode 89500
平均奖励: 21.73
平均长度: 29.2
平均损失: 1.2387
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|████████▉ | 89602/100000 [3:50:02<25:35,  6.77it/s]


Episode 89600
平均奖励: 24.84
平均长度: 30.1
平均损失: 1.2127
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|████████▉ | 89702/100000 [3:50:16<26:12,  6.55it/s]


Episode 89700
平均奖励: 87.06
平均长度: 30.1
平均损失: 1.1325
平均消行: 0.54
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|████████▉ | 89802/100000 [3:50:31<26:02,  6.53it/s]


Episode 89800
平均奖励: 53.86
平均长度: 29.3
平均损失: 1.1225
平均消行: 0.48
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|████████▉ | 89902/100000 [3:50:46<24:38,  6.83it/s]


Episode 89900
平均奖励: 14.47
平均长度: 29.5
平均损失: 1.2133
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|█████████ | 90002/100000 [3:51:02<51:20,  3.25it/s]  


Episode 90000
平均奖励: 9.08
平均长度: 28.5
平均损失: 1.0718
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|█████████ | 90102/100000 [3:51:17<24:34,  6.71it/s]


Episode 90100
平均奖励: 14.67
平均长度: 29.3
平均损失: 1.0163
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|█████████ | 90202/100000 [3:51:32<24:05,  6.78it/s]


Episode 90200
平均奖励: 4.60
平均长度: 28.3
平均损失: 0.9840
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|█████████ | 90302/100000 [3:51:47<24:21,  6.64it/s]


Episode 90300
平均奖励: -29.37
平均长度: 28.2
平均损失: 1.0931
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  90%|█████████ | 90402/100000 [3:52:02<23:41,  6.75it/s]


Episode 90400
平均奖励: -0.09
平均长度: 29.6
平均损失: 1.0951
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 90502/100000 [3:52:16<23:34,  6.72it/s]


Episode 90500
平均奖励: 22.45
平均长度: 29.3
平均损失: 1.0574
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 90602/100000 [3:52:31<24:06,  6.50it/s]


Episode 90600
平均奖励: 4.05
平均长度: 29.7
平均损失: 1.1892
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 90702/100000 [3:52:46<23:42,  6.54it/s]


Episode 90700
平均奖励: 12.71
平均长度: 28.9
平均损失: 1.1116
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 90802/100000 [3:53:01<23:00,  6.66it/s]


Episode 90800
平均奖励: 25.45
平均长度: 30.3
平均损失: 1.1015
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 90902/100000 [3:53:16<22:12,  6.83it/s]


Episode 90900
平均奖励: 24.85
平均长度: 30.2
平均损失: 1.0926
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 91002/100000 [3:53:31<22:10,  6.76it/s]


Episode 91000
平均奖励: 12.80
平均长度: 28.9
平均损失: 1.0387
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 91102/100000 [3:53:46<21:30,  6.89it/s]


Episode 91100
平均奖励: 39.23
平均长度: 29.6
平均损失: 1.1870
平均消行: 0.39
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████ | 91202/100000 [3:54:01<22:21,  6.56it/s]


Episode 91200
平均奖励: 68.68
平均长度: 30.1
平均损失: 1.3231
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████▏| 91302/100000 [3:54:16<21:13,  6.83it/s]


Episode 91300
平均奖励: 7.82
平均长度: 28.2
平均损失: 1.3346
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  91%|█████████▏| 91402/100000 [3:54:31<21:51,  6.56it/s]


Episode 91400
平均奖励: 63.24
平均长度: 29.5
平均损失: 1.3406
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 91502/100000 [3:54:46<21:18,  6.65it/s]


Episode 91500
平均奖励: 1.68
平均长度: 29.0
平均损失: 1.3540
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 91602/100000 [3:55:01<21:33,  6.49it/s]


Episode 91600
平均奖励: -4.17
平均长度: 28.2
平均损失: 1.2519
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 91702/100000 [3:55:16<20:57,  6.60it/s]


Episode 91700
平均奖励: -31.18
平均长度: 27.5
平均损失: 1.2608
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 91802/100000 [3:55:31<20:49,  6.56it/s]


Episode 91800
平均奖励: -74.24
平均长度: 27.3
平均损失: 1.1431
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 91902/100000 [3:55:46<19:59,  6.75it/s]


Episode 91900
平均奖励: 9.97
平均长度: 28.8
平均损失: 1.2039
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 92002/100000 [3:56:01<37:34,  3.55it/s]


Episode 92000
平均奖励: 33.82
平均长度: 29.3
平均损失: 1.2076
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 92102/100000 [3:56:16<20:13,  6.51it/s]


Episode 92100
平均奖励: 85.48
平均长度: 30.4
平均损失: 1.1673
平均消行: 0.53
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 92202/100000 [3:56:31<19:04,  6.82it/s]


Episode 92200
平均奖励: -10.28
平均长度: 29.3
平均损失: 1.2287
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 92302/100000 [3:56:46<18:37,  6.89it/s]


Episode 92300
平均奖励: 52.53
平均长度: 29.7
平均损失: 1.2201
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  92%|█████████▏| 92402/100000 [3:57:01<18:47,  6.74it/s]


Episode 92400
平均奖励: 62.57
平均长度: 30.1
平均损失: 1.2089
平均消行: 0.44
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 92502/100000 [3:57:16<18:00,  6.94it/s]


Episode 92500
平均奖励: 68.00
平均长度: 30.3
平均损失: 1.2607
平均消行: 0.47
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 92602/100000 [3:57:31<18:18,  6.74it/s]


Episode 92600
平均奖励: -13.38
平均长度: 28.9
平均损失: 1.1171
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 92702/100000 [3:57:46<18:09,  6.70it/s]


Episode 92700
平均奖励: -29.71
平均长度: 29.0
平均损失: 1.1166
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 92802/100000 [3:58:01<18:09,  6.61it/s]


Episode 92800
平均奖励: 13.03
平均长度: 29.2
平均损失: 1.0769
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 92902/100000 [3:58:16<18:06,  6.53it/s]


Episode 92900
平均奖励: -24.71
平均长度: 29.5
平均损失: 1.0967
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 93002/100000 [3:58:31<17:31,  6.66it/s]


Episode 93000
平均奖励: -18.47
平均长度: 28.8
平均损失: 1.1321
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 93102/100000 [3:58:46<17:10,  6.69it/s]


Episode 93100
平均奖励: 1.80
平均长度: 28.7
平均损失: 1.1236
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 93202/100000 [3:59:00<16:44,  6.76it/s]


Episode 93200
平均奖励: 48.12
平均长度: 30.2
平均损失: 1.1209
平均消行: 0.40
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 93302/100000 [3:59:15<17:08,  6.51it/s]


Episode 93300
平均奖励: 61.78
平均长度: 29.9
平均损失: 1.2038
平均消行: 0.47
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  93%|█████████▎| 93402/100000 [3:59:30<17:05,  6.44it/s]


Episode 93400
平均奖励: 51.13
平均长度: 29.6
平均损失: 1.3371
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▎| 93502/100000 [3:59:45<16:34,  6.53it/s]


Episode 93500
平均奖励: 13.57
平均长度: 28.8
平均损失: 1.3090
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▎| 93602/100000 [4:00:00<15:54,  6.71it/s]


Episode 93600
平均奖励: 11.82
平均长度: 29.6
平均损失: 1.2006
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▎| 93702/100000 [4:00:15<15:22,  6.83it/s]


Episode 93700
平均奖励: -35.44
平均长度: 28.6
平均损失: 1.2033
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 93802/100000 [4:00:30<15:25,  6.70it/s]


Episode 93800
平均奖励: -17.96
平均长度: 29.1
平均损失: 1.1706
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 93902/100000 [4:00:45<15:19,  6.63it/s]


Episode 93900
平均奖励: -35.04
平均长度: 29.0
平均损失: 1.1435
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 94002/100000 [4:01:01<30:31,  3.27it/s]


Episode 94000
平均奖励: -14.26
平均长度: 30.0
平均损失: 1.0876
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 94102/100000 [4:01:16<14:44,  6.67it/s]


Episode 94100
平均奖励: -8.51
平均长度: 28.7
平均损失: 1.0766
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 94202/100000 [4:01:31<14:43,  6.56it/s]


Episode 94200
平均奖励: -14.49
平均长度: 28.6
平均损失: 1.1740
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 94302/100000 [4:01:46<14:09,  6.71it/s]


Episode 94300
平均奖励: -29.94
平均长度: 29.0
平均损失: 1.1494
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  94%|█████████▍| 94402/100000 [4:02:00<13:49,  6.75it/s]


Episode 94400
平均奖励: 22.94
平均长度: 30.2
平均损失: 1.0521
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▍| 94502/100000 [4:02:15<14:22,  6.38it/s]


Episode 94500
平均奖励: 20.43
平均长度: 29.7
平均损失: 1.1848
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▍| 94602/100000 [4:02:30<13:21,  6.73it/s]


Episode 94600
平均奖励: 2.23
平均长度: 28.9
平均损失: 1.2864
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▍| 94702/100000 [4:02:45<13:15,  6.66it/s]


Episode 94700
平均奖励: 3.60
平均长度: 28.4
平均损失: 1.1499
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▍| 94802/100000 [4:03:00<13:13,  6.55it/s]


Episode 94800
平均奖励: -8.60
平均长度: 28.1
平均损失: 1.2423
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▍| 94902/100000 [4:03:15<12:53,  6.59it/s]


Episode 94900
平均奖励: 6.26
平均长度: 29.3
平均损失: 1.2011
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▌| 95002/100000 [4:03:30<12:27,  6.69it/s]


Episode 95000
平均奖励: 27.00
平均长度: 29.6
平均损失: 1.2818
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▌| 95102/100000 [4:03:45<12:48,  6.37it/s]


Episode 95100
平均奖励: 54.21
平均长度: 30.1
平均损失: 1.1393
平均消行: 0.45
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▌| 95202/100000 [4:04:00<11:43,  6.82it/s]


Episode 95200
平均奖励: 7.95
平均长度: 29.8
平均损失: 1.2320
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▌| 95302/100000 [4:04:15<11:40,  6.71it/s]


Episode 95300
平均奖励: -10.07
平均长度: 29.0
平均损失: 1.1923
平均消行: 0.29
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  95%|█████████▌| 95402/100000 [4:04:30<11:39,  6.57it/s]


Episode 95400
平均奖励: -11.57
平均长度: 28.4
平均损失: 1.2193
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 95502/100000 [4:04:45<11:13,  6.68it/s]


Episode 95500
平均奖励: 71.62
平均长度: 30.6
平均损失: 1.1191
平均消行: 0.49
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 95602/100000 [4:05:00<10:36,  6.91it/s]


Episode 95600
平均奖励: 21.54
平均长度: 29.7
平均损失: 1.2149
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 95702/100000 [4:05:14<10:54,  6.57it/s]


Episode 95700
平均奖励: -5.19
平均长度: 28.4
平均损失: 1.2502
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 95802/100000 [4:05:29<10:21,  6.76it/s]


Episode 95800
平均奖励: 1.70
平均长度: 29.1
平均损失: 1.1042
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 95902/100000 [4:05:44<10:09,  6.72it/s]


Episode 95900
平均奖励: 40.77
平均长度: 30.1
平均损失: 1.1604
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 96002/100000 [4:06:00<19:23,  3.44it/s]


Episode 96000
平均奖励: -13.57
平均长度: 28.6
平均损失: 1.1922
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 96102/100000 [4:06:14<09:40,  6.71it/s]


Episode 96100
平均奖励: 6.98
平均长度: 28.9
平均损失: 1.1319
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▌| 96202/100000 [4:06:30<09:32,  6.63it/s]


Episode 96200
平均奖励: 33.20
平均长度: 29.9
平均损失: 1.1553
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▋| 96302/100000 [4:06:44<09:06,  6.76it/s]


Episode 96300
平均奖励: -20.05
平均长度: 29.7
平均损失: 1.1549
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  96%|█████████▋| 96402/100000 [4:06:59<09:04,  6.61it/s]


Episode 96400
平均奖励: 28.86
平均长度: 29.7
平均损失: 1.0648
平均消行: 0.36
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 96502/100000 [4:07:14<08:37,  6.75it/s]


Episode 96500
平均奖励: 55.98
平均长度: 30.3
平均损失: 1.1262
平均消行: 0.43
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 96602/100000 [4:07:29<08:23,  6.75it/s]


Episode 96600
平均奖励: 24.14
平均长度: 29.6
平均损失: 1.1833
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 96702/100000 [4:07:44<08:24,  6.54it/s]


Episode 96700
平均奖励: 0.22
平均长度: 28.9
平均损失: 1.2112
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 96802/100000 [4:07:59<07:57,  6.69it/s]


Episode 96800
平均奖励: -10.20
平均长度: 28.8
平均损失: 1.0737
平均消行: 0.30
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 96902/100000 [4:08:14<07:53,  6.54it/s]


Episode 96900
平均奖励: 18.42
平均长度: 30.3
平均损失: 1.1416
平均消行: 0.33
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 97002/100000 [4:08:29<07:26,  6.71it/s]


Episode 97000
平均奖励: 23.81
平均长度: 30.2
平均损失: 1.1207
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 97102/100000 [4:08:44<07:07,  6.78it/s]


Episode 97100
平均奖励: 73.82
平均长度: 30.8
平均损失: 1.1359
平均消行: 0.48
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 97202/100000 [4:08:59<07:04,  6.59it/s]


Episode 97200
平均奖励: -19.72
平均长度: 28.3
平均损失: 1.1668
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 97302/100000 [4:09:14<06:45,  6.66it/s]


Episode 97300
平均奖励: -0.67
平均长度: 30.0
平均损失: 1.0807
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  97%|█████████▋| 97402/100000 [4:09:29<06:29,  6.67it/s]


Episode 97400
平均奖励: 19.01
平均长度: 29.8
平均损失: 1.0640
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 97502/100000 [4:09:44<06:18,  6.59it/s]


Episode 97500
平均奖励: -23.59
平均长度: 29.2
平均损失: 0.9221
平均消行: 0.22
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 97602/100000 [4:09:59<05:57,  6.71it/s]


Episode 97600
平均奖励: 10.92
平均长度: 29.2
平均损失: 1.0445
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 97702/100000 [4:10:14<05:34,  6.87it/s]


Episode 97700
平均奖励: -13.41
平均长度: 29.5
平均损失: 1.0409
平均消行: 0.26
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 97802/100000 [4:10:29<05:24,  6.78it/s]


Episode 97800
平均奖励: -29.26
平均长度: 28.8
平均损失: 1.0291
平均消行: 0.24
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 97902/100000 [4:10:44<05:15,  6.66it/s]


Episode 97900
平均奖励: -50.66
平均长度: 27.0
平均损失: 1.1234
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 98002/100000 [4:11:00<10:23,  3.20it/s]


Episode 98000
平均奖励: -12.01
平均长度: 29.4
平均损失: 1.0152
平均消行: 0.23
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 98102/100000 [4:11:15<04:40,  6.77it/s]


Episode 98100
平均奖励: -35.51
平均长度: 28.6
平均损失: 1.1344
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 98202/100000 [4:11:30<04:22,  6.86it/s]


Episode 98200
平均奖励: -61.68
平均长度: 27.5
平均损失: 1.1368
平均消行: 0.19
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 98302/100000 [4:11:45<04:15,  6.65it/s]


Episode 98300
平均奖励: 12.74
平均长度: 28.6
平均损失: 1.0709
平均消行: 0.35
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  98%|█████████▊| 98402/100000 [4:12:00<04:01,  6.61it/s]


Episode 98400
平均奖励: -24.67
平均长度: 29.9
平均损失: 1.0992
平均消行: 0.21
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▊| 98502/100000 [4:12:15<03:43,  6.70it/s]


Episode 98500
平均奖励: -68.14
平均长度: 28.4
平均损失: 1.1885
平均消行: 0.17
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▊| 98602/100000 [4:12:30<03:31,  6.60it/s]


Episode 98600
平均奖励: 1.34
平均长度: 29.4
平均损失: 1.1134
平均消行: 0.31
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▊| 98702/100000 [4:12:44<03:11,  6.76it/s]


Episode 98700
平均奖励: -67.12
平均长度: 27.6
平均损失: 1.0409
平均消行: 0.14
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 98802/100000 [4:12:59<03:01,  6.61it/s]


Episode 98800
平均奖励: 11.49
平均长度: 29.6
平均损失: 1.1838
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 98902/100000 [4:13:14<02:41,  6.81it/s]


Episode 98900
平均奖励: -24.29
平均长度: 28.7
平均损失: 1.1294
平均消行: 0.25
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 99002/100000 [4:13:29<02:31,  6.58it/s]


Episode 99000
平均奖励: 11.31
平均长度: 30.0
平均损失: 1.1111
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 99102/100000 [4:13:44<02:14,  6.69it/s]


Episode 99100
平均奖励: -0.72
平均长度: 29.1
平均损失: 1.1388
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 99202/100000 [4:13:59<02:00,  6.63it/s]


Episode 99200
平均奖励: 27.42
平均长度: 29.8
平均损失: 1.1552
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 99302/100000 [4:14:14<01:44,  6.65it/s]


Episode 99300
平均奖励: -12.01
平均长度: 28.9
平均损失: 1.2779
平均消行: 0.28
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training:  99%|█████████▉| 99402/100000 [4:14:29<01:29,  6.65it/s]


Episode 99400
平均奖励: -3.54
平均长度: 28.5
平均损失: 1.1976
平均消行: 0.34
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training: 100%|█████████▉| 99502/100000 [4:14:44<01:17,  6.39it/s]


Episode 99500
平均奖励: -12.38
平均长度: 29.1
平均损失: 1.1135
平均消行: 0.27
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training: 100%|█████████▉| 99602/100000 [4:14:59<01:00,  6.56it/s]


Episode 99600
平均奖励: 26.25
平均长度: 29.4
平均损失: 1.1659
平均消行: 0.38
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training: 100%|█████████▉| 99702/100000 [4:15:14<00:45,  6.49it/s]


Episode 99700
平均奖励: 18.89
平均长度: 29.6
平均损失: 1.1222
平均消行: 0.32
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training: 100%|█████████▉| 99802/100000 [4:15:29<00:29,  6.76it/s]


Episode 99800
平均奖励: 30.63
平均长度: 30.1
平均损失: 1.2419
平均消行: 0.37
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training: 100%|█████████▉| 99902/100000 [4:15:44<00:14,  6.66it/s]


Episode 99900
平均奖励: 36.04
平均长度: 29.8
平均损失: 1.2176
平均消行: 0.39
Epsilon: 0.050
学习率: 0.000500
缓冲区大小: 10000


Training: 100%|██████████| 100000/100000 [4:15:59<00:00,  6.51it/s]


训练完成！
