In [None]:
from dqn_agent import DQNAgent
from tetris import Tetris
from datetime import datetime
from statistics import mean, median
import random
from logs import CustomTensorBoard
from tqdm import tqdm
from keras.models import save_model
        

# Run dqn with Tetris
def dqn():
    env = Tetris()
    episodes = 4000
    max_steps = None
    epsilon_stop_episode = 2000
    mem_size = 20000
    discount = 0.95
    batch_size = 512
    epochs = 1
    render_every = 50
    log_every = 50
    replay_start_size = 2000
    train_every = 1
    save_every = 10
    n_neurons = [32, 32]
    render_delay = None
    activations = ['relu', 'relu', 'linear']

    agent = DQNAgent(env.get_state_size(),
                     n_neurons=n_neurons, activations=activations,
                     epsilon_stop_episode=epsilon_stop_episode, mem_size=mem_size,
                     discount=discount, replay_start_size=replay_start_size)

    log_dir = f'logs/tetris-nn={str(n_neurons)}-mem={mem_size}-bs={batch_size}-e={epochs}-{datetime.now().strftime("%Y%m%d-%H%M%S")}'
    log = CustomTensorBoard(log_dir=log_dir)

    scores = []

    for episode in tqdm(range(episodes)):
        current_state = env.reset()
        done = False
        steps = 0

        if render_every and episode % render_every == 0:
            render = True
        else:
            render = False

        # Game
        while not done and (not max_steps or steps < max_steps):
            next_states = env.get_next_states()
            best_state = agent.best_state(next_states.values())
            
            best_action = None
            for action, state in next_states.items():
                if state == best_state:
                    best_action = action
                    break

            reward, done = env.play(best_action[0], best_action[1], render=render,
                                    render_delay=render_delay)
            
            agent.add_to_memory(current_state, next_states[best_action], reward, done)
            current_state = next_states[best_action]
            steps += 1

        scores.append(env.get_game_score())

        # Train
        if episode % train_every == 0:
            agent.train(batch_size=batch_size, epochs=epochs)
            
            # 保存模型
            if episode % save_every == 0:
                save_model(agent.model, 'tetris_model.h5')
                
        # Logs
        if log_every and episode and episode % log_every == 0:
            avg_score = mean(scores[-log_every:])
            min_score = min(scores[-log_every:])
            max_score = max(scores[-log_every:])

            log.log(episode, avg_score=avg_score, min_score=min_score,
                    max_score=max_score)


if __name__ == "__main__":
    dqn()




  0%|                                                                                         | 0/4000 [00:00<?, ?it/s]

  0%|                                                                               | 1/4000 [00:03<3:56:47,  3.55s/it]

  0%|                                                                               | 4/4000 [00:03<2:46:27,  2.50s/it]

  0%|▏                                                                              | 7/4000 [00:03<1:57:20,  1.76s/it]

  0%|▏                                                                             | 10/4000 [00:03<1:23:03,  1.25s/it]

  0%|▏                                                                               | 12/4000 [00:04<59:22,  1.12it/s]

  0%|▎                                                                               | 15/4000 [00:04<42:26,  1.57it/s]

  0%|▎                                                                               | 18/4000 [00:04<30:41,  2.16it/s]

  1%|▍                        

  4%|███▏                                                                           | 160/4000 [00:21<12:39,  5.06it/s]

  4%|███▏                                                                           | 162/4000 [00:21<11:04,  5.78it/s]

  4%|███▎                                                                           | 165/4000 [00:21<08:41,  7.36it/s]

  4%|███▎                                                                           | 167/4000 [00:21<07:05,  9.01it/s]

  4%|███▎                                                                           | 169/4000 [00:21<06:05, 10.49it/s]

  4%|███▍                                                                           | 171/4000 [00:21<06:18, 10.11it/s]

  4%|███▍                                                                           | 173/4000 [00:22<05:28, 11.66it/s]

  4%|███▍                                                                           | 175/4000 [00:22<04:58, 12.81it/s]

  4%|███▍                       

  7%|█████▊                                                                         | 295/4000 [00:35<04:18, 14.32it/s]

  7%|█████▊                                                                         | 297/4000 [00:35<04:13, 14.61it/s]

  7%|█████▉                                                                         | 299/4000 [00:35<04:04, 15.11it/s]

  8%|█████▉                                                                         | 301/4000 [00:39<39:11,  1.57it/s]

  8%|█████▉                                                                         | 303/4000 [00:39<28:39,  2.15it/s]

  8%|██████                                                                         | 305/4000 [00:40<21:23,  2.88it/s]

  8%|██████                                                                         | 307/4000 [00:40<15:59,  3.85it/s]

  8%|██████                                                                         | 309/4000 [00:40<12:35,  4.88it/s]

  8%|██████▏                    

 11%|████████▍                                                                      | 429/4000 [00:56<05:08, 11.59it/s]

 11%|████████▌                                                                      | 431/4000 [00:56<05:00, 11.89it/s]

 11%|████████▌                                                                      | 433/4000 [00:57<05:26, 10.91it/s]

 11%|████████▌                                                                      | 435/4000 [00:57<04:49, 12.33it/s]

 11%|████████▋                                                                      | 437/4000 [00:57<04:33, 13.04it/s]

 11%|████████▋                                                                      | 439/4000 [00:57<04:49, 12.31it/s]

 11%|████████▋                                                                      | 441/4000 [00:57<05:31, 10.73it/s]

 11%|████████▋                                                                      | 443/4000 [00:57<05:28, 10.82it/s]

 11%|████████▊                  

 14%|██████████▉                                                                    | 555/4000 [01:18<13:18,  4.31it/s]

 14%|███████████                                                                    | 557/4000 [01:18<11:11,  5.13it/s]

 14%|███████████                                                                    | 559/4000 [01:19<09:16,  6.19it/s]

 14%|███████████                                                                    | 561/4000 [01:19<08:41,  6.59it/s]

 14%|███████████                                                                    | 563/4000 [01:19<07:45,  7.38it/s]

 14%|███████████▏                                                                   | 565/4000 [01:19<06:49,  8.40it/s]

 14%|███████████▏                                                                   | 567/4000 [01:19<06:12,  9.21it/s]

 14%|███████████▏                                                                   | 569/4000 [01:20<05:51,  9.77it/s]

 14%|███████████▎               

 17%|█████████████                                                                  | 663/4000 [01:37<10:38,  5.23it/s]

 17%|█████████████▏                                                                 | 665/4000 [01:37<08:45,  6.35it/s]

 17%|█████████████▏                                                                 | 666/4000 [01:38<07:56,  6.99it/s]

 17%|█████████████▏                                                                 | 668/4000 [01:38<07:18,  7.60it/s]

 17%|█████████████▏                                                                 | 670/4000 [01:38<06:30,  8.53it/s]

 17%|█████████████▎                                                                 | 672/4000 [01:38<08:03,  6.89it/s]

 17%|█████████████▎                                                                 | 673/4000 [01:38<07:36,  7.29it/s]

 17%|█████████████▎                                                                 | 675/4000 [01:39<06:59,  7.92it/s]

 17%|█████████████▎             

 19%|██████████████▉                                                                | 759/4000 [01:55<10:53,  4.96it/s]

 19%|███████████████                                                                | 760/4000 [01:55<10:24,  5.19it/s]

 19%|███████████████                                                                | 761/4000 [01:55<09:35,  5.63it/s]

 19%|███████████████                                                                | 762/4000 [01:55<08:58,  6.02it/s]

 19%|███████████████                                                                | 764/4000 [01:55<07:46,  6.93it/s]

 19%|███████████████                                                                | 765/4000 [01:55<07:12,  7.48it/s]

 19%|███████████████▏                                                               | 766/4000 [01:56<07:32,  7.14it/s]

 19%|███████████████▏                                                               | 767/4000 [01:56<07:17,  7.39it/s]

 19%|███████████████▏           

 21%|████████████████▌                                                              | 841/4000 [02:09<08:10,  6.44it/s]

 21%|████████████████▋                                                              | 842/4000 [02:09<08:09,  6.45it/s]

 21%|████████████████▋                                                              | 843/4000 [02:09<08:01,  6.55it/s]

 21%|████████████████▋                                                              | 844/4000 [02:09<07:45,  6.78it/s]

 21%|████████████████▋                                                              | 845/4000 [02:10<08:44,  6.01it/s]

 21%|████████████████▋                                                              | 846/4000 [02:10<08:29,  6.20it/s]

 21%|████████████████▋                                                              | 847/4000 [02:10<07:57,  6.61it/s]

 21%|████████████████▋                                                              | 848/4000 [02:10<08:00,  6.56it/s]

 21%|████████████████▊          

 23%|██████████████████                                                             | 914/4000 [02:25<09:30,  5.41it/s]

 23%|██████████████████                                                             | 915/4000 [02:26<09:08,  5.62it/s]

 23%|██████████████████                                                             | 916/4000 [02:26<08:08,  6.31it/s]

 23%|██████████████████                                                             | 917/4000 [02:26<08:37,  5.96it/s]

 23%|██████████████████▏                                                            | 918/4000 [02:26<08:38,  5.95it/s]

 23%|██████████████████▏                                                            | 919/4000 [02:26<08:28,  6.06it/s]

 23%|██████████████████▏                                                            | 920/4000 [02:26<08:23,  6.12it/s]

 23%|██████████████████▏                                                            | 921/4000 [02:27<09:20,  5.50it/s]

 23%|██████████████████▏        

 25%|███████████████████▌                                                           | 988/4000 [02:40<07:35,  6.62it/s]

 25%|███████████████████▌                                                           | 989/4000 [02:40<07:14,  6.93it/s]

 25%|███████████████████▌                                                           | 990/4000 [02:41<08:34,  5.85it/s]

 25%|███████████████████▌                                                           | 991/4000 [02:41<09:03,  5.54it/s]

 25%|███████████████████▌                                                           | 993/4000 [02:41<07:56,  6.31it/s]

 25%|███████████████████▋                                                           | 994/4000 [02:41<08:35,  5.83it/s]

 25%|███████████████████▋                                                           | 995/4000 [02:41<08:07,  6.17it/s]

 25%|███████████████████▋                                                           | 996/4000 [02:42<08:21,  5.99it/s]

 25%|███████████████████▋       

 26%|████████████████████▋                                                         | 1059/4000 [03:01<12:03,  4.06it/s]

 26%|████████████████████▋                                                         | 1060/4000 [03:01<10:28,  4.68it/s]

 27%|████████████████████▋                                                         | 1061/4000 [03:01<10:15,  4.77it/s]

 27%|████████████████████▋                                                         | 1062/4000 [03:01<09:33,  5.12it/s]

 27%|████████████████████▋                                                         | 1063/4000 [03:01<08:56,  5.47it/s]

 27%|████████████████████▋                                                         | 1064/4000 [03:02<08:28,  5.77it/s]

 27%|████████████████████▊                                                         | 1065/4000 [03:02<08:44,  5.59it/s]

 27%|████████████████████▊                                                         | 1066/4000 [03:02<08:33,  5.71it/s]

 27%|████████████████████▊      

 28%|█████████████████████▉                                                        | 1128/4000 [03:17<08:08,  5.87it/s]

 28%|██████████████████████                                                        | 1129/4000 [03:17<08:12,  5.83it/s]

 28%|██████████████████████                                                        | 1130/4000 [03:17<08:20,  5.73it/s]

 28%|██████████████████████                                                        | 1131/4000 [03:18<09:22,  5.10it/s]

 28%|██████████████████████                                                        | 1132/4000 [03:18<09:21,  5.11it/s]

 28%|██████████████████████                                                        | 1133/4000 [03:18<09:13,  5.18it/s]

 28%|██████████████████████                                                        | 1134/4000 [03:18<10:04,  4.74it/s]

 28%|██████████████████████▏                                                       | 1135/4000 [03:18<10:05,  4.73it/s]

 28%|██████████████████████▏    

 30%|███████████████████████▎                                                      | 1195/4000 [03:35<09:08,  5.11it/s]

 30%|███████████████████████▎                                                      | 1196/4000 [03:35<08:09,  5.72it/s]

 30%|███████████████████████▎                                                      | 1197/4000 [03:35<08:25,  5.54it/s]

 30%|███████████████████████▎                                                      | 1198/4000 [03:35<08:23,  5.56it/s]

 30%|███████████████████████▍                                                      | 1199/4000 [03:35<08:40,  5.38it/s]

 30%|███████████████████████▍                                                      | 1200/4000 [03:36<09:49,  4.75it/s]

 30%|███████████████████████▍                                                      | 1201/4000 [03:39<47:27,  1.02s/it]

 30%|███████████████████████▍                                                      | 1202/4000 [03:39<35:55,  1.30it/s]

 30%|███████████████████████▍   

 32%|████████████████████████▋                                                     | 1263/4000 [03:55<09:47,  4.66it/s]

 32%|████████████████████████▋                                                     | 1264/4000 [03:55<10:11,  4.47it/s]

 32%|████████████████████████▋                                                     | 1265/4000 [03:56<10:51,  4.19it/s]

 32%|████████████████████████▋                                                     | 1266/4000 [03:56<09:59,  4.56it/s]

 32%|████████████████████████▋                                                     | 1267/4000 [03:56<09:32,  4.77it/s]

 32%|████████████████████████▋                                                     | 1268/4000 [03:56<09:34,  4.75it/s]

 32%|████████████████████████▋                                                     | 1269/4000 [03:56<10:12,  4.46it/s]

 32%|████████████████████████▊                                                     | 1270/4000 [03:57<10:22,  4.39it/s]

 32%|████████████████████████▊  

 33%|█████████████████████████▉                                                    | 1331/4000 [04:17<10:51,  4.09it/s]

 33%|█████████████████████████▉                                                    | 1332/4000 [04:17<11:21,  3.92it/s]

 33%|█████████████████████████▉                                                    | 1333/4000 [04:18<10:42,  4.15it/s]

 33%|██████████████████████████                                                    | 1334/4000 [04:18<09:49,  4.52it/s]

 33%|██████████████████████████                                                    | 1335/4000 [04:18<10:49,  4.10it/s]

 33%|██████████████████████████                                                    | 1336/4000 [04:18<10:27,  4.24it/s]

 33%|██████████████████████████                                                    | 1337/4000 [04:19<10:56,  4.06it/s]

 33%|██████████████████████████                                                    | 1338/4000 [04:19<11:13,  3.96it/s]

 33%|██████████████████████████ 

 35%|███████████████████████████▎                                                  | 1398/4000 [04:39<14:16,  3.04it/s]

 35%|███████████████████████████▎                                                  | 1399/4000 [04:40<12:58,  3.34it/s]

 35%|███████████████████████████▎                                                  | 1400/4000 [04:40<13:30,  3.21it/s]

 35%|██████████████████████████▌                                                 | 1401/4000 [04:45<1:14:33,  1.72s/it]

 35%|███████████████████████████▎                                                  | 1402/4000 [04:45<55:20,  1.28s/it]

 35%|███████████████████████████▎                                                  | 1403/4000 [04:45<42:12,  1.03it/s]

 35%|███████████████████████████▍                                                  | 1404/4000 [04:46<33:16,  1.30it/s]

 35%|███████████████████████████▍                                                  | 1405/4000 [04:46<27:15,  1.59it/s]

 35%|███████████████████████████

 37%|████████████████████████████▌                                                 | 1465/4000 [05:10<12:56,  3.27it/s]

 37%|████████████████████████████▌                                                 | 1466/4000 [05:11<15:17,  2.76it/s]

 37%|████████████████████████████▌                                                 | 1467/4000 [05:11<13:11,  3.20it/s]

 37%|████████████████████████████▋                                                 | 1468/4000 [05:11<12:15,  3.44it/s]

 37%|████████████████████████████▋                                                 | 1469/4000 [05:12<12:54,  3.27it/s]

 37%|████████████████████████████▋                                                 | 1470/4000 [05:12<13:53,  3.04it/s]

 37%|████████████████████████████▋                                                 | 1471/4000 [05:12<16:00,  2.63it/s]

 37%|████████████████████████████▋                                                 | 1472/4000 [05:13<14:28,  2.91it/s]

 37%|███████████████████████████

 38%|█████████████████████████████▊                                                | 1532/4000 [05:36<16:22,  2.51it/s]

 38%|█████████████████████████████▉                                                | 1533/4000 [05:36<15:16,  2.69it/s]

 38%|█████████████████████████████▉                                                | 1534/4000 [05:37<15:10,  2.71it/s]

 38%|█████████████████████████████▉                                                | 1535/4000 [05:37<13:44,  2.99it/s]

 38%|█████████████████████████████▉                                                | 1536/4000 [05:37<14:22,  2.86it/s]

 38%|█████████████████████████████▉                                                | 1537/4000 [05:38<13:46,  2.98it/s]

 38%|█████████████████████████████▉                                                | 1538/4000 [05:38<15:19,  2.68it/s]

 38%|██████████████████████████████                                                | 1539/4000 [05:38<15:32,  2.64it/s]

 38%|███████████████████████████

 40%|███████████████████████████████▏                                              | 1599/4000 [06:04<10:41,  3.74it/s]

 40%|███████████████████████████████▏                                              | 1600/4000 [06:04<11:00,  3.63it/s]

 40%|██████████████████████████████▍                                             | 1601/4000 [06:10<1:15:15,  1.88s/it]

 40%|███████████████████████████████▏                                              | 1602/4000 [06:10<56:19,  1.41s/it]

 40%|███████████████████████████████▎                                              | 1603/4000 [06:10<43:05,  1.08s/it]

 40%|███████████████████████████████▎                                              | 1604/4000 [06:10<34:09,  1.17it/s]

 40%|███████████████████████████████▎                                              | 1605/4000 [06:11<27:57,  1.43it/s]

 40%|███████████████████████████████▎                                              | 1606/4000 [06:11<22:28,  1.78it/s]

 40%|███████████████████████████