In [1]:
import random
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
from collections import deque
import sys
import cv2
import os

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers, Sequential, optimizers, losses, datasets, metrics, callbacks, models

plt.rcParams['font.family'] = ['SimSun']
plt.rcParams['axes.unicode_minus'] = False

sys.path.append(os.path.join('game'))

# print('Headless Mode')
# os.environ["SDL_VIDEODRIVER"] = "dummy"

from IPython.display import clear_output

print(tf.__version__)

2.4.1


# 定义参数

In [2]:
ACTIONS = 2 # number of valid actions

# 模型存放文件夹路径
MODEL_FOLDER = os.path.join("FlappyBird_Model")
MODEL_DIR = os.path.join(MODEL_FOLDER, "FlappyBird_Model.h5")
MODEL_DIR

'FlappyBird_Model\\FlappyBird_Model.h5'

# 将游戏返回的图片转为80*80的灰阶图片
调整大小 => 灰度化 => 二值化 => 4帧叠加

In [3]:
# preprocess raw image to 80*80 gray image
def preprocess(observation):
    observation = cv2.cvtColor(cv2.resize(observation, (80, 80)), cv2.COLOR_BGR2GRAY)
    ret, observation = cv2.threshold(observation, 1, 255, cv2.THRESH_BINARY)
    return np.reshape(observation,(80,80,1))

# 加载模型

In [4]:
def load_model():
    print('加载模型')
    return models.load_model(MODEL_DIR)

# 获得下一个Action

In [5]:
def getAction(model, state, timeStep):
    state_ = tf.expand_dims(state, axis=0)  # 扩展维度 (80,80,4) => (1,80,80,4)
    QValue = model(state_)[0]
    print("步数", timeStep, 'Q值', QValue.numpy(), end='')

    action = np.zeros(ACTIONS)  # 生成[0, 0]初始action
    action_index = 0

    # 按照Q表采取Action
    action_index = np.argmax(QValue)
    action[action_index] = 1

    return action, action_index

# 打印日志

In [6]:
def print_info(timeStep, action_index, reward, terminal, score, highest_record):
    action_text = ''
    if action_index == 0:
        action_text = '不跳'
    else:
        action_text = '跳'
    if terminal:
        print("===> 步数", timeStep, "/ 本次行为", action_index, action_text, "/ 本次奖励", reward, "/ Game Over", "/ 累计分数", score, '/ 最高得分', highest_record)
#         sys.__stdout__.write("===> 步数"+str(timeStep)+"/ 本次行为"+str(action_index)+"/ 本次奖励"+str(reward)+"/ Game Over"+"/ 累计分数"+str(score)+ '/ 最高得分'+str(highest_record))
    else:
        print("===> 步数", timeStep, "/ 本次行为", action_index, action_text, "/ 本次奖励", reward, "/ Running  ", "/ 当前分数", score, '/ 最高得分', highest_record)
#         sys.__stdout__.write("===> 步数"+str(timeStep)+"/ 本次行为"+str(action_index)+"/ 本次奖励"+str(reward)+"/ Running  "+"/ 当前分数"+str(score)+ '/ 最高得分'+str(highest_record))

# 主流程

In [None]:
import wrapped_flappy_bird as game

flappyBird = game.GameState()

timeStep = 0 
total_reward = 0
highest_record = 0

# 载入模型
model = load_model()

# 第一次与智能体交互
action = np.array([1, 0])# do nothing
observation0, reward, terminal = flappyBird.frame_step(action)

# 展示第一张图片
plt.imshow(np.rot90(np.rot90(np.rot90(observation0))))
plt.gca().invert_xaxis()
plt.title('The First Picture')
plt.show()

# 处理第一张图片
observation0 = cv2.cvtColor(cv2.resize(observation0, (80, 80)), cv2.COLOR_BGR2GRAY)
ret, observation0 = cv2.threshold(observation0, 1, 255, cv2.THRESH_BINARY)

# 展示第一张图片
plt.imshow(np.rot90(np.rot90(np.rot90(observation0))))
plt.gca().invert_xaxis()
plt.title('The First Picture')
plt.show()

# 第一次的4张图片都是一样的
currentObservation = np.stack((observation0, observation0, observation0, observation0), axis = 2)

while True:
    # 根据上一次的Observation，获得下一次的Action
    action, action_index = getAction(model, currentObservation, timeStep)
    
    # 将Action传入游戏，获得游戏的反馈(状态，奖励，是否GameOver，生效的行为)
    nextObservation, reward, terminal = flappyBird.frame_step(action)

    # 处理图片
    nextObservation = preprocess(nextObservation)
    
    # 将最近的图片后面追加老的前3张图片，从而得到一个新状态
    newObservation = np.append(nextObservation, currentObservation[:,:,:3], axis = 2)
        
    # 计算得分
    if terminal:
        total_reward = 0# Game Over 得分清零
    elif reward == 1:
        total_reward += reward
        
    if highest_record < total_reward:
        highest_record = total_reward

    # 更替状态
    currentObservation = newObservation
    
    # 打印日志
    if timeStep % 1 == 0:
        print_info(timeStep, action_index, reward, terminal, total_reward, highest_record)
        
    # 每第1000次，打印一次图片
    if timeStep % 1000 == 0:
        plt.imshow(np.rot90(np.rot90(np.rot90(currentObservation[:,:,0]))))
        plt.gca().invert_xaxis()
        plt.title('1')
        plt.show()
        
        plt.imshow(np.rot90(np.rot90(np.rot90(currentObservation[:,:,1]))))
        plt.gca().invert_xaxis()
        plt.title('2')
        plt.show()
        
        plt.imshow(np.rot90(np.rot90(np.rot90(currentObservation[:,:,2]))))
        plt.gca().invert_xaxis()
        plt.title('3')
        plt.show()
        
        plt.imshow(np.rot90(np.rot90(np.rot90(currentObservation[:,:,3]))))
        plt.gca().invert_xaxis()
        plt.title('4')
        plt.show()
        
    if timeStep % 10000 == 0:
        clear_output()
        
    timeStep += 1


步数 1 Q值 [11.743    11.431611]===> 步数 1 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 2 Q值 [11.8420925 11.418408 ]===> 步数 2 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 3 Q值 [11.858492 11.352064]===> 步数 3 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 4 Q值 [11.860943  11.4511385]===> 步数 4 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 5 Q值 [11.943495 11.736685]===> 步数 5 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 6 Q值 [11.827222 11.634232]===> 步数 6 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 7 Q值 [11.871923 11.731438]===> 步数 7 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 8 Q值 [11.833257 11.777283]===> 步数 8 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 9 Q值 [11.841604 11.845508]===> 步数 9 / 本次行为 1 跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 10 Q值 [11.953192 11.549301]===> 步数 10 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 0 / 最高得分 0
步数 11 Q值 [12.042881 11.68791 ]===> 步数 11 / 本次行为 0 不跳 / 本次奖励 0.1 / Running  

步数 88 Q值 [12.461615   5.5542235]===> 步数 88 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 89 Q值 [12.500523   4.9692492]===> 步数 89 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 90 Q值 [12.516815  6.067864]===> 步数 90 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 91 Q值 [12.450468   6.8110075]===> 步数 91 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 92 Q值 [12.451933  9.145092]===> 步数 92 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 93 Q值 [12.45021   10.6614685]===> 步数 93 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 94 Q值 [12.583626 11.784163]===> 步数 94 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 1 / 最高得分 1
步数 95 Q值 [12.675054 12.258346]===> 步数 95 / 本次行为 0 不跳 / 本次奖励 1 / Running   / 当前分数 2 / 最高得分 2
步数 96 Q值 [11.612935 11.666348]===> 步数 96 / 本次行为 1 跳 / 本次奖励 0.1 / Running   / 当前分数 2 / 最高得分 2
步数 97 Q值 [11.7389965 10.536154 ]===> 步数 97 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 2 / 最高得分 2
步数 98 Q值 [11.793881  7.91386 ]===> 步数 98 / 本次行为 0 不跳 

步数 176 Q值 [11.828224  9.465654]===> 步数 176 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 177 Q值 [11.778529  9.689523]===> 步数 177 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 178 Q值 [11.783133  9.539553]===> 步数 178 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 179 Q值 [11.803972  9.894728]===> 步数 179 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 180 Q值 [11.795417  9.921122]===> 步数 180 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 181 Q值 [11.781754  9.573443]===> 步数 181 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 182 Q值 [11.891314  8.897047]===> 步数 182 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 183 Q值 [11.943904  9.248418]===> 步数 183 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 184 Q值 [11.9670925 10.077223 ]===> 步数 184 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 185 Q值 [12.042376 10.73742 ]===> 步数 185 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 4 / 最高得分 4
步数 186 Q值 [12.085363  10.6526375]===> 

步数 263 Q值 [12.110206  9.895014]===> 步数 263 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 264 Q值 [12.037134 10.585796]===> 步数 264 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 265 Q值 [12.149983 11.093228]===> 步数 265 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 266 Q值 [11.865769 12.228561]===> 步数 266 / 本次行为 1 跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 267 Q值 [12.287581 12.123024]===> 步数 267 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 268 Q值 [12.378856 11.354773]===> 步数 268 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 269 Q值 [12.282652 10.785613]===> 步数 269 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 270 Q值 [12.28368  10.009012]===> 步数 270 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 271 Q值 [12.385564  9.130157]===> 步数 271 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 272 Q值 [12.412031  8.075165]===> 步数 272 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 6 / 最高得分 6
步数 273 Q值 [12.425155  6.306221]===> 步数 27

步数 352 Q值 [12.6027355  5.349086 ]===> 步数 352 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 8 / 最高得分 8
步数 353 Q值 [12.589332   6.9689565]===> 步数 353 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 8 / 最高得分 8
步数 354 Q值 [12.624235 10.641727]===> 步数 354 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 8 / 最高得分 8
步数 355 Q值 [12.65526  10.889722]===> 步数 355 / 本次行为 0 不跳 / 本次奖励 1 / Running   / 当前分数 9 / 最高得分 9
步数 356 Q值 [11.843821 10.776161]===> 步数 356 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 9 / 最高得分 9
步数 357 Q值 [11.699276 11.713129]===> 步数 357 / 本次行为 1 跳 / 本次奖励 0.1 / Running   / 当前分数 9 / 最高得分 9
步数 358 Q值 [11.801999  10.9433365]===> 步数 358 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 9 / 最高得分 9
步数 359 Q值 [11.778294 10.793995]===> 步数 359 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 9 / 最高得分 9
步数 360 Q值 [11.910201 10.481604]===> 步数 360 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 9 / 最高得分 9
步数 361 Q值 [12.060651 10.086689]===> 步数 361 / 本次行为 0 不跳 / 本次奖励 0.1 / Running   / 当前分数 9 / 最高得分 9
步数 362 Q值 [12.052671  8.967289]===> 步