# 用ppo算法通关超级玛丽

### 为什么是ppo？
ppo算法作为强化学习领域out of art的算法，如果你要学习强化学习的话 ppo会是你最常用的算法。openai早已把ppo 作为自己的默认算法，所以我希望你能认真学完ppo算法并为自己所用。
### 强化学习是什么？
简单来说 强化学习是一类通过不断与环境交互来学习如何达到设定目标的一类算法，比如走迷宫，传统的运筹学算法往往是通过遍历所有的点来完成路径规划，而强化学习则是实现一个anget,让这个
agent自己去随机探索路线，在探索的过程中学习如何走的更远并最终走到终点，这就是强化学习的思想。


### R0 ppo玩超级玛丽1-1关的视频
<img src="https://img.alicdn.com/tfs/TB1lGFGlIieb18jSZFvXXaI3FXa-254-236.gif" />

### R1   先来学习如何用代码实现随机动作play超级玛丽游戏（5 min）


本次学习需要的相关库如下。
- gym
- gym_super_mario_bros
- opencv-python
- spinup
- joblib

注意本次学习需要在`GPU`环境中，所以进入DSW后，点击右侧的环境切换按钮，运行模式选择`GPU`，如下图所示。<br/>
<img src="https://img.alicdn.com/tfs/TB1tPpGlIieb18jSZFvXXaI3FXa-1113-523.png" height=450px width=900px style="margin: 0 auto;"/>
<br/>如果有任何问题可以扫下方二维码添加钉钉学习交流群进行学习交流：<br/>
<img src="https://img.alicdn.com/tfs/TB14AajqlBh1e4jSZFhXXcC9VXa-584-628.jpg" height=200px width=200px style="margin: 0 auto;"/>

In [None]:
# 安装相关包
# 再次提醒：必须先切换环境为GPU
!pip install gym gym_super_mario_bros opencv-python spinup joblib --user

In [1]:
#导入实验需要的包
from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT

In [2]:
#使用gym_super_mario_bros包函数创建游戏环境env
env = gym_super_mario_bros.make('SuperMarioBros-v0')

In [3]:
#指定环境为简单模式（动作简化，去除一些左上、左下等复杂动作）
env = JoypadSpace(env, SIMPLE_MOVEMENT)

In [4]:
#使用gym的wrapper函数对游戏视频进行录像（由于notebook不支持display，我们录像后播放观看）

from gym import wrappers
env = wrappers.Monitor(env,"./gym-results", force=True)

In [5]:
#执行5000个简单的向右随机操作 
done = True #游戏结束标志
for step in range(5000):
    if done:
        #如果游戏结束则重置：
        state = env.reset() 
    state, reward, done, info = env.step(env.action_space.sample())

In [6]:
# 关闭创建的游戏env
env.close()

注：此处主要对如何在代码中运行游戏有个感知，每个env相关的函数参数意义详见R3.2章节环境讲解部分

### R1.1 通过网页播放出来刚才的运行实况

In [7]:
import io
import base64
from IPython.display import HTML

video = io.open('./gym-results/openaigym.video.%s.video000000.mp4' % env.file_infix, 'r+b').read()
encoded = base64.b64encode(video)
HTML(data='''
    <video width="360" height="auto" alt="test" controls><source src="data:video/mp4;base64,{0}" type="video/mp4" /></video>'''
.format(encoded.decode('ascii')))

### R1.2 随机动作play超级玛丽的完整代码

In [None]:
from nes_py.wrappers import JoypadSpace
import gym_super_mario_bros
from gym_super_mario_bros.actions import SIMPLE_MOVEMENT

#借助包gym_super_mario_bros创建
env = gym_super_mario_bros.make('SuperMarioBros-v0')
env = JoypadSpace(env, SIMPLE_MOVEMENT)
from gym import wrappers
env = wrappers.Monitor(env,"./gym-results", force=True)

done = True
for step in range(5000):
    if done:
        state = env.reset()
    state, reward, done, info = env.step(env.action_space.sample())
#     env.render()

env.close()


In [None]:
#通过网页播放出来刚才的运行实况
import io
import base64
from IPython.display import HTML

video = io.open('./gym-results/openaigym.video.%s.video000000.mp4' % env.file_infix, 'r+b').read()
encoded = base64.b64encode(video)
HTML(data='''
    <video width="360" height="auto" alt="test" controls><source src="data:video/mp4;base64,{0}" type="video/mp4" /></video>'''
.format(encoded.decode('ascii')))

#### 番外篇，用键盘玩超级玛丽：
gym_super_mario_bros -e <the environment ID to play> -m <`human` or `random`>

## R2 完整代码通关play超级玛丽(10 min)

In [None]:
#下载我提前训练好的权重和代码
!git clone https://github.com/gaoxiaos/Supermariobros-PPO-pytorch.git
!cd auper_ppo

In [None]:
#运行play测试程序
!python test.py

In [None]:
#查看运行录像
video = io.open('./gym-results/openaigym.video.%s.video000000.mp4' % env.file_infix, 'r+b').read()
encoded = base64.b64encode(video)
HTML(data='''
    <video width="360" height="auto" alt="test" controls><source src="data:video/mp4;base64,{0}" type="video/mp4" /></video>'''
.format(encoded.decode('ascii')))

#### 本地运行方法：本地可以使用docker一键运行，docker的好处是已经包含了环境，可直接运行。
link：supermrio.readthedoc.com