# CartPole 强化学习实验

## 1. 实验介绍

### 1.1 实验背景

小车和杆子套在一个光滑无摩擦的轨道上。
杆子只要有倾斜，小车就会滑动。
目标是，通过对小车施加力，保持杆子平衡
详见 OpenAI Gym  https://github.com/openai/gym
    
### 1.2 实验要求

补全代码

任务1：使用 Actor –Critic 算法，在环境中进行训练 (共70分)

任务2： 假设RL因果图如下 S 为 state， a 为action ， R为reward/value function,  R 的产生可能取决于state 和 action。 在1的强化学习方法中，设计一种算法，来估计出P(R|do(A)).      （共30分）

<div class='insertContainerBox column'>
<div class='insertItem' align=center><img src="https://imgbed.momodel.cn/因果图.jpg" width="200px"/></div>
</div>

方案 1：计算Advantage function，并用其进行训练，Advantage function 相当于反事实的action-value function。（15分）  
方案 2：计算$P(R|do(A))=\sum_{S}P(R|A,S)P(S)$     (30分)

### 1.3 代码编写说明

所需要编写的代码地方均有中文注释
任务1：补充网络模型 class AC1 以及训练过程相关代码即可。

任务2：补充网络模型 class AC2 以及修改训练过程相关代码即可。

任务2-1 主要考察 Advantage 函数的计算方式 
任务2-2 需要修改 policy_task2.py 模型结构，以及 Q 函数的计算过程
（任务2-2可行方法示例，设计$M$个相同的network，在每个time-step，对同一个state，同时产生M个表征， 对于每个表征，我们都可以计算 $Q(REPR_S, A)$ , 最终得到 $M$ 个 $Q$ ，将结果平均即可实现 $Q(S,do(A))$ 的计算）



### 1.4 注意事项

**提交作业时请注意**：

提交作业时请导入必要的包和第三方库 (包括此文件中曾经导入过的)。

对于任务1：

a. 请你补充 `main.ipynb`的代码, 设计策略模型 `class AC1`, 将`task_name` 参数设置为 `1`, 并进行训练，

b. 模型会保存在 `checkpoint/1/ac_params.pth` ，请勿修改模型和文件夹名称

对于任务2：

a. 请你完成生成  `main.ipynb`的代码, 设计策略模型 `class AC1`, 将`task_name` 参数设置为 `2-1` 或者`2-2`, 并进行训练.

b. 模型会保存在 `checkpoint/2-1/ac_params.pth` 或者 `checkpoint/2-2/ac_params.pth`，请自行创建文件夹，请勿修改模型和文件夹名称

**作业评分程序会自动加载模型并对测试结果进行评分。**
**请在训练之前将`main.ipynb`转为 python 文件 `main.py`， 否则评分程序无法进行打分。**

## 2.评分标准
任务1：评分程序会自动加载保存的模型，并测试 32 个 episode，
1. `coding_here.ipynb`可以运行, 并可以保存`checkpoint`, 得 10 分
2. 测试平均duration 大于20, 得60分。
3. 测试平均duration 大于8, 得30分。

任务2-1：评分程序会自动加载保存的模型，并测试 32 个 episode，
1. 测试平均duration 大于20, 且平均duration大于task1, 得15分。
2. 测试平均duration 大于15, 且平均duration大于task1, 得10分。
3. 测试平均duration 大于8, 得5分。

任务2-2：评分程序会自动加载保存的模型，并测试 32 个 episode，
1. 测试平均duration 大于20, 且平均duration大于task1, 得30分。
2. 测试平均duration 大于20,  得20分。
3. 测试平均duration 大于15,  得15分。
4. 测试平均duration 大于8, 得10分。

In [None]:
# Pytorch implementation of Actor Critic
import os
import argparse
import gym
import numpy as np
from itertools import count
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.distributions import Categorical
import pdb

parser = argparse.ArgumentParser(description='PyTorch Policy Graident Actor Critic example at openai-gym pong')
parser.add_argument('--gamma', type=float, default=0.99, metavar='G',
                    help='discount factor (default: 0.99')
parser.add_argument('--decay_rate', type=float, default=0.99, metavar='G',
                    help='decay rate for RMSprop (default: 0.99)')
parser.add_argument('--learning_rate', type=float, default=3e-4, metavar='G',
                    help='learning rate (default: 1e-4)')
parser.add_argument('--batch_size', type=int, default=32, metavar='G',
                    help='Every how many episodes to da a param update')
parser.add_argument('--seed', type=int, default=87, metavar='N',
                    help='random seed (default: 87)')

# 请根据所做任务修改此参数
parser.add_argument('--task_name', type=str, default='1', 
                    help='任务名为 1, 2-1, 2-2') 
args = parser.parse_args(args=[])

In [None]:
env = gym.make("CartPole-v1")
torch.manual_seed(args.seed)
task_name = args.task_name
ck_path = 'checkpoint/{}/ac_params.pth'.format(task_name)

**请在此设计 task1 和 task2 的网络结构，请勿修改类名**

In [None]:
# 请设计 task1 和 task2 的网络结构，请勿修改类名
class AC1(nn.Module):
    def __init__(self, num_actions=1):
        super(AC1, self).__init__()
        # 请自定义网络结构


    def forward(self, x):
        # 请自定义网络前馈传播计算，返回action, 和价值函数state_values，维度都为(batch_size, 1), action 取值在(0~1)之间

        return action, state_values
    
    
class AC2(nn.Module):
    def __init__(self, num_actions=1):
        super(AC2, self).__init__()
        # 请自定义网络结构


    def forward(self, x):
        # 请自定义网络前馈传播计算，返回action, 和价值函数state_values，维度都为(batch_size, 1), action 取值在(0~1)之间

        return action, state_values    

env = gym.make("CartPole-v1")
torch.manual_seed(args.seed)
task_name = args.task_name
ck_path = 'checkpoint/{}/ac_params.pth'.format(task_name)
# built policy network
if task_name=='1':
    policy = AC1()
else:
    policy = AC2()

policy_rewards = []
policy_saved_log_probs = []

# construct a optimal function
optimizer = optim.RMSprop(policy.parameters(), lr=args.learning_rate, weight_decay=args.decay_rate)

**此函数根据模型以及状态选择合适的action，请勿修改**

In [None]:
def select_action(model, x):
    x = Variable(torch.from_numpy(x).float().unsqueeze(0)) 
    m = Categorical(probs)
    action = m.sample() # action.shape = torch.Size([1])    
    policy_saved_log_probs[-1].append((m.log_prob(action), state_value))
    return action

**此函数负责 epiosde roll out 以及 loss 的计算，请在此补齐相应的 value function，以及 loss 的计算**

In [None]:
def finish_episode():
    R = 0
    policy_loss = []
    value_loss = []
    rewards = [] 
    for episode_id, episode_reward_list in enumerate(policy_rewards): 
        for i, r in enumerate(episode_reward_list):
            if i == len(episode_reward_list) - 1:
                R = torch.scalar_tensor(r)
            else:
                R = r + args.gamma * policy_saved_log_probs[episode_id][i + 1][1] 
            rewards.append(R) 
    if is_cuda: 
        rewards = rewards.cuda()
    flatten_log_probs = [sample for episode in policy_saved_log_probs for sample in episode]
    assert len(flatten_log_probs) == len(rewards)

   
    for (log_prob, value), reward in zip(flatten_log_probs, rewards):
        # 若实验为任务一，请补充value_func， 任务二步骤1，请补充advantage_func，任务二步骤2请补充do_value_func
        # 不需要的变量请删除， 例任务一 value_func = reward
        value_func=
        advantage_func=
        do_value_func=
        
        
    # 请在此计算 policy_loss, value_loss  
    
    
    
    optimizer.zero_grad()
    loss = policy_loss + value_loss
    if is_cuda:
        loss.cuda()
    loss.backward()
    optimizer.step()

    # clean rewards and saved_actions
    del policy_rewards[:]
    del policy_saved_log_probs[:]

**主函数**

In [None]:
# Main loop
if __name__ == '__main__':
    running_reward = None
    reward_sum = 0

    # for i_episode in count(1):
    for i_episode in range(32):
        state = env.reset()    
        state = np.array(state[0])
        prev_x = np.zeros(4) 
        policy_rewards.append([])  # record rewards separately for each episode
        policy_saved_log_probs.append([])

        for t in range(10000):
            cur_x = state
            x = cur_x - prev_x 
            prev_x = cur_x
            action = select_action(policy,x) 
            state, reward, done, _ = env.step(action.cpu().numpy()[0])
            state = np.array(state)
            reward_sum += reward
            policy_rewards[-1].append(reward) 

            if done:
                # tracking log
                running_reward = reward_sum if running_reward is None else running_reward * 0.99 + reward_sum * 0.01
                print('Actor Critic ep %03d done. reward: %f. reward running mean: %f' % (i_episode, reward_sum, running_reward))
                reward_sum = 0
                break


        # use policy gradient update model weights
        # Every how many episodes to do a param update: batch_size = 20
        if i_episode % args.batch_size == 0 : 
            finish_episode()

        # Save model in every 50 episode
        if i_episode % 50 == 0:
            print('ep %d: model saving...' % (i_episode))
            torch.save(policy,ck_path)

    # 如果需要进行测试，和可视化实验结果请在此添加代码


## 3. 请将以下代码补全后转化为 main.py文件提交

<font size=5><b>提交的代码中只需要包括`AC1`和`AC2`两个类及其所用到的 Python 库</b></font>

In [None]:
import os
import argparse
import gym
import numpy as np
from itertools import count
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.autograd import Variable
from torch.distributions import Categorical
import pdb

# 请设计 task1 和 task2 的网络结构，请勿修改类名
class AC1(nn.Module):
    def __init__(self, num_actions=1):
        super(AC1, self).__init__()
        # 请自定义网络结构


    def forward(self, x):
        # 请自定义网络前馈传播计算，返回action, 和价值函数state_values，维度都为(batch_size, 1), action 取值在(0~1)之间

        return action, state_values
    
    
class AC2(nn.Module):
    def __init__(self, num_actions=1):
        super(AC2, self).__init__()
        # 请自定义网络结构


    def forward(self, x):
        # 请自定义网络前馈传播计算，返回action, 和价值函数state_values，维度都为(batch_size, 1), action 取值在(0~1)之间

        return action, state_values  