# 代码实现ppo

先把本教程中的mask忽略，加入了一些mask写的有点乱

trl代码中的对于ppo的实现
https://github.com/huggingface/trl/blob/main/trl/trainer/ppo_trainer.py

https://mp.weixin.qq.com/s/S72LO26IsZ8AED8sQKIWnQ

讲了PPO  loss max https://zhuanlan.zhihu.com/p/28223597805

https://zhuanlan.zhihu.com/p/677607581

下面为你解释这些参数的含义：

### 模型架构相关参数
1. **`vocab_size = 10`**
词汇表的大小代表了模型能够识别的不同词汇的数量。举例来说，若你正在处理的是一个简单的数字文本任务，其中仅有 0 - 9 这 10 个数字，那么 `vocab_size` 就会被设定为 10。

2. **`hidden_size = 128`**
隐藏层的维度大小表明了模型中每个隐藏层神经元的数量。在神经网络里，隐藏层会对输入数据进行特征提取与转换。`hidden_size` 越大，模型所能学习到的特征就越复杂，不过这也会使计算量和内存需求增加。

3. **`intermediate_size = 256`**
在 Transformer 架构里，`intermediate_size` 指的是前馈神经网络（FFN）中间层的维度。FFN 一般由两个线性层构成，中间层的维度通常会比输入输出层的维度大，这样有助于模型学习到更丰富的特征。

4. **`num_hidden_layers = 2`**
隐藏层的数量意味着模型中堆叠的隐藏层的层数。层数越多，模型的表达能力就越强，能够学习到更复杂的模式，但同时也会增加过拟合的风险以及训练的难度。

5. **`num_attention_heads = 4`**
注意力头的数量是指在多头注意力机制中并行的注意力头的个数。多头注意力机制能够让模型从不同的表示子空间中捕捉特征，提升模型的表达能力。

6. **`num_key_value_heads = 4`**
键值对注意力头的数量在某些改进的注意力机制中会用到，它决定了用于计算键（key）和值（value）的注意力头的数量。在标准的多头注意力机制里，`num_key_value_heads` 通常和 `num_attention_heads` 相等。

### 数据处理和生成相关参数
7. **`batch_size = 5`**
批量大小代表了在一次训练或者推理过程中同时处理的样本数量。使用较大的批量大小能够提升训练效率，但会增加内存的需求；而较小的批量大小则可以减少内存使用，但会使训练速度变慢。

8. **`length_x = 5`**
输入序列的长度指的是每个输入样本的长度。在处理文本时，它代表的是输入文本中词元（token）的数量。

9. **`max_new_tokens = 5`**
最大新生成的词元数量表示在文本生成任务中，模型最多可以生成的词元数量。例如在文本续写任务里，这个参数会限制模型生成的文本长度。 

In [1]:
vocab_size = 10   #当前教程实际使用的时候是词汇表实际大小
hidden_size = 128
intermediate_size = 256
num_hidden_layers = 2
num_attention_heads = 4
batch_size = 3
length_x = 5
max_new_tokens = 5

## 初始化actor模型

以GPT2为例，初始化模型

In [2]:
import torch
from transformers import GPT2Config, GPT2LMHeadModel

torch.manual_seed(1)

# 定义参数
vocab_size = 10
hidden_size = 128
intermediate_size = 256
num_hidden_layers = 2
num_attention_heads = 4

# 加载模型配置
config = GPT2Config(
    vocab_size=50257,
    n_embd=hidden_size,
    n_inner=intermediate_size,
    n_layer=num_hidden_layers,
    n_head=num_attention_heads
)

# 初始化 GPT - 2 模型
model = GPT2LMHeadModel(config)

## model generate

主要看下inputs_ids和attention_mask的含义

### inputs_ids

input_ids：它是一个张量（tensor），表示文本被分词后每个词（token）对应的 ID。比如在第一行 [20015, 232, 25465, ...] 中，每个数字都是原文本中一个词被 GPT - 2 分词器转换后的唯一标识。不同模型的词表不同，这些 ID 对应的具体词汇也不一样。这里第一行可能对应一句中文文本分词结果，第二行 [14150, 257, 922, ...] 前半部分对应英文文本，后半部分 50256 一般是填充值 ，表示补齐固定长度。


attention_mask：同样是张量，用于指示哪些位置是有效的词（值为 1），哪些位置是填充的（值为 0） 。比如第二行 [1, 1, 1, 1, 0, 0, 0, 0, 0, 0] 表示前 4 个词是有效输入，后面是填充的，模型在处理时会忽略填充位置。

inputs_ids可以认为是要输入的文本经过tokenizer处理后的结果，而attention_mask则是用于指示哪些位置是有效的词（值为 1），哪些位置是填充的（值为 0） 。

In [4]:
from transformers import GPT2Tokenizer
import torch

# 初始化 GPT - 2 分词器
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
# 设置padding token
tokenizer.pad_token = tokenizer.eos_token  # 使用EOS token作为padding token

# 输入文本
inputs = ['今天天气不错', 'have a good day']

# 对输入进行分词处理
inputs = tokenizer(inputs, return_tensors='pt',padding=True, truncation=True)

print(inputs)

{'input_ids': tensor([[20015,   232, 25465, 25465, 36365,   242, 38834,   165,   242,   247],
        [14150,   257,   922,  1110, 50256, 50256, 50256, 50256, 50256, 50256]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 0, 0, 0, 0, 0, 0]])}


In [5]:
output_ids = model.generate(inputs['input_ids'], max_new_tokens=max_new_tokens)
print(output_ids)


The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


tensor([[20015,   232, 25465, 25465, 36365,   242, 38834,   165,   242,   247,
           247,   247,   247,   247,   247],
        [14150,   257,   922,  1110, 50256, 50256, 50256, 50256, 50256, 50256,
         50256, 50256, 50256, 50256, 50256]])


In [6]:
output_ids = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
print(output_ids)

['今天天气不错�����', 'have a good day']


填充左边和右边会导致input_ids中padding_id的位置不一样，导致attention_mask中padding_id的位置不一样，导致模型在处理时会忽略填充位置。

In [7]:
tokenizer.padding_side = 'left'
inputs = ['今天天气不错', 'have a good day']
inputs = tokenizer(inputs, return_tensors='pt',padding=True, truncation=True)

print(inputs)

output_ids = model.generate(inputs['input_ids'], max_new_tokens=max_new_tokens)

print(output_ids)

output_ids = tokenizer.batch_decode(output_ids, skip_special_tokens=True)
print(output_ids)

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


{'input_ids': tensor([[20015,   232, 25465, 25465, 36365,   242, 38834,   165,   242,   247],
        [50256, 50256, 50256, 50256, 50256, 50256, 14150,   257,   922,  1110]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [0, 0, 0, 0, 0, 0, 1, 1, 1, 1]])}
tensor([[20015,   232, 25465, 25465, 36365,   242, 38834,   165,   242,   247,
           247,   247,   247,   247,   247],
        [50256, 50256, 50256, 50256, 50256, 50256, 14150,   257,   922,  1110,
          1110,  1110,  1110,  1110,  1110]])
['今天天气不错�����', 'have a good day day day day day day']


# 现在开始正式讲rlhf流程

## 初始化reward model

根据之前的定义，奖励模型可以从模型的输出中提取出最后一个token的隐藏状态，然后通过一个线性层计算奖励。

假设batch_size = 2, sequence_length = 4
input_ids = torch.tensor([
    [1, 2, 3, 4],  # 第一个序列
    [5, 6, 7, 8]   # 第二个序列
])

attention_mask = torch.tensor([
    [1, 1, 1, 0],  # 第一个序列有效长度为3
    [1, 1, 1, 1]   # 第二个序列有效长度为4
])

sequence_length = attention_mask.sum(dim=1).long() - 1

结果: tensor([2, 3])

第一个序列：3-1=2（索引从0开始）

第二个序列：4-1=3

batch_indices = torch.arange(batch_size)

结果: tensor([0, 1])

假设hidden_size = 2

last_hidden_state = torch.tensor([
    [[1.0, 1.1], [2.0, 2.1], [3.0, 3.1], [4.0, 4.1]],  # 第一个序列
    [[5.0, 5.1], [6.0, 6.1], [7.0, 7.1], [8.0, 8.1]]   # 第二个序列
])

使用batch_indices和sequence_length提取

result = last_hidden_state[batch_indices, sequence_length]

结果: tensor([[3.0, 3.1],    # 第一个序列的第2个位置（索引从0开始）

[8.0, 8.1]])   # 第二个序列的第3个位置

In [8]:
class GPTRewardModel(torch.nn.Module):
    def __init__(self, gpt_model, reward_head):
        super(GPTRewardModel, self).__init__()
        self.gpt_model = gpt_model
        self.reward_head = reward_head
        
    def forward(self, input_ids, attention_mask):
        # 获取模型的输出
        outputs = self.gpt_model(input_ids=input_ids, attention_mask=attention_mask)
        # 通常取最后一个隐藏状态作为输出
        last_hidden_state = outputs.hidden_states[-1]
        batch_size = input_ids.shape[0]
        # 确保sequence_length是long类型
        sequence_length = attention_mask.sum(dim=1).long() - 1
        # 使用torch.arange并确保在正确的设备上
        batch_indices = torch.arange(batch_size, device=input_ids.device).long()
        last_hidden_state = last_hidden_state[batch_indices, sequence_length]
        print(f"last_hidden_state shape: {last_hidden_state.shape}, sequence_length: {sequence_length.shape}")
        # 计算奖励
        rewards = self.reward_head(last_hidden_state)
        return rewards

# 重新初始化模型
model.config.output_hidden_states = True
rm_model = GPTRewardModel(model, torch.nn.Linear(hidden_size, 1)) ## 这里的reward_head是一个线性层，将最后一个隐藏状态映射到奖励值

In [9]:
inputs['input_ids']

tensor([[20015,   232, 25465, 25465, 36365,   242, 38834,   165,   242,   247],
        [50256, 50256, 50256, 50256, 50256, 50256, 14150,   257,   922,  1110]])

In [10]:
reward = rm_model(inputs['input_ids'], inputs['attention_mask'])
print(reward)

last_hidden_state shape: torch.Size([2, 128]), sequence_length: torch.Size([2])
tensor([[-0.1647],
        [-0.2839]], grad_fn=<AddmmBackward0>)


## 简化版ppo
从以上过程可以看出，我们输入给模型的其实是input_ids和attention_mask，所以我们现在为了展示方便，构造一个没有实际意义的输入，输入给模型，然后输出奖励。

In [11]:
prompt = torch.randint(0, vocab_size, (batch_size, length_x))
response = torch.randint(0, vocab_size, (batch_size, length_x + max_new_tokens))

In [12]:
print(prompt)
print(response)

tensor([[5, 0, 0, 1, 0],
        [4, 8, 1, 4, 1],
        [9, 6, 7, 0, 5]])
tensor([[4, 8, 5, 2, 9, 5, 5, 0, 6, 3],
        [0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
        [2, 6, 7, 5, 0, 0, 3, 3, 4, 8]])


我们希望让模型只关注response，所以对prompt对应的mask置为0

In [13]:
attention_mask = torch.ones(batch_size, length_x+max_new_tokens)
attention_mask[:, :length_x] = 0
print(attention_mask)


tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]])


In [14]:
prompt_attention_mask = torch.ones(batch_size, length_x)
prompt_attention_mask

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

创建几个模型


model_ref 和model的配置一样

reward model和value model的配置大体一样

value model的输出是所有token的隐藏状态所得到的value

In [15]:
# 初始化 GPT - 2 模型
model_ref = GPT2LMHeadModel(config)



查看区别

In [16]:
print(model_ref)
print(model)

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 128)
    (wpe): Embedding(1024, 128)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-1): 2 x GPT2Block(
        (ln_1): LayerNorm((128,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2SdpaAttention(
          (c_attn): Conv1D(nf=384, nx=128)
          (c_proj): Conv1D(nf=128, nx=128)
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((128,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D(nf=256, nx=128)
          (c_proj): Conv1D(nf=128, nx=256)
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((128,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=128, out_features=50257, bias=False)
)
GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte)

## 初始化value model

假设我们有以下维度的数据：

last_hidden_state 的形状是 [batch_size, sequence_length, hidden_size]

比如 [5, 10, 128]，表示批次大小为5，序列长度为10，隐藏层维度为128

self.value_head 是一个线性层 Linear(hidden_size, 1)

输入维度是128，输出维度是1

处理过程：

self.value_head(last_hidden_state) 的操作：

输入: [5, 10, 128]

输出: [5, 10, 1] # 线性层将最后一个维度从128转换为1

[:, :, 0] 的操作：

取最后一个维度的第0个元素

结果形状变为: [5, 10]

In [17]:
class GPTValueModel(torch.nn.Module):
    def __init__(self, gpt_model, value_head):
        super().__init__()
        self.gpt_model = gpt_model
        self.value_head = value_head
        
    def forward(self, input_ids, attention_mask):
        outputs = self.gpt_model(input_ids=input_ids, attention_mask=attention_mask)
        last_hidden_state = outputs.hidden_states[-1]
        values = self.value_head(last_hidden_state)[:, :, 0]
        return values
    
model.config.output_hidden_states = True
vm_model = GPTValueModel(model,torch.nn.Linear(hidden_size, 1))

In [18]:
print(rm_model)
print(vm_model)

GPTRewardModel(
  (gpt_model): GPT2LMHeadModel(
    (transformer): GPT2Model(
      (wte): Embedding(50257, 128)
      (wpe): Embedding(1024, 128)
      (drop): Dropout(p=0.1, inplace=False)
      (h): ModuleList(
        (0-1): 2 x GPT2Block(
          (ln_1): LayerNorm((128,), eps=1e-05, elementwise_affine=True)
          (attn): GPT2SdpaAttention(
            (c_attn): Conv1D(nf=384, nx=128)
            (c_proj): Conv1D(nf=128, nx=128)
            (attn_dropout): Dropout(p=0.1, inplace=False)
            (resid_dropout): Dropout(p=0.1, inplace=False)
          )
          (ln_2): LayerNorm((128,), eps=1e-05, elementwise_affine=True)
          (mlp): GPT2MLP(
            (c_fc): Conv1D(nf=256, nx=128)
            (c_proj): Conv1D(nf=128, nx=256)
            (act): NewGELUActivation()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (ln_f): LayerNorm((128,), eps=1e-05, elementwise_affine=True)
    )
    (lm_head): Linear(in_features=128, out_fea

## ppo前向过程

创建几个model的函数

In [19]:
def get_response(model, prompt, max_new_tokens, attention_mask):
    inputs = {'input_ids': prompt, 'attention_mask': attention_mask}  # ignore mask，好像不需要mask
    y = model.generate(**inputs,
                max_new_tokens=max_new_tokens,
                # forced_eos_token_id=True
                )
    return y

def get_reward(model, response, attention_mask):
    inputs   = {'input_ids': response, 'attention_mask': attention_mask}  # ignore mask
    y = model(inputs['input_ids'], inputs['attention_mask'])
    return y

def get_value(model, prompt, attention_mask):
    inputs = {'input_ids': prompt, 'attention_mask': attention_mask}  # ignore mask
    y = model(inputs['input_ids'], inputs['attention_mask'])
    return y

In [20]:
prompt

tensor([[5, 0, 0, 1, 0],
        [4, 8, 1, 4, 1],
        [9, 6, 7, 0, 5]])

In [21]:
response

tensor([[4, 8, 5, 2, 9, 5, 5, 0, 6, 3],
        [0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
        [2, 6, 7, 5, 0, 0, 3, 3, 4, 8]])

In [22]:
prompt_attention_mask

tensor([[1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1.]])

In [23]:
attention_mask

tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]])

在这里就可以看到，ppo流程中的reward只是在最后一个token上得到的，但是我的value model要在每一个token上得到一个价值

In [25]:
print(get_response(model, prompt, max_new_tokens, prompt_attention_mask))
print(get_reward(rm_model, response, attention_mask))
print(get_value(vm_model, response, attention_mask))


Setting `pad_token_id` to `eos_token_id`:None for open-end generation.


tensor([[    5,     0,     0,     1,     0,     0,     0,     0,     0,     0],
        [    4,     8,     1,     4,     1, 10998, 10998, 10998, 10998, 10998],
        [    9,     6,     7,     0,     5,     5,     5,     5,     5,     5]])
last_hidden_state shape: torch.Size([3, 128]), sequence_length: torch.Size([3])
tensor([[-0.4702],
        [-1.0223],
        [-0.6396]], grad_fn=<AddmmBackward0>)
tensor([[ 0.1054, -0.1810, -0.2179, -0.4633, -0.1662,  0.0374, -0.7071, -0.7640,
         -1.3427,  0.2779],
        [ 0.0424, -0.0425, -1.1631, -0.1351,  0.2049,  0.0207, -0.9090,  0.4028,
         -0.1427,  0.6911],
        [ 0.1912, -0.2840,  0.1110,  0.6809, -0.4596, -0.1590, -0.2637, -0.3191,
         -0.1446,  0.9440]], grad_fn=<SelectBackward0>)


PPO 相关设置

封装几个ppo的model

In [26]:
class PPOModels():
    def __init__(self, model_actor, model_ref, model_rm, model_critic):
        self.actor = model_actor
        self.ref = model_ref
        self.rm = model_rm
        self.critic = model_critic


model_ref.eval()
rm_model.eval()
models = PPOModels(model, model_ref, rm_model, vm_model)


设置ppo的超参数

1. ppo_epochs在每次策略更新时，PPO 算法对收集到的数据进行迭代训练的次数。

2. mini_batch_size每个训练步骤中，从收集到的数据里选取的小批量数据的样本数量。

3. epochs整个训练过程中，算法对所有收集到的数据进行完整遍历的次数。

4. kl_ctlKL 散度惩罚项的系数，用于控制新旧策略之间的差异程度。

5. vf_coef价值函数损失的系数，用于平衡策略损失和价值函数损失在总损失中的权重。

6. lam广义优势估计（GAE）中的 \(\lambda\) 参数，用于平衡优势估计的偏差和方差。

7. gamma折扣因子，用于计算未来奖励的折现值，决定未来奖励在当前价值估计中的重要程度。

8. cliprange_value价值函数裁剪范围的参数，用于限制价值函数更新的幅度

In [27]:
class PPOConfig():
    def __init__(self):
        self.ppo_epochs = 5
        self.mini_batch_size = 2
        self.epochs = 4
        self.kl_ctl = 0.1
        self.vf_coef = 0.1
        self.lam = 0.9
        self.gamma = 0.9
        self.cliprange_value = 0.2

    def __str__(self):
        return f'ppo_epochs:{self.ppo_epochs}\nmini_batch_size:{self.mini_batch_size}\nepochs:{self.epochs}\nkl_ctl:{self.kl_ctl}'


ppo_config = PPOConfig()

在每一步中ppo都在干什么

首先要有个列表来记录每一步的采样

In [28]:
ppo_old_batchs = {
    'prompt': None,
    'response': None,
    'mask': None,
    'logprobs_ref': None,
    'logprobs_old': None,
    'logprobs': None,
    'values_old': None,
    'values': None,
    'rewards': None,
    'rewards_kl': None,
    'loss': None,
    'logits': None,
}

ppo_old_batchs['prompt'] = prompt
ppo_old_batchs['response'] = response
ppo_old_batchs['mask'] = attention_mask

In [29]:
ppo_old_batchs

{'prompt': tensor([[5, 0, 0, 1, 0],
         [4, 8, 1, 4, 1],
         [9, 6, 7, 0, 5]]),
 'response': tensor([[4, 8, 5, 2, 9, 5, 5, 0, 6, 3],
         [0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
         [2, 6, 7, 5, 0, 0, 3, 3, 4, 8]]),
 'mask': tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]]),
 'logprobs_ref': None,
 'logprobs_old': None,
 'logprobs': None,
 'values_old': None,
 'values': None,
 'rewards': None,
 'rewards_kl': None,
 'loss': None,
 'logits': None}

前向推理，得到token的logprobs

logprobs = F.log_softmax(logits, dim=-1)第一步:对logits进行softmax并取log

torch.gather是一个用于从张量中按索引收集值的操作 

假设我们有:

logp.shape = [1, 5, 32]      # [batch_size, seq_len, vocab_size]

labels.shape = [1, 5]        # [batch_size, seq_len]

1. labels.unsqueeze(2)

在最后增加一个维度

labels_expanded = labels.unsqueeze(2)   # shape变为[1, 5, 1]

2. torch.gather(logp, 2, labels_expanded)

dim=2表示在词表维度(第3维)上收集值

gathered = torch.gather(logp, 2, labels_expanded)  # shape为[1, 5, 1]

3. squeeze(-1)

去掉最后一个维度

logpy = gathered.squeeze(-1)  # 最终shape为[1, 5]

In [31]:
import torch.nn.functional as F

def get_logits(model, input_ids):
    # 得到logits
    outputs = model(input_ids=input_ids)
    print(f"inputs_ids shape: {input_ids.shape}")
    logits = outputs.logits
    print(f"logits shape: {logits.shape}")
    return logits

def get_logprobs(model, response, attention_mask):
    # 得到logprobs
    logits = get_logits(model, response)
    print(f"logits shape: {logits.shape}, response shape: {response.shape}, attention_mask shape: {attention_mask.shape}")
    # F.log_softmax() 是先进行softmax运算然后再取对数（log）
    all_token_logprobs = F.log_softmax(logits, dim=-1)
    print(f"all_token_logprobs shape: {all_token_logprobs.shape}")
    # 使用torch.gather() 从logprobs中收集response的值
    gathered = torch.gather(all_token_logprobs, 2, response.unsqueeze(2))
    print(f"gathered shape: {gathered.shape}, response shape: {response.shape}")
    # 去掉最后一个维度
    response_logprobs = gathered.squeeze(-1)
    print(f"response_logprobs shape: {response_logprobs.shape}")
    return response_logprobs

logprobs_ref = get_logprobs(models.ref, ppo_old_batchs['response'], ppo_old_batchs['mask'])
print('\n')
logprobs_old = get_logprobs(models.actor, ppo_old_batchs['response'], ppo_old_batchs['mask'])
print('\n')
logprobs = get_logprobs(models.actor, ppo_old_batchs['response'], ppo_old_batchs['mask'])

print(logprobs_ref.shape)
print(logprobs_old.shape)
print(logprobs.shape)   


inputs_ids shape: torch.Size([3, 10])
logits shape: torch.Size([3, 10, 50257])
logits shape: torch.Size([3, 10, 50257]), response shape: torch.Size([3, 10]), attention_mask shape: torch.Size([3, 10])
all_token_logprobs shape: torch.Size([3, 10, 50257])
gathered shape: torch.Size([3, 10, 1]), response shape: torch.Size([3, 10])
response_logprobs shape: torch.Size([3, 10])


inputs_ids shape: torch.Size([3, 10])
logits shape: torch.Size([3, 10, 50257])
logits shape: torch.Size([3, 10, 50257]), response shape: torch.Size([3, 10]), attention_mask shape: torch.Size([3, 10])
all_token_logprobs shape: torch.Size([3, 10, 50257])
gathered shape: torch.Size([3, 10, 1]), response shape: torch.Size([3, 10])
response_logprobs shape: torch.Size([3, 10])


inputs_ids shape: torch.Size([3, 10])
logits shape: torch.Size([3, 10, 50257])
logits shape: torch.Size([3, 10, 50257]), response shape: torch.Size([3, 10]), attention_mask shape: torch.Size([3, 10])
all_token_logprobs shape: torch.Size([3, 10, 502

In [32]:
response.shape

torch.Size([3, 10])

In [33]:
logprobs

tensor([[ -9.6364, -10.0382,  -9.4454,  -9.7810,  -9.3484,  -9.5437,  -9.6146,
          -9.3174,  -9.8408,  -9.5032],
        [ -9.6546,  -9.7166,  -9.7343,  -9.4578,  -9.8507,  -9.7604,  -9.8515,
          -9.6053,  -9.3741,  -9.4720],
        [ -9.8447, -10.2057,  -9.4921,  -9.7237,  -9.1873,  -9.4923,  -9.6284,
          -9.9353,  -9.3172,  -9.8445]], grad_fn=<SqueezeBackward1>)

计算kl

In [34]:
def get_kl(logprobs_ref, logprobs_old, kl_ctl):
    kl = logprobs_ref - logprobs_old
    kl = kl * kl_ctl
    return kl

kl = get_kl(logprobs_ref, logprobs_old, ppo_config.kl_ctl)
print(kl)


tensor([[-0.0130,  0.0095, -0.0262, -0.0021, -0.0283, -0.0148, -0.0134, -0.0258,
          0.0089, -0.0307],
        [-0.0315, -0.0049, -0.0047, -0.0323,  0.0020, -0.0178,  0.0170, -0.0316,
         -0.0339, -0.0369],
        [-0.0574,  0.0419, -0.0651, -0.0085, -0.0412, -0.0019, -0.0238,  0.0211,
         -0.0333,  0.0152]], grad_fn=<MulBackward0>)


计算reward_kl


In [35]:
def get_reward_with_kl(logprobs_ref, logprobs_old, kl_ctl, reward):
    kl = logprobs_ref - logprobs_old
    kl = kl * kl_ctl
    kl[:, -1] += reward[:, 0]
    return kl

print(kl)
rewards = get_reward(models.rm, ppo_old_batchs['response'], ppo_old_batchs['mask'])
print(rewards)

kl_reward = get_reward_with_kl(logprobs_ref, logprobs_old, ppo_config.kl_ctl, rewards)
print(kl_reward)


tensor([[-0.0130,  0.0095, -0.0262, -0.0021, -0.0283, -0.0148, -0.0134, -0.0258,
          0.0089, -0.0307],
        [-0.0315, -0.0049, -0.0047, -0.0323,  0.0020, -0.0178,  0.0170, -0.0316,
         -0.0339, -0.0369],
        [-0.0574,  0.0419, -0.0651, -0.0085, -0.0412, -0.0019, -0.0238,  0.0211,
         -0.0333,  0.0152]], grad_fn=<MulBackward0>)
last_hidden_state shape: torch.Size([3, 128]), sequence_length: torch.Size([3])
tensor([[-0.7784],
        [-0.9515],
        [-0.9003]], grad_fn=<AddmmBackward0>)
tensor([[-0.0130,  0.0095, -0.0262, -0.0021, -0.0283, -0.0148, -0.0134, -0.0258,
          0.0089, -0.8090],
        [-0.0315, -0.0049, -0.0047, -0.0323,  0.0020, -0.0178,  0.0170, -0.0316,
         -0.0339, -0.9884],
        [-0.0574,  0.0419, -0.0651, -0.0085, -0.0412, -0.0019, -0.0238,  0.0211,
         -0.0333, -0.8852]], grad_fn=<CopySlices>)


In [36]:
values = get_value(models.critic, ppo_old_batchs['response'], ppo_old_batchs['mask'])

In [37]:
values

tensor([[ 0.1939, -0.0731, -0.0170, -0.4315,  0.0534, -0.2046, -0.6074, -0.7700,
         -1.2505,  0.1553],
        [ 0.0511, -0.2098, -0.8512, -0.1117,  0.2560, -0.0967, -0.9718,  0.2660,
         -0.1777,  0.4735],
        [ 0.2042, -0.6096, -0.0284,  0.2577, -0.3757, -0.3134, -0.5433, -0.2487,
         -0.2369,  1.0747]], grad_fn=<SelectBackward0>)

In [38]:
ppo_old_batchs['logprobs_ref'] = logprobs_ref
ppo_old_batchs['logprobs_old'] = logprobs_old
ppo_old_batchs['logprobs'] = logprobs
ppo_old_batchs['values_old'] = values
ppo_old_batchs['rewards'] = rewards
ppo_old_batchs['rewards_kl'] = kl_reward

ppo_old_batchs

{'prompt': tensor([[5, 0, 0, 1, 0],
         [4, 8, 1, 4, 1],
         [9, 6, 7, 0, 5]]),
 'response': tensor([[4, 8, 5, 2, 9, 5, 5, 0, 6, 3],
         [0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
         [2, 6, 7, 5, 0, 0, 3, 3, 4, 8]]),
 'mask': tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]]),
 'logprobs_ref': tensor([[ -9.7659,  -9.9431,  -9.7075,  -9.8018,  -9.6310,  -9.6916,  -9.7483,
           -9.5755,  -9.7520,  -9.8097],
         [ -9.9691,  -9.7657,  -9.7810,  -9.7806,  -9.8304,  -9.9382,  -9.6816,
           -9.9212,  -9.7132,  -9.8413],
         [-10.4189,  -9.7863, -10.1431,  -9.8084,  -9.5995,  -9.5113,  -9.8666,
           -9.7238,  -9.6501,  -9.6926]], grad_fn=<SqueezeBackward1>),
 'logprobs_old': tensor([[ -9.6364, -10.0382,  -9.4454,  -9.7810,  -9.3484,  -9.5437,  -9.6146,
           -9.3174,  -9.8408,  -9.5032],
         [ -9.6546,  -9.7166,  -9.7343,  -9.4578,  -9.8507,  -9.

## 计算loss

rewards：一个张量，代表在每个时间步获得的奖励。

mask：一个掩码张量，用于标识哪些时间步是有效的（例如，用于处理终止状态）。

values：一个张量，代表每个时间步的状态价值估计。

gamma：折扣因子，用于计算未来奖励的折现值，取值范围通常在 [0, 1] 之间。

lam：GAE 中的 \(\lambda\) 参数，用于平衡偏差和方差，取值范围同样在 [0, 1] 之间。

# PPO 中的 GAE 公式

在PPO（Proximal Policy Optimization）算法中，优势函数和价值损失是连接价值估计与策略优化的核心组件。

## 优势函数（Advantage Function）

优势函数衡量在某一状态下采取特定动作的**相对价值**，定义为：

$$A(s_t, a_t) = Q(s_t, a_t) - V(s_t)$$

状态 - 动作价值函数（Q 函数），表示在状态 \(s_t\) 采取动作 \(a_t\) 后，从后续轨迹中获得的总折扣回报的期望。

状态价值函数（V 函数），表示在状态 \(s_t\) 下，遵循当前策略时获得的总折扣回报的期望（即 “平均收益”）。

优势函数的本质是回答：

在状态 \(s_t\) 下选择动作 \(a_t\)，比‘按当前策略随机选一个动作’好多少？”

若 \(A(s_t, a_t) > 0\)：动作 \(a_t\) 优于平均水平，值得鼓励（策略应提高该动作的概率）

若 \(A(s_t, a_t) < 0\)：动作 \(a_t\) 劣于平均水平，应抑制（策略应降低该动作的概率）。

优势函数将 “绝对价值” 转化为 “相对价值”，减少了估计偏差（例如，即使 \(Q(s_t, a_t)\) 和 \(V(s_t)\) 都有误差，两者的差值可能更稳定）

在实际训练中，Q 和 V 无法直接获得，PPO 通常使用GAE（Generalized Advantage Estimation） 来估计优势函数

GAE（Generalized Advantage Estimation）的时序差分残差公式：

$$\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)$$

其中，$r_t$ 是时间步 $t$ 的奖励，$\gamma$ 是折扣因子，$V(s_t)$ 是状态 $s_t$ 的价值估计。

GAE 优势估计的递归形式：

$$\hat{A}_t = \delta_t + \gamma \lambda \hat{A}_{t+1}$$

其中 $\lambda$ 是 GAE 的衰减参数（$0 \leq \lambda \leq 1$）。

In [39]:
def get_GAE(rewards, attention_mask, values, gemma, lam):
    lastgae = 0 #初始化为 0，用于存储上一个时间步的广义优势估计值。
    advantages_recersed = []
    response_len = rewards.shape[-1]

    values = values * attention_mask
    rewards = rewards * attention_mask

    for t in reversed(range(response_len)):
        nextvalues = values[:, t + 1] if t < response_len - 1 else 0.0
        # 计算时间步 t 的 TD 误差（Temporal Difference error），即当前奖励加上折扣后的下一个时间步的价值估计，再减去当前时间步的价值估计。
        delta = rewards[:, t] + gemma * nextvalues - values[:, t]
        # 根据 GAE 的递推公式，计算当前时间步的广义优势估计值。
        lastgae = delta + gemma * lam * lastgae
        advantages_recersed.append(lastgae)
    # 将 advantages_reversed 列表反转，使其按时间步的正序排列。
    advantages = torch.stack(advantages_recersed[::-1]).transpose(0, 1)
    return advantages


In [40]:
ppo_old_batchs

{'prompt': tensor([[5, 0, 0, 1, 0],
         [4, 8, 1, 4, 1],
         [9, 6, 7, 0, 5]]),
 'response': tensor([[4, 8, 5, 2, 9, 5, 5, 0, 6, 3],
         [0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
         [2, 6, 7, 5, 0, 0, 3, 3, 4, 8]]),
 'mask': tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]]),
 'logprobs_ref': tensor([[ -9.7659,  -9.9431,  -9.7075,  -9.8018,  -9.6310,  -9.6916,  -9.7483,
           -9.5755,  -9.7520,  -9.8097],
         [ -9.9691,  -9.7657,  -9.7810,  -9.7806,  -9.8304,  -9.9382,  -9.6816,
           -9.9212,  -9.7132,  -9.8413],
         [-10.4189,  -9.7863, -10.1431,  -9.8084,  -9.5995,  -9.5113,  -9.8666,
           -9.7238,  -9.6501,  -9.6926]], grad_fn=<SqueezeBackward1>),
 'logprobs_old': tensor([[ -9.6364, -10.0382,  -9.4454,  -9.7810,  -9.3484,  -9.5437,  -9.6146,
           -9.3174,  -9.8408,  -9.5032],
         [ -9.6546,  -9.7166,  -9.7343,  -9.4578,  -9.8507,  -9.

In [42]:
gae = get_GAE(ppo_old_batchs['rewards_kl'], ppo_old_batchs['mask'], ppo_old_batchs['values_old'], ppo_config.gamma, ppo_config.lam)
gae


tensor([[-0.2043, -0.2523, -0.3115, -0.3845, -0.4747, -0.3587, -0.0023,  0.1193,
          0.6180, -0.9643],
        [-0.1865, -0.2303, -0.2843, -0.3509, -0.4333, -0.4275,  0.4546, -0.9550,
         -0.6142, -1.4619],
        [-0.1640, -0.2025, -0.2500, -0.3087, -0.3811, -0.1223,  0.0682, -0.2809,
         -0.4166, -1.9599]], grad_fn=<TransposeBackward0>)

计算value loss


advantages：优势函数的估计值，用于计算回报。


values：当前价值函数的估计值。

values_old：旧的价值函数估计值。

mask：掩码张量，用于指定哪些元素参与损失计算。

cliprange_value：裁剪范围，用于限制价值函数的更新幅度。

https://github.com/huggingface/trl/blob/26d86757a7c7e24e397ea44f57ecce6031dfac01/trl/trainer/ppo_trainer.py#L561C29-L567C30

In [44]:
def masked_mean(values: torch.Tensor, mask: torch.Tensor, axis = None) -> torch.Tensor:
    """Compute mean of tensor with a masked values."""
    if axis is not None:
        return (values * mask).sum(axis=axis) / mask.sum(axis=axis)
    else:
        return (values * mask).sum() / mask.sum()

def get_value_loss(advantages, values, values_old, attention_mask, cliprange_value):
    # 目标回报 = 旧价值估计 + 优势估计
    # 这是因为优势函数的定义为：A = Q - V，因此 Q = V + A，这里用returns表示目标 Q 值
    returns = values_old + advantages
    advantages = advantages.detach()
    # 对新的价值估计values进行裁剪，限制其与旧价值估计values_old的差异不超过cliprange_value
    vpredclipped = torch.clamp(values, values_old - cliprange_value, values_old + cliprange_value)

    vf_losses1 = torch.square(vpredclipped - returns) # 裁剪后的价值估计与目标回报的平方误差
    vf_losses2 = torch.square(values - returns) # 未裁剪的价值估计与目标回报的平方误差
    vf_loss_max = torch.max(vf_losses1, vf_losses2)
    vf_loss = 0.5 * masked_mean(vf_loss_max, attention_mask)
    return vf_loss



In [45]:
ppo_old_batchs['values'] = ppo_old_batchs['values_old'] + 0.5

In [46]:
value_loss = get_value_loss(gae, ppo_old_batchs['values'], ppo_old_batchs['values_old'], ppo_old_batchs['mask'], ppo_config.cliprange_value)
value_loss

tensor(0.6554, grad_fn=<MulBackward0>)

计算policy loss
https://github.com/huggingface/trl/blob/26d86757a7c7e24e397ea44f57ecce6031dfac01/trl/trainer/ppo_trainer.py#L569-L574

markdown
# PPO（Proximal Policy Optimization）核心公式与实现

PPO算法的核心是通过策略损失和价值损失的联合优化来更新智能体策略，以下是完整的公式说明与代码实现。

## 1. 策略损失（Policy Loss）

### 核心公式

策略损失的计算基于重要性采样和裁剪机制：

1. **重要性采样比率**  
   $$\text{ratio}_t = \frac{\pi_\theta(a_t | s_t)}{\pi_{\theta_{\text{old}}}(a_t | s_t)} = \exp\left(\log \pi_\theta(a_t | s_t) - \log \pi_{\theta_{\text{old}}}(a_t | s_t)\right)$$

2. **未裁剪损失**  
   $$L_1(\theta) = -A_t \cdot \text{ratio}_t$$

3. **裁剪后损失**  
   $$L_2(\theta) = -A_t \cdot \text{clip}(\text{ratio}_t, 1-\epsilon, 1+\epsilon)$$

4. **最终策略损失**  
   $$L_{\text{policy}}(\theta) = \mathbb{E}\left[ \max(L_1(\theta), L_2(\theta)) \right]$$

其中：
- $A_t$ 是优势估计（GAE计算结果）
- $\epsilon$ 是裁剪范围超参数（通常为0.2）
- $\pi_\theta$ 是当前策略，$\pi_{\theta_{\text{old}}}$ 是更新前的旧策略


In [47]:
def get_policy_loss(advantages, logprobs, logprobs_old, mask, cliprange):
    # 重要性采样
    ratio = torch.exp(logprobs - logprobs_old)
    # 计算策略损失
    pg_losses = -advantages * ratio
    pg_losses2 = -advantages * torch.clamp(ratio, 1.0 - cliprange, 1.0 + cliprange)
    pg_loss_max = torch.max(pg_losses, pg_losses2)
    pg_loss = masked_mean(pg_loss_max, mask)
    return pg_loss



In [48]:
pg_loss = get_policy_loss(gae, ppo_old_batchs['logprobs'], ppo_old_batchs['logprobs_old'], ppo_old_batchs['mask'], ppo_config.cliprange_value)

In [49]:
pg_loss

tensor(0.4202, grad_fn=<DivBackward0>)

计算熵损失
https://github.com/huggingface/trl/blob/26d86757a7c7e24e397ea44f57ecce6031dfac01/trl/trainer/ppo_trainer.py#L582-L583

entropy（熵）没有直接参与到模型的损失（loss）

在计算完损失并进行反向传播和参数更新后，代码计算了 entropy

这里计算的 entropy 被记录到 entropy_stats 张量中，用于后续的统计和记录，但没有用于损失计算。

In [50]:
logits = get_logits(models.actor, ppo_old_batchs['response'])
ppo_old_batchs['logits'] = logits

inputs_ids shape: torch.Size([3, 10])
logits shape: torch.Size([3, 10, 50257])


# PPO中的熵损失（Entropy Loss）计算

熵损失用于衡量策略的随机性，在PPO中通常作为总损失的一部分，鼓励智能体保持探索行为。

## 熵计算函数

```python
def get_entropy_loss(logits, mask):
    # 将logits转换为概率分布（softmax归一化）
    prob_dist = torch.nn.functional.softmax(logits, dim=-1)
    
    # 计算熵: H(p) = -Σ(p_i * log(p_i))
    # 等价于: log(Σ(exp(logits_i))) - Σ(p_i * logits_i)
    entropy = torch.logsumexp(logits, dim=-1) - torch.sum(prob_dist * logits, dim=-1)
    
    return entropy

# 计算旧批次数据的熵
entropy = get_entropy_loss(ppo_old_batchs['logits'], ppo_old_batchs['mask'])
entropy  # 返回每个样本的熵值

In [52]:
def get_entropy_loss(logits, mask):
    prob_dist = torch.nn.functional.softmax(logits, dim=-1)
    print(f"prob_dist shape: {prob_dist.shape}, logits shape: {logits.shape}")
    # 计算熵
    # 使用torch.logsumexp计算logits的对数和，然后减去每个概率分布乘以logits的和
    # 这里的熵计算公式是 H(X) = log(sum(exp(logits))) - sum(prob_dist * logits)
    
    entropy = torch.logsumexp(logits, dim=-1) - torch.sum(prob_dist * logits, dim=-1)
    return entropy
print(f"logits shape: {logits.shape}, mask shape: {ppo_old_batchs['mask'].shape}")
entropy = get_entropy_loss(ppo_old_batchs['logits'], ppo_old_batchs['mask'])
entropy
                                

logits shape: torch.Size([3, 10, 50257]), mask shape: torch.Size([3, 10])
prob_dist shape: torch.Size([3, 10, 50257]), logits shape: torch.Size([3, 10, 50257])


tensor([[10.7993, 10.7995, 10.7994, 10.7994, 10.7990, 10.7992, 10.7994, 10.7994,
         10.7997, 10.7995],
        [10.7995, 10.7994, 10.7994, 10.7996, 10.7995, 10.7992, 10.7994, 10.7995,
         10.7993, 10.7996],
        [10.7992, 10.7996, 10.7994, 10.7993, 10.7995, 10.7993, 10.7994, 10.7994,
         10.7996, 10.7994]], grad_fn=<SubBackward0>)

In [53]:
loss = pg_loss + ppo_config.vf_coef * value_loss

In [54]:
def get_loss(batchs, ppo_config):
    gae = get_GAE(batchs['rewards_kl'],
                  batchs['mask'],
                  batchs['values'],
                  ppo_config.gamma,
                  ppo_config.lam)
    value_loss = get_value_loss(gae,
                             batchs['values'],
                             batchs['values_old'],
                             batchs['mask'],
                             ppo_config.cliprange_value)
    pg_loss = get_policy_loss(
                              gae,
                              batchs['logprobs'],
                              batchs['logprobs_old'],
                              batchs['mask'],
                              ppo_config.cliprange_value)
    entropy = get_entropy_loss(batchs['logits'], batchs['mask'])
    loss = pg_loss + ppo_config.vf_coef * value_loss
    return loss

In [55]:
loss = get_loss(ppo_old_batchs, ppo_config)
loss

prob_dist shape: torch.Size([3, 10, 50257]), logits shape: torch.Size([3, 10, 50257])


tensor(0.9609, grad_fn=<AddBackward0>)

In [56]:
ppo_old_batchs

{'prompt': tensor([[5, 0, 0, 1, 0],
         [4, 8, 1, 4, 1],
         [9, 6, 7, 0, 5]]),
 'response': tensor([[4, 8, 5, 2, 9, 5, 5, 0, 6, 3],
         [0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
         [2, 6, 7, 5, 0, 0, 3, 3, 4, 8]]),
 'mask': tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]]),
 'logprobs_ref': tensor([[ -9.7659,  -9.9431,  -9.7075,  -9.8018,  -9.6310,  -9.6916,  -9.7483,
           -9.5755,  -9.7520,  -9.8097],
         [ -9.9691,  -9.7657,  -9.7810,  -9.7806,  -9.8304,  -9.9382,  -9.6816,
           -9.9212,  -9.7132,  -9.8413],
         [-10.4189,  -9.7863, -10.1431,  -9.8084,  -9.5995,  -9.5113,  -9.8666,
           -9.7238,  -9.6501,  -9.6926]], grad_fn=<SqueezeBackward1>),
 'logprobs_old': tensor([[ -9.6364, -10.0382,  -9.4454,  -9.7810,  -9.3484,  -9.5437,  -9.6146,
           -9.3174,  -9.8408,  -9.5032],
         [ -9.6546,  -9.7166,  -9.7343,  -9.4578,  -9.8507,  -9.

## PPO训练

https://github.com/huggingface/trl/blob/26d86757a7c7e24e397ea44f57ecce6031dfac01/trl/trainer/ppo_trainer.py#L529-L538

将一个完整的批次数据 ppo_batchs 按照指定的 batch_size 和 mini_batch_size 划分成多个小批次数据

In [88]:
import numpy as np
def get_minibatch(ppo_batchs, batch_size, mini_batch_size):
    # 计算需要多少个小批次
    step = batch_size // mini_batch_size
    ppo_batchs_iter = []
    
    # 随机打乱索引以提高训练效果
    b_inds = np.random.permutation(batch_size)
    
    # 根据索引创建小批次
    for i in range(step):
        start_idx = i * mini_batch_size
        end_idx = start_idx + mini_batch_size
        batch_inds = b_inds[start_idx:end_idx]
        
        # 创建当前小批次的数据
        mini_batch = {}
        for key, value in ppo_batchs.items():
            if value is not None and isinstance(value, torch.Tensor) and value.size(0) == batch_size:
                mini_batch[key] = value[batch_inds]
            else:
                mini_batch[key] = value
                
        ppo_batchs_iter.append(mini_batch)
    
    return ppo_batchs_iter

In [74]:
optimizer = torch.optim.Adam(model.parameters(), lr=0.0001)

In [75]:
ppo_old_batchs

{'prompt': tensor([[5, 0, 0, 1, 0],
         [4, 8, 1, 4, 1],
         [9, 6, 7, 0, 5],
         [4, 8, 5, 2, 9],
         [5, 5, 0, 6, 3]]),
 'response': tensor([[0, 3, 0, 4, 8, 2, 6, 4, 9, 3],
         [2, 6, 7, 5, 0, 0, 3, 3, 4, 8],
         [0, 8, 8, 2, 6, 0, 6, 0, 5, 8],
         [8, 1, 4, 6, 2, 7, 5, 5, 9, 5],
         [7, 4, 9, 5, 6, 6, 6, 1, 9, 8]]),
 'mask': tensor([[0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.],
         [0., 0., 0., 0., 0., 1., 1., 1., 1., 1.]]),
 'logprobs_ref': tensor([[ -9.7657,  -9.5145,  -9.7403,  -9.4521,  -9.8023,  -9.8455,  -9.8040,
           -9.5040,  -9.9263,  -9.4373],
         [-10.0543,  -9.8124,  -9.6533,  -9.7472,  -9.6888,  -9.7347,  -9.5207,
           -9.2883,  -9.4406,  -9.7164],
         [ -9.7657, -10.3167,  -9.8208,  -9.8356,  -9.5770,  -9.7337,  -9.7759,
           -9.6341,  -9.4780,  -9.84

In [155]:
def ppo_train_step(models, ppo_batchs, ppo_config, get_loss, optimizer):
    losses = []
    
    
    # 多轮PPO训练
    for i in range(ppo_config.ppo_epochs):
        # 获取小批次数据
        ppo_batchs_iter = get_minibatch(
            ppo_batchs, batch_size, ppo_config.mini_batch_size)
        
        # 对每个小批次进行训练
        for mini_batchs in ppo_batchs_iter:
            # 获取当前策略的输出
            optimizer.zero_grad()
            # 重新计算所有中间结果，而不是重用之前的计算图
            with torch.set_grad_enabled(True):
                logits = get_logits(models.actor, mini_batchs['prompt'])
                """
                省略了
                """

                
                # 计算损失
                loss= get_loss(
                    mini_batchs, ppo_config)
                
                # 在实际训练中应该进行反向传播
                loss.backward()
            optimizer.step()
            
            # 记录损失
            losses.append(loss)
    
    # 更新批次数据中的损失
    ppo_batchs['loss'] = losses
    
    print(losses)

