In [6]:
import torch

In [7]:
import numpy as np
import torch

# 模拟函数参数
def demonstrate_markov_state_creation(initial_env_state, markov_length=4):
    """
    演示如何创建马尔可夫状态表示
    
    参数:
        initial_env_state: 初始环境状态 (numpy数组)
        markov_length: 马尔可夫状态中包含的环境状态数量
    """
    print("原始环境状态 (NumPy):")
    print(f"形状: {initial_env_state.shape}")
    print(f"数据: \n{initial_env_state}\n")
    
    # 转换为PyTorch张量 (模拟preprocess_env_state的结果)
    if not isinstance(initial_env_state, torch.Tensor):
        initial_env_state = torch.tensor(initial_env_state, dtype=torch.float32)
    
    print("转换为PyTorch张量:")
    print(f"形状: {initial_env_state.shape}")
    print(f"数据: \n{initial_env_state}\n")
    
    # 创建重复列表
    repeated_states = markov_length * [initial_env_state]
    
    print(f"创建了{markov_length}个相同状态的列表:")
    print(f"列表长度: {len(repeated_states)}")
    print(f"每个元素形状: {repeated_states[0].shape}\n")
    print(repeated_states)
    
    # 沿最后一个维度连接
    markov_state = torch.cat(repeated_states, dim=0)
    
    print("最终马尔可夫状态:")
    print(f"形状: {markov_state.shape}")
    print(f"数据: \n{markov_state}\n")
    
    return markov_state

# 示例1: 简单的1D状态 (例如CartPole)
print("===== 示例1: 1D状态 =====")
simple_state = np.array([[0.1, 0.2, 0.3, 0.4]])  # 批量大小为1，每个状态有4个特征
demonstrate_markov_state_creation(simple_state, markov_length=3)

# 示例2: 2D状态 (例如图像，但尺寸很小便于展示)
print("\n===== 示例2: 2D状态 (小型图像) =====")
image_state = np.array([[[0.1, 0.2], [0.3, 0.4]]])  # 批量大小为1，2x2图像
demonstrate_markov_state_creation(image_state, markov_length=2)

# 示例3: 带有颜色通道的2D状态
print("\n===== 示例3: 带有颜色通道的2D状态 =====")
rgb_image = np.array([[[[0.1, 0.2, 0.3], [0.4, 0.5, 0.6]], 
                       [[0.7, 0.8, 0.9], [0.1, 0.2, 0.3]]]])  # 批量大小为1，2x2图像，3个通道
demonstrate_markov_state_creation(rgb_image, markov_length=2)

# 示例4: 多批量示例
print("\n===== 示例4: 多批量示例 =====")
batch_states = np.array([[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]])  # 批量大小为3，每个状态有2个特征
demonstrate_markov_state_creation(batch_states, markov_length=4)

===== 示例1: 1D状态 =====
原始环境状态 (NumPy):
形状: (1, 4)
数据: 
[[0.1 0.2 0.3 0.4]]

转换为PyTorch张量:
形状: torch.Size([1, 4])
数据: 
tensor([[0.1000, 0.2000, 0.3000, 0.4000]])

创建了3个相同状态的列表:
列表长度: 3
每个元素形状: torch.Size([1, 4])

[tensor([[0.1000, 0.2000, 0.3000, 0.4000]]), tensor([[0.1000, 0.2000, 0.3000, 0.4000]]), tensor([[0.1000, 0.2000, 0.3000, 0.4000]])]
最终马尔可夫状态:
形状: torch.Size([3, 4])
数据: 
tensor([[0.1000, 0.2000, 0.3000, 0.4000],
        [0.1000, 0.2000, 0.3000, 0.4000],
        [0.1000, 0.2000, 0.3000, 0.4000]])


===== 示例2: 2D状态 (小型图像) =====
原始环境状态 (NumPy):
形状: (1, 2, 2)
数据: 
[[[0.1 0.2]
  [0.3 0.4]]]

转换为PyTorch张量:
形状: torch.Size([1, 2, 2])
数据: 
tensor([[[0.1000, 0.2000],
         [0.3000, 0.4000]]])

创建了2个相同状态的列表:
列表长度: 2
每个元素形状: torch.Size([1, 2, 2])

[tensor([[[0.1000, 0.2000],
         [0.3000, 0.4000]]]), tensor([[[0.1000, 0.2000],
         [0.3000, 0.4000]]])]
最终马尔可夫状态:
形状: torch.Size([2, 2, 2])
数据: 
tensor([[[0.1000, 0.2000],
         [0.3000, 0.4000]],

        [[0.1000, 0.2000],
    

tensor([[0.1000, 0.2000],
        [0.3000, 0.4000],
        [0.5000, 0.6000],
        [0.1000, 0.2000],
        [0.3000, 0.4000],
        [0.5000, 0.6000],
        [0.1000, 0.2000],
        [0.3000, 0.4000],
        [0.5000, 0.6000],
        [0.1000, 0.2000],
        [0.3000, 0.4000],
        [0.5000, 0.6000]])