In [None]:
from IPython.display import display, Image, Audio
import cv2
import base64
import time
from openai import OpenAI
import os
import requests
import os

client = OpenAI()

In [20]:
video = cv2.VideoCapture("maholo_eefR_Move2Pipette.mp4")

base64Frames = []
while video.isOpened():
    success, frame = video.read()
    if not success:
        break
    _, buffer = cv2.imencode(".jpg", frame)
    base64Frames.append(base64.b64encode(buffer).decode("utf-8"))

video.release()
print(len(base64Frames), "frames read.")

448 frames read.


In [28]:
display_handle = display(None, display_id=True)
for img in base64Frames:
    display_handle.update(Image(data=base64.b64decode(img.encode("utf-8"))))
    time.sleep(0.0001)

<IPython.core.display.Image object>

In [29]:
prompt = """
    请解析一段机器人运动任务的连续时间的图片。我的目的是使用并用强化学习训练机器人更平滑的完成图片中的任务，同时减少机器人不必要的运动。
    我的机器人是一个15轴机器人，分成躯干1轴，左右臂各7轴。另外左右夹具各1轴。
    1. 请根据图片分析机器人要完成的任务。
    2. 机器人环境是基于mujoco和robosuite建立的，环境的观测值目前定义如下，请帮我看一下是否有需要修改？
        Key: robot0_joint_pos_cos, Value.shape: (15,)
        Key: robot0_joint_pos_sin, Value.shape: (15,)
        Key: robot0_joint_vel, Value.shape: (15,)
        Key: robot0_right_eef_pos, Value.shape: (3,)
        Key: robot0_right_eef_quat, Value.shape: (4,)
        Key: robot0_right_gripper_qpos, Value.shape: (2,)
        Key: robot0_right_gripper_qvel, Value.shape: (2,)
        Key: robot0_left_eef_pos, Value.shape: (3,)
        Key: robot0_left_eef_quat, Value.shape: (4,)
        Key: robot0_left_gripper_qpos, Value.shape: (2,)
        Key: robot0_left_gripper_qvel, Value.shape: (2,)
        Key: tube008_initial_pos, Value.shape: (3,)
        Key: tube008_pos, Value.shape: (3,)
        Key: tube008_quat, Value.shape: (4,)
        Key: pipette004_initial_pos, Value.shape: (3,)
        Key: pipette004_pos, Value.shape: (3,)
        Key: pipette004_quat, Value.shape: (4,)
        Key: target_pos, Value.shape: (3,)
        Key: target_quat, Value.shape: (4,)
        Key: g1_to_target_pos, Value.shape: (3,)
        Key: g1_to_target_quat, Value.shape: ()
        Key: g0_to_target_pos, Value.shape: (3,)
        Key: g0_to_target_quat, Value.shape: ()
    3. 任务完成的函数目前定义如下：
        def _check_success(self):
            check_pos = np.all(np.abs(self._gripper1_to_target_pos)<0.02)
            check_quat =  self._gripper1_to_target_quat<0.1
            return  check_pos and check_quat
        请根据机器人要完成任务以及环境的观测值，用python写出为了训练actor agent，适用于强化学习SAC的reward函数。尽量使用robosuite已有的函数。
    """
PROMPT_MESSAGES = [
    {
        "role": "user",
        "content": [
            prompt,
            *map(lambda x: {"image": x, "resize": 768}, base64Frames[0::50]),
        ],
    },
]
params = {
    "model": "gpt-4-vision-preview",
    "messages": PROMPT_MESSAGES,
    "max_tokens": 2000,
}

result = client.chat.completions.create(**params)
print(result.choices[0].message.content)

1. 从图片中看到的是一个模拟双臂机器人执行一连串的动作任务。它看起来像是要在两个工作站间移动一些实验室设备（比如试管）或执行类似的精密操作任务。其中绿色的线可能代表了目标位置或者是路径规划的一部分。

2. 根据您给出的观测值定义，您的环境已经具备了机器人关节状态（包括位置的余弦和正弦值、速度）、末端执行器的位置和姿态（四元数表示）、抓手开闭状态（位置和速度）等信息。而对于环境中物体的位置和姿态，也有相应的观测值。这些都是强化学习中非常有用的特征。
   
   不过，如果您希望减少机器人不必要的运动并确保运动的平滑性，您可能还想考虑加入观测值来表示加速度或者更高阶的动态特性。此外，如果您希望机器人学会避开障碍或作业时不撞击其他物件，可以考虑增加关于环境中其他关键物体（如可能的障碍物）的位置和姿态信息。如果环境中还有力的交互（比如抓取物体时的力反馈），力感知器的数据也可以考虑加入到观测值中。

3. 关于强化学习的reward函数，我们可以将其设计成鼓励机器人以平滑、精确的方式完成任务。以下是一个SAC（Soft Actor-Critic）强化学习中可用的简单版奖励函数示例，使用了robosuite提供的部分函数：

```python
import numpy as np

def reward_function(obs):
    # 定义任务关键参数
    distance_threshold = 0.02  # 目标位置距离阈值
    orientation_threshold = 0.1  # 目标姿态误差阈值
    smoothness_weight = 0.1  # 平滑度的权重
    accuracy_weight = 1.0  # 精确度的权重
    
    # 计算机器人的抓取器相对于目标的位置和姿态误差
    gripper_to_target_pos = np.linalg.norm(obs['g1_to_target_pos'])
    gripper_to_target_quat = obs['g1_to_target_quat']

    # 是否位于目标位置的阈值内
    position_close = gripper_to_target_pos < distance_threshold
    
    # 