# 強化学習トレーニングセットアップ
このノートブックでは、PyBullet環境でソフトグリッパーの強化学習（PPO）を行います。

In [None]:
# 必要なライブラリのインストール（Colab用）
!pip install pybullet stable-baselines3 gymnasium opencv-python matplotlib

In [None]:
# ライブラリのインポート
import gymnasium as gym
import pybullet as p
import pybullet_data
import numpy as np
from stable_baselines3 import PPO
from pybullet_sim.rl_env import FoodGripperEnv
import matplotlib.pyplot as plt

In [None]:
# 環境の初期化
env = FoodGripperEnv()

In [None]:
# モデルの作成
model = PPO("MlpPolicy", env, verbose=1, n_steps=2048, batch_size=2048, device="cuda")

In [None]:
# 学習の実行
model.learn(total_timesteps=1_000_000, log_interval=10)

In [None]:
# モデルの保存
model.save("../models/food_gripper_model")

In [None]:
# 報酬曲線の可視化
rewards = model.logger.get_log_dict().get('rollout/ep_rew_mean', [])
plt.plot(rewards)
plt.xlabel("Episode")
plt.ylabel("Mean Reward")
plt.title("Training Reward Curve")
plt.show()

In [None]:
import gym
from stable_baselines3 import PPO
from pybullet_sim.rl_env import FoodGripperEnv

env = FoodGripperEnv()
model = PPO('MlpPolicy', env, verbose=1)
model.learn(total_timesteps=10000)
model.save('models/ppo_gripper')

In [None]:
from pybullet_sim.rl_env import FoodGripperEnv
import numpy as np

env = FoodGripperEnv()
obs = env.reset()
for i in range(100):
    action = env.action_space.sample()
    obs, reward, done, info = env.step(action)
    print(f"step {i}: reward={reward}, done={done}")
    if done:
        break