# BC(Behavior Cloning)を使用した模倣学習
- エキスパートの動作を模倣して学習するための一連の処理
- 使用環境：MountainCar（車が坂の上のゴールまで行けるようにするタスク）
- 使用ライブラリ：imitation, stable-baselines3, gymnasium

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import gymnasium as gym
from stable_baselines3.common.evaluation import evaluate_policy  # ポリシーの評価を行うための関数

from imitation.policies.serialize import load_policy  # 事前に学習されたポリシーをロードするための関数
from imitation.util.util import make_vec_env  # ベクトル化された環境を作成するための関数
from imitation.data.wrappers import RolloutInfoWrapper  # ロールアウト中に追加情報を保持できるラッパー

  from .autonotebook import tqdm as notebook_tqdm


## step1. 環境作成
- CartPole(カートとポール)タスクの環境を作成
- "seals"は、SEALSベンチマーク環境

In [2]:
# 環境の設定
env = make_vec_env(
    "seals:seals/MountainCar-v0",      # 使用する環境名
    rng=np.random.default_rng(),    # Numpyの乱数生成器を指定
    post_wrappers=[
        lambda env, _: RolloutInfoWrapper(env)  # エピソードごとの情報（リターンなど）を取得できるようにラップ
    ],  # needed for computing rollouts later
)

## step2. 事前学習済みのエキスパートポリシーをロード
- Hugging Face上で公開されている、優れたPROアルゴリズムで学習されたポリシーをロード
    - https://huggingface.co/HumanCompatibleAI

- エキスパートが優秀か確認する
- 通常、達成可能な最大値である500の報酬を取得できる

In [None]:
# ポリシーのロード
expert = load_policy(
    "ppo-huggingface",                  # 使用するポリシーの名前
    organization="HumanCompatibleAI",   # 公開している組織名
    env_name="seals/MountainCar-v0",       # 環境名
    venv=env,                           # 作成済みの環境を指定（ベクトル化済み）
)

# エキスパートポリシーの性能を確認（行動模倣する価値があるか？）
reward, _ = evaluate_policy(expert, env, 10)  # 10エピソード評価
print(f"エキスパートの平均報酬: {reward:.2f}")

エキスパートの平均報酬: -97.90


## step3. エキスパートの行動データ（軌跡）を収集
- 以上で、エキスパートを使って行動データをサンプリングできるようになった
- 動作のクローン化に必要なのは個々の遷移だけなので、**平坦化する**
    - `imitation`には、繊維の収集を非常に簡単にするエスパー関数が多数用意されている
    - 最初に50エピソードのロールアウトを収集
    - 次にトレーニングに必要な遷移だけ平坦化
- `rollout`関数はベクトル化された環境を必要とする
    - 注意：各環境の周囲に`RolloutInfoWrapper`が必要


In [4]:
from imitation.data import rollout

rng = np.random.default_rng()  # 別の乱数生成器

# エキスパートに50エピソード分のプレイを行わせて、行動データを収集
rollouts = rollout.rollout(
    expert, # エキスパートポリシー
    env,    # 環境
    rollout.make_sample_until(min_timesteps=None, min_episodes=50),  # 50エピソード分のデータを収集するための条件
    rng=rng,
)

# 軌跡を「遷移」（Transition）として扱いやすいようにフラットな構造に変換
transitions = rollout.flatten_trajectories(rollouts)

# 軌跡データの構造を確認
print(
    f"""
    ロールアウト関数は{len(rollouts)}個の{type(rollouts[0])}のリストを生成しました。
    このリストはフラット化後、{len(transitions)}個のトランザクションを含む{type(transitions)} オブジェクトに変換されました。
    トランザクションオブジェクトには、次の配列が含まれています: {', '.join(transitions.__dict__.keys())}.
    """
)


    ロールアウト関数は56個の<class 'imitation.data.types.TrajectoryWithRew'>のリストを生成しました。
    このリストはフラット化後、11200個のトランザクションを含む<class 'imitation.data.types.Transitions'> オブジェクトに変換されました。
    トランザクションオブジェクトには、次の配列が含まれています: obs, acts, infos, next_obs, dones.
    


## step4. BCトレーナーの構築
- 遷移を収集したら、動作の複製アルゴリズムを設定する

In [5]:
from imitation.algorithms import bc

# 行動模倣（Behavior Cloning）アルゴリズムのインスタンスを作成
# トレーニングデータとして、エキスパートのデモンストレーションデータを使用
bc_trainer = bc.BC(
    observation_space=env.observation_space,    # 環境の観測空間
    action_space=env.action_space,              # 環境の行動空間（離散/連続）
    demonstrations=transitions,                 # エキスパートのデモンストレーションデータ（遷移）
    rng=rng,                                    # 乱数生成器 
    device="cpu",                               # 追加: すべてCPUで計算
)

- トレーニング前の模倣ポリシーの性能を確認する
    - 当然、エキスパートには及ばなさい

In [6]:
reward_before_training, _ = evaluate_policy(bc_trainer.policy, env, 10)
print(f"トレーニング前の報酬: {reward_before_training}")

トレーニング前の報酬: -200.0


- トレーニング後は、エキスパートの報酬（500）に匹敵する

In [38]:
# 実際に模倣学習を行う
# 1エポックのトレーニングを実行
# エポック数を増やすとよりよく学習されるが、時間がかかる
bc_trainer.train(n_epochs=10)  # 1エポックのトレーニング

# トレーニング後のポリシーを評価
reward_after_training, _ = evaluate_policy(bc_trainer.policy, env, 10)  
print(f"トレーニング後の報酬: {reward_after_training}")

0batch [00:00, ?batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 0         |
|    ent_loss       | -6.98e-05 |
|    entropy        | 0.0698    |
|    epoch          | 0         |
|    l2_loss        | 0         |
|    l2_norm        | 477       |
|    loss           | 0.0383    |
|    neglogp        | 0.0384    |
|    prob_true_act  | 0.971     |
|    samples_so_far | 32        |
---------------------------------


478batch [00:01, 338.47batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 500       |
|    ent_loss       | -5.48e-05 |
|    entropy        | 0.0548    |
|    epoch          | 1         |
|    l2_loss        | 0         |
|    l2_norm        | 503       |
|    loss           | 0.0199    |
|    neglogp        | 0.0199    |
|    prob_true_act  | 0.982     |
|    samples_so_far | 16032     |
---------------------------------


981batch [00:02, 356.48batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 1000      |
|    ent_loss       | -8.12e-05 |
|    entropy        | 0.0812    |
|    epoch          | 2         |
|    l2_loss        | 0         |
|    l2_norm        | 527       |
|    loss           | 0.042     |
|    neglogp        | 0.0421    |
|    prob_true_act  | 0.965     |
|    samples_so_far | 32032     |
---------------------------------


1484batch [00:04, 351.30batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 1500      |
|    ent_loss       | -5.33e-05 |
|    entropy        | 0.0533    |
|    epoch          | 4         |
|    l2_loss        | 0         |
|    l2_norm        | 550       |
|    loss           | 0.0173    |
|    neglogp        | 0.0173    |
|    prob_true_act  | 0.984     |
|    samples_so_far | 48032     |
---------------------------------


1986batch [00:06, 334.53batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 2000      |
|    ent_loss       | -4.78e-05 |
|    entropy        | 0.0478    |
|    epoch          | 5         |
|    l2_loss        | 0         |
|    l2_norm        | 571       |
|    loss           | 0.0422    |
|    neglogp        | 0.0422    |
|    prob_true_act  | 0.972     |
|    samples_so_far | 64032     |
---------------------------------


2487batch [00:07, 353.79batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 2500      |
|    ent_loss       | -9.02e-06 |
|    entropy        | 0.00902   |
|    epoch          | 7         |
|    l2_loss        | 0         |
|    l2_norm        | 590       |
|    loss           | 0.00133   |
|    neglogp        | 0.00134   |
|    prob_true_act  | 0.999     |
|    samples_so_far | 80032     |
---------------------------------


2991batch [00:08, 355.59batch/s]

---------------------------------
| batch_size        | 32        |
| bc/               |           |
|    batch          | 3000      |
|    ent_loss       | -1.49e-05 |
|    entropy        | 0.0149    |
|    epoch          | 8         |
|    l2_loss        | 0         |
|    l2_norm        | 609       |
|    loss           | 0.00409   |
|    neglogp        | 0.0041    |
|    prob_true_act  | 0.996     |
|    samples_so_far | 96032     |
---------------------------------


3500batch [00:10, 334.24batch/s]


トレーニング後の報酬: -98.8


# トレーニング後のエージェントの動作を動画で可視化

In [39]:
from stable_baselines3.common.vec_env import DummyVecEnv, VecVideoRecorder
import os

# 動画保存先ディレクトリ
video_dir = "./videos/"
os.makedirs(video_dir, exist_ok=True)

# render_mode を "rgb_array" に設定して環境を作成
video_env = DummyVecEnv([lambda: gym.make("MountainCar-v0", render_mode="rgb_array")])

# VecVideoRecorder でラップ
video_env = VecVideoRecorder(
    video_env,
    video_folder=video_dir,
    record_video_trigger=lambda step: step == 0,
    video_length=600,
    name_prefix="bc_mountaincar_video",
)

# ビヘイビアクローンされたエージェントのポリシーを使って実行
obs = video_env.reset()
done = False
while not done:
    action, _ = bc_trainer.policy.predict(obs)
    obs, _, dones, _ = video_env.step(action)
    done = dones[0]

# 動画を保存
video_env.close()
print(f"動画を {video_dir} に保存しました。")


MoviePy - Building video /home/lilin/satoya_ws/study_deep_learn/StudyStableBaselines/workspace/Behavior_Cloning/videos/bc_mountaincar_video-step-0-to-step-600.mp4.
MoviePy - Writing video /home/lilin/satoya_ws/study_deep_learn/StudyStableBaselines/workspace/Behavior_Cloning/videos/bc_mountaincar_video-step-0-to-step-600.mp4



                                                              

MoviePy - Done !
MoviePy - video ready /home/lilin/satoya_ws/study_deep_learn/StudyStableBaselines/workspace/Behavior_Cloning/videos/bc_mountaincar_video-step-0-to-step-600.mp4
動画を ./videos/ に保存しました。




In [40]:
from IPython.display import Video

# 動画ファイルのパス（例: bc_agent-step-0-to-step-500.mp4）
video_path = os.path.join(video_dir, "bc_mountaincar_video-step-0-to-step-600.mp4")
Video(video_path, embed=True)

## 備考
- Behavior Cloningは「観測 -> 行動」を**教師あり学習**で学習する手法
- エキスパートの行動履歴（観測と対応する行動）を教師データとして使用
- 強化学習のように、「報酬」から学ぶのではなく「正解の行動」を直接学ぶ
    - エキスパートの質や量が非常に重要
- SEALSの環境は、観測の安定性が保証されており、模倣学習に最適

# 参考
https://imitation.readthedocs.io/en/latest/tutorials/1_train_bc.html