## モジュール構成とデータフロー（例）

1. **初期配置 (BoardSetup)**
   - **役割**: 自分と相手の駒を盤面に配置する。
   - **入力データ**: ゲームルール、駒の種類、初期配置戦略（ランダム・固定・学習ベース）
   - **出力データ**: 初期盤面の状態（位置・駒種・出口など）

2. **敵駒推定 (Inference)**
   - **役割**: 相手の非公開駒（善・悪ゴーストなど）を推定する。
   - **入力データ**: 現在の盤面情報、自分と相手の過去の手、報酬履歴
   - **出力データ**: 推定確率マップ（駒ごとの確率分布）

3. **報酬関数のマップ化 (RewardMap)**
   - **役割**: 推定情報とゲーム状況をもとに、各マスに報酬（価値）を割り当てる。
   - **入力データ**: 推定確率マップ、駒位置、ゲームルール
   - **出力データ**: 報酬マップ（行動ごとの期待値）

4. **Agentの行動 (ActionAgent)**
   - **役割**: 報酬マップを基に行動を選択する。
   - **入力データ**: 報酬マップ、探索率（例: ε-greedy の ε）
   - **出力データ**: 選択された手（移動先座標）

---


## 量子版モジュール構成とデータフロー（現状）
ランダムに対して勝率60％ぐらい
1. **初期配置 (BoardSetup)**
   - **役割**: ランダム配置や固定配置で盤面初期化。
   - **入力データ**: 駒の種類・配置戦略（現在は量子性なし）
   - **出力データ**: 初期盤面の状態（位置・駒種）

2. **敵駒推定 (Inference)**
   - **役割**: CNNまたはCQCNN（古典＋量子）で盤面から特徴を抽出。
   - **量子性**: CQCNNの場合、量子回路（`feature_map`＋`ansatz`）でCNN出力を変換。
   - **入力データ**: 盤面状態（多チャネル画像テンソル）
   - **出力データ**: Q値マップ（行動ごとの価値推定）

3. **報酬関数のマップ化 (RewardMap)**
   - **役割**: 即時報酬を返す（現在はマップを介さず、推定と一体化）
   - **量子性**: なし（Inferenceの出力Q値を直接使用）
   - **入力データ**: 環境の状態遷移 `(s, a, s')`
   - **出力データ**: 報酬スカラー値（shapingなし）

4. **Agentの行動 (ActionAgent)**
   - **役割**: Q値マップからe-greedyで行動選択。
   - **量子性**: Q値マップがCQCNN出力であれば量子性を含む。
   - **入力データ**: Q値マップ、探索率ε
   - **出力データ**: 選択された手（移動先座標）




In [None]:
Classical CNN → 特徴抽出
     ↓
Quantum Circuit → 敵駒推定・意思決定
     ↓  
Classical CNN → Q値マップ出力