迷路タスク仕様
ARAKAWA, Naoya edited this page Dec 9, 2017
·
3 revisions
仮想マウスの認知能力をテストするような迷路とタスクを次のような方針に基づいて作成しました。
- 自分の位置を推定する手がかりがあること
- 地図の複雑さがレベル分けされていること
- 同じ地図のなかで課題の難易度を段階的にあげること
手がかりにする材料として色違いの壁の模様と建物を配置しています。
1次元迷路はシンプルな地図になります。 1次元以上、2次元未満な迷路として十字迷路を用意しました。つねに方向を決めうちでたどることがないように、スタートを通路の奥のランダムな地点にしたり、中心でランダムな方角を向くようにしています。 矢尻迷路では単純に正三角形でマッピングできないような構造を意図して作成しています。というのも、脳にはグリッドセル細胞(http://leading.lifesciencedb.jp/4-e001/ の格子細胞)があり、正三角形によって表現されているためです。
とくに1次元迷路で課題の難易度が変化するようにしました。単純に報酬を獲得しにいくものから始まり、最初は報酬が見えていないものの、緑色の模様の壁を通過すると報酬が出現するもの、皆が苦労していた緑の壁で2秒とどまると報酬が出現するもの、と段階的に課題のレベルがあがるようにしました。
参考論文:M Sato et al., eNeuro (2017) http://www.eneuro.org/content/4/3/ENEURO.0369-16.2017
実際のマウスVR実験の様子を動画にしたもの https://www.youtube.com/watch?v=uEM0a5utXGo
- エージェントは 0.15 sec/step、{1m/step or ±10度回転/step} で移動する
- Sがスタート地点である
- エピソードが始まる
- Gがゴール地点である
- 一定条件を満たすと、次のエピソードへ進む
- タスク3以降、Rである条件を満たすと、報酬がRとG地点で得られる。
- タスク3以降、Rで条件を満たさないと、Gでも報酬が得られない。
- 迷路全長:24m
- S: 6, 4, 2, 4, 2, 4, 2 :G (m)
- S: 白, 緑, 白, 緑, 白, 緑, 白: G
- 迷路幅:1m
- 壁の色
- 緑の壁:S地点とG地点の間に緑のチェック柄の壁が3ヶ所存在する
- 白の壁:白黒のチェック柄の壁が並んでいる
- 壁外のランドマーク(山、鉄塔、ビル、ピラミッド)は、下図のように配置
No. | タスク | 検証したいこと |
---|---|---|
1 | 無条件で、G地点で報酬が与えられる。 | G地点に到達すると、報酬が得られることを学習する。 |
2 | R地点(緑の壁)の通過時に(すぐにその場で)報酬が与えられる。その後、Gでも報酬が与えられる。 | G地点以外のR地点で報酬が得られることを学習する。 |
3 | R地点(中間の緑の壁)で2秒待機すると、R地点で報酬が与えられる。その後、Gでも報酬が与えられる。R地点で待機しないでG地点に到達しても何も(RでもGでも)報酬が得られない。 | R地点という特定の場所で2秒待機すると報酬が得られることを学習する。 |
4 | R地点が別の場所に移動する。R地点がG地点に最も近い緑の壁へ移動する。報酬が得られる条件は3と同じ。 | 特定の報酬場所(R地点)が移動しても、報酬が出てくる条件(2秒待つ)が同じであることを学習する。 |
5 | R地点がS地点に最も近い緑の壁へ移動する。報酬が得られる条件は3と同じ | 特定の報酬場所(R地点)がさらに移動しても、報酬が出てくる条件(2秒待つ)が変わらないことを学習する。 |
6 | 中間報酬が与えられる対象のエリアが毎回変化する。 | 4、5の課題を一般化することができる。 |
7 | S地点で幾何学模様(○、△、□)をマウスエージェントに提示する。○の場合はG地点に最も近い緑の壁で2秒待機すると報酬が出る。△の場合は中間地点の緑の壁で2秒待機すると報酬が出る。□の場合は、S地点に最も近い緑の壁で2秒待つと報酬が出る。 | 提示する記号と場所に関連があることを学習する。報酬が出る条件に変化はないことを維持する。 |
8.a-d 共通 | 壁の色が消失し、すべての壁が白と黒のチェック柄に統一される。 | 壁の色ではなく、迷路内にある特定の場所と報酬が関連づいていることを学習する。 |
8.a | 元々中間地点の緑の壁だった所に2秒待機すると、その時点で報酬が得られる。その後、Gでも報酬が得られる。(4と同じ) | - |
8.b | 報酬の得られる場所が移動する(5と同じ) | - |
8.c | 報酬の得られる場所が、遠⇒中⇒近距離で移動する(6と同じ) | - |
8.d | S地点で幾何学模様を見せる(7と同じ) | - |
- 迷路の一辺(中央から奥の壁まで)の長さ:12m
- 迷路幅:1m
- 北東の方向に鉄塔
- 南西の方向に山
No. | タスク | 検証したいこと |
---|---|---|
1 | S地点が壁奥にある。R地点が一箇所固定。S地点は3ヶ所あり、ランダムにスタート地点が決定する。 | 報酬の存在する位置を俯瞰的に把握することによって学習する(報酬の位置を相対的な位置関係で把握しない) |
2 | S地点が十字の真ん中にある。報酬は壁の奥3ヶ所にある。壁奥にある報酬を全て(3つとも)取る。 | すでに一度通った場所には報酬が存在しないことを学習する。 |
タスク1
タスク2
- Sがスタート地点である
- R地点で2秒待機すると報酬が与えられる。
- R地点で報酬条件を満たした後、G地点に行くとエピソードが終了する。
- ある任意のステップ数をこなしても条件を満たさない場合は、エピソードを打ち切り。
- 真ん中の道は、最初は壁があるため、行けない
- 下側ルートの方が短い
- 下側を二等辺三角形、中央の角度は120度
No. | タスク | 検証したいこと |
---|---|---|
1 | 真ん中の道はなく、上周りか下回りでGへ行く。 | 1次元迷路と同じ条件で報酬を得て、最短距離(下周り)でG地点に到達することを学習する。 |
2 | 壁が出てきて、下周りでGに行けなくなる | 最短距離が妨害されても、1次元迷路と同じ条件で報酬を得て、別の経路(上周り)で、G地点に到達することを学習する。 |
3 | 真ん中の道ができる | 真ん中の道が最短距離でG地点に達成できるパスであることを認識し、1次元迷路と同じ条件で、(ゼロショットで)G地点に到達することができる。 |
タスク1
タスク2
タスク3