Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

FlowNet: Learning Optical Flow with Convolutional Networks #43

Open
Yagami360 opened this issue Nov 9, 2019 · 0 comments
Open

FlowNet: Learning Optical Flow with Convolutional Networks #43

Yagami360 opened this issue Nov 9, 2019 · 0 comments

Comments

@Yagami360
Copy link
Owner

Yagami360 commented Nov 9, 2019

0. 論文情報・リンク

1. どんなもの?

  • correlation layer や解像度を復元するネットワークを追加した畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャで、オプティカルフローを実現したモデル。

2. 先行研究と比べてどこがすごいの?

  • CNN の飛躍的な成功にも関わらず、従来のオプティカルフロー手法では CNN のアーキテクチャを利用していなかった。
    本手法では、オプティカルフローのタスクにおいて、CNN のアーキテクチャを採用することでオプティカルフローの優れた精度を実現している。
    但し、オプティカルフローのタスクを通常の CNN のみで構成すると不十分であるため、新たに correlation layer のアーキテクチャや解像度を復元するネットワークを追加することで、オプティカルフローが CNN ベースのアーキテクチャでもうまく機能することを実現している。
  • 又、CNN のアーキテクチャをベースとしているので、既存のオプティカルフロー手法よりも高速に動作する。

3. 技術や手法の"キモ"はどこにある?

  • アーキテクチャの全体像

    一般的な CNN では pooling 層で入力画像の情報を集約していくが、この方法では畳み込みを行う度に画像の解像度が低下していくことになる。今考えているオプティカルフローのタスクにおいては、元の画像のピクセル単位での位置推定を行うので、画像の解像度を元に戻す処理が必要がある。

    そのため、本手法のアーキテクチャは、上図のように、元の画像を CNN で集約する部分(=上図の青箱部分の FlowNetSimple, FlowNetCorr)と元の画像に拡張する部分(=上図の緑部分 refinement)を含んだネットワークで構成されている。

  • 集約部分(FlowNetSimple, FlowNetCorr)
    元の画像を CNN で集約する部分は、以下の2つのアーキテクチャから構成される。

    • FlowNetSimple

      オプティカルフローを行いたい前後のフレーム間の画像を1枚ずつ入力して、畳み込み層のみから構成される CNN で画像の特徴量(=モーション情報)を抽出するネットワーク。

    • FlowNetCorr

      オプティカルフローによるフロー推定のタスクにおいて、ピクセル単位での位置推定の他に、2つの静止画像間での物体の位置の相関関係を推定する必要がある。前者のピクセル単位での位置推定では、CNN のアーキテクチャがそのまま有効であるが、後者の画像間での相関関係の推定には、通常の CNN のみでは不十分である。
      そのため本手法では、この FlowNetCorr において、新たに画像間での対応関係の推定するための correlation layer の構造を採用している。

      より詳細には、まず2つの画像を同じ処理プロセスをもつ別々のネットワークに入力し、CNN で各々の高レベルでの特徴量を抽出し、これらを後段のネットワークで結合する。
      この際に、correlation layer で2つの画像間の相関関係 c を、以下の式のように、
      それぞれの特徴マップ を移動幅 o でずらした特徴マップ 間の内積で計算する。

      但し、この式を全ての移動幅 o∈[−k.k]×[−k,k] に対してそのまま計算すると計算量が多くなるので、近傍内に限定することで計算量を抑える工夫を行っている。
  • 拡張部分 (refinement)

    オプティカルフローのタスクにおいては、元の画像のピクセル単位での位置推定を行うので、前述の FlowNetSimple, FlowNetCorr での CNN ベースのアーキテクチャで集約した特徴マップを、上図のようなアーキテクチャで、元の画像の解像度にアップサンプリングする。

    このアーキテクチャでは、アップサンプリング用の CNN でアップサンプリングを行うだけでなく、前段の FlowNetSimple, FlowNetCorr からの高レベルの大域的な中間特徴量と低レベルの局所的な特徴量を結合することで、各ステップで解像度を入力画像の2倍にすることが出来る。

  • Variational refinement

    追加のアプローチとして、変分手法に基づくアップサンプリング?を行っている。

4. どうやって有効だと検証した?

  • いくつかのオプティカルフロー用データセットに対して、既存の手法よりも精度の高いオプティカルフローを推定できていること、アップサンプリングを行うことで精度が向上すること、又処理速度も向上することを定量的に比較している。

  • いくつかのオプティカルフロー用データセットに対して、既存の手法よりも精度の高いオプティカルフローを推定できていること、又アップサンプリングを行うことで精度が向上することを定性的に比較している。(※ FlowNetS はアップサンプリングを行わない ablation study 用モデル)

5. 議論はあるか?

  • xxx

6. 次に読むべき論文はあるか?

  • xxx

7. 参考文献

  • xxx
@Yagami360 Yagami360 changed the title <In progress> FlowNet: Learning Optical Flow with Convolutional Networks FlowNet: Learning Optical Flow with Convolutional Networks Nov 9, 2019
@Yagami360 Yagami360 moved this from In progress to Done in machine-learning_papers_survey Nov 9, 2019
@Yagami360 Yagami360 moved this from Done to 関連論文 in virtual-try-on_papers_survey Mar 20, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Development

No branches or pull requests

1 participant