Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

DwNet: Dense warp-based network for pose-guided human video generation #233

Open
chullhwan-song opened this issue Oct 29, 2019 · 1 comment

Comments

@chullhwan-song
Copy link
Owner

https://arxiv.org/abs/1910.09139
https://github.com/zpolina/dwnet

@chullhwan-song
Copy link
Owner Author

chullhwan-song commented Oct 29, 2019

abstract

  • 먼저~~ 잘모르는 분야니 일단 뚜벅뚜벅 무식하게 국어책읽듯이..읽어내려가는 리뷰형태로.

Introduction

image

Method

  • Fig.1처럼, driving frame image(주어지고, 이 비디오의 인간 동작을 따라해야한다는 의미)과 source image s(실제 옷같은 모습을 generator해야함)이 주어졌을때, 최종 frame image을 generator하는게 이 논문의 주제.
    • 즉, s의 appearance로 driving frame의 동작(pose-guided)을 그대로 따라하도록 만드는 것임(Fig.1)
  • 그래서, 이 연구는 " image-to-image" based
    • 이전연구와 달리, 정확한 pose를 평가한다음 이를 key삼아 generator! 하고 고퀄리티의 driving frame를 따라하도록...
  • 다시 언급하지만 여기서 기본은 source image s를 deform하는것이다.!!! 여기에 변형할때, 각각의 driving frame에 존재하는 인간 Pose들을 적용하는것!~!!!!!!!
  • Fig2(a)는 이를 설명함.
    image
  • Fig2(a)같은 과정은
    1. 이전 standard pose-guided image generation frameworks와의 차이점은, 우리의 모델에 markovian assumptions(마코비안 가정 ??) 추가하여, 임시적이면서 일관된 비디오을 제작한다.
      • 아마 비디오의 frame을 독립적으로 보지않고, 이전 frame(t-1)을 conditioning하여 현재 frame(t)을 generator한다는 의미로 사용~
        • 독립적으로 본다면, 안의 인공물들이 깜박거리는 문제가 발생한다...라고..( have a lot of flickering artifacts.)
    2. human body의 pixel과 part사이의 대응점 파악하기 위해 DensePose를 적용 > architecture to estimate correspondences between pixels and parts of the human body, in 3D.
      • Riza Alp Guler, Natalia Neverova, and Iasonas Kokkinos. Densepose: Dense human
        pose estimation in the wild. In CVPR, 2018.
      • DensePose(image)가 적용된 initial image P(s)(>아마도 source image s를 의미한듯)와 driving video가 적용된 frame을 image 라 표현.
        • 그래서, 여기서 중요한 의미는 두 인간 이미지사이의 pixel에 관한 대응점정보를 획득된다는 의미 : we obtain a partial correspondence between pixels of any two human images.
      • 결과적으로, 이 대응되는(correspondence)정보를 이용하여, Warp(W)이 가능하다. 즉, image, 그리고, image으로 정교한 그리드 기반 와핑(coarse warp grid) 계산이 가능
        • 이 coarse warp grid는 texture transferestimate motion flow 가 가능케한다.
      • 여기서 주의할점은 DensePose의 성능이 고퀄리티를 보장하지만, 완벽하지 않다는 것이다. 인간탐지와 인간part 미싱등등...
      • 또 하나의 결점은 clothing에 대한 정보 부족~하다. 그러나, 이 정보는 이 연구에서 매우 주요한 key중의 하나이다. (당여히 이 연구의 목적이 옷을 잘 입혀야하니까..ㅎ)
      • 정리하자면, 얼굴속성/몸모양/헤어정보/옷정보가 보존된(잘 추출되어서..) 이들을 정보를 이용하여 video를 generator해야함. > preserving their body shape, facial features, hair and clothing
      • 그리고, 이 정보에 대한 warp grid estimates를 다음과 같이 재정의(또는 좀더 디테일한 설명)한다.
        image
        • 이는 Fig.2 (b) 에 대한 내용.
      • We train this component end-to-end using standard image generation losses.
    3. 정리하면, generator image는 3개의 block으로 구성
      • 3개의 block > Fig.2 a) 참조
        • pose encoder image
        • warp module image
        • decoder image

Warp module

  • Coarse warp grid estimate
  • Refined warp grid estimate
    • DensePose의 부적확성 & self occlusions으로 인한 문제 발생. 더욱더, 인간이 입고있는 옷(outfit)에 대한 운동성에 대해 모델화하지 않았다.
      • 이러한 문제를 위해 correction branch image 도입 > 이미 앞에서 교정된 warp 언급했는데....,
        • 다음과 같음.(위의 반복)
          image
        • warp의 차이점은 bilinear kernel 이용.
        • 이 모델은 local minimums에 빠지기 쉽기 때문에, 해결하기위해 초기화가 중요! 그래서, residual architecture를 가짐.
      • 최종적으로, residual 구조를 가진 correction branch가 이 삽입된 Warp관련 수식은
        image

Training

  • 위에서 언급한 markovian assumption (좀더 알아봐야할듯~ㅎ)고려한 학습
  • 학습과정에서 video에서 4개의 frame을 sampling
    • image
      • 여기서 i는?? > as the source image s
      • i<=N, j<=(N-2) > N는 video안의 모든 frame 수
    • 경험상 4개추출할 때가 temporal consistency & computational efficiency 가장 좋았다고 언급.
  • driving image frame
  • GT image frame
  • 그래서, Generator는 3개 frame을 Generating~!!
    • 먼저~~! 첫번재 frame
      image
    • 이 첫번재 frame을 발생시키고, 다음을 위해 이전 frame으로 정의하고 나머지 frame Generating
      image
  • Loss
    • pix2pixHD 모델 결합
      • adversarial loss를 위해, least square GAN 적용
        image
        • C is the patch bases s critique
    • To drive image reconstruction > feature matching & perceptual losses
      image
      • image 는 k layer의 feature e representation
  • total loss
    image
    • 이때 감마는 10

Experiments

The Fashion Dataset

결과예

image

결론

  • 나름 관심있지만 생소한 분야라..소스가 공개되면, 하나씩 분석해가면서..공부하고싶다.
  • 관련 related paper들을 많이 읽어야함.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant