---
>「もし他人の顔を選んだのなら その『顔』は決してあなたにはなじまない」 \
> 辻彩(ジョジョの奇妙な冒険)
---

# はじめに

ここでは、StyleGANに関連した最新応用例をいくつか紹介する

- SemanticStyleGAN(意味領域編集可能StyleGAN)
- DragGAN(対話的Image Manipulation GAN)
- SadTalker(画像のリップシンク)
- Wav2Lip(動画のリップシンク)

# SemanticStyleGAN(意味領域編集可能StyleGAN)

SemanticStyleGANは、意味領域ごとの編集が可能なStyleGANであり、セマンティックマスクを用いて、潜在空間を意味領域ごとに分けることが可能な学習フレームワークである

特に、既存の画像編集手法と組み合わせることでより細かい編集が可能になっている

## 特徴

StyleGANの潜在変数の意味は比較的曖昧であり、異なる属性同士が相関しているため、属性操作などの編集をしようとした際に予期しない属性や部位が編集されるという問題がある

この問題に対処しつつ、局所的な操作、例えば顔画像の場合だと目だけ編集したり、髪だけ編集するなどを可能とするのがSemanticStyleGANである

SemanticStyleGANを用いて顔画像を編集した例を示す
- 一番上の行に編集した意味領域と参照画像が示されており、指定している意味領域のみがうまく編集されている
- 他の領域に大きな影響を与えていないことがわかる

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ssg1.png" width=700>

## 手法

### どのように領域ごとに切り分けるか

領域ごとのローカル生成器を使い、それらを合成することで最終出力を得るような構造にすることで領域ごとに切り分けている

### 領域ごとの意味付けをどのように行うか。

RGB画像とセマンティックマスクのペアを結合したものを識別器の入力とし、RGB画像とセマンティックマスクの結合分布を学習するという手法で意味づけを行っている


## 構造

次の図は学習フレームワークの全体の概要を示している

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ssg2.png" width=700>

ローカル生成器gk、Fusionモジュール、レンダリングネットワークR、学習方法は以下の通りである

### ローカル生成器

入力が座標を符号化したフーリエ特徴量と潜在変数wで、深度値dkと特徴量fkを出力する

潜在変数はwはwbase、wsk、wtkに分けられており、これらを分けて入力とすることで、Coarse、Structure、Textureに分けて学習することができ、推論時それぞれの要素の操作が可能となる

最終出力画像のサイズを256x256としているが、ローカル生成器は画素ごとに処理を行うため、フーリエ特徴量をそのまま256x256用意する場合計算量が膨大となる
- そこで性能と計算量のバランスをみて、入力のサイズを小さくしフーリエ特徴量を64x64としている

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ssg3.png" width=500>

### Fusionモジュール

ローカル生成器で出力した深度値dkと特徴量fkをFusionモジュールで融合する
- 特徴マップfは、セマンティックマスクmとローカル生成器で出力した特徴量fkのアダマール積であり、(クラス数)x256x256のセマンティックマスクmと特徴マップfが生成される
- レンダリングネットワークRの学習に使われる

### レンダリングネットワークR

レンダリングネットワークRは、StyleGAN2の生成器を改良して利用している
- StyleGAN2のstyle modulationは除外し、入力は特徴マップのみとしている
- 入力の特徴マップは16x16にリサイズしたものを使用しており、広い範囲でのクラス間の特徴を捉えられるようにしている

出力として256x256のRGB画像とセマンティックマスクを得るために出力の分岐を増やしている
- それぞれの分岐では前の段階で出力された画像からの残差を出力する
- 小さい解像度の出力に対し、アップサンプリングと合算を繰り返すことで最終的な解像度の出力を求めている

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ssg4.png" width=400>

### 学習
RGB画像とセマンティックマスクの結合分布を学習するためにそれら両方を識別器の入力としている
- 単純に2つを結合して入力するとセマンティックマスクの勾配が大きいためにうまくいかないため、次のような構造の識別器を用いている
- セグメンテーション側のネットワークにおいてR1正則化で勾配にペナルティを与えることで学習を進めることができる

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ssg5.png" width=400>

最終的なマスクが粗いマスクから大きく外れないようにするため、以下の正則化を損失関数に追加している

$$\mathcal{L}_{all}=\mathcal{L}_{StyleGAN2}+\lambda_{mask}\mathcal{L}_{mask}+\lambda_{R1_{seg}}\mathcal{L}_{R1_{seg}}$$


## 評価

### 潜在空間分離

セマンティックセグメンテーションの領域ごとに分離して画像を生成できているかを確認する
- 領域の成分を徐々に増やしながら生成した結果が以下の画像であり、表示されている擬似深度マップは追加された領域を表す

それぞれの領域が独立して生成できていることがわかる
- 3Dの情報を追加していないが、擬似深度マップは意味のある形状を学習できていることがわかる

<img src="http://class.west.sd.keio.ac.jp/dataai/text/ssg6.png" width=700>

結果として、StyleGAN2を用いた結果では潜在空間のもつれのせいで、編集したい部分以外の無関係な部分まで変更されるケースがあるが、SemanticStyleGANを用いると、領域ごとに潜在空間が分離されているため、無関係なところは変更されず、編集したい部分だけ操作できる


## 動作確認

### 環境セットアップ

### Githubからソースコード取得

In [20]:
%cd /content

!git clone https://github.com/seasonSH/SemanticStyleGAN.git
# for align face
!git clone https://github.com/adamian98/pulse.git

/content
Cloning into 'SemanticStyleGAN'...
remote: Enumerating objects: 175, done.[K
remote: Counting objects: 100% (71/71), done.[K
remote: Compressing objects: 100% (32/32), done.[K
remote: Total 175 (delta 53), reused 39 (delta 39), pack-reused 104 (from 1)[K
Receiving objects: 100% (175/175), 18.57 MiB | 19.15 MiB/s, done.
Resolving deltas: 100% (77/77), done.
Cloning into 'pulse'...
remote: Enumerating objects: 102, done.[K
remote: Total 102 (delta 0), reused 0 (delta 0), pack-reused 102 (from 1)[K
Receiving objects: 100% (102/102), 164.43 MiB | 32.81 MiB/s, done.
Resolving deltas: 100% (46/46), done.


### ライブラリのインストール

In [21]:
%cd /content/SemanticStyleGAN

# ninja
!wget https://github.com/ninja-build/ninja/releases/download/v1.8.2/ninja-linux.zip > /dev/null
!sudo unzip ninja-linux.zip -d /usr/local/bin/ > /dev/null
!sudo update-alternatives --install /usr/bin/ninja ninja /usr/local/bin/ninja 1 --force > /dev/null

!pip install -r requirements.txt

/content/SemanticStyleGAN
--2024-08-25 17:17:06--  https://github.com/ninja-build/ninja/releases/download/v1.8.2/ninja-linux.zip
Resolving github.com (github.com)... 140.82.113.4
Connecting to github.com (github.com)|140.82.113.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/1335132/d2f252e2-9801-11e7-9fbf-bc7b4e4b5c83?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240825%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240825T171706Z&X-Amz-Expires=300&X-Amz-Signature=8cdb504ca8c14bea4004b912cc3a6581076f0f4e60034703c9b7612057686ae2&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=1335132&response-content-disposition=attachment%3B%20filename%3Dninja-linux.zip&response-content-type=application%2Foctet-stream [following]
--2024-08-25 17:17:06--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/1335132/d2f252e2-9801-11e7-9fb

### ライブラリのインポート

In [22]:
%cd /content/SemanticStyleGAN

import os
import argparse
import shutil
import numpy as np
import imageio
import time
import torch

from models import make_model
from visualize.utils import generate, cubic_spline_interpolate

from criteria.lpips import lpips

/content/SemanticStyleGAN


If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].

If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].



### 学習済みモデルのセットアップ

In [23]:
%cd /content/SemanticStyleGAN
!mkdir pretrained

if not os.path.exists('./pretrained/CelebAMask-HQ-512x512.pt'):
  !wget -c https://github.com/seasonSH/SemanticStyleGAN/releases/download/1.0.0/CelebAMask-HQ-512x512.pt \
        -O ./pretrained/CelebAMask-HQ-512x512.pt
if not os.path.exists('./pretrained/BitMoji-512x512.pt'):
  !wget -c https://github.com/seasonSH/SemanticStyleGAN/releases/download/1.0.0/BitMoji-512x512.pt \
        -O ./pretrained/BitMoji-512x512.pt
if not os.path.exists('./pretrained/MetFaces-512x512.pt'):
  !wget -c https://github.com/seasonSH/SemanticStyleGAN/releases/download/1.0.0/MetFaces-512x512.pt \
        -O ./pretrained/MetFaces-512x512.pt
if not os.path.exists('./pretrained/Toonify-512x512.pt'):
  !wget -c https://github.com/seasonSH/SemanticStyleGAN/releases/download/1.0.0/Toonify-512x512.pt \
        -O ./pretrained/Toonify-512x512.pt

/content/SemanticStyleGAN
--2024-08-25 17:20:05--  https://github.com/seasonSH/SemanticStyleGAN/releases/download/1.0.0/CelebAMask-HQ-512x512.pt
Resolving github.com (github.com)... 140.82.113.4
Connecting to github.com (github.com)|140.82.113.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/501463958/53b0a617-7635-41f5-910e-cc255dbcd0f7?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240825%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240825T172005Z&X-Amz-Expires=300&X-Amz-Signature=117b1f10d1217979348ea46afaf465616179b77c10d7de26db9f86dacece0f83&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=501463958&response-content-disposition=attachment%3B%20filename%3DCelebAMask-HQ-512x512.pt&response-content-type=application%2Foctet-stream [following]
--2024-08-25 17:20:05--  https://objects.githubusercontent.com/github-production-release-asset-2e65be/5

### Random Synthesis

In [24]:
%cd /content/SemanticStyleGAN

args = argparse.ArgumentParser()

args.ckpt = './pretrained/CelebAMask-HQ-512x512.pt'
args.outdir = './results/samples'
args.batch = 8
args.sample = 20
args.truncation = 0.7
args.truncation_mean = 10000
args.save_latent = True
args.device = 'cuda'

if os.path.exists(args.outdir):
  shutil.rmtree(args.outdir)
os.makedirs(args.outdir)

print("Loading model ...")
ckpt = torch.load(args.ckpt)
model = make_model(ckpt['args'])
model.to(args.device)
model.eval()
model.load_state_dict(ckpt['g_ema'])
mean_latent = model.style(torch.randn(args.truncation_mean, model.style_dim, device=args.device)).mean(0)

print("Generating images ...")
start_time = time.time()
with torch.no_grad():
  styles = model.style(torch.randn(args.sample, model.style_dim, device=args.device))
  styles = args.truncation * styles + (1-args.truncation) * mean_latent.unsqueeze(0)
  images, segs = generate(model, styles, mean_latent=mean_latent, batch_size=args.batch)
  for i in range(len(images)):
    imageio.imwrite(f"{args.outdir}/{str(i).zfill(6)}_img.jpg", images[i])
    imageio.imwrite(f"{args.outdir}/{str(i).zfill(6)}_seg.jpg", segs[i])
    if args.save_latent:
      np.save(f'{args.outdir}/{str(i).zfill(6)}_latent.npy', styles[i:i+1].cpu().numpy())
print(f"Average speed: {(time.time() - start_time)/(args.sample)}s")

/content/SemanticStyleGAN
Loading model ...
Initializing model with arguments:
{'aug': False,
 'base_layers': 2,
 'batch': 8,
 'channel_multiplier': 2,
 'checkpoint_dir': 'output/celeba-512',
 'ckpt': None,
 'coarse_channel': 512,
 'coarse_size': 64,
 'd_reg_every': 16,
 'dataset': 'dataset/lmdb_celebamaskhq_512',
 'depth_layers': 6,
 'detach_texture': False,
 'distributed': True,
 'g_reg_every': 4,
 'inception': 'cache/cache_fid_celebahq_512_new.pkl',
 'iter': 800000,
 'lambda_mask': 100.0,
 'latent': 512,
 'local_channel': 64,
 'local_layers': 10,
 'local_rank': 0,
 'lr': 0.002,
 'min_feat_size': 16,
 'mixing': 0.3,
 'n_gpu': 4,
 'n_mlp': 8,
 'n_sample': 16,
 'num_workers': 8,
 'path_batch_shrink': 2,
 'path_regularize': 0.5,
 'r1_img': 10,
 'r1_seg': 1000,
 'residual_refine': True,
 'save_every': 10000,
 'seg_dim': 13,
 'size': 512,
 'start_iter': 20000,
 'transparent_dims': (10, 12),
 'viz_every': 2000}
n_latent: 28, n_latent_expand: 130
Generating images ...





Average speed: 0.19217933416366578s


### Generate Video

In [25]:
latent_dict_celeba = {
  2:  "bcg_1",
  3:  "bcg_2",
  4:  "face_shape",
  5:  "face_texture",
  6:  "eye_shape",
  7:  "eye_texture",
  8:  "eyebrow_shape",
  9:  "eyebrow_texture",
  10: "mouth_shape",
  11: "mouth_texture",
  12: "nose_shape",
  13: "nose_texture",
  14: "ear_shape",
  15: "ear_texture",
  16: "hair_shape",
  17: "hair_texture",
  18: "neck_shape",
  19: "neck_texture",
  20: "cloth_shape",
  21: "cloth_texture",
  22: "glass",
  24: "hat",
  26: "earing",
  0:  "coarse_1",
  1:  "coarse_2",
}

In [26]:
%cd /content/SemanticStyleGAN

args = argparse.ArgumentParser()

args.ckpt = './pretrained/CelebAMask-HQ-512x512.pt'
args.latent = './results/samples/000000_latent.npy'
args.outdir = './results/videos'
args.batch = 8
args.sample = 10
args.steps = 160
args.truncation = 0.7
args.truncation_mean = 10000
args.dataset_name = 'celeba'
args.device = 'cuda'


if os.path.exists(args.outdir):
  shutil.rmtree(args.outdir)
os.makedirs(args.outdir)

print("Loading model ...")
ckpt = torch.load(args.ckpt)
model = make_model(ckpt['args'])
model.to(args.device)
model.eval()
model.load_state_dict(ckpt['g_ema'])
mean_latent = model.style(torch.randn(args.truncation_mean, model.style_dim, device=args.device)).mean(0)

print("Generating original image ...")
with torch.no_grad():
  if args.latent is None:
    styles = model.style(torch.randn(1, model.style_dim, device=args.device))
    styles = args.truncation * styles + (1-args.truncation) * mean_latent.unsqueeze(0)
  else:
    styles = torch.tensor(np.load(args.latent), device=args.device)
  if styles.ndim == 2:
    assert styles.size(1) == model.style_dim
    styles = styles.unsqueeze(1).repeat(1, model.n_latent, 1)
  images, segs = generate(model, styles, mean_latent=mean_latent, randomize_noise=False)
  imageio.imwrite(f'{args.outdir}/image.jpeg', images[0])
  imageio.imwrite(f'{args.outdir}/seg.jpeg', segs[0])
print("Generating videos ...")
if args.dataset_name == "celeba":
  latent_dict = latent_dict_celeba
else:
  raise ValueError("Unknown dataset name: f{args.dataset_name}")

with torch.no_grad():
  for latent_index, latent_name in latent_dict.items():
    styles_new = styles.repeat(args.sample, 1, 1)
    mix_styles = model.style(torch.randn(args.sample, 512, device=args.device))
    mix_styles[-1] = mix_styles[0]
    mix_styles = args.truncation * mix_styles + (1-args.truncation) * mean_latent.unsqueeze(0)
    mix_styles = mix_styles.unsqueeze(1).repeat(1,model.n_latent,1)
    styles_new[:,latent_index] = mix_styles[:,latent_index]
    styles_new = cubic_spline_interpolate(styles_new, step=args.steps)
    images, segs = generate(model, styles_new, mean_latent=mean_latent, randomize_noise=False, batch_size=args.batch)
    frames = [np.concatenate((img,seg),1) for (img,seg) in zip(images,segs)]
    imageio.mimwrite(f'{args.outdir}/{latent_index:02d}_{latent_name}.mp4', frames, fps=20)
    print(f"{args.outdir}/{latent_index:02d}_{latent_name}.mp4")

/content/SemanticStyleGAN
Loading model ...
Initializing model with arguments:
{'aug': False,
 'base_layers': 2,
 'batch': 8,
 'channel_multiplier': 2,
 'checkpoint_dir': 'output/celeba-512',
 'ckpt': None,
 'coarse_channel': 512,
 'coarse_size': 64,
 'd_reg_every': 16,
 'dataset': 'dataset/lmdb_celebamaskhq_512',
 'depth_layers': 6,
 'detach_texture': False,
 'distributed': True,
 'g_reg_every': 4,
 'inception': 'cache/cache_fid_celebahq_512_new.pkl',
 'iter': 800000,
 'lambda_mask': 100.0,
 'latent': 512,
 'local_channel': 64,
 'local_layers': 10,
 'local_rank': 0,
 'lr': 0.002,
 'min_feat_size': 16,
 'mixing': 0.3,
 'n_gpu': 4,
 'n_mlp': 8,
 'n_sample': 16,
 'num_workers': 8,
 'path_batch_shrink': 2,
 'path_regularize': 0.5,
 'r1_img': 10,
 'r1_seg': 1000,
 'residual_refine': True,
 'save_every': 10000,
 'seg_dim': 13,
 'size': 512,
 'start_iter': 20000,
 'transparent_dims': (10, 12),
 'viz_every': 2000}
n_latent: 28, n_latent_expand: 130
Generating original image ...
Generating vid

### videoの表示

In [27]:
!pip install moviepy



In [28]:
%cd /content/SemanticStyleGAN

from moviepy.editor import *
from moviepy.video.fx.resize import resize

concat_video = './results/videos/concat.mp4'

clip1 = VideoFileClip('/content/SemanticStyleGAN/results/videos/04_face_shape.mp4')
clip2 = VideoFileClip('/content/SemanticStyleGAN/results/videos/06_eye_shape.mp4')
clip3 = VideoFileClip('/content/SemanticStyleGAN/results/videos/10_mouth_shape.mp4')
clip4 = VideoFileClip('/content/SemanticStyleGAN/results/videos/18_neck_shape.mp4')
clip5 = VideoFileClip('/content/SemanticStyleGAN/results/videos/16_hair_shape.mp4')
clip6 = VideoFileClip('/content/SemanticStyleGAN/results/videos/17_hair_texture.mp4')

concat = clips_array([[clip1, clip2], [clip3, clip4], [clip5, clip6]])
concat.write_videofile(concat_video)

/content/SemanticStyleGAN
Moviepy - Building video ./results/videos/concat.mp4.
Moviepy - Writing video ./results/videos/concat.mp4





Moviepy - Done !
Moviepy - video ready ./results/videos/concat.mp4


In [29]:
concat = resize(concat, width=640)
concat.ipython_display()

Moviepy - Building video __temp__.mp4.
Moviepy - Writing video __temp__.mp4



                                                              

Moviepy - Done !
Moviepy - video ready __temp__.mp4




### 潜在ベクトルを求める(invert)

In [30]:
%cd /content/SemanticStyleGAN
!rm -rf test_img
!mkdir -p test_img/src test_img/align

!wget -c https://www.pakutaso.com/shared/img/thumb/kuchikomi725_TP_V.jpg \
      -O ./test_img/src/test1.jpg

%cd /content/pulse
!python align_face.py \
  -input_dir /content/SemanticStyleGAN/test_img/src \
  -output_dir /content/SemanticStyleGAN/test_img/align \
  -output_size 512 \
  -seed 12

/content/SemanticStyleGAN
--2024-08-25 17:34:10--  https://www.pakutaso.com/shared/img/thumb/kuchikomi725_TP_V.jpg
Resolving www.pakutaso.com (www.pakutaso.com)... 133.242.30.52
Connecting to www.pakutaso.com (www.pakutaso.com)|133.242.30.52|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 118905 (116K) [image/jpeg]
Saving to: ‘./test_img/src/test1.jpg’


2024-08-25 17:34:11 (468 KB/s) - ‘./test_img/src/test1.jpg’ saved [118905/118905]

/content/pulse
Downloading Shape Predictor
Downloading https://drive.google.com/uc?id=1huhv8PYpNNKbGCLOaYUjOgR1pY5pmbJx ... done
test1.jpg: Number of faces detected: 1


In [31]:
%cd /content/SemanticStyleGAN
!cp visualize/invert.py invert.py

!python invert.py \
  --ckpt pretrained/CelebAMask-HQ-512x512.pt \
  --imgdir test_img/align \
  --outdir results/inversion \
  --size 512

/content/SemanticStyleGAN
If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].
If this is not desired, please set os.environ['TORCH_CUDA_ARCH_LIST'].
Namespace(ckpt='pretrained/CelebAMask-HQ-512x512.pt', imgdir='test_img/align', outdir='results/inversion', size=512, batch_size=1, no_noises=True, w_plus=True, save_steps=False, truncation=1, lr=0.1, lr_g=0.0001, step=400, finetune_step=0, noise_regularize=10, lambda_mse=0.1, lambda_lpips=1.0, lambda_mean=1.0)
Loading model ...
Initializing model with arguments:
{'aug': False,
 'base_layers': 2,
 'batch': 8,
 'channel_multiplier': 2,
 'checkpoint_dir': 'output/celeba-512',
 'ckpt': None,
 'coarse_channel': 512,
 'coarse_size': 64,
 'd_reg_every': 16,
 'dataset': 'dataset/lmdb_celebamaskhq_512',
 'depth_layers': 6,
 'detach_texture': False,
 'distributed': True,
 'g_reg_every': 4,
 'inception': 'cache/cache_fid_celebahq_512_new.pkl',
 'iter': 800000,
 'lambda_mask': 100.0,
 'latent': 512,
 'local_channel': 64,
 'local_lay

### ビット文字画像の取得

In [32]:
%cd /content/SemanticStyleGAN

args = argparse.ArgumentParser()

args.ckpt = './pretrained/BitMoji-512x512.pt'
args.latent = './results/inversion/latent/test1_0.npy'
args.outdir = './results/style_BitMoji'
args.truncation = 0.7
args.truncation_mean = 10000
args.device = 'cuda'

if os.path.exists(args.outdir):
  shutil.rmtree(args.outdir)
os.makedirs(args.outdir)

print("Loading model ...")
ckpt = torch.load(args.ckpt)
model = make_model(ckpt['args'])
model.to(args.device)
model.eval()
model.load_state_dict(ckpt['g_ema'])
mean_latent = model.style(torch.randn(args.truncation_mean, model.style_dim, device=args.device)).mean(0)

print("Generating original image ...")
with torch.no_grad():
  if args.latent is None:
    styles = model.style(torch.randn(1, model.style_dim, device=args.device))
    styles = args.truncation * styles + (1-args.truncation) * mean_latent.unsqueeze(0)
  else:
    styles = torch.tensor(np.load(args.latent), device=args.device)
  if styles.ndim == 2:
    assert styles.size(1) == model.style_dim
    styles = styles.unsqueeze(1).repeat(1, model.n_latent, 1)
  images, segs = generate(model, styles, mean_latent=mean_latent, randomize_noise=False)
  imageio.imwrite(f'{args.outdir}/image.jpeg', images[0])
  imageio.imwrite(f'{args.outdir}/seg.jpeg', segs[0])

/content/SemanticStyleGAN
Loading model ...
Initializing model with arguments:
{'aug': False,
 'base_layers': 2,
 'batch': 8,
 'channel_multiplier': 2,
 'checkpoint_dir': 'checkpoint/domain_adaptation/bitmoji_all/',
 'ckpt': 'checkpoint/cleaned/6827534-120000.pt',
 'coarse_channel': 512,
 'coarse_size': 64,
 'd_reg_every': 16,
 'dataset': 'dataset/lmdb_bitmoji_512',
 'depth_layers': 6,
 'detach_texture': False,
 'distributed': True,
 'freeze_local': False,
 'g_reg_every': 4,
 'iter': 2000,
 'lambda_mask': 0.0,
 'latent': 512,
 'local_channel': 64,
 'local_layers': 10,
 'local_rank': 0,
 'lr': 0.002,
 'min_feat_size': 16,
 'mixing': 0.3,
 'n_gpu': 2,
 'n_mlp': 8,
 'n_sample': 16,
 'num_workers': 8,
 'path_batch_shrink': 2,
 'path_regularize': 0.5,
 'r1': 10,
 'residual_refine': True,
 'save_every': 100,
 'seg_dim': 13,
 'size': 512,
 'start_iter': 0,
 'transparent_dims': (10, 12),
 'viz_every': 100}
n_latent: 28, n_latent_expand: 130
Generating original image ...


### MetFaces画像の取得

In [33]:
%cd /content/SemanticStyleGAN

args = argparse.ArgumentParser()

args.ckpt = './pretrained/MetFaces-512x512.pt'
args.latent = './results/inversion/latent/test1_0.npy'
args.outdir = './results/style_MetFaces'
args.truncation = 0.7
args.truncation_mean = 10000
args.device = 'cuda'

if os.path.exists(args.outdir):
  shutil.rmtree(args.outdir)
os.makedirs(args.outdir)

print("Loading model ...")
ckpt = torch.load(args.ckpt)
model = make_model(ckpt['args'])
model.to(args.device)
model.eval()
model.load_state_dict(ckpt['g_ema'])
mean_latent = model.style(torch.randn(args.truncation_mean, model.style_dim, device=args.device)).mean(0)

print("Generating original image ...")
with torch.no_grad():
  if args.latent is None:
    styles = model.style(torch.randn(1, model.style_dim, device=args.device))
    styles = args.truncation * styles + (1-args.truncation) * mean_latent.unsqueeze(0)
  else:
    styles = torch.tensor(np.load(args.latent), device=args.device)
  if styles.ndim == 2:
    assert styles.size(1) == model.style_dim
    styles = styles.unsqueeze(1).repeat(1, model.n_latent, 1)
  images, segs = generate(model, styles, mean_latent=mean_latent, randomize_noise=False)
  imageio.imwrite(f'{args.outdir}/image.jpeg', images[0])
  imageio.imwrite(f'{args.outdir}/seg.jpeg', segs[0])

/content/SemanticStyleGAN
Loading model ...
Initializing model with arguments:
{'aug': False,
 'base_layers': 2,
 'batch': 8,
 'channel_multiplier': 2,
 'checkpoint_dir': 'checkpoint/domain_adaptation/metfaces/',
 'ckpt': 'checkpoint/cleaned/6827534-120000.pt',
 'coarse_channel': 512,
 'coarse_size': 64,
 'd_reg_every': 16,
 'dataset': 'dataset/lmdb_metfaces_512',
 'depth_layers': 6,
 'detach_texture': False,
 'distributed': True,
 'freeze_local': True,
 'g_reg_every': 4,
 'iter': 2001,
 'lambda_mask': 0.0,
 'latent': 512,
 'local_channel': 64,
 'local_layers': 10,
 'local_rank': 0,
 'lr': 0.002,
 'min_feat_size': 16,
 'mixing': 0.3,
 'n_gpu': 2,
 'n_mlp': 8,
 'n_sample': 16,
 'num_workers': 8,
 'path_batch_shrink': 2,
 'path_regularize': 0.5,
 'r1': 10,
 'residual_refine': True,
 'save_every': 200,
 'seg_dim': 13,
 'size': 512,
 'start_iter': 0,
 'transparent_dims': (10, 12),
 'viz_every': 100}
n_latent: 28, n_latent_expand: 130
Generating original image ...


In [34]:
%cd /content/SemanticStyleGAN

args = argparse.ArgumentParser()

args.ckpt = './pretrained/Toonify-512x512.pt'
args.latent = './results/inversion/latent/test1_0.npy'
args.outdir = './results/style_Toonify'
args.truncation = 0.7
args.truncation_mean = 10000
args.device = 'cuda'

if os.path.exists(args.outdir):
  shutil.rmtree(args.outdir)
os.makedirs(args.outdir)

print("Loading model ...")
ckpt = torch.load(args.ckpt)
model = make_model(ckpt['args'])
model.to(args.device)
model.eval()
model.load_state_dict(ckpt['g_ema'])
mean_latent = model.style(torch.randn(args.truncation_mean, model.style_dim, device=args.device)).mean(0)

print("Generating original image ...")
with torch.no_grad():
  if args.latent is None:
    styles = model.style(torch.randn(1, model.style_dim, device=args.device))
    styles = args.truncation * styles + (1-args.truncation) * mean_latent.unsqueeze(0)
  else:
    styles = torch.tensor(np.load(args.latent), device=args.device)
  if styles.ndim == 2:
    assert styles.size(1) == model.style_dim
    styles = styles.unsqueeze(1).repeat(1, model.n_latent, 1)
  images, segs = generate(model, styles, mean_latent=mean_latent, randomize_noise=False)
  imageio.imwrite(f'{args.outdir}/image.jpeg', images[0])
  imageio.imwrite(f'{args.outdir}/seg.jpeg', segs[0])

/content/SemanticStyleGAN
Loading model ...
Initializing model with arguments:
{'aug': False,
 'base_layers': 2,
 'batch': 8,
 'channel_multiplier': 2,
 'checkpoint_dir': 'checkpoint/domain_adaptation/toonify/',
 'ckpt': 'checkpoint/cleaned/6827534-120000.pt',
 'coarse_channel': 512,
 'coarse_size': 64,
 'd_reg_every': 16,
 'dataset': '/mnt/bd/yshi-dataset-generation-lq//face_dataset/MegaCartoon/lmdb_mega_512/',
 'depth_layers': 6,
 'detach_texture': False,
 'distributed': True,
 'freeze_local': True,
 'g_reg_every': 4,
 'iter': 1001,
 'lambda_mask': 0.0,
 'latent': 512,
 'local_channel': 64,
 'local_layers': 10,
 'local_rank': 0,
 'lr': 0.002,
 'min_feat_size': 16,
 'mixing': 0.3,
 'n_gpu': 2,
 'n_mlp': 8,
 'n_sample': 16,
 'num_workers': 8,
 'path_batch_shrink': 2,
 'path_regularize': 0.5,
 'r1': 10,
 'residual_refine': True,
 'save_every': 200,
 'seg_dim': 13,
 'size': 512,
 'start_iter': 0,
 'transparent_dims': (10, 12),
 'viz_every': 100}
n_latent: 28, n_latent_expand: 130
Generat

結果はresultsディレクトリの中に格納されているので確認するとよい

# DragGAN(対話的Image Manipulation GAN)

DragGANは、画像の任意の点をドラッグし、ユーザーと対話的な方法でGANを制御することで画像を操作するImage Manipulation技術の一つ

プロンプトなどで画像を操作するのが一般的であるが、マウスなどを用いて与えた注目点と目標点(複数でもよい)について、注目点が目標点に向かって矛盾なくスムーズに移動するように画像を生成する

- 画像上のいくつかのハンドルポイント(赤)とターゲットポイント(青)をクリックすれば、対応するターゲットポイントに正確に到達するように操作点が移動する
- オプションで、画像の残りの部分を固定したまま、フレキシブルな領域(明るい領域)のマスクを指定できる

以下に例を示す

<img src="http://class.west.sd.keio.ac.jp/dataai/text/draggansamples.jpg" width=900>

実際の操作はつぎのようなイメージである

<img src="http://class.west.sd.keio.ac.jp/dataai/text/DragGAN.gif" width=600>



## 構造



特徴ベースの動き監視(feature-based motion supervision)と、ポイントをローカライズし続けるための点追跡(point tracking approach)の2つの主要コンポーネントにより柔軟な画像操作を実現している

処理の流れは次のとおりである

- GANで生成された画像が与えられ、ユーザーはいくつかの操作点(赤い点)、ターゲットポイント(青い点)、オプションとして編集中の可動領域を示すマスク(明るい領域を設定する

- 動き監視と点追跡を繰り返し実行する
  - 動き監視では操作点(赤い点)をターゲットポイント(青い点)に向かって移動させる
  - 点追跡では画像内のオブジェクトを追跡するために操作点を更新する
  
<img src="http://class.west.sd.keio.ac.jp/dataai/text/dragganflow.jpg" width=900>

GANの学習された生成画像多様体上(潜在空間内)で移動が実行されるため、オクルージョン(手前の物体で後ろの物体が隠れるような状況)されたコンテンツや、物体の剛性に一貫して従う形状の変形でも、現実的な出力を生成しようとする

<img src="http://class.west.sd.keio.ac.jp/dataai/text/dragganarch.jpg" width=900>

## 実験

### 環境構築

In [35]:
%cd /content

!git clone https://github.com/XingangPan/DragGAN.git

%cd /content/DragGAN
# Commits on Jun 30, 2023
!git checkout 1a2d37d03ded94fea3caa6e1eda99e60a9980b23

/content
Cloning into 'DragGAN'...
remote: Enumerating objects: 422, done.[K
remote: Counting objects: 100% (183/183), done.[K
remote: Compressing objects: 100% (107/107), done.[K
remote: Total 422 (delta 113), reused 80 (delta 76), pack-reused 239 (from 1)[K
Receiving objects: 100% (422/422), 34.08 MiB | 22.03 MiB/s, done.
Resolving deltas: 100% (169/169), done.
/content/DragGAN
Note: switching to '1a2d37d03ded94fea3caa6e1eda99e60a9980b23'.

You are in 'detached HEAD' state. You can look around, make experimental
changes and commit them, and you can discard any commits you make in this
state without impacting any branches by switching back to a branch.

If you want to create a new branch to retain commits you create, you may
do so (now or later) by using -c with the switch command. Example:

  git switch -c <new-branch-name>

Or undo this operation with:

  git switch -

Turn off this advice by setting config variable advice.detachedHead to false

HEAD is now at 1a2d37d Merge pull

### ライブラリの導入

In [36]:
%cd /content/DragGAN

!pip install -r requirements.txt
!pip install Pillow==9.5.0

/content/DragGAN
Collecting scipy==1.11.0 (from -r requirements.txt (line 2))
  Downloading scipy-1.11.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (59 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.1/59.1 kB[0m [31m3.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting Ninja==1.10.2 (from -r requirements.txt (line 3))
  Downloading ninja-1.10.2-py2.py3-none-manylinux_2_5_x86_64.manylinux1_x86_64.whl.metadata (5.0 kB)
Collecting gradio>=3.35.2 (from -r requirements.txt (line 4))
  Downloading gradio-4.42.0-py3-none-any.whl.metadata (15 kB)
Collecting hf_transfer (from -r requirements.txt (line 7))
  Downloading hf_transfer-0.1.8-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (1.7 kB)
Collecting imgui (from -r requirements.txt (line 9))
  Downloading imgui-2.0.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.0 kB)
Collecting glfw==2.6.1 (from -r requirements.txt (line 10))
  Downloading glfw-2.6.

### 学習済みモデルの導入

In [37]:
models_dict = {
  "https://storage.googleapis.com/self-distilled-stylegan/lions_512_pytorch.pkl": "stylegan2_lions_512_pytorch.pkl",
  "https://storage.googleapis.com/self-distilled-stylegan/dogs_1024_pytorch.pkl": "stylegan2_dogs_1024_pytorch.pkl",
  "https://storage.googleapis.com/self-distilled-stylegan/horses_256_pytorch.pkl": "stylegan2_horses_256_pytorch.pkl",
  "https://storage.googleapis.com/self-distilled-stylegan/elephants_512_pytorch.pkl": "stylegan2_elephants_512_pytorch.pkl",
  "https://api.ngc.nvidia.com/v2/models/nvidia/research/stylegan2/versions/1/files/stylegan2-ffhq-512x512.pkl": "stylegan2-ffhq-512x512.pkl",
  "https://api.ngc.nvidia.com/v2/models/nvidia/research/stylegan2/versions/1/files/stylegan2-afhqcat-512x512.pkl": "stylegan2-afhqcat-512x512.pkl",
  "http://d36zk2xti64re0.cloudfront.net/stylegan2/networks/stylegan2-car-config-f.pkl": "stylegan2-car-config-f.pkl",
  "http://d36zk2xti64re0.cloudfront.net/stylegan2/networks/stylegan2-cat-config-f.pkl": "stylegan2-cat-config-f.pkl"
}

In [38]:
%cd /content/DragGAN

!mkdir checkpoints

for k, v in models_dict.items():
  dst = './checkpoints/' + v
  !wget -c {k} \
        -O {dst}

/content/DragGAN
--2024-08-25 17:37:37--  https://storage.googleapis.com/self-distilled-stylegan/lions_512_pytorch.pkl
Resolving storage.googleapis.com (storage.googleapis.com)... 74.125.137.207, 142.250.101.207, 142.251.2.207, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|74.125.137.207|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 363965313 (347M) [application/octet-stream]
Saving to: ‘./checkpoints/stylegan2_lions_512_pytorch.pkl’


2024-08-25 17:37:41 (86.5 MB/s) - ‘./checkpoints/stylegan2_lions_512_pytorch.pkl’ saved [363965313/363965313]

--2024-08-25 17:37:41--  https://storage.googleapis.com/self-distilled-stylegan/dogs_1024_pytorch.pkl
Resolving storage.googleapis.com (storage.googleapis.com)... 74.125.137.207, 142.250.101.207, 142.251.2.207, ...
Connecting to storage.googleapis.com (storage.googleapis.com)|74.125.137.207|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 381630441 (364M) [application/octet

### Gradioを実行する

Gradioは、機械学習モデルのデモを行うWebアプリケーションを簡単に作ることができるPythonのライブラリであり、Gradioで作成したWebアプリケーションは、HuggingFaceのSpacesでアプリを公開することができる

Gradioを利用することで、インタラクティブなWeb UIアプリケーションを設計できる

In [39]:
%cd /content/DragGAN

!python visualizer_drag_gradio.py

/content/DragGAN
File under cache_dir (./checkpoints):
['stylegan2_dogs_1024_pytorch.pkl', 'stylegan2_lions_512_pytorch.pkl', 'stylegan2_elephants_512_pytorch.pkl', 'stylegan2-ffhq-512x512.pkl', 'stylegan2-cat-config-f.pkl', 'stylegan2_horses_256_pytorch.pkl', 'stylegan2-car-config-f.pkl', 'stylegan2-afhqcat-512x512.pkl']
Valid checkpoint file:
{'stylegan2_dogs_1024_pytorch': './checkpoints/stylegan2_dogs_1024_pytorch.pkl', 'stylegan2_lions_512_pytorch': './checkpoints/stylegan2_lions_512_pytorch.pkl', 'stylegan2_elephants_512_pytorch': './checkpoints/stylegan2_elephants_512_pytorch.pkl', 'stylegan2-ffhq-512x512': './checkpoints/stylegan2-ffhq-512x512.pkl', 'stylegan2-cat-config-f': './checkpoints/stylegan2-cat-config-f.pkl', 'stylegan2_horses_256_pytorch': './checkpoints/stylegan2_horses_256_pytorch.pkl', 'stylegan2-car-config-f': './checkpoints/stylegan2-car-config-f.pkl', 'stylegan2-afhqcat-512x512': './checkpoints/stylegan2-afhqcat-512x512.pkl'}
Loading "./checkpoints/stylegan2_lio

# チェックポイント

一度ここで中断し、次のセルから再度実行すること

In [40]:
#from google.colab import runtime
#runtime.unassign()

# SadTalker(画像のリップシンク)

顔画像と音声の一部から自然に会話する動画を構築しようとすると、不自然な頭の動きや、歪んだ表情、アイデンティティの修正など、多くの課題がある

この問題の一因は、結合された2次元運動場から学習した場合、実際には3次元であることから生じているといえる

しかしながら、3次元情報を明示的に利用しても、表情が硬く、映像に連続性がなくなり不自然になるという問題が残る場合がある

そこで、SadTalkerは次の方針がとられている

- 音声から3DMM(3D Morphable Model)の3D動き係数(頭部ポーズ、表情)を生成し、3Dに基づく顔レンダリングによりトーキングヘッドを生成する

- 現実的な動き係数を学習するため、音声と様々なトーキングヘッドの動き係数の間の接続を個別かつ明示的にモデル化する

- この係数と3Dレンダリングされた顔の両方を蒸留することにより、音声から正確な表情を学習するExpNetを用いる
  - ここでモデルの蒸留とは、既存モデルの入力と出力のペアを元に新たなモデルの学習を行い、既存モデルとよく似たモデルを作成すること

- 頭部ポーズについて、条件付きVAEを介してPoseVAEを設計し、様々なスタイルの頭部モーションを合成する

- 最後に、生成された3D運動係数を、顔レンダリングの教師なし3Dキーポイント空間にマッピングして、映像を合成する

音声で顔画像を自然に動かすWebサービスD-IDと同様な機能を持つ

SadTalkerのパイプライン(Pipeline)を次の図に示す

<img src="http://class.west.sd.keio.ac.jp/dataai/text/sadtalker.png" width="600">

次の手順で処理を進める
- 顔画像(Single Input Image)から3Dの顔画像を再構築(Monocular 3D Face Recon)し、表情係数(Expression Coefficients)と頭のポーズ係数(Head Pose Coefficients)を抽出する
- 音声(Input Audio)から頭のポーズを学習するネットワーク(PoseVAE)と表情を学習するネットワーク(ExpNet)を用いて、これらの係数がどう変化するのかを求める
- 係数を元に3D対応の顔のレンダリング(3D-Aware Face Render)で合成されフレーム(Generated Frames)を生成する



## 環境構築


In [41]:
!update-alternatives --install /usr/local/bin/python3 python3 /usr/bin/python3.8 2
!update-alternatives --install /usr/local/bin/python3 python3 /usr/bin/python3.9 1
!python --version
!apt-get update
!apt install software-properties-common
!sudo dpkg --remove --force-remove-reinstreq python3-pip python3-setuptools python3-wheel
!apt-get install python3-pip

print('Git clone project and install requirements...')
!git clone https://github.com/cedro3/SadTalker.git &> /dev/null
%cd SadTalker
!export PYTHONPATH=/content/SadTalker:$PYTHONPATH
!python3.8 -m pip install torch==1.12.1+cu113 torchvision==0.13.1+cu113 torchaudio==0.12.1 --extra-index-url https://download.pytorch.org/whl/cu113
!apt update
!apt install ffmpeg &> /dev/null
!python3.8 -m pip install -r requirements.txt


update-alternatives: error: alternative path /usr/bin/python3.8 doesn't exist
update-alternatives: error: alternative path /usr/bin/python3.9 doesn't exist
Python 3.10.12
Get:1 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease [3,626 B]
Get:2 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease [1,581 B]
Get:3 http://security.ubuntu.com/ubuntu jammy-security InRelease [129 kB]
Ign:4 https://r2u.stat.illinois.edu/ubuntu jammy InRelease
Get:5 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  Packages [945 kB]
Get:6 https://r2u.stat.illinois.edu/ubuntu jammy Release [5,713 B]
Hit:7 http://archive.ubuntu.com/ubuntu jammy InRelease
Get:8 https://r2u.stat.illinois.edu/ubuntu jammy Release.gpg [793 B]
Get:9 http://archive.ubuntu.com/ubuntu jammy-updates InRelease [128 kB]
Get:10 https://r2u.stat.illinois.edu/ubuntu jammy/main amd64 Packages [2,556 kB]
Hit:11 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jam

In [42]:
!pip install safetensors
!pip install kornia
!pip install facexlib
!pip install yacs
!pip install pydub
!pip install gfpgan

Collecting kornia
  Downloading kornia-0.7.3-py2.py3-none-any.whl.metadata (7.7 kB)
Collecting kornia-rs>=0.1.0 (from kornia)
  Downloading kornia_rs-0.1.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (8.7 kB)
Downloading kornia-0.7.3-py2.py3-none-any.whl (833 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m833.3/833.3 kB[0m [31m15.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading kornia_rs-0.1.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m46.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: kornia-rs, kornia
Successfully installed kornia-0.7.3 kornia-rs-0.1.5
Collecting facexlib
  Downloading facexlib-0.3.0-py3-none-any.whl.metadata (4.6 kB)
Collecting filterpy (from facexlib)
  Downloading filterpy-1.4.5.zip (177 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m178.0/178.0 kB[0m [31m6.1 MB/s[0m et

## モデルのダウンロード

In [43]:
print('Download pre-trained models...')
!rm -rf checkpoints
!bash scripts/download_models.sh

Download pre-trained models...
--2024-08-25 17:39:42--  https://github.com/OpenTalker/SadTalker/releases/download/v0.0.2-rc/mapping_00109-model.pth.tar
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://objects.githubusercontent.com/github-production-release-asset-2e65be/569518584/ccc415aa-c6f4-47ee-8250-b10bf440ba62?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=releaseassetproduction%2F20240825%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20240825T173943Z&X-Amz-Expires=300&X-Amz-Signature=2df8c6f5041b16bbb8967d4d1455e9fef93d7c4011f1b5d62c9c65bb67113ab5&X-Amz-SignedHeaders=host&actor_id=0&key_id=0&repo_id=569518584&response-content-disposition=attachment%3B%20filename%3Dmapping_00109-model.pth.tar&response-content-type=application%2Foctet-stream [following]
--2024-08-25 17:39:43--  https://objects.githubusercontent.com/github-production-release-asse

## 推論

バージョン間の齟齬があり、そのままでは動作しないためパッチをあてる

In [44]:
!sed -i 's/from torchvision.transforms.functional_tensor import rgb_to_grayscale/from torchvision.transforms.functional import rgb_to_grayscale/' /usr/local/lib/python3.10/dist-packages/basicsr/data/degradations.py
!sed -i 's/np.float/float/' /usr/local/lib/python3.10/dist-packages/facexlib/alignment/awing_arch.py
!sed -iE '/trans_params = np.array/s/)$/, dtype=object)/' src/face3d/util/preprocess.py

In [45]:
image ='full3.png'
audio ='eluosi.wav'
source_image = 'examples/source_image/' + image
driven_audio = 'examples/driven_audio/' + audio

!python inference.py --driven_audio $driven_audio \
           --source_image $source_image \
           --result_dir ./results --enhancer gfpgan

using safetensor as default
3DMM Extraction for source image
landmark Det:: 100% 1/1 [00:00<00:00,  7.77it/s]
3DMM Extraction In Video:: 100% 1/1 [00:00<00:00, 11.43it/s]
mel:: 100% 154/154 [00:00<00:00, 44298.94it/s]
audio2exp:: 100% 16/16 [00:00<00:00, 121.54it/s]
Face Renderer:: 100% 77/77 [00:44<00:00,  1.74it/s]
The generated video is named ./results/2024_08_25_17.40.17/full3##eluosi.mp4
face enhancer....
Face Enhancer:: 100% 154/154 [00:52<00:00,  2.91it/s]
The generated video is named ./results/2024_08_25_17.40.17/full3##eluosi_enhanced.mp4
The generated video is named: ./results/2024_08_25_17.40.17.mp4


## 動画の再生(日本語)

In [46]:
import glob
from IPython.display import HTML
from base64 import b64encode
import os, sys

# Check if any mp4 files exist
mp4_files = glob.glob('./results/*.mp4')
if mp4_files:
    # get the last from results
    mp4_name = sorted(mp4_files)[-1]

    mp4 = open('{}'.format(mp4_name),'rb').read()
    data_url = "data:video/mp4;base64," + b64encode(mp4).decode()

    print('Display animation: {}'.format(mp4_name), file=sys.stderr)
    display(HTML("""
      <video width=256 controls>
            <source src="%s" type="video/mp4">
      </video>
      """ % data_url))
else:
    print("No mp4 files found in './results'. Check if 'inference.py' ran successfully and generated output.")
    # List the contents of the results directory for debugging
    print("Contents of './results':", os.listdir('./results'))

Display animation: ./results/2024_08_25_17.40.17.mp4


In [47]:
!pwd

/content/DragGAN/SadTalker


In [48]:
import glob
from IPython.display import HTML
from base64 import b64encode
import os, sys

# get the last from results
mp4_name = sorted(glob.glob('./results/*.mp4'))[-1]

mp4 = open('{}'.format(mp4_name),'rb').read()
data_url = "data:video/mp4;base64," + b64encode(mp4).decode()

print('Display animation: {}'.format(mp4_name), file=sys.stderr)
display(HTML("""
  <video width=256 controls>
        <source src="%s" type="video/mp4">
  </video>
  """ % data_url))

Display animation: ./results/2024_08_25_17.40.17.mp4


## 推論(日本語)

imageに画像ファイル名を、audioに音声ファイル名を指定する

In [49]:
image ='full3.png'
audio ='oshirase.wav'
source_image = 'examples/source_image/' + image
driven_audio = 'examples/driven_audio/' + audio

!python inference.py --driven_audio $driven_audio \
           --source_image $source_image \
           --result_dir ./results --still --preprocess full --enhancer gfpgan

using safetensor as default
3DMM Extraction for source image
landmark Det:: 100% 1/1 [00:00<00:00,  8.35it/s]
3DMM Extraction In Video:: 100% 1/1 [00:00<00:00, 17.12it/s]
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/librosa/core/audio.py", line 176, in load
    y, sr_native = __soundfile_load(path, offset, duration, dtype)
  File "/usr/local/lib/python3.10/dist-packages/librosa/core/audio.py", line 209, in __soundfile_load
    context = sf.SoundFile(path)
  File "/usr/local/lib/python3.10/dist-packages/soundfile.py", line 658, in __init__
    self._file = self._open(file, mode_int, closefd)
  File "/usr/local/lib/python3.10/dist-packages/soundfile.py", line 1216, in _open
    raise LibsndfileError(err, prefix="Error opening {0!r}: ".format(self.name))
soundfile.LibsndfileError: Error opening 'examples/driven_audio/oshirase.wav': System error.

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  

## 動画の再生(日本語)

In [50]:
import glob
from IPython.display import HTML
from base64 import b64encode
import os, sys

# get the last from results
mp4_name = sorted(glob.glob('./results/*.mp4'))[-1]

mp4 = open('{}'.format(mp4_name),'rb').read()
data_url = "data:video/mp4;base64," + b64encode(mp4).decode()

print('Display animation: {}'.format(mp4_name), file=sys.stderr)
display(HTML("""
  <video width=256 controls>
        <source src="%s" type="video/mp4">
  </video>
  """ % data_url))

Display animation: ./results/2024_08_25_17.40.17.mp4


# チェックポイント

一度ここで中断し、次のセルから再度実行すること

In [51]:
#from google.colab import runtime
#runtime.unassign()

# Wav2Lip(動画のリップシンク)

Wav2Lipはlip-syncingと呼ばれる、任意のビデオに映る人物の唇の動きを、任意の音声に一致させる技術の一実装である

静止画であれば、座標軸を動かしてモーフィングさせることは容易であるが、動的で制約のない会話中の顔のビデオで同様のことを行うためには、唇の動きそのものを正確に捉えて、その都度正しくモーフィングさせることが必要となるため、違和感なく音声と同期させることが困難となる

<img src="http://class.west.sd.keio.ac.jp/dataai/text/wav2lip1.jpg" width=900>

Wav2Lipでは、事前に訓練されたPre-trained Lip-Sync Expertを基底として学習させることで正確なリップシンクを生成するとともに、やはり事前訓練されたDiscriminatorを用いてリップシンクエラーを検出し修正することで視覚品質を向上させる

リップシンクエラーを検出する際には、事前に訓練された識別器を使用するが、ノイズを含めて生成した顔でさらに微調整を行うと、識別器のリップシンク測定能力が低下し、生成される唇の形状にも影響を与えることができる

さらに、視覚的品質識別器により同期精度とともに視覚的品質を向上させる

<img src="http://class.west.sd.keio.ac.jp/dataai/text/wav2lip2.jpg" width=900>


## 環境構築

コードツリーを取得する

In [52]:
%cd /content

!git clone https://github.com/zabique/Wav2Lip

# Commits on Aug 10, 2021使用
%cd /content/Wav2Lip
!git checkout b9759a3467cb1b7519f1a3b91f5a84cb4bc1ae4a

/content
fatal: destination path 'Wav2Lip' already exists and is not an empty directory.
/content/Wav2Lip
M	audio.py
HEAD is now at b9759a3 Update README.md


ライブラリのインストールする

In [53]:
%cd /content/Wav2Lip

!pip install -r requirements.txt
!pip install moviepy imageio
!pip install librosa

/content/Wav2Lip
Collecting librosa==0.7.0 (from -r requirements.txt (line 1))
  Using cached librosa-0.7.0.tar.gz (1.6 MB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting numpy==1.17.1 (from -r requirements.txt (line 2))
  Using cached numpy-1.17.1.zip (6.5 MB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
[31mERROR: Ignored the following yanked versions: 3.4.11.39, 3.4.17.61, 4.4.0.42, 4.4.0.44, 4.5.4.58, 4.5.5.62, 4.7.0.68[0m[31m
[0m[31mERROR: Could not find a version that satisfies the requirement opencv-python==4.1.0.25 (from versions: 3.4.0.14, 3.4.10.37, 3.4.11.41, 3.4.11.43, 3.4.11.45, 3.4.13.47, 3.4.15.55, 3.4.16.57, 3.4.16.59, 3.4.17.63, 3.4.18.65, 4.3.0.38, 4.4.0.40, 4.4.0.46, 4.5.1.48, 4.5.3.56, 4.5.4.60, 4.5.5.64, 4.6.0.66, 4.7.0.72, 4.8.0.74, 4.8.0.76, 4.8.1.78, 4.9.0.80, 4.10.0.82, 4.10.0.84)[0m[31m
[0m[31mERROR: No matching distribution found for opencv-python==4.1.0.25[0m[31m


ライブラリをインポートする

In [54]:
%cd /content/Wav2Lip

from moviepy.video.fx.resize import resize
from moviepy.editor import VideoFileClip
from IPython.display import Audio, display

/content/Wav2Lip


学習済みモデルのセットアップを行う

In [55]:
%cd /content/Wav2Lip

#download the pretrained model
!wget -c https://iiitaphyd-my.sharepoint.com/personal/radrabha_m_research_iiit_ac_in/_layouts/15/download.aspx?share=EdjI7bZlgApMqsVoEUUXpLsBxqXbn5z8VTmoxp55YNDcIA \
      -O ./checkpoints/wav2lip_gan.pth
!wget -c https://iiitaphyd-my.sharepoint.com/:u:/g/personal/radrabha_m_research_iiit_ac_in/Eb3LEzbfuKlJiR600lQWRxgBIY27JZg80f7V9jtMfbNDaQ?e=TBFBVW \
      -O ./checkpoints/wav2lip.pth
!pip install https://raw.githubusercontent.com/AwaleSajil/ghc/master/ghc-1.0-py3-none-any.whl

#download pretrained model for face detection
!wget -c https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth \
      -O ./face_detection/detection/sfd/s3fd.pth

/content/Wav2Lip
--2024-08-25 17:42:40--  https://iiitaphyd-my.sharepoint.com/personal/radrabha_m_research_iiit_ac_in/_layouts/15/download.aspx?share=EdjI7bZlgApMqsVoEUUXpLsBxqXbn5z8VTmoxp55YNDcIA
Resolving iiitaphyd-my.sharepoint.com (iiitaphyd-my.sharepoint.com)... 13.107.136.10, 13.107.138.10, 2620:1ec:8f8::10, ...
Connecting to iiitaphyd-my.sharepoint.com (iiitaphyd-my.sharepoint.com)|13.107.136.10|:443... connected.
HTTP request sent, awaiting response... 416 Requested Range Not Satisfiable

    The file is already fully retrieved; nothing to do.

--2024-08-25 17:42:41--  https://iiitaphyd-my.sharepoint.com/:u:/g/personal/radrabha_m_research_iiit_ac_in/Eb3LEzbfuKlJiR600lQWRxgBIY27JZg80f7V9jtMfbNDaQ?e=TBFBVW
Resolving iiitaphyd-my.sharepoint.com (iiitaphyd-my.sharepoint.com)... 13.107.136.10, 13.107.138.10, 2620:1ec:8f8::10, ...
Connecting to iiitaphyd-my.sharepoint.com (iiitaphyd-my.sharepoint.com)|13.107.136.10|:443... connected.
HTTP request sent, awaiting response... 302 Found


## テスト動画&音声の準備

各自で準備するとよい

## 入力動画の取得

In [56]:
video_url = 'https://www.youtube.com/watch?v=-Xvpo0A5X6g' #@param {type:"string"}

#@markdown 動画の切り抜き範囲(秒)を指定してください。\
#@markdown 30秒以上の場合OOM発生の可能性が高いため注意
start_sec =  30#@param {type:"integer"}
end_sec =  35#@param {type:"integer"}

(start_pt, end_pt) = (start_sec, end_sec)

In [57]:
!mkdir input_video

mkdir: cannot create directory ‘input_video’: File exists


In [58]:
import os
if not os.path.exists('input_video/full_video.mp4'):
  #!wget "https://drive.google.com/uc?export=download&id=10om2n4HgyLTk-hA9oDmeEK0BZ4EA2KE9" -O input_video/full_video.mp4
  !wget https://keio.box.com/shared/static/r9ridzd6pd2tjorp864ge6xe2bjcvj13 -O input_video/full_video.mp4

In [59]:
download_resolution = 720
full_video_path = './input_video/full_video.mp4'
input_clip_path = './input_video/clip_video.mp4'

# 指定区間切り抜き
with VideoFileClip(full_video_path) as video:
    subclip = video.subclip(start_pt, end_pt)
    subclip.write_videofile(input_clip_path)

Moviepy - Building video ./input_video/clip_video.mp4.
MoviePy - Writing audio in clip_videoTEMP_MPY_wvf_snd.mp3




MoviePy - Done.
Moviepy - Writing video ./input_video/clip_video.mp4





Moviepy - Done !
Moviepy - video ready ./input_video/clip_video.mp4


In [60]:
# 動画の確認
clip = VideoFileClip(input_clip_path)
clip = resize(clip, height=420)
clip.ipython_display()

Moviepy - Building video __temp__.mp4.
MoviePy - Writing audio in __temp__TEMP_MPY_wvf_snd.mp3




MoviePy - Done.
Moviepy - Writing video __temp__.mp4




                                                              

Moviepy - Done !
Moviepy - video ready __temp__.mp4




## 入力音声の取得

In [61]:
video_url = 'https://www.youtube.com/watch?v=fD-yyMzF8lI' #@param {type:"string"}

#@markdown 動画の切り抜き範囲(秒)を指定してください。\
#@markdown 30秒以上の場合OOM発生の可能性が高いため注意
start_sec =  63#@param {type:"integer"}
end_sec =  68#@param {type:"integer"}

(start_pt, end_pt) = (start_sec, end_sec)

In [62]:
!mkdir input_audio

mkdir: cannot create directory ‘input_audio’: File exists


In [63]:
if not os.path.exists('input_audio/full_audio.mp4'):
  #!wget "https://drive.google.com/uc?export=download&id=10ys5h4sCuqg9ssNOLJZ4jy8F4ptMJn9V" -O input_audio/full_audio.mp4
  !wget https://keio.box.com/shared/static/lrk212wfq8e2mma17r5759o213vn8hhf -O input_audio/full_audio.mp4

In [64]:
download_resolution = 720
full_video_path = './input_audio/full_audio.mp4'
input_clip_path = './input_audio/clip_audio.mp4'
input_audio_path = './input_audio/clip_audio.mp3'

# 指定区間切り抜き
with VideoFileClip(full_video_path) as video:
    subclip = video.subclip(start_pt, end_pt)
    subclip.write_videofile(input_clip_path)

# 音声抽出
videoclip = VideoFileClip(input_clip_path)
audioclip = videoclip.audio
audioclip.write_audiofile(input_audio_path)

Moviepy - Building video ./input_audio/clip_audio.mp4.
MoviePy - Writing audio in clip_audioTEMP_MPY_wvf_snd.mp3




MoviePy - Done.
Moviepy - Writing video ./input_audio/clip_audio.mp4





Moviepy - Done !
Moviepy - video ready ./input_audio/clip_audio.mp4
MoviePy - Writing audio in ./input_audio/clip_audio.mp3




MoviePy - Done.


In [65]:
display(Audio(input_audio_path, autoplay=True))

## Wav2Lipの実行

バージョンの違いにより、librosaの呼び出し方が変わり、オリジナルのコードが実行できなくなっている
- 次のパッチをあてて修正する

In [66]:
!sed -i 's/mel(hp.sample_rate, hp.n_fft, n_mels=hp.num_mels,/mel(sr=hp.sample_rate, n_fft=hp.n_fft, n_mels=hp.num_mels,/' /content/Wav2Lip/audio.py

In [67]:
%cd /content/Wav2Lip

!python inference.py \
  --checkpoint_path checkpoints/wav2lip_gan.pth \
  --face ./input_video/clip_video.mp4 \
  --audio ./input_audio/clip_audio.mp3

/content/Wav2Lip
Using cuda for inference.
Reading video frames...
Number of frames available for inference: 125
Extracting raw audio...
ffmpeg version 4.4.2-0ubuntu0.22.04.1 Copyright (c) 2000-2021 the FFmpeg developers
  built with gcc 11 (Ubuntu 11.2.0-19ubuntu1)
  configuration: --prefix=/usr --extra-version=0ubuntu0.22.04.1 --toolchain=hardened --libdir=/usr/lib/x86_64-linux-gnu --incdir=/usr/include/x86_64-linux-gnu --arch=amd64 --enable-gpl --disable-stripping --enable-gnutls --enable-ladspa --enable-libaom --enable-libass --enable-libbluray --enable-libbs2b --enable-libcaca --enable-libcdio --enable-libcodec2 --enable-libdav1d --enable-libflite --enable-libfontconfig --enable-libfreetype --enable-libfribidi --enable-libgme --enable-libgsm --enable-libjack --enable-libmp3lame --enable-libmysofa --enable-libopenjpeg --enable-libopenmpt --enable-libopus --enable-libpulse --enable-librabbitmq --enable-librubberband --enable-libshine --enable-libsnappy --enable-libsoxr --enable-libs

生成された動画をブラウザ上で再生する

In [68]:
results = './results/result_voice.mp4'

# Wav2Lipの確認
clip = VideoFileClip(results)
clip = resize(clip, height=420)
clip.ipython_display()

Moviepy - Building video __temp__.mp4.
MoviePy - Writing audio in __temp__TEMP_MPY_wvf_snd.mp3




MoviePy - Done.
Moviepy - Writing video __temp__.mp4






                                                              

Moviepy - Done !
Moviepy - video ready __temp__.mp4


