## Q.31. アフィン変換(スキュー)

(1)アフィン変換を用いて、出力(1)のようなX-sharing(dx = 30)画像を作成せよ。

(2)アフィン変換を用いて、出力2のようなY-sharing(dy = 30)画像を作成せよ。

(3)アフィン変換を用いて、出力3のような幾何変換した(dx = 30, dy = 30)画像を作成せよ。

このような画像はスキュー画像と呼ばれ、画像を斜め方向に伸ばした画像である。

出力(1)の場合、x方向にdxだけ引き伸ばした画像はX-sharingと呼ばれる。

出力(2)の場合、y方向にdyだけ引き伸ばした画像はY-sharingと呼ばれる。

それぞれ次式のアフィン変換で実現できる。
ただし、元画像のサイズがh x wとする。

```bash
(1) X-sharing                  (2) Y-sharing
   a = dx / h                     a = dy / w

  x'       1 a tx    x           x'       1 0 tx    x
[ y' ] = [ 0 1 ty ][ y ]       [ y' ] = [ a 1 ty ][ y ]
  1        0 0  1    1           1        0 0  1    1
```

In [4]:
import cv2
import numpy as np
import matplotlib.pyplot as plt

# Affine
def affine(img, dx=30, dy=30):
  H, W, C = img.shape

  # Affine hyper parameters
  a = 1.
  b = dx / H
  c = dy / W
  d = 1.
  tx = 0.
  ty = 0.

  # prepare temporary
  _img = np.zeros((H+2, W+2, C), dtype=np.float32)

  # insert image to center of temporary
  _img[1:H+1, 1:W+1] = img

  # prepare affine image temporary
  H_new = np.ceil(dy + H).astype(np.int16)
  W_new = np.ceil(dx + W).astype(np.int16)
  out = np.zeros((H_new, W_new, C), dtype=np.float32)

  # preprare assigned index
  x_new = np.tile(np.arange(W_new), (H_new, 1))
  y_new = np.arange(H_new).repeat(W_new).reshape(H_new, -1)

  # prepare inverse matrix for affine
  adbc = a * d - b * c
  x = np.round((d * x_new  - b * y_new) / adbc).astype(np.int16) - tx + 1
  y = np.round((-c * x_new + a * y_new) / adbc).astype(np.int16) - ty + 1

  x = np.minimum(np.maximum(x, 0), W+1).astype(np.int16)
  y = np.minimum(np.maximum(y, 0), H+1).astype(np.int16)

  # assign value from original to affine image
  out[y_new, x_new] = _img[y, x]
  out = out.astype(np.uint8)

  return out

# Read image
img = cv2.imread("imori.jpg").astype(np.float32)

# Affine
out = affine(img, dx=30, dy=30)
cv2.imwrite("training_IMG/training_31.png", out)

True

## Q.32. フーリエ変換

二次元離散フーリエ変換(DFT)を実装し、*imori.jpg*をグレースケール化したものの周波数のパワースペクトルを表示せよ。
また、逆二次元離散フーリエ変換(IDFT)で画像を復元せよ。

二次元離散フーリエ変換(DFT: Discrete Fourier Transformation)とはフーリエ変換の画像に対する処理方法である。

通常のフーリエ変換はアナログ信号や音声などの連続値かつ一次元を対象に周波数成分を求める計算処理である。

一方、ディジタル画像は[0,255]の離散値をとり、かつ画像はHxWの二次元表示であるので、二次元離散フーリエ変換が行われる。

二次元離散フーリエ変換(DFT)は次式で計算される。

<!--
```bash
K = 0:W, l = 0:H, 入力画像をI として
G(k,l) = Sum_{y=0:H-1, x=0:W-1} I(x,y) exp( -2pi * j * (kx/W + ly/H)) / sqrt(H * W)
```
-->

K = [0, W-1], l = [0, H-1], 入力画像を I として

<img src="assets/dft_equ.png" width="500">

ここでは画像をグレースケール化してから二次元離散フーリエ変換を行え。

パワースペクトルとは Gは複素数で表されるので、Gの絶対値を求めることである。
今回のみ画像表示の時はパワースペクトルは[0,255]にスケーリングせよ。

逆二次元離散フーリエ変換(IDFT: Inverse DFT)とは周波数成分Gから元の画像を復元する手法であり、次式で定義される。

<!--
```bash
x = 0:W, y = 0:H  として
I(x,y) = Sum_{l=0:H-1, k=0:W-1} G(k,l) exp( 2pi * j * (kx/W + ly/H)) / sqrt(H * W)
```
-->
x = [0, W-1], y = [0, H-1] として

<img src="assets/idft_equ.png" width="500" >

上が定義式ですがexp(j)は複素数の値をとってしまうので、実際にコードにするときはぜ下式のように絶対値を使います。

<img src="assets/idct_equ2.png" width="500" >

シンプルに全部for文で回すと128^4の計算になるので、時間がかかってしまいます。numpyをうまく活用すれば計算コストを減らすことができます。（解答は128^2まで減らしました。）


In [12]:
import cv2
import numpy as np
import matplotlib.pyplot as plt

# ハイパーパラメータの設定
K, L = 128, 128
channel = 3

def DFT(img):
    H, W, _ = img.shape
    G = np.zeros((L,K,channel), dtype=np.complex128)

    # オリジナルの画像に対応する2次元の座標を作成
    x = np.tile(np.arange(W),(H,1))
    y = np.arange(H).repeat(W).reshape(H,-1)

# ========================================================
# x = np.tile(np.arange(4), (3, 1))
# print(x)
# Output:
# [[0 1 2 3]
#  [0 1 2 3]
#  [0 1 2 3]]

# y = np.arange(3).repeat(4).reshape(3, -1)
# print(y)
# Output:
# [[0 0 0 0]
#  [1 1 1 1]
#  [2 2 2 2]]
# ========================================================

    # DFTの実装
    for c in range(channel):
        for l in range(L): # 画像の各行に対して処理を行う
            for k in range(K): # 画像の各列に対して処理を行う
                G[l,k,c] = np.sum(img[..., c]*np.exp(-2j*np.pi*(x*k / K+y*l / L))) / np.sqrt(K*L)
    return G

def IDFT(G):
    H, W, _ = G.shape
    out = np.zeros((H,W,channel), dtype=np.float32)

    # オリジナルの画像に対応する2次元の座標を作成
    x = np.tile(np.arange(W),(H,1))
    y = np.arange(H).repeat(W).reshape(H,-1)

    # IDFTの実装
    for c in range(channel):
        for l in range(H): # 画像の各行に対して処理を行う
            for k in range(W): # 画像の各列に対して処理を行う
                out[l,k,c] = np.abs(np.sum(G[..., c]*np.exp(2j*np.pi*(x*k / W+y*l / H)))) / np.sqrt(W*H)

    # クリッピング
    out = np.clip(out, 0, 255)
    out = out.astype(np.uint8)

    return out

# Read image
img = cv2.imread("imori.jpg").astype(np.float32)

# DFT
G = DFT(img)

# Save absolute value of DFT result as an image
G_abs = (np.abs(G) / np.abs(G).max() * 255).astype(np.uint8)
cv2.imwrite("training_IMG/training_32_dft.png", G_abs)

# IDFT
out = IDFT(G)
cv2.imwrite("training_IMG/training_32_idft.png", out)

True