# Transformerの解剖

## PytorchImagePreprocessTransformer

In [5]:
from PIL import Image
import numpy as np

In [26]:
image_size = (224, 224)
prediction_shape = (1, 3, 224, 224)
mean_vec = [0.485, 0.456, 0.406]
stddev_vec = [0.229, 0.224, 0.225]

In [7]:
image = Image.open("./data/cat.jpg")
np.array(image).shape

(1024, 768, 3)

In [40]:
print(np.mean(image))
print(np.max(image))
print(np.min(image))

129.78682708740234
255
0


### 画像データの前処理のノウハウ

- 画像データの前処理では，以下のような変換がなされる

    - 入力形状: (高さ, 幅, チャンネル)
    
    - 出力形状: (チャンネル, 高さ, 幅)

- ```resize```メソッド

    - (width, height)の次元を指定して変換
    
    - チャネル方向の次元は無視される
    
- ```transpose```メソッド

    - 軸のインデックスを指定して，軸の入れ替えを行う．

In [35]:
# image.resize(image_size)

# np.array(image.resize(image_size)).shape

X = np.array(image.resize(image_size))

X.shape

(224, 224, 3)

In [20]:
# X.transpose(2, 0, 1).astype(np.float32).shape

(3, 224, 224)

In [21]:
image_data = X.transpose(2, 0, 1).astype(np.float32)

In [22]:
mean_vec = np.array(mean_vec)
stddev_vec = np.array(stddev_vec)

### 正規化の意義

    - ニューラルネットワークの入力値が大きすぎたり小さすぎたりすると、計算過程で数値が不安定になる可能性がある

    - なので，一般的には，正規化する

In [27]:
norm_image_data = np.zeros(image_data.shape).astype(np.float32)

for i in range(image_data.shape[0]):
    norm_image_data[i, :, :] = (image_data[i, :, :] / 255 - mean_vec[i]) / stddev_vec[i]

norm_image_data = norm_image_data.reshape(prediction_shape).astype(np.float32)

In [29]:
norm_image_data.shape

(1, 3, 224, 224)

## SoftmaxTransformer

- 入力の柔軟性：numpy配列、1次元または2次元のリストを入力として受け付ける．

- 数値の安定性：オーバーフロー防止のため、最大値を引いてからexp関数を適用する．

- 正規化：指数関数を適用した後、合計が1になるように正規化する．

In [None]:
X = np.array(X)
x = X.reshape(-1)
e_x = np.exp(x - np.max(x))
result = np.array([e_x / e_x.sum(axis=0)])
