### __Doc__
- https://jovian.ai/aakashns/01-pytorch-basics

### __Setup__

In [1]:
import torch
import numpy as np
from IPython.display import display

### __tensorとndarray__
- せっかくなので、似ているnumpy配列とtensorを比較してみよう。

In [2]:
t1 = torch.tensor(4)
display(t1)

arr1 = np.asarray(4)
display(arr1)

tensor(4)

array(4)

- 全要素が整数型の場合、勝手に整数型になる。

In [3]:
display(f"type: {type(t1)}, dtype: {t1.dtype}")
display(f"type: {type(arr1)}, dtype: {arr1.dtype}")

"type: <class 'torch.Tensor'>, dtype: torch.int64"

"type: <class 'numpy.ndarray'>, dtype: int64"

- 浮動小数の場合は、浮動小数になるが、torchとnumpyでデフォルトのビット数が違う。

In [4]:
t1 = torch.tensor(4.)
display(t1)

arr1 = np.asarray(4.)
display(arr1)

display(f"type: {type(t1)}, dtype: {t1.dtype}")
display(f"type: {type(arr1)}, dtype: {arr1.dtype}")

tensor(4.)

array(4.)

"type: <class 'torch.Tensor'>, dtype: torch.float32"

"type: <class 'numpy.ndarray'>, dtype: float64"

- 明示的に指定したいときはこのようにする。
- デフォルトの場合は、dtypeが出力されないのは、少し不親切ではあると思う。

In [5]:
t2 = torch.tensor([1,2,3,4])
display(t2)
arr2 = np.asarray([1,2,3,4])
display(arr2)

t2 = torch.tensor([1,2,3,4], dtype=torch.float32)
display(t2)
arr2 = np.asarray([1,2,3,4], dtype=np.float32)
display(arr2)

tensor([1, 2, 3, 4])

array([1, 2, 3, 4])

tensor([1., 2., 3., 4.])

array([1., 2., 3., 4.], dtype=float32)

- 多次元配列

In [6]:
t3 = torch.tensor([[1,2,3,4],[1,2,3,4]], dtype=torch.float32)
display(f"type: {type(t3)}, dtype: {t3.dtype}, shape: {t3.shape}")
display(t3)

arr3 = np.asarray([[1,2,3,4],[1,2,3,4]], dtype=np.float32)
display(f"type: {type(arr3)}, dtype: {arr3.dtype}, shape: {arr3.shape}")
display(arr3)

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([2, 4])"

tensor([[1., 2., 3., 4.],
        [1., 2., 3., 4.]])

"type: <class 'numpy.ndarray'>, dtype: float32, shape: (2, 4)"

array([[1., 2., 3., 4.],
       [1., 2., 3., 4.]], dtype=float32)

### __dtype変換__

- 途中でdtypeを変えたいことはよくある。
- torchでは、toを使い、numpyではastypeを使う。(astypeの方が明示的でわかりやすいなぁ)

In [7]:
t3 = t3.to(torch.float64)
display(f"type: {type(t3)}, dtype: {t3.dtype}, shape: {t3.shape}")

arr3 = arr3.astype(np.float64)
display(f"type: {type(arr3)}, dtype: {arr3.dtype}, shape: {arr3.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float64, shape: torch.Size([2, 4])"

"type: <class 'numpy.ndarray'>, dtype: float64, shape: (2, 4)"

### __tensorとndarrayの相互変換__

#### __tensor to ndarray__
- dtypeは維持される。

In [8]:
t3_to_arr = t3.numpy()

display(f"type: {type(t3)}, dtype: {t3.dtype}, shape: {t3.shape}")
display(f"type: {type(t3_to_arr)}, dtype: {t3_to_arr.dtype}, shape: {t3_to_arr.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float64, shape: torch.Size([2, 4])"

"type: <class 'numpy.ndarray'>, dtype: float64, shape: (2, 4)"

#### __ndarray to tensor__
- こちらもdtypeは維持されそう。

In [9]:
arr3_to_tensor = torch.from_numpy(arr3)

display(f"type: {type(arr3)}, dtype: {arr3.dtype}, shape: {arr3.shape}")
display(f"type: {type(arr3_to_tensor)}, dtype: {arr3_to_tensor.dtype}, shape: {arr3_to_tensor.shape}")

"type: <class 'numpy.ndarray'>, dtype: float64, shape: (2, 4)"

"type: <class 'torch.Tensor'>, dtype: torch.float64, shape: torch.Size([2, 4])"

### __配列初期化__
実際には、数値でテンソルを初期化することは少ない。<br>
よく使うのは、zeros, ones, randomあたりか。

#### __zeros__

In [10]:
t4 = torch.zeros(3,3,3) # numpyならnp.zeros
display(f"type: {type(t4)}, dtype: {t4.dtype}, shape: {t4.shape}")
display(t4)

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([3, 3, 3])"

tensor([[[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]],

        [[0., 0., 0.],
         [0., 0., 0.],
         [0., 0., 0.]]])

#### __ones__

In [11]:
t5 = torch.ones(3,3,3) # numpyならnp.ones
display(f"type: {type(t5)}, dtype: {t5.dtype}, shape: {t5.shape}")
display(t5)

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([3, 3, 3])"

tensor([[[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]],

        [[1., 1., 1.],
         [1., 1., 1.],
         [1., 1., 1.]]])

#### __乱数__
- 乱数初期化は、色々な分布があるので注意。
- 標準正規分布は以下。

In [12]:
t6 = torch.randn(3,3,3) # numpyならnp.random.randnかな？
display(f"type: {type(t6)}, dtype: {t6.dtype}, shape: {t6.shape}")
display(t6)

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([3, 3, 3])"

tensor([[[-0.9218,  0.2755, -0.5224],
         [-0.4004,  1.3699,  0.8453],
         [-0.0747, -1.1937, -0.3216]],

        [[ 0.3456,  1.2419,  2.2675],
         [ 0.4432,  0.6822, -0.7272],
         [-0.1133, -1.8460,  0.8344]],

        [[-0.5757, -0.3951,  1.3431],
         [ 1.1039,  1.4984,  0.6808],
         [ 0.0522,  1.2710, -1.5283]]])

- 一様分布は以下。範囲は、[0,1)なので 0 <= x < 1です。

In [13]:
t6 = torch.rand(3,3,3) # numpyならnp.random.randかな？
display(f"type: {type(t6)}, dtype: {t6.dtype}, shape: {t6.shape}")
display(t6)

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([3, 3, 3])"

tensor([[[0.7256, 0.1754, 0.2362],
         [0.7754, 0.1954, 0.3376],
         [0.8809, 0.1242, 0.2402]],

        [[0.2988, 0.0776, 0.0455],
         [0.6565, 0.4469, 0.8965],
         [0.8439, 0.8876, 0.4639]],

        [[0.7040, 0.1309, 0.2277],
         [0.1789, 0.3798, 0.6330],
         [0.7794, 0.9599, 0.8111]]])

#### __full(同じ値で埋める)__
- チュートリアルにはあるものの、zerosを使えば事足りるので、あまり使わない。

In [14]:
t7 = torch.full((3,3,3), 10)
display(f"type: {type(t7)}, dtype: {t7.dtype}, shape: {t7.shape}")
display(t7)

"type: <class 'torch.Tensor'>, dtype: torch.int64, shape: torch.Size([3, 3, 3])"

tensor([[[10, 10, 10],
         [10, 10, 10],
         [10, 10, 10]],

        [[10, 10, 10],
         [10, 10, 10],
         [10, 10, 10]],

        [[10, 10, 10],
         [10, 10, 10],
         [10, 10, 10]]])

### __配列結合__
- これは何気に頻繁に登場する。
- numpyでも役立つので、Python使いなら習熟しなければならない。
- 結合は具体例がある方がいいので、以下の構成の画像のデータを想定して説明する。
  - img ... バッチサイズ x 横画素数 x 縦画素数 x チャネル数(RGB=3)
  - 具体例としては、10 x 128 x 128 x 3など。

#### __結合__
- torchの場合は、torch.cat
- numpyの場合は、np.concatenate
- pandasの場合は、pd.concat（テーブルデータなので2次元以上はないけど）

と方言があるので注意。

In [15]:
img1 = torch.zeros((1000,128,128,3), dtype=torch.float32)
img2 = torch.zeros((1000,128,128,3), dtype=torch.float32)
display(f"type: {type(img1)}, dtype: {img1.dtype}, shape: {img1.shape}")
display(f"type: {type(img2)}, dtype: {img2.dtype}, shape: {img2.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 3])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 3])"

- axis=0は、一番左(メモリ的に遠い位置)で結合される。
  - これは、img1, img2のそれぞれのメモリ配置を変更せずにくっつけることに等しい。
  - 軸を指定しない場合、axis=0と同じ動きとなるようだ。

In [16]:
%%time
img_cat1 = torch.cat((img1, img2))
display(f"type: {type(img_cat1)}, dtype: {img_cat1.dtype}, shape: {img_cat1.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([2000, 128, 128, 3])"

CPU times: user 33.3 ms, sys: 236 ms, total: 270 ms
Wall time: 57.4 ms


- axis=3とすると、一番右(メモリ的に近い要素)で結合される。
  - img1, img2の配置が変わるため、結合に時間がかかるはず。

In [17]:
%%time
img_cat2 = torch.cat((img1, img2), axis=3)
display(f"type: {type(img_cat2)}, dtype: {img_cat2.dtype}, shape: {img_cat2.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 6])"

CPU times: user 301 ms, sys: 180 ms, total: 481 ms
Wall time: 94.5 ms


- 4次元配列の場合、axis=3はaxis=-1と同じ処理となる。
  - 場合によっては、axis=3とするのは、拡張性がない場合もある。

In [18]:
img_cat2 = torch.cat((img1, img2), axis=-1)
display(f"type: {type(img_cat2)}, dtype: {img_cat2.dtype}, shape: {img_cat2.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 6])"

#### __異なる次元を結合__

- 4次元配列と3次元配列の結合は、そのままではできない。

In [19]:
img1 = torch.zeros((1000,128,128,3), dtype=torch.float32)
img3 = torch.zeros((1000,128,128), dtype=torch.float32)

img_cat3 = torch.cat((img1, img3), axis=-1)

RuntimeError: torch.cat(): Tensors must have same number of dimensions: got 4 and 3

- こういった場合に、reshapeを使えば解決する。

In [20]:
img3_reshaped = img3.reshape(img3.shape[0], img3.shape[1], img3.shape[2], 1)
display(f"type: {type(img3_reshaped)}, dtype: {img3_reshaped.dtype}, shape: {img3_reshaped.shape}")

img_cat3 = torch.cat((img1, img3_reshaped), axis=-1)
display(f"type: {type(img_cat3)}, dtype: {img_cat3.dtype}, shape: {img_cat3.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 1])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 4])"

- ただ、要素数1の次元を増やすには、reshapeは記述が長くてめんどいので。
- torch限定ではあるが、unsqueezeを使う方が記述は少なくて済む。

In [21]:
img1 = torch.zeros((1000,128,128,3), dtype=torch.float32)
img4 = torch.zeros((1000,128,128), dtype=torch.float32)

img4_reshaped = img4.unsqueeze(dim=-1) # 一番右の次元に要素数1の次元を追加
display(f"type: {type(img4_reshaped)}, dtype: {img4_reshaped.dtype}, shape: {img4_reshaped.shape}")

img_cat4 = torch.cat((img1, img4_reshaped), axis=-1)
display(f"type: {type(img_cat4)}, dtype: {img_cat4.dtype}, shape: {img_cat4.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 1])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 4])"

- unsqueezeの引数、dimは元の次元数+1まで指定できるようになっている。

In [22]:
img5 = torch.zeros((1000,128,128), dtype=torch.float32)
display(f"type: {type(img5)}, dtype: {img5.dtype}, shape: {img5.shape}")

img5_reshaped1 = img5.unsqueeze(dim=0)
display(f"type: {type(img5_reshaped1)}, dtype: {img5_reshaped1.dtype}, shape: {img5_reshaped1.shape}")

img5_reshaped2 = img5.unsqueeze(dim=1)
display(f"type: {type(img5_reshaped2)}, dtype: {img5_reshaped2.dtype}, shape: {img5_reshaped2.shape}")

img5_reshaped3 = img5.unsqueeze(dim=2)
display(f"type: {type(img5_reshaped3)}, dtype: {img5_reshaped3.dtype}, shape: {img5_reshaped3.shape}")

img5_reshaped3 = img5.unsqueeze(dim=3) # dim=-1と同じ
display(f"type: {type(img5_reshaped3)}, dtype: {img5_reshaped3.dtype}, shape: {img5_reshaped3.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1, 1000, 128, 128])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 1, 128, 128])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 1, 128])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 1])"

### __配列変形__
- reshapeやunsqueezeが出てきたが、もう少し深堀する。

#### __reshape__
- まずはrehshape

In [23]:
img1 = torch.randn((1000,128,128,3), dtype=torch.float32)
display(f"type: {type(img1)}, dtype: {img1.dtype}, shape: {img1.shape}")

img1_reshape1 = img1.reshape(1000,128*128,3)
display(f"type: {type(img1_reshape1)}, dtype: {img1_reshape1.dtype}, shape: {img1_reshape1.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 3])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 16384, 3])"

- reshapeの要素数は、１か所のみ-1を指定することができる。その場合は、良い感じのサイズにしてくれる。

In [24]:
img1_reshape2 = img1.reshape(1000,-1,3)
display(f"type: {type(img1_reshape2)}, dtype: {img1_reshape2.dtype}, shape: {img1_reshape2.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 16384, 3])"

- ちなみに、reshapeは、次元を入れ替えているわけではない。
- あくまでメモリ上の並び順は同じである。以下テスト用の配列を再定義する。

In [25]:
t1 = torch.tensor([ [11,12,13],[14,15,16],[17,18,19],
                    [21,22,23],[24,25,26],[27,28,29],],)
display(f"type: {type(t1)}, dtype: {t1.dtype}, shape: {t1.shape}")
print(f"value: \n{t1}")

"type: <class 'torch.Tensor'>, dtype: torch.int64, shape: torch.Size([6, 3])"

value: 
tensor([[11, 12, 13],
        [14, 15, 16],
        [17, 18, 19],
        [21, 22, 23],
        [24, 25, 26],
        [27, 28, 29]])


- reshapeしても形が変わっているだけで、並び順は変わらない。

In [26]:
t1_reshape = t1.reshape(3,6)
display(f"type: {type(t1_reshape)}, dtype: {t1_reshape.dtype}, shape: {t1_reshape.shape}")
print(f"value: \n{t1_reshape}")

"type: <class 'torch.Tensor'>, dtype: torch.int64, shape: torch.Size([3, 6])"

value: 
tensor([[11, 12, 13, 14, 15, 16],
        [17, 18, 19, 21, 22, 23],
        [24, 25, 26, 27, 28, 29]])


#### transpose
- transposeを使うと、次元を入れ替え、順番も変更できる。

In [27]:
t1_transpose = t1.transpose(0,1)
display(f"type: {type(t1_transpose)}, dtype: {t1_transpose.dtype}, shape: {t1_transpose.shape}")
print(f"value: \n{t1_transpose}")

"type: <class 'torch.Tensor'>, dtype: torch.int64, shape: torch.Size([3, 6])"

value: 
tensor([[11, 14, 17, 21, 24, 27],
        [12, 15, 18, 22, 25, 28],
        [13, 16, 19, 23, 26, 29]])


- 4次元配列などでも同様のことができるが、深く考えず、添え字が入れ替わっているだけと思えばいい。
  - 以下はバッチと画素の添え字を入れ替えている。

In [28]:
img1 = torch.randn((1000,128,128,3), dtype=torch.float32)
display(f"type: {type(img1)}, dtype: {img1.dtype}, shape: {img1.shape}")

img1_transpose = img1.transpose(0,3)
display(f"type: {type(img1_transpose)}, dtype: {img1_transpose.dtype}, shape: {img1_transpose.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([1000, 128, 128, 3])"

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([3, 128, 128, 1000])"

- ただしtransposeは、実は実際のメモリ上の順番を入れ替えていない。
- ほんとに物理的なメモリ配置も要素順に合わせたい場合は、以下のようにする必要がある。

In [29]:
img1_transpose2 = img1.transpose(0,3).contiguous() # contiguousを付ける。
display(f"type: {type(img1_transpose2)}, dtype: {img1_transpose2.dtype}, shape: {img1_transpose2.shape}")

"type: <class 'torch.Tensor'>, dtype: torch.float32, shape: torch.Size([3, 128, 128, 1000])"

- contiguousに何の意味があるか、というと。
- そもそもreshapeと似た処理にviewというものがある。
- このviewは、要素順と物理上のメモリ配置が異なると、動作しない。
- なのでtranspose後にviewを実施して変形する場合は、contiguousが必要。reshapeは良い感じにしてくれるので、contiguousが不要。
  - transpose -> contiguous -> view
  - transpose -> reshape
- reshapeはpytorchに後から追加されたので、viewが存在する？viewのメリットも何かあるのかもしれない。
  - 物理上の配置が変わらないから、配列の複製が簡単とか？
- view, reshape, transposeについては、こちらの記事も参考
  - https://qiita.com/kenta1984/items/d68b72214ce92beebbe2