# 深層学習ノートブック-1 Tensorの取り扱い基礎
Tensorはテンサーが正式な読み方ぽい。  
テンサーは学部の頃に勉強した気がしたが忘れたので、ひとまずは多次元配列のことと理解しておく。  
PytorchにおけるTensorも多次元配列のようなイメージであり、以下の特徴を持つ。  
* 深層学習の計算の核となるデータ構造
* Numpy Arrayと非常によく似ている
* GPUによる計算の高速化が可能
* 自動微分(Auto Grad)が可能

参考:  
https://remedics.air-nifty.com/academy/2020/02/post-fbe026.html

In [25]:
# import torchでpytorchをimport
import torch
import numpy as np

# torchで使う疑似乱数のseedは設定
torch.manual_seed(42)

<torch._C.Generator at 0x7fb0a5cb5270>

## ・Tensorの作成
torch.tensor()にlistを入れることでtensorを作成出来る。  
デフォルトの要素のデータ型はfloat32である。（numpyはfloat64がデフォルトなので注意）  
深層学習では扱うデータ量が多いので、データ型を意識してなるべく省メモリで作ることが重要。  
torch.tensor()のdtype引数を使ってデータ型を指定可能。（例:dtype=torch.float64）

In [11]:
my_list = [1, 2, 3, 4]
tensor_from_list = torch.tensor(my_list)
tensor_from_list

tensor([1, 2, 3, 4])

In [12]:
type(tensor_from_list)

torch.Tensor

In [13]:
# intを入れて作成すると、データ型はtorch.int64になる
tensor_from_list.dtype

torch.int64

In [14]:
my_list = [1., 2., 3., 4.]
tensor_from_list = torch.tensor(my_list)
tensor_from_list

tensor([1., 2., 3., 4.])

In [15]:
tensor_from_list.dtype

torch.float32

In [16]:
# dtypeを指定することで別の型で作成可能
tensor_from_list = torch.tensor(my_list, dtype=torch.float64)
tensor_from_list

tensor([1., 2., 3., 4.], dtype=torch.float64)

In [18]:
# tensorのshapeを表示
tensor_from_list.shape

torch.Size([4])

## ・Tensor生成関数
numpyのように基本的な配列を生成できる関数がある。

In [7]:
# 2 x 3で要素が全て０のテンサー作成
zeros_tensor = torch.zeros((2, 3))
zeros_tensor

tensor([[0., 0., 0.],
        [0., 0., 0.]])

In [8]:
# 2 x 3で要素が全て1のテンサー作成
ones_tensor = torch.ones((2, 3))
ones_tensor

tensor([[1., 1., 1.],
        [1., 1., 1.]])

In [9]:
# 4 x 4で単位行列作成
ones_tensor = torch.eye(4)
ones_tensor

tensor([[1., 0., 0., 0.],
        [0., 1., 0., 0.],
        [0., 0., 1., 0.],
        [0., 0., 0., 1.]])

In [20]:
# 4 x 2で要素がランダムのテンサー作成
rand_tensor = torch.rand(4, 2)
rand_tensor

tensor([[0.8823, 0.9150],
        [0.3829, 0.9593],
        [0.3904, 0.6009],
        [0.2566, 0.7936]])

## ・Tensorのshapeを確認

In [21]:
zeros_tensor.shape

torch.Size([2, 3])

## ・Tensorの操作

In [30]:
# 2x3x4の3次元配列を作成。torchはタプルでそのまま入れることに注意
tensor_example = torch.rand((2, 3, 4))
np_example = np.random.rand(2, 3, 4)

In [31]:
tensor_example

tensor([[[0.1053, 0.2695, 0.3588, 0.1994],
         [0.5472, 0.0062, 0.9516, 0.0753],
         [0.8860, 0.5832, 0.3376, 0.8090]],

        [[0.5779, 0.9040, 0.5547, 0.3423],
         [0.6343, 0.3644, 0.7104, 0.9464],
         [0.7890, 0.2814, 0.7886, 0.5895]]])

In [32]:
tensor_example.shape

torch.Size([2, 3, 4])

※復習：  
多次元配列のshapeの各インデックスをRankと呼ぶのであった。  
上記ではRank=0は2、Rank=1は3、Rank=2は4。N次元配列のshapeは左からイメージしていくとわかりやすい。  
上記の3次元配列の場合は、奥行き2、縦3、横4という形状の配列である。  

In [33]:
# 転置。引数の配列のRankをどう並び替えるか指定する。
permuted_tensor = torch.permute(tensor_example, (1, 0, 2) )
permuted_tensor

tensor([[[0.1053, 0.2695, 0.3588, 0.1994],
         [0.5779, 0.9040, 0.5547, 0.3423]],

        [[0.5472, 0.0062, 0.9516, 0.0753],
         [0.6343, 0.3644, 0.7104, 0.9464]],

        [[0.8860, 0.5832, 0.3376, 0.8090],
         [0.7890, 0.2814, 0.7886, 0.5895]]])

In [34]:
permuted_tensor.shape

torch.Size([3, 2, 4])

元のtensorからshapeが入れ替わっている。

In [35]:
# numpyの場合、上記のtransposeに相当する。
# 一方、pytorchのtransposeは2軸を入れ変える操作なので混同しないように注意。
# 使い方としては対象のtensor, 入れ替え対象のRankその1, 入れ替え対象のRankその2という感じ。
torch.transpose(tensor_example, 0, 1)

tensor([[[0.1053, 0.2695, 0.3588, 0.1994],
         [0.5779, 0.9040, 0.5547, 0.3423]],

        [[0.5472, 0.0062, 0.9516, 0.0753],
         [0.6343, 0.3644, 0.7104, 0.9464]],

        [[0.8860, 0.5832, 0.3376, 0.8090],
         [0.7890, 0.2814, 0.7886, 0.5895]]])

上記の場合、Rank=0とRank=1を入れ替える操作となる。

In [36]:
# reshape.3 x 2 x 4だったtensorを6 x 4にreshapeする
reshaped_tensor = torch.reshape(tensor_example, (6, 4) )
print(reshaped_tensor)

tensor([[0.1053, 0.2695, 0.3588, 0.1994],
        [0.5472, 0.0062, 0.9516, 0.0753],
        [0.8860, 0.5832, 0.3376, 0.8090],
        [0.5779, 0.9040, 0.5547, 0.3423],
        [0.6343, 0.3644, 0.7104, 0.9464],
        [0.7890, 0.2814, 0.7886, 0.5895]])


In [40]:
reshaped_tensor[0] = 0
reshaped_tensor

tensor([[0.0000, 0.0000, 0.0000, 0.0000],
        [0.5472, 0.0062, 0.9516, 0.0753],
        [0.8860, 0.5832, 0.3376, 0.8090],
        [0.5779, 0.9040, 0.5547, 0.3423],
        [0.6343, 0.3644, 0.7104, 0.9464],
        [0.7890, 0.2814, 0.7886, 0.5895]])

In [41]:
tensor_example

tensor([[[0.0000, 0.0000, 0.0000, 0.0000],
         [0.5472, 0.0062, 0.9516, 0.0753],
         [0.8860, 0.5832, 0.3376, 0.8090]],

        [[0.5779, 0.9040, 0.5547, 0.3423],
         [0.6343, 0.3644, 0.7104, 0.9464],
         [0.7890, 0.2814, 0.7886, 0.5895]]])

### ！注意
torch.reshapeの結果はreshape前のtensor_exapmleと同じメモリを参照しているため、  
reshaped_tensroに何か操作を施すと、元のtensor_exampleも変更されてしまうことに注意。  
これはtorch側でメモリを節約するための工夫である。  
ただし、tensor_exampleがメモリ上に連続的に格納されていない場合は、参照ではなくコピーを返す。


In [44]:
# 例
x = torch.tensor([[1, 2], [3, 4], [5, 6]])
# rank2なら.Tで転置可能
y = x.T

In [45]:
# メモリに連続的に保存されているか確認する
y.is_contiguous()

False

In [47]:
y.shape

torch.Size([2, 3])

In [48]:
# tensor.reshape()という書き方もできる
z = y.reshape((1, 6))

In [50]:
z[0] = 0
z

tensor([[0, 0, 0, 0, 0, 0]])

In [51]:
# reshape元は変更されていない。
y

tensor([[1, 3, 5],
        [2, 4, 6]])

上記のようにreshape元がメモリに連続的に保存されてい無ければ、  
reshape結果はコピーとなる。  
メモリ節約のために参照かコピーかを厳密に気にしながらreshapeする必要がある場合は.viewを使用するとよい。  
.viewはメモリに連続的に保存されている場合のみ（参照可能な場合のみ）shapeが変更される。不連続の場合はエラーとなる。  

In [55]:
# yは不連続なメモリに保存されているのでエラーになる
y.view((1, 6))

RuntimeError: view size is not compatible with input tensor's size and stride (at least one dimension spans across two contiguous subspaces). Use .reshape(...) instead.

In [57]:
# xは連続的なので変形可能
print(x.is_contiguous())
x.view((1, 6))

True


tensor([[1, 2, 3, 4, 5, 6]])