### Tensor

- scalar : dim = 0
- vector : dim = 1
- matrix : dim = 2
- tensor : dim >= 3

### Tabular Dataset

- 테이블 형태의 데이터셋 (ex) Excel
- 각 sample = row, 각 feature = col
- N개의 데이터, n개의 특징, k개 sampling
- N * n $\rightarrow$ k * n

### Natural Sentence Dataset

- 각 sample = Sentences, 각 features = Word(tokens), 각 단어의 embedding vector
- N개 문장이 가진 word개 마다의 embedding vector(d) 표현
- N * l * d

### Computer Vision

- 각 sample = Images, 각 pixel마다 값 (W * H), channels RGB 값
- N개의 이미지, Width, Height, Channels 데이터
- N * W * H * C

In [1]:
import torch

In [2]:
ft = torch.FloatTensor([[1,2],
                        [3,4]])

print(ft)

tensor([[1., 2.],
        [3., 4.]])


In [3]:
# 임의의 값으로 채워진 원하는 크기의 텐서 생성

x = torch.FloatTensor(3,2)

print(x)

tensor([[0.0000e+00, 0.0000e+00],
        [0.0000e+00, 0.0000e+00],
        [0.0000e+00, 7.1466e-44]])


In [5]:
import numpy as np

In [7]:
x = np.array([[1,2],
              [3,4]])

print(x, type(x))

[[1 2]
 [3 4]] <class 'numpy.ndarray'>


In [8]:
x = torch.from_numpy(x)

print(x, type(x))

tensor([[1, 2],
        [3, 4]], dtype=torch.int32) <class 'torch.Tensor'>


In [9]:
x = x.numpy()

print(x, type(x))

[[1 2]
 [3 4]] <class 'numpy.ndarray'>


In [11]:
### Tensor Size

x = torch.FloatTensor([[[1,2],
                       [3,4]],
                       [[5,6],
                       [7,8]],
                       [[9,10],
                        [11,12]]])

print(x, x.size())
print(x.shape)

## size와 shape의 차이는 없으며, size함수의 결과 값이 shape 속성에 담겨 있음

tensor([[[ 1.,  2.],
         [ 3.,  4.]],

        [[ 5.,  6.],
         [ 7.,  8.]],

        [[ 9., 10.],
         [11., 12.]]]) torch.Size([3, 2, 2])
torch.Size([3, 2, 2])


In [16]:
### 산술 연산

a = torch.FloatTensor([[1,2],
                       [3,4]])
b = torch.FloatTensor([[2,2],
                       [3,3]])

print(a+b)
print(a-b)
print(a*b)
print(a/b)
print(a**b)

tensor([[3., 4.],
        [6., 7.]])
tensor([[-1.,  0.],
        [ 0.,  1.]])
tensor([[ 2.,  4.],
        [ 9., 12.]])
tensor([[0.5000, 1.0000],
        [1.0000, 1.3333]])
tensor([[ 1.,  4.],
        [27., 64.]])


In [18]:
### inplace operation
#### 기존 연산자의 경우 결과를 새롭게 메모리 할당
#### inplace는 기존 연산자와 동일하되 기존 텐서에 결과가 저장됨

print(a)
print(a.mul(b)) # 기존 곱셈 함수
print(a)
print(a.mul_(b)) # inplace 곱셈 함수
print(a)

# garbage collector가 효율적으로 동작, 굳이 사용할 필요 없음

tensor([[1., 2.],
        [3., 4.]])
tensor([[ 2.,  4.],
        [ 9., 12.]])
tensor([[1., 2.],
        [3., 4.]])
tensor([[ 2.,  4.],
        [ 9., 12.]])
tensor([[ 2.,  4.],
        [ 9., 12.]])


### Tensor Dim change

- View function
    - 기존의 텐서 요소와 일치하되, 원하는 크기 요소로 수정 가능
    - -1의 경우, 모두 곱하고 남은 요소로 자동으로 채워짐

In [20]:
x = torch.IntTensor(2,2,2)

print(x)
print(x.view(1,4,2))
print(x.view(1,-1,2))

### view의 결과는 tensor의 주소를 바꾸지 않음
### 단 view의 경우 contiguous Tensor에 대해서만 작동(메모리에 순차적으로 선언된 텐서에 대해서만 작동)
### 따라서 error가 나올 경우, contiguous() 함수로 인접한 주소에 인접한 값을 순서대로 할당
### reshape의 경우 위와 같은 작업 contiguous -> view를 순차적으로 처리
### 주의) reshape의 경우 contiguous를 호출한 후 수행하기 때문에 기존 주소와 다를 수 있음

tensor([[[          7,   842347317],
         [          0,           0]],

        [[-1798258096,         496],
         [-1798258096,         496]]], dtype=torch.int32)
tensor([[[          7,   842347317],
         [          0,           0],
         [-1798258096,         496],
         [-1798258096,         496]]], dtype=torch.int32)
tensor([[[          7,   842347317],
         [          0,           0],
         [-1798258096,         496],
         [-1798258096,         496]]], dtype=torch.int32)


#### Squeeze

- 차원의 크기가 1인 차원을 없애주는 역할
- 만약 해당 차원의 크기가 1인 아닌 경우, 같은 텐서가 반환

#### UnSqueeze

- 지정된 차원의 인덱스에 차원의 크기가 1인 차원을 삽입
-

In [24]:
x = torch.FloatTensor([[[1,2],
                       [3,4]]])

print(x.size())

print(x.squeeze().size())

torch.Size([1, 2, 2])
torch.Size([2, 2])


In [26]:
x = torch.FloatTensor([[[1,2],
                       [3,4]]])

print(x.unsqueeze(1).size())
print(x.unsqueeze(-1).size())
print(x.reshape(2,2,-1).size())

torch.Size([1, 1, 2, 2])
torch.Size([1, 2, 2, 1])
torch.Size([2, 2, 1])


### Split, Chunk Function

- split function의 경우 안의 개수를 지정
- chunk function의 경우 그룹 개수를 지정

In [27]:
x = torch.FloatTensor(10,4)

print(x.size())

splits = x.split(4, dim=0) # 원소 수

for s in splits:
    print(s.size())



torch.Size([10, 4])
torch.Size([4, 4])
torch.Size([4, 4])
torch.Size([2, 4])


In [29]:
x = torch.FloatTensor(10, 4)

print(x.size())

chunks = x.chunk(3, dim=0) # group 수

for c in chunks:
    print(c.size())

torch.Size([10, 4])
torch.Size([4, 4])
torch.Size([4, 4])
torch.Size([2, 4])


### Concatenate

- cat function : 두 차원을 이어붙이는 함수

In [30]:
x = torch.FloatTensor([[1,2,3],
                       [4,5,6],
                       [7,8,9]])
y = torch.FloatTensor([[10,11,12],
                       [13,14,15],
                       [16,17,18]])

print(x.size(), y.size())

torch.Size([3, 3]) torch.Size([3, 3])


In [36]:
z = torch.cat([x,y], dim=0) # 행 방향으로 concat

print(z.size())

print(torch.cat([x,y], dim=-1).size())

torch.Size([6, 3])
torch.Size([3, 6])


#### Stack, 쌓기 함수

- cat은 차원을 유지한채 이어붙이는 작업
- stack은 차원을 하나 늘려 쌓는 작업

- unsqueeze(-1) -> cat 과 동일한 작업

In [37]:
print(torch.stack([x,y]).size())
print(torch.cat([x.unsqueeze(0), y.unsqueeze(0)]).size)

torch.Size([2, 3, 3])
torch.Size([2, 3, 3])


#### Expand function

- dim = 1인 차원을 원하는 크기로 늘려주는 역할
- 동일한 텐서를 반복하여 list에 넣고, cat 함수를 해당 차원에 대해서 수행

In [38]:
x = torch.FloatTensor([[[1,2]],
                       [[3,4]]])
print(x.size())

torch.Size([2, 1, 2])


In [40]:
y = x.expand(2,3,2)

print(y.size())

print(torch.cat([x] * 3, dim=1).size())

torch.Size([2, 3, 2])
torch.Size([2, 3, 2])


#### Random Permutation, Argument Max function

- random permutation : 랜덤 수열 생성 함수 (param = 10, 1 ~ param까지 수 랜덤 생성)
- Argument Max : set X에서 뽑을 수 있는 x 값 중 함수 f의 출력 값을 최대로 만드는 입력 반환

In [42]:
x = torch.randperm(3**3).reshape(3,3,-1)

print(x)

y = x.argmax(dim=-1) # dim=-1의 경우, 같은 위치의 다른 데이터셋에서 가장 큰 값의 인덱스 출력

print(y)

### 0,0 -> 0번째 set에서 0번째 행 중 가장 큰 값의 인덱스

tensor([[[ 7,  6, 22],
         [26,  1, 23],
         [24,  2, 14]],

        [[17, 10,  0],
         [ 3,  8, 18],
         [12,  9, 11]],

        [[25, 16, 19],
         [13,  5, 20],
         [ 4, 21, 15]]])
tensor([[2, 0, 0],
        [0, 2, 0],
        [0, 2, 1]])


In [44]:
values, indices = torch.topk(x, k=2, dim=-1) # 열에 대해 가장 큰 값
print(values, values.size())
print(indices, indices.size())

tensor([[[22,  7],
         [26, 23],
         [24, 14]],

        [[17, 10],
         [18,  8],
         [12, 11]],

        [[25, 19],
         [20, 13],
         [21, 15]]]) torch.Size([3, 3, 2])
tensor([[[2, 0],
         [0, 2],
         [0, 2]],

        [[0, 1],
         [2, 1],
         [0, 2]],

        [[0, 2],
         [2, 0],
         [1, 2]]]) torch.Size([3, 3, 2])


#### Ones & Zeros

- 상수로 이뤄진 tensor를 생성 : torch.ones(2,3)
- 0으로 이뤄진 tensor를 생성 : torch.zeros(2,3)

In [46]:
print(torch.zeros(2,3))
print(torch.ones(2,3))

tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])


In [45]:
x = torch.FloatTensor([[1,2,3],
                       [4,5,6]])

print(x)

# 특정 tensor와 동일한 크기의 상수, 0의 텐서를 생성할 수 있음
print(torch.ones_like(x))

print(torch.zeros_like(x))

tensor([[1., 2., 3.],
        [4., 5., 6.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
