In [31]:
import torch

# torch.Tensor: PyTorch의 기본 텐서 클래스
t1 = torch.Tensor([1, 2, 3], device='cpu')

# 속성 확인 
print(t1.dtype)   # dtype: torch.float32 (기본값)
print(t1.device)  # device: cpu
print(t1.requires_grad)  # requires_grad: False (기본값)
print(t1.size())  # size: torch.Size([3])
print(t1.shape)   # shape: torch.Size([3])

# .cpu(): CPU 메모리로 텐서를 이동시킴
t1_cpu = t1.cpu()

torch.float32
cpu
False
torch.Size([3])
torch.Size([3])


torch.Tensor는 클래스 생성자이다.

주요 특징: 입력 데이터 타입과 관계없이 기본적으로 torch.float32 타입의 텐서를 생성한다.

In [32]:
# torch.tensor: 텐서 생성을 위한 헬퍼 함수
t2 = torch.tensor([1, 2, 3], device='cpu')

# --- 속성 확인 ---
print(t2.dtype)  # dtype: torch.int64 (입력 데이터로부터 추론)
print(t2.device)  # device: cpu
print(t2.requires_grad)  # requires_grad: False
print(t2.size())  # size: torch.Size([3])
print(t2.shape)  # shape: torch.Size([3])

# 장치 이동
t2_cpu = t2.cpu()

torch.int64
cpu
False
torch.Size([3])
torch.Size([3])


torch.tensor는 함수이다.

특징: 입력된 데이터의 타입을 그대로 반영하여 텐서의 dtype을 결정한다.

torch.Tensor와 달리 타입을 자동 추론해준다.

In [33]:
# ndim: 차원의 수 (Number of Dimensions)
a1 = torch.tensor(1)               # 0차원 (Scalar)
print(a1.shape, a1.ndim)

a2 = torch.tensor([1])             # 1차원 (Vector)
print(a2.shape, a2.ndim)

a3 = torch.tensor([1, 2, 3, 4, 5])   # 1차원
print(a3.shape, a3.ndim)

a4 = torch.tensor([[1], [2], [3], [4], [5]])   # 2차원 (Matrix), shape: (5, 1)
print(a4.shape, a4.ndim)

a5 = torch.tensor([                 # 2차원, shape: (3, 2)
    [1, 2],
    [3, 4],
    [5, 6]
])
print(a5.shape, a5.ndim)

a6 = torch.tensor([                 # 3차원, shape: (3, 2, 1)
    [[1], [2]],
    [[3], [4]],
    [[5], [6]]
])
print(a6.shape, a6.ndim)

a7 = torch.tensor([                 # 4차원, shape: (3, 1, 2, 1)
    [[[1], [2]]],
    [[[3], [4]]],
    [[[5], [6]]]
])
print(a7.shape, a7.ndim)

a8 = torch.tensor([                 # 4차원, shape: (3, 1, 2, 3)
    [[[1, 2, 3], [2, 3, 4]]],
    [[[3, 1, 1], [4, 4, 5]]],
    [[[5, 6, 2], [6, 3, 1]]]
])
print(a8.shape, a8.ndim)


a9 = torch.tensor([                 # 5차원, shape: (3, 1, 2, 3, 1)
    [[[[1], [2], [3]], [[2], [3], [4]]]],
    [[[[3], [1], [1]], [[4], [4], [5]]]],
    [[[[5], [6], [2]], [[6], [3], [1]]]]
])
print(a9.shape, a9.ndim)

# a10 변수에 2차원 텐서 할당
a10 = torch.tensor([                 # 2차원, shape: (4, 5)
    [1, 2, 3, 4, 5],
    [1, 2, 3, 4, 5],
    [1, 2, 3, 4, 5],
    [1, 2, 3, 4, 5],
])
print(a10.shape, a10.ndim)

# a10 변수를 3차원 텐서로 덮어쓰기
a10 = torch.tensor([                 # 3차원, shape: (4, 1, 5)
    [[1, 2, 3, 4, 5]],
    [[1, 2, 3, 4, 5]],
    [[1, 2, 3, 4, 5]],
    [[1, 2, 3, 4, 5]],
])
print(a10.shape, a10.ndim)

torch.Size([]) 0
torch.Size([1]) 1
torch.Size([5]) 1
torch.Size([5, 1]) 2
torch.Size([3, 2]) 2
torch.Size([3, 2, 1]) 3
torch.Size([3, 1, 2, 1]) 4
torch.Size([3, 1, 2, 3]) 4
torch.Size([3, 1, 2, 3, 1]) 5
torch.Size([4, 5]) 2
torch.Size([4, 1, 5]) 3


텐서의 차원(ndim)은 리스트의 중첩 깊이([]의 개수)와 일치한다.

shape는 각 차원의 요소 개수를 나타내는 튜플이다.

a3(shape=[5])과 a4(shape=[5, 1])는 데이터는 유사하나, 차원이 다르므로 완전히 다른 텐서이다.

In [34]:
#추가 코드: try-except 구문
try:
    # ValueError 발생 코드: 텐서는 모든 차원에서 요소의 개수가 동일해야 함
    a11 = torch.tensor([
        [[[1, 2, 3], [4, 5]]], # [1,2,3] (길이 3), [4,5] (길이 2) -> 길이가 다름
        [[[1, 2, 3], [4, 5]]],
        [[[1, 2, 3], [4, 5]]],
        [[[1, 2, 3], [4, 5]]],
    ])
#추가 코드: 에러 발생 시 해당 에러 메시지만 출력함
except ValueError as e:
    print(e)

expected sequence of length 3 at dim 3 (got 2)


텐서는 모든 요소가 직사각형 형태의 구조를 가져야 한다.

오류 원인: 동일한 차원에 있는 리스트 [1, 2, 3]과 [4, 5]의 길이가 서로 다르기 때문에 ValueError가 발생한다.

2_텐서 초기화_copy

In [35]:
import torch
import numpy as np

# 1. torch.Tensor 
l1 = [1, 2, 3]
# torch.Tensor: 데이터를 복사하여 새로운 텐서 생성
t1 = torch.Tensor(l1)

# 2. torch.tensor 
l2 = [1, 2, 3]
# torch.tensor: 데이터를 복사하여 새로운 텐서 생성
t2 = torch.tensor(l2)

# 3. torch.as_tensor 
l3 = [1, 2, 3]
# torch.as_tensor: Python 리스트는 메모리 공유가 불가능하므로, 데이터를 복사함
t3 = torch.as_tensor(l3)

# 원본 리스트의 첫 번째 요소를 100으로 변경
l1[0] = 100
l2[0] = 100
l3[0] = 100

# 세 경우 모두 데이터가 복사되었기 때문에 원본 리스트의 변경 사항이 텐서에 반영되지 않음
print(t1)
print(t2)
print(t3)

tensor([1., 2., 3.])
tensor([1, 2, 3])
tensor([1, 2, 3])


Python 리스트를 입력으로 사용할 경우, torch.Tensor, torch.tensor, torch.as_tensor 모두 데이터를 새로운 메모리 공간에 복사하여 텐서를 생성한다.

따라서 원본 리스트(l1, l2, l3)의 값을 변경해도 이미 생성된 텐서(t1, t2, t3)에는 아무런 영향을 주지 않는다.

In [36]:
# --- 4. torch.Tensor ---
l4 = np.array([1, 2, 3])
# torch.Tensor: NumPy 배열을 입력받아도 데이터를 복사함
t4 = torch.Tensor(l4)

# --- 5. torch.tensor ---
l5 = np.array([1, 2, 3])
# torch.tensor: NumPy 배열을 입력받아도 데이터를 복사함
t5 = torch.tensor(l5)

# --- 6. torch.as_tensor ---
l6 = np.array([1, 2, 3])
# torch.as_tensor: NumPy 배열과는 메모리를 공유함. 데이터 복사 없음
t6 = torch.as_tensor(l6)

# 원본 NumPy 배열의 첫 번째 요소를 100으로 변경
l4[0] = 100
l5[0] = 100
l6[0] = 100

# t4, t5는 복사본이므로 영향 없음
print(t4)
print(t5)
# t6는 원본 l6와 메모리를 공유하므로 변경 사항이 그대로 반영됨
print(t6)

tensor([1., 2., 3.])
tensor([1, 2, 3])
tensor([100,   2,   3])


torch.as_tensor의 동작 방식이 핵심이다.

torch.Tensor와 torch.tensor는 입력이 NumPy 배열이어도 항상 데이터를 복사한다.

반면, torch.as_tensor는 입력 데이터가 NumPy 배열처럼 메모리 구조가 호환되는 경우, 데이터를 복사하지 않고 메모리 공간을 공유한다. 이를 Zero-copy라고 한다.

메모리가 공유되었기 때문에 원본 NumPy 배열 l6의 값을 바꾸자 텐서 t6의 값도 함께 바뀌었다.

결론: 데이터 복사를 피하고 싶을 때(효율성, 메모리 절약)는 torch.as_tensor나 torch.from_numpy를 사용하는 것이 좋다. 원본 데이터와 텐서를 완전히 분리하고 싶을 때는 torch.tensor를 사용하는 것이 안전하다.

3. 텐서 초기화 constant value

In [37]:
import torch

# torch.ones: 지정된 shape의 텐서를 생성하고 모든 요소를 1로 채움
t1 = torch.ones(size=(5,))  # torch.ones(5)와 동일
# torch.ones_like: 입력 텐서(t1)와 동일한 shape, dtype, device를 갖는 텐서를 생성하고 1로 채움
t1_like = torch.ones_like(input=t1)

print(t1)
print(t1_like)

tensor([1., 1., 1., 1., 1.])
tensor([1., 1., 1., 1., 1.])


torch.ones: 특정 크기의 텐서를 만들고 모든 값을 1로 초기화할 때 사용된다.

torch.ones_like: 기존 텐서의 속성(크기, 타입 등)은 그대로 유지하고 값만 1로 채운 새 텐서를 만들고 싶을 때 유용하다. 속성을 일일이 지정할 필요가 없어 코드가 간결해진다.

In [38]:
# torch.zeros: 지정된 shape의 텐서를 생성하고 모든 요소를 0으로 채움
t2 = torch.zeros(size=(6,))
# torch.zeros_like: 입력 텐서(t2)와 동일한 속성을 갖는 텐서를 생성하고 0으로 채움
t2_like = torch.zeros_like(input=t2)

print(t2)
print(t2_like)

tensor([0., 0., 0., 0., 0., 0.])
tensor([0., 0., 0., 0., 0., 0.])


torch.zeros: torch.ones와 유사하나 모든 요소를 0으로 초기화한다. 주로 텐서를 특정 값으로 채우기 전 초기 상태를 만들 때 사용된다.

In [39]:
# torch.empty: 지정된 shape의 텐서를 위한 메모리 공간만 할당하고, 값을 초기화하지 않음
t3 = torch.empty(size=(4,))
# torch.empty_like: 입력 텐서(t3)와 동일한 속성의 텐서를 위한 메모리 공간만 할당
t3_like = torch.empty_like(input=t3)

print(t3)
print(t3_like)

tensor([1., 2., 3., 0.])
tensor([3.3832e+07, 1.4503e-42, 0.0000e+00, 0.0000e+00])


torch.empty는 값을 초기화하지 않는다는 점이 가장 중요하다.

메모리 공간만 할당하기 때문에, 해당 메모리에 이전에 저장되어 있던 의미 없는 값(garbage value)이 그대로 남아있다. 실행할 때마다 결과가 다르게 나오는 이유이다.

zeros나 ones에 비해 속도가 약간 빠르지만, 초기화되지 않은 값을 사용할 위험이 있어 주의가 필요하다. 생성 직후 다른 값으로 덮어 쓸 목적일 때만 사용하는 것이 좋다.

In [40]:
# torch.eye: n x n 크기의 단위 행렬을 생성함
# 단위 행렬: 주 대각선의 요소는 1이고 나머지는 모두 0인 행렬
t4 = torch.eye(n=3)

print(t4)

tensor([[1., 0., 0.],
        [0., 1., 0.],
        [0., 0., 1.]])


torch.eye: 선형대수학에서 많이 사용되는 단위 행렬을 간편하게 생성하는 함수이다. n은 행과 열의 크기를 의미한다.

4. 랜덤값 텐서 초기

In [41]:
import torch

# torch.randint: low(포함)와 high(미포함) 사이의 정수로 텐서를 채움
t1 = torch.randint(low=10, high=20, size=(1, 2))
print(t1)

# torch.rand: 0과 1 사이의 균등 분포에서 값을 추출
t2 = torch.rand(size=(1, 3))
print(t2)

# torch.randn: 평균이 0, 표준편차가 1인 표준 정규 분포에서 값을 추출
t3 = torch.randn(size=(1, 3))
print(t3)

# torch.normal: 지정된 평균과 표준편차를 갖는 정규 분포에서 값을 추출
t4 = torch.normal(mean=10.0, std=1.0, size=(3, 2))
print(t4)

tensor([[13, 16]])
tensor([[0.7058, 0.4571, 0.6146]])
tensor([[ 0.1423,  1.2607, -0.0097]])
tensor([[11.8543,  9.9867],
        [10.0033,  9.1355],
        [11.3935,  9.8811]])


rand vs randn: 가장 중요한 차이점입니다. rand는 모든 숫자가 나올 확률이 동일한 균등 분포를 따르고, randn은 평균(0) 근처의 값이 더 자주 나오는 정규 분포를 따릅니다. 모델의 가중치를 초기화할 때 정규 분포가 더 자주 사용됩니다.

torch.randint: 정수 형태의 랜덤 값이 필요할 때 사용합니다.

torch.normal: 원하는 평균과 표준편차를 직접 지정하여 정규 분포를 만들고 싶을 때 사용합니다.

In [42]:
# torch.linspace: start(포함)부터 end(포함)까지를 steps 개수로 균등하게 나눔
t5 = torch.linspace(start=0.0, end=5.0, steps=3)
print(t5)

# torch.arange: 0부터 end(미포함)까지 1씩 증가하는 정수 텐서를 생성
t6 = torch.arange(5)
print(t6)

tensor([0.0000, 2.5000, 5.0000])
tensor([0, 1, 2, 3, 4])


linspace vs arange: linspace는 구간과 개수가 중요하고, arange는 구간과 간격이 중요하다.

linspace: steps로 지정한 개수에 맞춰 점을 찍기 때문에 간격을 자동으로 계산합니다. end 값을 포함하는 것이 특징이다.

arange: 간격(기본값 1)에 맞춰 값을 채우기 때문에 개수가 자동으로 결정됩니다. 파이썬의 range 함수처럼 end 값을 포함하지 않는다.

In [43]:
# 시드를 고정하지 않았을 때: random1과 random2는 다름
random1 = torch.rand(2, 3)
print(random1)

random2 = torch.rand(2, 3)
print(random2)

print()

# torch.manual_seed: 난수 생성기의 시드를 고정함
torch.manual_seed(1729)
# 시드 고정 후 처음 생성한 random3
random3 = torch.rand(2, 3)
print(random3)

# 이어서 생성한 random4
random4 = torch.rand(2, 3)
print(random4)

tensor([[0.5891, 0.7140, 0.6211],
        [0.3329, 0.8870, 0.0032]])
tensor([[0.5885, 0.5380, 0.7015],
        [0.1044, 0.4761, 0.7713]])

tensor([[0.3126, 0.3791, 0.3087],
        [0.0736, 0.4216, 0.0691]])
tensor([[0.2332, 0.4047, 0.2162],
        [0.9927, 0.4128, 0.5938]])


torch.mauual_seed()로 시드를 고정하면 random값이 고정된다. 

다른 사람과 공유하는 프로젝트라면 재현을 위해 고정하는 것이 좋다. 

5. 텐서 타입 변환 

In [44]:
import torch

# dtype을 지정하지 않으면 기본값인 torch.float32로 생성된다.
a = torch.ones((2, 3))
print(a.dtype)

# dtype=torch.int16으로 지정하여 정수형 텐서를 생성한다.
b = torch.ones((2, 3), dtype=torch.int16)
print(b)

# dtype=torch.float64로 지정하여 배정밀도 부동소수점 텐서를 생성한다.
c = torch.rand((2, 3), dtype=torch.float64) * 20.
print(c)

torch.float32
tensor([[1, 1, 1],
        [1, 1, 1]], dtype=torch.int16)
tensor([[18.0429,  7.2532, 19.6519],
        [10.8626,  2.1505, 19.6913]], dtype=torch.float64)


PyTorch 텐서의 기본 자료형은 torch.float32이다.

텐서 생성 함수(ones, rand 등)에 dtype 인자를 전달하여 원하는 자료형으로 텐서를 만들 수 있다. 정수, 부동소수점 등 다양한 자료형을 지원한다.

In [45]:
# b 텐서(int16)를 int32 자료형으로 변환한다.
d = b.to(torch.int32)
print(d.dtype)

#.to() 메소드 사용
double_d = torch.zeros(10, 2).to(torch.double)

# .double(), .short() 등 약칭 메소드 사용
short_e = torch.ones(10, 2).short()

# .type() 메소드 사용 
double_d = torch.zeros(10, 2).type(torch.double)

print(double_d.dtype)
print(short_e.dtype)

torch.int32
torch.float64
torch.int16


텐서의 자료형을 변환하는 것을 타입 캐스팅이라 한다.

.to() 메소드는 자료형뿐만 아니라 장치까지 한 번에 변경할 수 있어 가장 유연하고 많이 사용된다.

.float(), .double(), .int(), .short() 등 직관적인 이름의 메소드도 자주 사용된다. (double은 float64, short는 int16을 의미한다.)

In [46]:
# double_f는 float64, short_g는 int16 자료형을 갖는다.
double_f = torch.rand(5, dtype=torch.double)
short_g = double_f.to(torch.short)

# float64와 int16 텐서를 곱하면, 더 넓은 표현 범위를 갖는 float64로 자동 변환된다.
result = double_f * short_g
print(result.dtype)

torch.float64


자료형이 다른 텐서 간의 연산에서 데이터 손실을 막기 위해, PyTorch는 표현 범위가 더 넓거나 정밀한 자료형으로 자동으로 타입을 맞춘다. 이를 type_conversion이라 한다.

6. 텐서 연산

In [47]:
import torch

t1 = torch.ones(size=(2, 3))
t2 = torch.ones(size=(2, 3))

# 덧셈: torch.add 함수와 + 연산자는 동일하다.
t3 = torch.add(t1, t2)
t4 = t1 + t2
print(t3)
print(t4)

# 뺄셈: torch.sub 함수와 - 연산자는 동일하다.
t5 = torch.sub(t1, t2)
t6 = t1 - t2
print(t5)
print(t6)

# 곱셈: torch.mul 함수와 * 연산자는 동일하다.
t7 = torch.mul(t1, t2)
t8 = t1 * t2
print(t7)
print(t8)

# 나눗셈: torch.div 함수와 / 연산자는 동일하다.
t9 = torch.div(t1, t2)
t10 = t1 / t2
print(t9)
print(t10)

tensor([[2., 2., 2.],
        [2., 2., 2.]])
tensor([[2., 2., 2.],
        [2., 2., 2.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[0., 0., 0.],
        [0., 0., 0.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])
tensor([[1., 1., 1.],
        [1., 1., 1.]])


위 연산들은 모두 요소별 연산이다. 이는 같은 위치에 있는 텐서의 요소끼리 개별적으로 계산하는 방식을 의미한다.

torch.add와 +처럼 함수 방식과 연산자 방식은 기능적으로 완전히 동일한 결과를 반환하다.

7. 텐서 연산 mm

In [48]:
import torch

# torch.dot: 두 벡터의 각 요소별 곱의 합을 계산한다.
# (2*2) + (3*1) = 7
t1 = torch.dot(
  torch.tensor([2, 3]), torch.tensor([2, 1])
)
print(t1, t1.size())

tensor(7) torch.Size([])


torch.dot은 오직 1차원 텐서에만 사용할 수 있다. 입력 벡터들의 길이가 같아야 하며, 결과는 항상 원소가 하나인 0차원 텐서이다.

In [49]:
# (2, 3) 크기의 행렬 t2
t2 = torch.randn(2, 3)
# (3, 2) 크기의 행렬 t3
t3 = torch.randn(3, 2)

# torch.mm: (m, n) x (n, p) -> (m, p) 크기의 행렬을 반환한다.
# 여기서는 (2, 3) x (3, 2) -> (2, 2) 크기의 행렬이 된다.
t4 = torch.mm(t2, t3)
print(t4, t4.size())

tensor([[1.6750, 2.2840],
        [0.0956, 1.0294]]) torch.Size([2, 2])


torch.mm은 2차원 텐서 전용 행렬 곱 함수이다. 첫 번째 행렬의 열 개수와 두 번째 행렬의 행 개수가 일치해야 연산이 가능하다.

In [50]:
# (batch_size=10, m=3, n=4) 크기의 3차원 텐서 t5
t5 = torch.randn(10, 3, 4)
# (batch_size=10, n=4, p=5) 크기의 3차원 텐서 t6
t6 = torch.randn(10, 4, 5)

# torch.bmm: 배치 내 각 행렬에 대해 행렬 곱을 수행한다.
# (b, m, n) x (b, n, p) -> (b, m, p) 크기의 텐서를 반환한다.
t7 = torch.bmm(t5, t6)
print(t7.size())

torch.Size([10, 3, 5])


torch.bmm은 3차원 텐서를 입력으로 받으며, 첫 번째 차원은 배치 크기를 의미한다. 이 배치 차원의 크기는 두 입력 텐서에서 동일해야 한다. 배치 내의 10개 행렬 쌍에 대해 각각 독립적으로 행렬 곱을 수행한다.

8. 텐서 곱 

In [51]:
import torch

# Case 1: 1차원 텐서 × 1차원 텐서
# 벡터 내적을 수행한다. torch.dot과 동일하다.
t1 = torch.randn(3)
t2 = torch.randn(3)
print(torch.matmul(t1, t2).size())

# Case 2: 2차원 텐서 × 1차원 텐서
# 행렬과 벡터의 곱을 수행한다.
t3 = torch.randn(3, 4)
t4 = torch.randn(4)
print(torch.matmul(t3, t4).size())

# Case 3: 3차원 텐서 × 1차원 텐서
# 배치 행렬과 벡터의 곱을 수행한다. 벡터가 브로드캐스팅된다.
t5 = torch.randn(10, 3, 4)
t6 = torch.randn(4)
print(torch.matmul(t5, t6).size())

# Case 4: 3차원 텐서 × 3차원 텐서
# 배치 행렬 곱을 수행한다. torch.bmm과 동일하다.
t7 = torch.randn(10, 3, 4)
t8 = torch.randn(10, 4, 5)
print(torch.matmul(t7, t8).size())

# Case 5: 3차원 텐서 × 2차원 텐서
# 배치 행렬과 일반 행렬의 곱을 수행한다. 2차원 행렬이 브로드캐스팅된다.
t9 = torch.randn(10, 3, 4)
t10 = torch.randn(4, 5)
print(torch.matmul(t9, t10).size())

torch.Size([])
torch.Size([3])
torch.Size([10, 3])
torch.Size([10, 3, 5])
torch.Size([10, 3, 5])


torch.matmul은 입력 텐서의 차원에 따라 동작하는 통합 곱셈 함수이다.

1차원끼리는 벡터 내적, 2차원끼리는 행렬 곱, 3차원끼리는 배치 행렬 곱을 수행하다.

torch.matmul의 특징은 브로드캐스팅을 지원한다는 점이다. Case 3과 Case 5에서 볼 수 있듯이, 차원이 다른 텐서끼리 연산할 때 차원이 낮은 텐서(t6, t10)를 자동으로 확장하여 연산을 수행하다.

9. 브로드캐스팅

In [52]:
import torch

# 1차원 텐서와 스칼라의 곱셈
t1 = torch.tensor([1.0, 2.0, 3.0])
t2 = 2.0
print(t1 * t2)

# 2차원 텐서와 1차원 텐서의 뺄셈
# t4가 t3의 각 행에 적용된다.
t3 = torch.tensor([[0, 1], [2, 4], [10, 10]])
t4 = torch.tensor([4, 5])
print(t3 - t4)

# 텐서와 스칼라의 사칙연산
t5 = torch.tensor([[1., 2.], [3., 4.]])
print(t5 + 2.0)
print(t5 / 2.0)

tensor([2., 4., 6.])
tensor([[-4, -4],
        [-2, -1],
        [ 6,  5]])
tensor([[3., 4.],
        [5., 6.]])
tensor([[0.5000, 1.0000],
        [1.5000, 2.0000]])


기본 브로드캐스팅: 텐서와 스칼라
가장 간단한 브로드캐스팅은 텐서와 스칼라 값의 연산이다. 스칼라 값이 텐서의 모든 요소에 적용된다.

In [54]:
t7 = torch.tensor([[1, 2], [0, 3]])      # shape: (2, 2)
t8 = torch.tensor([[3, 1]])              # shape: (1, 2)
t9 = torch.tensor([[5], [2]])              # shape: (2, 1)

# t7(2, 2) + t8(1, 2) -> t8이 첫 번째 차원에서 (2, 2)로 확장되어 연산
print(t7 + t8)
# t7(2, 2) + t9(2, 1) -> t9가 두 번째 차원에서 (2, 2)로 확장되어 연산
print(t7 + t9)
# t8(1, 2) + t9(2, 1) -> t8은 (2, 2)로, t9도 (2, 2)로 확장되어 연산
print(t8 + t9)

# 3차원 텐서와 2차원 텐서의 브로드캐스팅
t11 = torch.ones(4, 3, 2)
t12 = t11 * torch.rand(3, 2)  # (4, 3, 2) * (3, 2) -> (4, 3, 2)
print(t12.shape)

# 차원 크기가 1인 경우의 브로드캐스팅
t13 = torch.ones(4, 3, 2)
t14 = t13 * torch.rand(3, 1)  # (4, 3, 2) * (3, 1) -> (4, 3, 2)
print(t14.shape)

tensor([[4, 3],
        [3, 4]])
tensor([[6, 7],
        [2, 5]])
tensor([[8, 6],
        [5, 3]])
torch.Size([4, 3, 2])
torch.Size([4, 3, 2])


두 텐서 간의 브로드캐스팅은 다음 두 규칙을 따른다.

두 텐서의 차원 수를 맞추기 위해, 차원이 적은 텐서의 왼쪽에 1을 추가하여 shape을 맞춘다.

오른쪽 차원부터 시작하여 각 차원을 비교할 때, 두 텐서의 차원 크기가 같거나 둘 중 하나의 차원 크기가 1이면 호환 가능하다.

In [55]:
# 추가 코드: 에러 확인을 위한 try-except 구문
try:
  # shape (5, 2, 4, 1)와 (3, 1, 1)의 연산
  # 오른쪽부터 차원을 비교하면 1, 4은 호환되지만,
  # 그 다음 차원인 2와 3은 같지도 않고 어느 한쪽이 1도 아니므로 에러가 발생한다.
  t25 = torch.empty(5, 2, 4, 1)
  t26 = torch.empty(3, 1, 1)
  print((t25 + t26).size())
except RuntimeError as e:
  print("예상된 에러가 발생했습니다.")
  print(e)

예상된 에러가 발생했습니다.
The size of tensor a (2) must match the size of tensor b (3) at non-singleton dimension 1


브로드캐스팅은 매우 강력한 기능이지만, 규칙을 정확히 이해하고 사용해야 의도치 않은 에러나 잘못된 연산을 피할 수 있다. 디버깅 시 텐서의 shape을 출력하여 확인하는 습관이 중요하다.

10. 텐서 인덱싱 / 슬라이싱

In [56]:
import torch

x = torch.tensor(
  [[0, 1, 2, 3, 4],
   [5, 6, 7, 8, 9],
   [10, 11, 12, 13, 14]]
)

# 인덱스 1의 행 전체 선택
print(x[1])
# 모든 행에 대해, 인덱스 1의 열 선택
print(x[:, 1])
# 인덱스 1인 행의 인덱스 2인 열에 있는 원소 선택
print(x[1, 2])
# 인덱스 1인 행부터 끝까지 선택
print(x[1:])
# 인덱스 1인 행부터 끝까지, 그리고 인덱스 3인 열부터 끝까지 선택
print(x[1:, 3:])

tensor([5, 6, 7, 8, 9])
tensor([ 1,  6, 11])
tensor(7)
tensor([[ 5,  6,  7,  8,  9],
        [10, 11, 12, 13, 14]])
tensor([[ 8,  9],
        [13, 14]])


대괄호 []와 인덱스, 그리고 콜론 :을 조합하여 텐서의 특정 부분을 선택할 수 있다.

In [57]:
# 6x6 크기의 0으로 채워진 텐서 생성
y = torch.zeros((6, 6))

# 행은 1~3, 열은 2인 영역에 값 1을 할당한다.
# 스칼라 값 1이 해당 영역 전체에 브로드캐스팅된다.
y[1:4, 2] = 1
print(y)

# 3x4 크기의 텐서 생성
z = torch.tensor(
  [[1, 2, 3, 4],
   [2, 3, 4, 5],
   [5, 6, 7, 8]]
)

# 행은 1부터 끝까지, 열은 1~2인 영역에 값 0을 할당한다.
z[1:, 1:3] = 0
print(z)

tensor([[0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0.],
        [0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0.]])
tensor([[1, 2, 3, 4],
        [2, 0, 0, 5],
        [5, 0, 0, 8]])


슬라이싱은 단순히 값을 가져오는 것뿐만 아니라, 특정 영역에 새로운 값을 일괄적으로 할당하는 데에도 사용한다.
: 기호는 해당 차원의 모든 요소를 선택하는 것을 의미하다.
start:end 형식은 start 인덱스부터 end-1 인덱스까지의 범위를 선택하다.

11. 텐서 모양 바꾸기 

In [58]:
import torch

t1 = torch.tensor([[1, 2, 3], [4, 5, 6]])
# t1(2, 3)의 shape을 (3, 2)로 변경한다.
t2 = t1.view(3, 2)
# t1(2, 3)의 shape을 (1, 6)으로 변경한다.
t3 = t1.reshape(1, 6)
print(t2)
print(t3)

# arange로 생성한 텐서에 바로 view를 적용할 수도 있다.
t4 = torch.arange(8).view(2, 4)
print(t4)

tensor([[1, 2],
        [3, 4],
        [5, 6]])
tensor([[1, 2, 3, 4, 5, 6]])
tensor([[0, 1, 2, 3],
        [4, 5, 6, 7]])


view와 reshape는 기능적으로 매우 유사하나 미세한 차이가 있다. view는 메모리 상에서 연속적인 데이터에만 사용 가능하며 원본 텐서와 데이터를 공유한다. reshape는 더 유연하여, 필요시 데이터를 복사해서라도 shape을 변경해준다. 일반적으로 reshape를 사용하는 것이 더 안전하고 편리하다.

In [59]:
# (1, 3, 1) 크기의 텐서 생성
t6 = torch.tensor([[[1], [2], [3]]])

# squeeze(): 크기가 1인 모든 차원을 제거한다. (1, 3, 1) -> (3,)
t7 = t6.squeeze()

# squeeze(0): 0번 차원만 제거한다. (1, 3, 1) -> (3, 1)
t8 = t6.squeeze(0)
print(t7)
print(t8)


# (3,) 크기의 텐서 생성
t9 = torch.tensor([1, 2, 3])

# unsqueeze(1): 1번 위치에 새로운 차원을 추가한다. (3,) -> (3, 1)
t10 = t9.unsqueeze(1)
print(t10)


tensor([1, 2, 3])
tensor([[1],
        [2],
        [3]])
tensor([[1],
        [2],
        [3]])


이 함수들은 모델의 입출력 shape을 맞추거나 브로드캐스팅을 위해 차원을 조작할 때 매우 유용하다. squeeze는 불필요한 차원을 없애고, unsqueeze는 연산을 위해 차원을 추가하는 역할을 한다.

In [60]:
t13 = torch.tensor([[1, 2, 3], [4, 5, 6]])
# flatten(): 모든 원소를 1차원으로 펼친다.
t14 = t13.flatten()
print(t14)

t15 = torch.tensor([[[1, 2], [3, 4]], [[5, 6], [7, 8]]]) # shape: (2, 2, 2)
# flatten(start_dim=1): 1번 차원부터 끝까지를 펼친다.
# (2, 2, 2) -> (2, 4)
t17 = torch.flatten(t15, start_dim=1)
print(t17)

tensor([1, 2, 3, 4, 5, 6])
tensor([[1, 2, 3, 4],
        [5, 6, 7, 8]])


flatten은 모든 원소를 1차원으로 펼친다.
start_dim을 지정하면 배치 차원 등 특정 차원은 유지한 채 나머지만 펼칠 수 있다.

In [61]:
t18 = torch.randn(2, 3, 5)
# permute(2, 0, 1): (2, 3, 5) -> (5, 2, 3) 순서로 차원을 재배열한다.
print(torch.permute(t18, (2, 0, 1)).size())


t19 = torch.tensor([[1, 2, 3], [4, 5, 6]])
# permute(1, 0): 0번과 1번 차원의 순서를 바꾼다. (2, 3) -> (3, 2)
t21 = torch.permute(t19, dims=(1, 0))
print(t21)

# transpose(0, 1): 0번과 1번 차원을 맞바꾼다. permute(1, 0)과 동일하다.
t22 = torch.transpose(t19, 0, 1)
print(t22)

# t(): 2차원 텐서의 전치 행렬을 구한다. transpose(0, 1)의 단축형이다.
t23 = torch.t(t19)
print(t23)

torch.Size([5, 2, 3])
tensor([[1, 4],
        [2, 5],
        [3, 6]])
tensor([[1, 4],
        [2, 5],
        [3, 6]])
tensor([[1, 4],
        [2, 5],
        [3, 6]])


permute는 모든 차원의 순서를 자유롭게 재배열할 수 있는 함수이다.

transpose는 두 개의 특정 차원만 맞바꾸는 연산이다.

t는 2차원 텐서에만 사용할 수 있는 transpose의 축약형이다.

12. 텐서 연결하기

In [62]:
import torch

t1 = torch.zeros([2, 1, 3])
t2 = torch.zeros([2, 3, 3])
t3 = torch.zeros([2, 2, 3])

# dim=1을 기준으로 t1, t2, t3를 연결한다.
# (2, 1, 3), (2, 3, 3), (2, 2, 3) -> (2, 1+3+2, 3)
t4 = torch.cat([t1, t2, t3], dim=1)
print(t4.shape)

t5 = torch.arange(0, 3)
t6 = torch.arange(3, 8)

# 1차원 텐서를 연결한다.
t7 = torch.cat((t5, t6), dim=0)
print(t7.shape)
print(t7)

t8 = torch.arange(0, 6).reshape(2, 3)
t9 = torch.arange(6, 12).reshape(2, 3)

# 2차원 텐서를 0번 차원(행) 기준으로 연결한다.
t10 = torch.cat((t8, t9), dim=0)
print(t10.size())
print(t10)

# 2차원 텐서를 1번 차원(열) 기준으로 연결한다.
t11 = torch.cat((t8, t9), dim=1)
print(t11.size())
print(t11)

t12 = torch.arange(0, 6).reshape(2, 3)
t13 = torch.arange(6, 12).reshape(2, 3)
t14 = torch.arange(12, 18).reshape(2, 3)

# 3개의 2차원 텐서를 0번 차원 기준으로 연결한다.
t15 = torch.cat((t12, t13, t14), dim=0)
print(t15.size())

# 3개의 2차원 텐서를 1번 차원 기준으로 연결한다.
t16 = torch.cat((t12, t13, t14), dim=1)
print(t16.size())

t17 = torch.arange(0, 6).reshape(1, 2, 3)
t18 = torch.arange(6, 12).reshape(1, 2, 3)

# 3차원 텐서를 0, 1, 2번 각 차원 기준으로 연결한다.
t19 = torch.cat((t17, t18), dim=0)
print(t19.size())
t20 = torch.cat((t17, t18), dim=1)
print(t20.size())
t21 = torch.cat((t17, t18), dim=2)
print(t21.size())

torch.Size([2, 6, 3])
torch.Size([8])
tensor([0, 1, 2, 3, 4, 5, 6, 7])
torch.Size([4, 3])
tensor([[ 0,  1,  2],
        [ 3,  4,  5],
        [ 6,  7,  8],
        [ 9, 10, 11]])
torch.Size([2, 6])
tensor([[ 0,  1,  2,  6,  7,  8],
        [ 3,  4,  5,  9, 10, 11]])
torch.Size([6, 3])
torch.Size([2, 9])
torch.Size([2, 2, 3])
torch.Size([1, 4, 3])
torch.Size([1, 2, 6])


torch.cat은 텐서들의 리스트 또는 튜플을 입력으로 받는다.

dim으로 지정된 차원을 제외한 나머지 모든 차원의 크기는 반드시 동일해야 한다.

결과 텐서의 dim 차원 크기는 입력 텐서들의 해당 차원 크기들의 합이다.

13. 텐서 쌓기

In [63]:
import torch

t1 = torch.tensor([[1, 2, 3], [4, 5, 6]])
t2 = torch.tensor([[7, 8, 9], [10, 11, 12]])

# dim=0: 0번 차원을 새로 만들어 쌓는다. (2, 3) -> (2, 2, 3)
t3 = torch.stack([t1, t2], dim=0)
t4 = torch.cat([t1.unsqueeze(dim=0), t2.unsqueeze(dim=0)], dim=0)
print(t3.shape, t3.equal(t4))

# dim=1: 1번 차원을 새로 만들어 쌓는다. (2, 3) -> (2, 2, 3)
t5 = torch.stack([t1, t2], dim=1)
t6 = torch.cat([t1.unsqueeze(dim=1), t2.unsqueeze(dim=1)], dim=1)
print(t5.shape, t5.equal(t6))

# dim=2: 2번 차원을 새로 만들어 쌓는다. (2, 3) -> (2, 3, 2)
t7 = torch.stack([t1, t2], dim=2)
t8 = torch.cat([t1.unsqueeze(dim=2), t2.unsqueeze(dim=2)], dim=2)
print(t7.shape, t7.equal(t8))

t9 = torch.arange(0, 3)
t10 = torch.arange(3, 6)

# 1차원 텐서를 0번 차원 기준으로 쌓는다. (3,) -> (2, 3)
t11 = torch.stack((t9, t10), dim=0)
print(t11.size())
print(t11)

# 1차원 텐서를 1번 차원 기준으로 쌓는다. (3,) -> (3, 2)
t13 = torch.stack((t9, t10), dim=1)
print(t13.size())
print(t13)

# stack과 unsqueeze+cat의 동작이 동일한지 확인
t12 = torch.cat((t9.unsqueeze(0), t10.unsqueeze(0)), dim=0)
print(t11.equal(t12))
t14 = torch.cat((t9.unsqueeze(1), t10.unsqueeze(1)), dim=1)
print(t13.equal(t14))

torch.Size([2, 2, 3]) True
torch.Size([2, 2, 3]) True
torch.Size([2, 3, 2]) True
torch.Size([2, 3])
tensor([[0, 1, 2],
        [3, 4, 5]])
torch.Size([3, 2])
tensor([[0, 3],
        [1, 4],
        [2, 5]])
True
True


torch.stack에 입력되는 모든 텐서는 크기가 완전히 동일해야 한다.

torch.cat이 기존 차원을 따라 텐서를 연결하는 반면, torch.stack은 새로운 차원을 추가하여 텐서를 연결한다.

결과 텐서는 입력 텐서보다 차원이 하나 더 많아진다.

torch.stack([t1, t2], dim=N) 연산은 각 텐서에 unsqueeze(N)를 적용한 뒤 torch.cat을 dim=N으로 수행한 것과 동일하다.

14. 텐서 쌓기 방향

In [64]:
import torch

# 1차원 텐서들은 각각 행으로 취급되어 쌓인다. (3,) -> (2, 3)
t1 = torch.tensor([1, 2, 3])
t2 = torch.tensor([4, 5, 6])
t3 = torch.vstack((t1, t2))
print(t3)

# 2차원 텐서들은 0번 차원을 기준으로 연결된다. (3, 1) -> (6, 1)
t4 = torch.tensor([[1], [2], [3]])
t5 = torch.tensor([[4], [5], [6]])
t6 = torch.vstack((t4, t5))
print(t6)

# 3차원 텐서들도 0번 차원을 기준으로 연결된다. (2, 2, 3) -> (4, 2, 3)
t7 = torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
t8 = torch.tensor([[[13, 14, 15], [16, 17, 18]], [[19, 20, 21], [22, 23, 24]]])
t9 = torch.vstack([t7, t8])
print(t9.shape)

tensor([[1, 2, 3],
        [4, 5, 6]])
tensor([[1],
        [2],
        [3],
        [4],
        [5],
        [6]])
torch.Size([4, 2, 3])


torch.vstack은 torch.cat을 dim=0으로 설정하여 수행하는 것과 유사한 동작을 한다.

입력 텐서들의 0번 차원을 제외한 나머지 차원들의 크기는 모두 동일해야 한다.

In [65]:
# 1차원 텐서들은 그대로 이어 붙는다. (3,) -> (6,)
t10 = torch.tensor([1, 2, 3])
t11 = torch.tensor([4, 5, 6])
t12 = torch.hstack((t10, t11))
print(t12)

# 2차원 텐서들은 1번 차원(열)을 기준으로 연결된다. (3, 1) -> (3, 2)
t13 = torch.tensor([[1], [2], [3]])
t14 = torch.tensor([[4], [5], [6]])
t15 = torch.hstack((t13, t14))
print(t15)

# 3차원 텐서들은 1번 차원을 기준으로 연결된다. (2, 2, 3) -> (2, 4, 3)
t16 = torch.tensor([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
t17 = torch.tensor([[[13, 14, 15], [16, 17, 18]], [[19, 20, 21], [22, 23, 24]]])
t18 = torch.hstack([t16, t17])
print(t18.shape)

tensor([1, 2, 3, 4, 5, 6])
tensor([[1, 4],
        [2, 5],
        [3, 6]])
torch.Size([2, 4, 3])


torch.hstack은 입력 텐서가 1차원일 경우 0번 축을 따라, 2차원 이상일 경우 1번 축을 따라 텐서를 연결한다.

연결되는 차원을 제외한 나머지 차원들의 크기는 모두 동일해야 한다.

숙제 후기 
딥러닝의 기초가 되는 텐서의 연산에 대해 알아보며 파이토치에 대해 잘 알 수 있었고 shape의 중요성을 느끼게 되는 숙제였던 것 같다. 
불평을 조금 해보자면 코드가 너무 많았다 텐서를 하나하나 새로 생성하고 출력하다보니 양이 많았던 것 같다.
하고싶은 말은 수업의 템포이다. 이전에 ai기초 강의를 들었을 땐 수업이 너무 빨라 대강 이해하고 넘어가는 경우가 다반사였지만 한연희 교수님의 수업을 들으니 하나의 개념이라도 확실히 짚고 넘어가다 보니 이해가 착착 되어 좋았다. 
앞으로도 좋은 수업 부탁드립니다. 항상 잘 듣고 있습니다!