# 1.4 파이토치 기초

파이토치는 다양한 딥러닝용 패키지를 제공하는 최적화된 텐서 조작 라이브러리 입니다. 파이토치의 핵심은 텐서입니다. 텐서는 다차원 데이터를 담은 수학 객체입니다.

0차 텐서는 하나의 숫자 또는 스칼라 입니다. 1차 텐서는 숫자 배열 또는 벡터입니다. 2차텐서는 벡터의 배열 또는 행렬입니다.

# 1.4.2 텐서 만들기

In [5]:
import torch

In [6]:
def describe(x):
    print("타입: {}".format(x.type()))
    print("크기: {}".format(x.shape))
    print("값: \n{}".format(x))

In [10]:
# 코드 1-3 파이토치에서 torch.Tensor로 텐서 만들기

import torch
describe(torch.Tensor(2,3))

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[0.0000e+00, 1.0194e-38, 1.0606e-08],
        [3.3526e-09, 1.6821e-04, 5.3935e-05]])


In [2]:
# 코드 1-4 랜덤하게 초기화한 텐서 만들기

import torch
describe(torch.rand(2,3)) # 균등 분포
describe(torch.randn(2,3)) # 표준 정규 분포

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[0.5084, 0.2681, 0.4850],
        [0.2761, 0.8141, 0.1408]])
타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[ 0.1066, -0.2736, -0.8006],
        [-0.8194, -0.4243, -0.8100]])


표준 정규 분포는 평균이 0이고 분산이 1인 정규 분포 입니다.

동일한 스칼라값으로 채운 텐서를 만들 수도 있습니다. 내장함수로 0 또는 1로 채운 텐서를 만들거나 fill_() 메서드를 사용해서 특정값으로 채울 수 있습니다.

밑줄 문자(_)가 있는 파이토치 인-플레이스 메서드는 텐서값을 바꾸는 연산을 의미합니다.

In [5]:
# 코드 1-5 filled() 메서드 사용하기

import torch
describe(torch.zeros(2,3))
x = torch.ones(2,3)
describe(x)
x.fill_(5)
describe(x)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[0., 0., 0.],
        [0., 0., 0.]])
타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[1., 1., 1.],
        [1., 1., 1.]])
타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[5., 5., 5.],
        [5., 5., 5.]])


In [6]:
# 코드 1-6 파이썬 리스트로 텐서를 만들고 초기화하기

x = torch.Tensor([[1,2,3],
                  [4,5,6]])
describe(x)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[1., 2., 3.],
        [4., 5., 6.]])


언제든지 파이토치 텐서를 넘파이 배열로 바꿀 수 있습니다. 넘파이 배열을 사용하면 텐서 기본 타입이 FloatTensor 가 아니라 DoubleTensor가 됩니다. 랜덤한 넘파이 배열의 기본 데이터 타입이 float64이기 때문입니다.

In [7]:
# 코드 1-7 넘파이로 텐서를 만들고 초기화하기

import torch
import numpy as np
npy = np.random.rand(2,3)
describe(torch.from_numpy(npy))

타입: torch.DoubleTensor
크기: torch.Size([2, 3])
값: 
tensor([[0.8669, 0.1215, 0.3907],
        [0.4237, 0.9197, 0.9849]], dtype=torch.float64)


넘파이 배열과 파이토치 텐서 사이를 변환하는 기능은 넘파이 포맷의 수치 데이터를 사용하는 레거시 라이브러리를 사용할 때 중요합니다.

# 1.4.3 텐서 타입과 크기

텐서에는 타입과 크기가 있습니다. torch.Tensor 생성자를 사용할 때 기본 텐서 타입은 torch.FloatTensor 입니다.

텐서 타입은 초기화할 때 지정하거나 나중에 타입 캐스팅 메서드를 사용해 다른 타입(float, long, double등)으로 바꿀 수 있습니다.

초기화할 때 타입을 지정하는 방법은 두가지입니다.

1. FloatTensor와 LongTensor 같은 특정 텐서 타입의 생성자를 직접 호출
2. torch.tensor() 메서드와 dtype 매개변수를 사용

In [8]:
# 코드 1-8 텐서 속성

x = torch.FloatTensor([[1,2,3],
                       [4,5,6]])
describe(x)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[1., 2., 3.],
        [4., 5., 6.]])


In [9]:
x = x.long()
describe(x)

타입: torch.LongTensor
크기: torch.Size([2, 3])
값: 
tensor([[1, 2, 3],
        [4, 5, 6]])


In [10]:
x = torch.tensor([[1,2,3],
                 [4,5,6]], dtype=torch.int64)
describe(x)

타입: torch.LongTensor
크기: torch.Size([2, 3])
값: 
tensor([[1, 2, 3],
        [4, 5, 6]])


In [11]:
x = x.float()
describe(x)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[1., 2., 3.],
        [4., 5., 6.]])


텐서 객체의 shape 속성과 size()메서드를 사용해 텐서의 차원을 확인할 수 있습니다. 이 두 방법은 거의 같은 작업을 수행합니다. 파이토치 코드를 디버깅할 때는 텐서 크기를 꼭 조사해 봐야 합니다.

# 1.4.4 텐서 연산

In [12]:
# 코드 1-9 텐서 연산: 덧셈

import torch
x = torch.randn(2,3)
describe(x)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[ 0.8350, -0.2734,  1.6983],
        [-1.6381, -0.7392, -0.1647]])


In [13]:
describe(torch.add(x,x))

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[ 1.6699, -0.5467,  3.3966],
        [-3.2762, -1.4785, -0.3294]])


In [15]:
describe(x+x)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[ 1.6699, -0.5467,  3.3966],
        [-3.2762, -1.4785, -0.3294]])


In [16]:
# 코드 1-10 차원별 텐서 연산

import torch
x = torch.arange(6)
describe(x)

타입: torch.LongTensor
크기: torch.Size([6])
값: 
tensor([0, 1, 2, 3, 4, 5])


In [17]:
x = x.view(2,3)
describe(x)

타입: torch.LongTensor
크기: torch.Size([2, 3])
값: 
tensor([[0, 1, 2],
        [3, 4, 5]])


In [18]:
describe(torch.sum(x, dim=0))

타입: torch.LongTensor
크기: torch.Size([3])
값: 
tensor([3, 5, 7])


In [19]:
describe(torch.transpose(x,0,1))

타입: torch.LongTensor
크기: torch.Size([3, 2])
값: 
tensor([[0, 3],
        [1, 4],
        [2, 5]])


transpose() 함수는 두 번째와 세 번째 매개변수로 전달된 차원을 전치한 텐서를 만듭니다.

# 1.4.5 인덱싱, 슬라이싱, 연결

In [4]:
# 코드 1-11 텐서 슬라이싱과 인덱싱

import torch
x = torch.arange(6).view(2,3)
describe(x)

타입: torch.LongTensor
크기: torch.Size([2, 3])
값: 
tensor([[0, 1, 2],
        [3, 4, 5]])


In [5]:
describe(x[:1, :2])

타입: torch.LongTensor
크기: torch.Size([1, 2])
값: 
tensor([[0, 1]])


In [7]:
describe(x[0,1])

타입: torch.LongTensor
크기: torch.Size([])
값: 
1


In [5]:
# 코드 1-12 복잡한 인덱싱. 연속적이지 않은 텐서 인덱스 참조하기

indices = torch.LongTensor([0,2])
describe(torch.index_select(x, dim=1, index=indices))

타입: torch.LongTensor
크기: torch.Size([2, 2])
값: 
tensor([[0, 2],
        [3, 5]])


In [7]:
indices = torch.LongTensor([0,0])
describe(torch.index_select(x, dim=0, index=indices))

타입: torch.LongTensor
크기: torch.Size([2, 3])
값: 
tensor([[0, 1, 2],
        [0, 1, 2]])


index_select()함수가 반환하는 텐서는 dim 매개변수에 지정한 차원의 크기가 index 매개변수에 지정한 텐서의 길이와 같습니다. 나머지 차원은 원본 텐서와 크기가 같습니다.

In [13]:
row_indices = torch.arange(2).long()  #[0,1]
col_indices = torch.LongTensor([0,1]) #[0,1]
describe(x[row_indices, col_indices]) #x[[0,1],[0,1]] = [0,4]

타입: torch.LongTensor
크기: torch.Size([2])
값: 
tensor([0, 4])


인덱스가 LongTensor라는 점에 주목하세요. 파이토치 함수를 사용할 때 필수 조건입니다.

In [15]:
# 코드 1-13 텐서 연결

import torch
x = torch.arange(6).view(2,3)
describe(x)

타입: torch.LongTensor
크기: torch.Size([2, 3])
값: 
tensor([[0, 1, 2],
        [3, 4, 5]])


In [16]:
describe(torch.cat([x,x], dim=0))

타입: torch.LongTensor
크기: torch.Size([4, 3])
값: 
tensor([[0, 1, 2],
        [3, 4, 5],
        [0, 1, 2],
        [3, 4, 5]])


In [17]:
describe(torch.cat([x,x], dim=1))

타입: torch.LongTensor
크기: torch.Size([2, 6])
값: 
tensor([[0, 1, 2, 0, 1, 2],
        [3, 4, 5, 3, 4, 5]])


In [29]:
# 코드 1-14 텐서의 선형 대수 계산: 헹렬 곱셈

import torch
x1 = torch.arange(6).view(2,3)
x1 = x1.float()
describe(x1)

타입: torch.FloatTensor
크기: torch.Size([2, 3])
값: 
tensor([[0., 1., 2.],
        [3., 4., 5.]])


In [28]:
x2 = torch.ones(3,2)
x2[:,1] += 1
describe(x2)

타입: torch.FloatTensor
크기: torch.Size([3, 2])
값: 
tensor([[1., 2.],
        [1., 2.],
        [1., 2.]])


In [30]:
describe(torch.mm(x1,x2))

타입: torch.FloatTensor
크기: torch.Size([2, 2])
값: 
tensor([[ 3.,  6.],
        [12., 24.]])


파이토치 행렬곱셈(mm), 역행렬(inverse,pinverse), 대각합(trace)

# 1.4.6 텐서와 계산 그래프

파이토치 tensor 클래스는 (텐서 그 자체인) 데이터와 대수 연산, 인덱싱, 크기 변경 같은 다양한 연산을 캡슐화합니다. 텐서의 requires_grad 불리언 매개변수를 True로 지정하면 그레이디언트 기반 학습에 필요한 손실 함수와 텐서의 그레이디언트를 기록하는 부가 연산을 활성화 합니다.

In [31]:
# 코드 1-15 그레이디언트 연산을 할 수 있는 텐서 만들기

import torch
x = torch.ones(2, 2, requires_grad=True)
describe(x)
print(x.grad is None)

타입: torch.FloatTensor
크기: torch.Size([2, 2])
값: 
tensor([[1., 1.],
        [1., 1.]], requires_grad=True)
True


In [34]:
y = (x+2)*(x+5) + 3
describe(y)
print(x.grad is None)

타입: torch.FloatTensor
크기: torch.Size([2, 2])
값: 
tensor([[21., 21.],
        [21., 21.]], grad_fn=<AddBackward0>)
True


In [35]:
z = y.mean()
describe(z)
z.backward()
print(x.grad is None)

타입: torch.FloatTensor
크기: torch.Size([])
값: 
21.0
False


requires_grad=True로 텐서를 만들면 파이토치는 그레이디언트 계산에 사용하는 부가정보를 관리합니다.

1. 먼저 파이토치가 정방향 계산의 값을 기록합니다.
2. 계산이 끝나면 스칼라값 하나를 상요해 역방향 계산을 수행합니다.
3. 역방향 계산은 손실 함수의 평가 결과로 얻은 텐서에서 backward() 메서드를 호출해 시작합니다.
4. 역방향 계산은 정방향 계산에 참여한 텐서 객체에 대한 그레이디언트값을 계산합니다.

일반적으로 그레이디언트는 함수 입력에 대한 함수 출력의 기울기를 나타내는 값입니다. 계산 그래프에서 그레이디언트는 모델의 파라미터마다 존재하고 오류 신호에 대한 파라미터의 기여로 생각할 수 있습니다. 

파이토치에서 계산 그래프에 있는 노드에 대한 그레이디언트를 .grad속성으로 참조할 수 있습니다. 옵티마이저는 .grad속성을 사용해서 파라미터값을 업데이트 합니다.

# 1.4.7 CUDA 텐서

In [2]:
# 코드 1-16 CUDA 텐서 만들기

import torch
print(torch.cuda.is_available())

True


In [3]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

cuda


In [7]:
x = torch.rand(3,3).to(device)
describe(x)

타입: torch.cuda.FloatTensor
크기: torch.Size([3, 3])
값: 
tensor([[0.2015, 0.7781, 0.2744],
        [0.0609, 0.0882, 0.6754],
        [0.4325, 0.3470, 0.5062]], device='cuda:0')


CUDA 객체와 CUDA가 아닌 객체를 다루려면 두 객체가 같은 장치에 있는지 확인해야 합니다.

In [8]:
# 코드 1-17 CUDA 텐서와 CPU 텐서 더하기

y = torch.rand(3,3)
x+y

RuntimeError: Expected all tensors to be on the same device, but found at least two devices, cuda:0 and cpu!

In [10]:
cpu_device = torch.device("cpu")
y = y.to(cpu_device)
x = x.to(cpu_device)
x + y

tensor([[0.4119, 1.5020, 0.3944],
        [0.3918, 0.4627, 0.9633],
        [1.1726, 0.9144, 1.0520]])