# 파이토치(pytorch) 기초

- 파이토치는 딥 러닝 연구 혹은 상용 제품을 빠르게 개발하도록 해주는 오픈 소스 머신러닝 프레임워크이다.
- 파이토치는 사용자 친화적인 라이브러리로써 구현된 다양한 도구를 통해 빠르고 유연한 실험 및 효과적인 상용화를 가능하게 한다.

## 1. 텐서의 기초
### 텐서란 무엇인가?
텐서(Tensor)는 넘파이 배열(Numpy array)과 마찬가지로 다차열 배열(Multi dimensional array)을 표현할 수 있다. 따라서 텐서는 넘파이 배열과 동작이 매우 유사한데, 넘파이 배열과는 다르게 GPU 기기에 올려서 계산을 더 빠르게 해줄 수 있다는 장점이 있다. 여기서는 어떻게 텐서를 정의하는지, 넘파이 배열과 어떻게 다른지에 대한 내용을 다룬다.

In [None]:
# 파이토치는 torch 로 임포트한다.
import numpy as np
import torch

In [None]:
a = np.array([1, 2, 3]) # 넘파이 배열 선언
a

In [None]:
b = torch.tensor([1, 2, 3]) # 파이토치 텐서 선언 (넘파이 배열 선언과 매우 유사하다.)
b

```torch.from_numpy()```메서드를 이용하여 넘파이 배열은 파이토치 텐서로 쉽게 변환 가능하다. 또한 반대로도 가능하다.

In [None]:
a = np.array([1, 2, 3])
a_tensor = torch.from_numpy(a)

print(type(a_tensor))
a_tensor

In [None]:
b = torch.tensor([1, 2, 3])
b_numpy = b.numpy()

print(type(b_numpy))
b_numpy

2차원 텐서 선언 (넘파이 배열에서 쓰는 attribute 및 함수들과 매우 유사)

In [None]:
c = torch.tensor([[1, 2, 3], [4, 5, 6]]) # 2차원 텐서 선언
print('c: \n',c.__repr__())
print('shape of c: ', c.shape)
print('dimension of c: ', c.ndim)

여러가지 텐서 선언 방법 (넘파이 함수들과 매우 유사)

In [None]:
a = torch.arange(0, 10, 1)
print('created from .arange() method: ', a)

a = torch.zeros(10)
print('created from .zeros() method: ', a)

a = torch.ones(10)
print('created from .ones() method: ', a)

a = torch.linspace(0,2,9)
print('created from .linspace() method: ', a)

In [None]:
# 다차원 텐서 선언
a = torch.randn(size=(2, 4, 5)) # uniform 분포를 따르는 랜덤 값 반환
a

In [None]:
print('dimension of tensor: ', a.ndim)
print('shape of tensor', a.shape) 
print('total number of elements in tensor: ', a.numel())  # 넘파이 배열과 다르다!
print('data type of elements: ', a.dtype)

파이토치 텐서 또한 넘파이 배열과 마찬가지로 **인덱싱(Indexing)**과 **슬라이싱(slicing)**을 지원한다.

In [None]:
a = torch.arange(10)
a

In [None]:
a[7]  # indexing 7'th element

In [None]:
a[3:9]  # slicing from 3 to 9 (exclusive)

In [None]:
a[3:]  #slicing from 3 to the last element (inclusive)

텐서의 shape 변경 (```torch.Tensor.reshape()``` 또는 ```torch.Tensor.view()``` 메서드)

In [None]:
# (3, 4) shape의 텐서 선언
a = torch.arange(12).reshape(3, 4)
a

In [None]:
a = torch.arange(12).view(3, 4)
a

### 텐서의 동작 및 연산

텐서의 연산 또한 지난 시간에 다룬 넘파이 배열의 연산과 크게 다르지 않다. +, - 와 같은 사칙연산은 ```torch.add()```, ```torch.sub()```과 같은 메서드로도 구현될 수 있다. 

In [None]:
a = torch.arange(5)
b = torch.arange(4, -1, -1)
print('a:\n', a)
print('b:\n', b)

In [None]:
# support all basic numerical operations such as +. -. *, /, ** ..
print('a + b: ', a + b)
print('a + b: ', torch.add(a, b))  # torch.add() 메서드를 사용
print('a - b: ', a - b)
print('a - b: ', torch.sub(a, b))  # torch.sub() 메서드를 사용
print('a^2: ', a ** 2)
print('cos(a): ', np.cos(a))
print('logical operation of a < 1: ', a < 1)

Transpose 연산 (```torch.Tensor.t()``` 메서드 사용)

In [None]:
a = torch.arange(10).reshape(2, 5)
a

In [None]:
# transpose
a.t()

```torch.cat()``` 메서드를 이용하여 텐서 붙이기 (쌓기)

In [None]:
a = torch.tensor([[1, 2, 3],[4 ,5, 6]])
b = torch.tensor([[7, 8, 9],[10, 11, 12]])
print('a:\n', a)
print('b:\n', b)

In [None]:
# 위로(dim=0) 쌓기 (stack vertically)
torch.cat([a, b], dim=0)

In [None]:
# 옆으로(dim=1) 쌓기 (stack horizontally)
torch.cat([a, b], dim=1)

```torch.Tensor.item()```메서드로 스칼라(rank0) 텐서를 파이썬 넘버로 변환

In [None]:
a = torch.tensor(10.) # 스칼라 텐서
a

In [None]:
a.item()  # 파이썬 넘버로 변환

#### 텐서를 GPU에 올리기

해당 머신에서 GPU가 사용가능한지 판단하고, 만약 사용이 가능하다면 빠른 계산을 위하여 텐서를 GPU에 올린다.

**GPU가 사용가능한지 판단하는 메서드**: ```torch.cuda.is_available()```의 반환 값이 True 이면 사용가능, False 이면 CPU만 사용가능


**텐서를 GPU에 올리는 메서드**: ```torch.Tensor.to(torch.device)``` 혹은 ```torch.Tensor.cuda()```

In [None]:
# 사용가능한 GPU가 있는지 확인
torch.cuda.is_available()

In [None]:
x = torch.tensor([1, 2, 3]).cuda('cuda:4')  # specify the GPU number
x

In [None]:
y = torch.tensor([4, 5, 6])

device = torch.device('cuda:4')  # CUDA device object
y = y.to(device)  # using .to() method
y

In [None]:
z = x + y
z

GPU에 올라가 있는 텐서를 CPU로 되돌리기

In [None]:
z.cpu()

## 2. 자동미분(Autograd)
### ```backward()```를 이용한 미분(gradient) 계산

딥러닝 분야에서 어떤 objective function의 미분 값을 계산하고 경사하강(gradient descent) 방식을 도입하여 최적의 파라미터를 찾는다. 이때 미분 값의 계산을 용이하게 해주는 것이 파이토치의 자동미분 기능이다. 파이토치는 행하는 모든 연산을 저장할 수 있고 이를 활용하여 해당 연산에 대한 미분 값을 계산함으로써 다차원 파라미터에 대한 미분도 효율적으로 처리할 수 있다.

**미분 계산을 위한 텐서 옵션**

미분계산을 위해 연산을 트래킹하기 위해서 텐서의 옵션 중 requires_grad가 True여야 한다.

In [None]:
# 모든 연산을 tracking하기 위해 requires_grad=True로 설정
x = torch.tensor([1, 2, 3, 4], dtype=torch.float, requires_grad=True)
x

In [None]:
y = x + 2
y

In [None]:
# 모든 연산을 tracking. .grad_fn 으로 확인가능
print(y.grad_fn)

In [None]:
z = y ** 2
z

In [None]:
print(z.grad_fn)

**```backward()```** 메서드로 미분 값 계산

backward() 함수는 스칼라(scalar) 텐서에 대해서만 사용가능(보통 손실함수 및 objective function은 scalar 이다). 위의 텐서 z의 element들을 모두 더해서 스칼라로 만들어준 후 x에 대해 미분하여 미분 값을 계산해보자

In [None]:
z_sum = z.sum()
z_sum

In [None]:
# backward() 메서드 호출 시 x에 대한 미분값이 자동으로 계산
z_sum.backward()

x 에 대한 미분 값이 계산되면 .grad 로 미분 값 확인 가능

In [None]:
x.grad # x 가 4개의 element로 이루어져 있으므로 gradient도 4개이다.

In [None]:
# 한번 더 호출하면 에러 발생
z_sum.backward()

In [None]:
# 한번 더 호출하려면 연산그래프 (computational graph)를 유지를 해야하는데, 이는 다음과 같이 설정하면 된다.
y = x + 2
z = y ** 2
z_sum = z.sum()

In [None]:
z_sum.backward(retain_graph=True)

In [None]:
x.grad

In [None]:
# retain_graph=True로 설정하면 한번 더 backward 호출 가능
z_sum.backward(retain_graph=True)

In [None]:
x.grad

위에서 볼 수 있듯이, ```backward()``` 메서드를 호출할 때 마다 새로 계산된 미분 값으로 치환되는 것이 아닌 기존의 저장된 미분 값에서 누적이되는 형태이다. 따라서 새로운 미분 값만 저장하고 싶다면, ```.grad.data.zero_()``` 메서드를 이용하여 기존의 저장된 미분 값을 제거하고 ```backward()``` 메서드를 호출하면 된다.

In [None]:
# 기존의 미분 값 제거
x.grad.data.zero_()
x.grad

In [None]:
z_sum.backward()
x.grad

requires_grad 설정이 안된 상태로 선언된 텐서도 사후설정 가능하다.

In [None]:
x = torch.tensor([1, 2, 3, 4], dtype=torch.float)
x.requires_grad  # required_grad=False

In [None]:
x.requires_grad = True  # True로 설정 가능
x

**```with```문으로 미분계산 tracking 끊기**

모든 파라미터에 대한 미분 값을 계산하기 위해서는 해당 연산(computational graph)을 모두 기억해야하므로 메모리 부담이 크다. 간혹 파라미터에 대한 연산 기억이 필요하지 않을 때가 있는데(예를 들면 validation 이나 test 시), 이 때에 메모리 부담을 줄이기 위해 중간에 연산 tracking을 끊는 방식을 사용하기도 한다.

In [None]:
x = torch.tensor([1, 2, 3, 4], dtype=torch.float, requires_grad=True)
x

In [None]:
# with torch.no_grad() 블록 안에서 행해지는 모든 연산은 메모리에 저장되지 않는다. 따라서 미분 계산도 불가능
with torch.no_grad():
    y = x + 2
    z = y ** 2

z.sum().backward()

## 3. 모델 선언 및 학습
### 파이썬 클래스의 기초

**파이썬 클래스 정의**

파이썬 클래스는 키워드 ```class```와 콜론(:)을 이용하여 다음과 같이 정의한다.

```python
class 클래스이름:
    
    def 메서드이름(self, ...):
        statements
        
    def ...
    
    ...
```

클래스는 여러 메서드와 attribute들을 가지고있는 일종의 이름공간이다. 가장 간단한 클래스를 정의해보자.

In [None]:
class S1:
    a = 10
    
S1.a  # 클래스 S1의 attribute인 a

In [None]:
S1.b = 20  # 클래스 S1에 새로운 attribute인 b를 만들어서 20을 저장
S1.b

**인스턴스 만들기**

아래와 같이 정의된 클래스를 호출하면 인스턴스가 만들어진다. 일단 클래스가 하나 정의되면 인스턴스는 여러개 만들 수 있고 각각의 인스턴스는 독립적으로 행동한다.

In [None]:
inst1 = S1()  # inst1 이라는 인스턴스 만들기
print(inst1.a)  # 클래스가 가지고 있는 메서드와 attribute를 모두 가지고 있는 새로운 이름공간

In [None]:
print(inst1.b)  # 위에서 클래스 S1에 만든 새로운 attribute인 b도 가지고 있다.

In [None]:
inst1.a = 100  # 인스턴스 이름공간의 attribute 값 변경
print(inst1.a)

In [None]:
# 하지만 새로 만들어진 인스턴스에는 영향이 없다. (독립적으로 기능)
inst2 = S1()  #inst2 라는 인스턴스 만들기
print(inst2.a)

**클래스 안에서 메서드 정의하기**

클래스 내에 메서드를 정의할 땐 ```self```를 사용하며 이는 메서드 인스턴스 그 자체를 나타낸다.

In [None]:
class Person:
    # 인스턴스 초기화 메서드 -> 인스턴스를 만듦과 동시에 호출되는 함수이다.
    def __init__(self, name):
        self.name = name  # self 가 인스턴스 그 자체이므로 이 statement는 인스턴스 이름공간 내에 name이라는 attribute를 만든다는 의미.
        
    def whoami(self):
        return 'You are ' + self.name

In [None]:
person1 = Person(name='당신의 이름')  # 인스턴스를 만들면 자동으로 __init__() 메서드 호출
person1.name

In [None]:
# 클래스 메서드 호출
person1.whoami()

In [None]:
# 클래스 메서드 호출은 메서드 내에서도 가능하다.
# 값을 1씩 count 하는 클래스 정의

class Myclass:
    
    def __init__(self, v):
        self.value = v
    
    def get(self):
        return self.value
    
    def count(self):
        self.value = self.value + 1
        return self.get()  # 메서드 내에서 클래스 메서드 호출

In [None]:
counter = Myclass(v=10)
counter.get()

In [None]:
counter.count()  #  + 1씩 카운트
counter.get()

**클래스 상속**

클래스에는 상속이라는 개념이 존재하는데, 클래스를 상속할 시 상속받는 클래스는 상속하는 클래스의 모든 메서드나 attribute를 가지고 있다. 단, 상속받는 클래스에 상속하는 클래스의 메서드와 같은 이름의 메서드가 존재할 때, 상속받는 클래스의 메서드로 호출한다.

In [None]:
# 상속하는 클래스 parent 정의
class parent:
    def __init__(self):
        self.parent_attr = 'I am a parent'
        
    def parent_method(self):
        print('call parent method..')

In [None]:
# parent 클래스 상속을 받는 child 클래스 정의
class child(parent):
    def __init__(self):
        parent.__init__(self)  # parent와 같은 메서드 이름인 __init__이 child안에 정의되어 있으므로 
                               # parent_attr도 가져오기 위해서는 Parent 클래스에서 __init__ 메서드 호출
        self.child_attr = 'I am a child'        

In [None]:
c1 = child()
c1.parent_method()  # 상속 클래스 메서드 호출

In [None]:
c1.parent_attr

In [None]:
c1.child_attr

In [None]:
class child(parent):
    def __init__(self):
        self.child_attr = 'I am a child'        

In [None]:
c1 = child()
c1.parent_attr

In [None]:
class child(parent):
    def __init__(self):
        self.child_attr = 'I am a child'        
        
    def parent_method(self):  # 상속 클래스에 있는 메서드와 같은 이름의 메서드를 선언
        print(self.child_attr)
        
c1 = child()
c1.parent_method()

In [None]:
class child(parent):
    def __init__(self):
        self.child_attr = 'I am a child'        
        
    def parent_method(self):  # 상속 클래스에 있는 메서드와 같은 이름의 메서드를 선언
        parent.parent_method(self)  # 기존의 parent 클래스에 있는 parent_method 메서드도 호출
        print(self.child_attr)
        
c1 = child()
c1.parent_method()

**```super()``` 함수**

```super()```함수는 ```parent.parent_method(self)```와 마찬가지로 상속하는 클래스의 메서드를 호출할 때 사용한다. ```super()```함수가 자동으로 상속 클래스를 잡아준다.

In [None]:
class child(parent):
    def __init__(self):
        super().__init__()  # parent_attr도 가져오기 위해서는 Parent 클래스에서 __init__ 메서드 호출
        self.child_attr = 'I am a child'        
        
    def parent_method(self):  # 상속 클래스에 있는 메서드와 같은 이름의 메서드를 선언
        super().parent_method()  # 기존의 parent 클래스에 있는 parent_method 메서드도 호출
        print(self.child_attr)
        
c1 = child()
c1.parent_method()
print(c1.parent_attr)

### nn.Module 을 상속하여 모델 선언

보통 다음과 같은 형태로 nn.Module을 상속하여 클래스 안에서 모델을 설계함

```python

class Network(nn.Module):
    
    def __init__(self):
        super(Network, self).__init__()
        self.module1 = ...
        self.module2 = ...
        ...
        
    def forward(self, x):
        x = self.module1(x)
        x = self.module2(x)
        ...
```

위와 같이 정의하고 다음과 같이 사용

```python
net = Network()
output = net(input)
loss = loss_function(output, target)
net.zero_grad()
loss.backward()
...
```

In [None]:
import torch.nn as nn
import torch.nn.functional as F

In [None]:
# Linear classifier 설계
class Net(nn.Module):  # nn.Module 상속
    
    def __init__(self):
        super(Net, self).__init__()
        self.linear = nn.Linear(2, 1)  # input 2 dim, output 1 dim 인 linear classifier 정의
        
    def forward(self, x):
        x = self.linear(x)
        return x

In [None]:
# 위에서 설계한 모델 인스턴스를 선언
net = Net()
print(net)

**nn.Module을 상속하여 설계한 모델을 업데이트 하기위한 클래스 (```torch.optim```)**

```net.parameters()``` 로 업데이트를 해야하는 weight을 넘겨주고 learning rate (lr)을 설정해준다.

In [None]:
import torch.optim as optim
optimizer = optim.SGD(net.parameters(), lr=0.01)

**가우시안 데이터 상황에서의 예시 (1주차)**

In [None]:
import matplotlib.pyplot as plt
from tqdm import tqdm

In [None]:
#### Train data 생성
np.random.seed(100)
n = 100 # data point 개수
X1 = np.random.normal(loc=(5, 10), scale=5, size=(n, 2)) # loc: 평균, scale: 분산
X2 = np.random.normal(loc=(20, 20), scale=5, size=(n, 2)) # X1의 데이터와 X2의 데이터들이 서로 다른 평균 좌표를 갖도록 설정
Y1 = torch.ones(n) 
Y2 = torch.ones(n) * -1 # X1의 데이터들에는 label 1을, X2의 데이터들에는 label -1를 부여

X_train = torch.tensor(np.concatenate((X1, X2)), dtype=torch.float) # X1과 X2를 concatenate 하여 X_train 생성
Y_train = torch.cat((Y1, Y2)) # Y1과 Y2를 concatenate 하여 Y_train 생성

# Train data plot
plt.scatter(X1[:, 0].T, X1[:, 1].T, color='b', edgecolor='k', label='label : 1', s=35) # s: 점크기
plt.scatter(X2[:, 0].T, X2[:, 1].T, color='r', edgecolor='k', label='label : -1', s=35)
plt.grid(True)
plt.legend()

plt.show()

In [None]:
def accuracy(predict, y):
    
    hard_pred = 2 * (predict >= 0).type(torch.float) - 1   # predict 값이 0 이상이면 hard_pred=1, predict 값이 0 미만이면 hard_pred=-1
    acc = (hard_pred == y).type(torch.float).mean() * 100
    
    return acc

In [None]:
# hyperparameter
num_of_iteration = 20000

# fix random seed for reproducibility
np.random.seed(100)


it = tqdm(range(num_of_iteration))
for i in it:

    # 위에서 선언한 모델을 이용하여 output 계산 (이 경우에는 weight과의 내적)
    output = net(X_train)
    
    # output 과 label(target)을 이용한 손실 값 계산
    loss = (output * (torch.sign(output) - Y_train.reshape(-1, 1))).mean()

    # Train accuracy 계산
    train_acc = accuracy(output, Y_train.reshape(-1, 1))      
      
    # Backward 함수를 이용한 gradient 계산
    net.zero_grad()
    loss.backward()

    # Gradient descent를 이용한 모델 update
    optimizer.step()
    
    if i % 1000 == 0:
        it.set_postfix(accuracy='{:.2f}'.format(train_acc),
                      loss='{:.4f}'.format(loss))
    
# Train accuracy 및 test accuracy 계산
predict = torch.sign(net(X_train))
train_acc = accuracy(predict, Y_train.reshape(-1, 1))
print('train accuracy: {:.2f}'.format(train_acc))

In [None]:
plt.scatter(X1[:, 0].T, X1[:, 1].T, color='b', edgecolor='k', label='label : 1', s=35)
plt.scatter(X2[:, 0].T, X2[:, 1].T, color='r', edgecolor='k', label='label : -1', s=35)
plt.grid(True)
plt.legend()

axes = plt.gca() 
x_min, x_max = axes.get_xlim() 
y_min, y_max = axes.get_ylim()

xx, yy = np.meshgrid(np.linspace(x_min, x_max, 30), np.linspace(y_min, y_max, 30)) # 30 grids for each axis
grids = torch.tensor(np.c_[xx.ravel(), yy.ravel()], dtype=torch.float)
Z = net(grids).detach()
plt.contour(xx, yy, Z.reshape(xx.shape), levels=[0], colors='k')

plt.title('Decision Boundary with Train Data')
plt.show()

**GPU에 모델 올리기**

위의 GPU에 텐서를 올리는 방식과 같은 방식으로 모델과 데이터 모두 GPU에 올릴 수 있다.
GPU에 올려서 실행하면 더 빠르고 효율적인 학습이 가능하다.

위의 코드에서 데이터, 모델에만 ```.cuda()``` 혹은 ```.to(device)``` 함수를 실행하면 된다.

In [None]:
# GPU 사용 가능한지 확인
torch.cuda.is_available()

In [None]:
# hyperparameter
num_of_iteration = 20000

# fix random seed for reproducibility
np.random.seed(100)

# GPU에 올려서 학습
X_train = X_train.cuda('cuda:4')
Y_train = Y_train.cuda('cuda:4')
net.cuda('cuda:4')  # in-plcace 방식으로 동작!

it = tqdm(range(num_of_iteration))
for i in it:

    # 위에서 선언한 모델을 이용하여 output 계산 (이 경우에는 weight과의 내적)
    output = net(X_train)
    
    # output 과 label(target)을 이용한 손실 값 계산
    loss = (output * (torch.sign(output) - Y_train.reshape(-1, 1))).mean()

    # Train accuracy 계산
    train_acc = accuracy(output, Y_train.reshape(-1, 1))      
      
    # Backward 함수를 이용한 gradient 계산
    net.zero_grad()
    loss.backward()

    # Gradient descent를 이용한 모델 update
    optimizer.step()
    
    if i % 1000 == 0:
        it.set_postfix(accuracy='{:.2f}'.format(train_acc),
                      loss='{:.4f}'.format(loss))
    
# Train accuracy 및 test accuracy 계산
predict = torch.sign(net(X_train))
train_acc = accuracy(predict, Y_train.reshape(-1, 1))
print('train accuracy: {:.2f}'.format(train_acc))

In [None]:
plt.scatter(X1[:, 0].T, X1[:, 1].T, color='b', edgecolor='k', label='label : 1', s=35)
plt.scatter(X2[:, 0].T, X2[:, 1].T, color='r', edgecolor='k', label='label : -1', s=35)
plt.grid(True)
plt.legend()

axes = plt.gca() 
x_min, x_max = axes.get_xlim() 
y_min, y_max = axes.get_ylim()

xx, yy = np.meshgrid(np.linspace(x_min, x_max, 30), np.linspace(y_min, y_max, 30)) # 30 grids for each axis
grids = torch.tensor(np.c_[xx.ravel(), yy.ravel()], dtype=torch.float)

net.cpu()  # grids가 cpu위에 있으므로 모델도 같은 머신위에 올려야 연산이 가능하다.
Z = net(grids).detach()
plt.contour(xx, yy, Z.reshape(xx.shape), levels=[0], colors='k')

plt.title('Decision Boundary with Train Data')
plt.show()

### 참고문헌

[What is PyTorch?] https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html#sphx-glr-beginner-blitz-tensor-tutorial-py  
[AUTOGRAD: AUTOMATIC DIFFERENTIATION] https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html#sphx-glr-beginner-blitz-autograd-tutorial-py  
[A Beginner-Friendly Guide to PyTorch and How it Works from Scratch] https://www.analyticsvidhya.com/blog/2019/09/introduction-to-pytorch-from-scratch/  
[What is PyTorch and how does it work?] https://hub.packtpub.com/what-is-pytorch-and-how-does-it-work/