# Tensor Manipulation
1. Numpy  
PyTorch는 Numpy에서 배열을 다루는 것과 유사하게 텐서를 다룹니다.  
PyTorch를 시작하기에 앞서 Numpy에서는 어떻게 배열을 다루는 지 살펴보도록 합시다.

In [None]:
import numpy as np

In [None]:
a=np.array([1,2,3,4,5,6,7,8])

print(a)

In [None]:
b=np.array([[1,2,3,4],[5,6,7,8]])

print(b)

In [None]:
c=np.array([[[1,2],[3,4]],[[5,6],[7,8]]])

print(c)

In [None]:
print('a:',a)
print('a.ndim:',a.ndim)
print('a.shape:',a.shape)

print()

print('b:',b)
print('b.ndim:',b.ndim)
print('b.shape:',b.shape)

print()

print('c:',c)
print('c.ndim:',c.ndim)
print('c.shape:',c.shape)

2. PyTorch  
PyTorch에서도 numpy에서와 비슷하게 텐서를 다룰 수 있습니다.

In [None]:
import torch

In [None]:
a=torch.Tensor([1,2,3,4,5,6,7,8])

print(a)

In [None]:
b=torch.Tensor([[1,2,3,4],[5,6,7,8]])

print(b)

In [None]:
c=torch.Tensor([[[1,2],[3,4]],[[5,6],[7,8]]])

print(c)

In [None]:
print('a:',a)
print('a.ndim:',a.ndim)
print('a.shape:',a.shape)

print()

print('b:',b)
print('b.ndim:',b.ndim)
print('b.shape:',b.shape)

print()

print('c:',c)
print('c.ndim:',c.ndim)
print('c.shape:',c.shape)

3. Tensor Operations  
이번에는 텐서 간의 연산을 다뤄 보도록 하겠습니다.  
PyTorch에서도 많은 연산들을 지원하지만 여기서는 간단하게 다음 5가지 연산을 다룰 예정입니다.  
    - 합
    - 차
    - 스칼라 배
    - 원소 간 곱
    - 행렬 곱   

In [None]:
A=torch.Tensor([[1,2],[3,4]])
B=torch.Tensor([[3,4],[5,6]])

print('\nAdd')
print(A+B)

print('\nSubtract')
print(A-B)

print('\nScalar Multiplication')
print(3*A)

print('\nElement-wise Multiplication')
print(A*B)
print(A.mul(B))

print('\nMatrix multiplication')
print(A.matmul(B))

4. Statistical Function  
    이번에는 각종 통계 함수들을 다뤄 볼 예정입니다.  
    통계 함수를 그냥 사용하게 되면 텐서 전체에 대한 결과가 반환됩니다.  
    통계 함수들에 dim 인자를 주게 되면, 해당 차원을 제외한 텐서에서  
    통계 함수의 결과가 반환됩니다. 

In [None]:
print(A)

print('\nMean')
print(A.mean())
print(A.mean(dim=0))
print(A.mean(dim=1))

print('\nSum')
print(A.sum())
print(A.sum(dim=0))
print(A.sum(dim=1))

print('\nMin')
print(A.min())
print(A.min(dim=0))
print(A.min(dim=1))

print('\nMax')
print(A.max())
print(A.max(dim=0))
print(A.max(dim=1))

print('\nArgmin')
print(A.argmin())
print(A.argmin(dim=0))
print(A.argmin(dim=1))

print('\nArgmax')
print(A.argmax())
print(A.argmax(dim=0))
print(A.argmax(dim=1))

5. Tensor Shape Manipulation  
    이번에는 view(), squeeze(), unsqueeze()를 통해 텐서의 모양을 조작해 보도록 하겠습니다.  
    - view()  
        view()는 텐서의 shape를 입력받아 해당 shape로 텐서의 모양을 변경합니다.  
        -1을 입력할 수 도 있는데, 이 경우 -1로 입력된 부분은 자동으로 계산됩니다.

    - squeeze()  
        텐서에서 크기가 1인 차원을 압축하여 제거합니다.

    - unsqueeze()  
        인자 dim에 해당하는 위치에 크기가 1인 차원을 추가합니다.


In [None]:
print(A.view(4))
print(A.view(4).shape)

In [None]:
print(A.view(4,1))
print(A.view(4,1).shape)

In [None]:
print(A.view(1,4))
print(A.view(1,4).shape)

In [None]:
print(A.view(1,-1))
print(A.view(1,-1).shape)

In [None]:
B=A.view(1,2,2,1)

print(B.shape)

print(B.squeeze())
print(B.squeeze().shape)

In [None]:
print(A.unsqueeze(0).shape)
print(A.unsqueeze(1).shape)
print(A.unsqueeze(1).unsqueeze(0).shape)

# torch.nn  
torch.nn은 모델을 구성하기 위한 다양한 함수, 활성 함수, 손실 함수 등이 구현되어있는 라이브러리이다.  
  
보통 torch.nn.Module을 상속하여 사용한다.  
새로 구현한 클래스는 \__init__\()과 forward()를 모델에 맞게 구현해주어야한다.

In [None]:
import torch.nn as nn

In [None]:
class MyModule(nn.Module):
  def __init__(self):
    super(MyModule,self).__init__()
    self.W=torch.Tensor([1])
    self.b=torch.Tensor([1])
    
  def forward(self,x):
    return self.W*x+self.b

In [None]:
model=MyModule()

y=model(1) # forward() 실행

print(y)

- nn.Linear(in_features, out_features,...)  
nn.Linear는 선형 대수학의 선형 변환에 해당하는 layer로  
간단히 얘기해서 다항식 또는 퍼셉트론을 구현한 것이라고 이해하면 된다.

In [None]:
layer1=nn.Linear(2,3)

x=torch.Tensor(2)
y=layer1(x)

print('Input shape:',x.shape)
print('Output shape:',y.shape)

보통은 아래와 같이 클래스를 구현하여 사용한다.  
print()를 이용하면 모델의 구성을 파악할 수 있다.

In [None]:
class LinearModel(nn.Module):
    def __init__(self,in_features,out_features):
        super(LinearModel,self).__init__()
        self.layer1=nn.Linear(in_features,out_features)

    def forward(self,x):
        x=self.layer1(x)
        return x

model=LinearModel(1,10)

print(model)

여러 layer를 사용하는 경우 다음과 같이 구현할 수 있다.

In [None]:
class SequentialModel(nn.Module):
    def __init__(self,in_features,out_features):
        super(SequentialModel,self).__init__()
        self.layer1=nn.Linear(in_features,out_features)
        self.sigmoid=nn.Sigmoid()

    def forward(self,x):
        x=self.layer1(x)
        x=self.sigmoid(x)
        return x

model=SequentialModel(1,10)

print(model)

각 layer들이 순차적으로 구성되어있다면 아래와 같이  
nn.Sequential()을 이용하면 보다 편리하게 구현할 수 있다.

In [None]:
class SequentialModel2(nn.Module):
    def __init__(self,in_features,out_features):
        super(SequentialModel2,self).__init__()
        self.layers=nn.Sequential(
            nn.Linear(in_features,out_features),
            nn.Sigmoid()
        )

    def forward(self,x):
        return self.layers(x)

model=SequentialModel2(1,10)

print(model)

torch.nn을 이용하여 모델을 정의하고 데이터를 모델의 입력으로 주는 과정은 다음과 같습니다.  



In [None]:
train_x=torch.Tensor([[1],[2],[3],[4]])
train_y=torch.Tensor([[2],[3],[4],[5]])

model=LinearModel(1,1)
criterion=nn.MSELoss()

pred=model(train_x)
loss=criterion(pred,train_y)

print('input shape:',train_x.shape)
print('output shape:',pred.shape)

print('pred:',pred)
print('loss:',loss)

# torch.optim  
torch.optim은 pytorch의 매개 변수 최적화 알고리즘이 구현된 라이브러리입니다.

In [None]:
import torch.optim as optim

바로 이전 코드의 LinearModel을 torch.optim.SGD를 이용하여 학습시켜 보도록 하겠습니다.  

In [None]:
train_x=torch.Tensor([[1],[2],[3],[4]])
train_y=torch.Tensor([[2],[3],[4],[5]])

model=LinearModel(1,1)
criterion=nn.MSELoss()

pred=model(train_x)
loss=criterion(pred,train_y)
optimizer=optim.SGD(model.parameters(),lr=0.001)

for epoch in range(1000):
    optimizer.zero_grad()
    pred=model(train_x)
    loss=criterion(pred,train_y)
    loss.backward()
    optimizer.step()
    if epoch%100==0:
        print('Epoch {}:\tpred: {}\tloss: {}'.format(epoch,pred.view(-1).detach().numpy(),loss))
        # detach()를 사용하게 되면 더이상 그래디언트를 계산시키지 않는다는 의미
        # numpy()로 변환하기 위해서는 detach()가 선행되어야함

# torch.utils.data  
torch.utils.data에는 pytorch에서 데이터를 다루기 위한 유틸리티들이 구현되어있습니다.  
이 중 `Dataset`,`random_split`,`DataLoader`를 다뤄보도록 하겠습니다.  
이번에는 사인파(sine wave)를 예측해보도록 하겠습니다.  

In [None]:
from torch.utils.data import Dataset, random_split, DataLoader

1. Dataset  
사용자는 보통 Dataset 클래스를 상속하여 문제에 맞는 사용자 정의 클래스를 구현합니다.  
`__init__`,`__getitem__`,`__len__`을 구현하여 오버라이딩합니다.

In [None]:
class SineDataset(Dataset):
    def __init__(self,min_bound=-10,max_bound=10,step=0.1):
        self.x=np.arange(min_bound,max_bound,step)
        self.y=np.sin(self.x)
    
    def __getitem__(self,idx):
        return torch.FloatTensor([self.x[idx]]),torch.FloatTensor([self.y[idx]])

    def __len__(self):
        return len(self.x) # return len(self.y)

In [None]:
all_data=SineDataset(-5,5)

print('x:',all_data.x)
print('y:',all_data.y)
print('length:',len(all_data))
x0,y0=all_data[0]
print('x[0],y[0]:',x0,y0)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.plot(all_data.x,all_data.y,all_data.x,[0 for i in range(len(all_data))])

2. random_split  
random_split은 pytorch의 데이터셋을 분할시켜주는 함수입니다.

In [None]:
train_ratio=0.8

train_data_len=int(len(all_data)*0.8)
valid_data_len=len(all_data)-train_data_len

train_data,valid_data=random_split(all_data,[train_data_len,valid_data_len])

print('train size:',len(train_data))
print('valid size:',len(valid_data))

3. DataLoader  
DataLoader는 학습에 사용하기 위해 데이터를 불러오는 데 사용되는 클래스입니다.  

In [None]:
batch_size=16

train_loader=DataLoader(train_data,batch_size=batch_size,shuffle=True)
valid_loader=DataLoader(valid_data,batch_size=batch_size,shuffle=True)

이전에 구현했던 LinearModel을 이용해 사인파 데이터를 학습시키고  
검증 절차까지 진행해 보도록 하겠습니다.  

In [None]:
model=LinearModel(1,1)
criterion=nn.MSELoss()
optimizer=optim.Adam(model.parameters(),lr=1e-2)

In [None]:
num_epochs=10000
print_every=1000

for epoch in range(num_epochs):
    model.train()
    train_loss=0
    for data,target in train_loader:
        optimizer.zero_grad()
        pred=model(data)
        loss=criterion(pred,target)
        loss.backward()
        optimizer.step()
        train_loss+=loss.item()*data.size(0)
    train_loss/=len(train_data)
    if epoch%print_every==0:
        print('Train Epoch {} - Loss : {:.6f}'.format(epoch,train_loss))
    
    with torch.no_grad():
        model.eval()
        valid_loss=0
        for data,target in valid_loader:
            pred=model(data)
            loss=criterion(pred,target)
            valid_loss+=loss.item()*data.size(0)
        valid_loss/=len(valid_data)
        if epoch%print_every==0:
            print('Validation Epoch {} - Loss : {:.6f}'.format(epoch,valid_loss))

In [None]:
test_loader=DataLoader(all_data,batch_size=batch_size,shuffle=False)

with torch.no_grad():
    model.eval()
    test_loss=0
    preds=[]
    for data,target in test_loader:
        pred=model(data)
        loss=criterion(pred,target)
        preds.extend(pred.view(-1).numpy())
        test_loss+=loss.item()*data.size(0)
    test_loss/=len(all_data)

In [None]:
print('test loss:',test_loss)

In [None]:
plt.plot(all_data.x,all_data.y,all_data.x,preds)

위 그래프는 기존 사인파(파란색)과 모델의 예측값(주황색)을 비교한 자료입니다.  

`LinearModel`의 경우 모델의 크기가 작아 데이터를 정확하게 표현하지 못하는 언더피팅이 발생했습니다.  

이에 `LinearModel`보다 다소 매개변수가 늘어난 `Model`을 정의해 보겠습니다.  

In [None]:
class Model(nn.Module):
    def __init__(self,in_features,out_features):
        super(Model,self).__init__()
        self.layers=nn.Sequential(
            nn.Linear(in_features,10),
            nn.Sigmoid(),
            nn.Linear(10,10),
            nn.Sigmoid(),
            nn.Linear(10,out_features)
        )

    def forward(self,x):
        x=self.layers(x)
        return x

In [None]:
model=Model(1,1)
criterion=nn.MSELoss()
optimizer=optim.Adam(model.parameters(),lr=1e-2)

In [None]:
num_epochs=10000
print_every=1000

for epoch in range(num_epochs):
    model.train()
    train_loss=0
    for data,target in train_loader:
        optimizer.zero_grad()
        pred=model(data)
        loss=criterion(pred,target)
        loss.backward()
        optimizer.step()
        train_loss+=loss.item()*data.size(0)
    train_loss/=len(train_data)
    if epoch%print_every==0:
        print('Train Epoch {} - Loss : {:.6f}'.format(epoch,train_loss))
    
    with torch.no_grad():
        model.eval()
        valid_loss=0
        for data,target in valid_loader:
            pred=model(data)
            loss=criterion(pred,target)
            valid_loss+=loss.item()*data.size(0)
        valid_loss/=len(valid_data)
        if epoch%print_every==0:
            print('Validation Epoch {} - Loss : {:.6f}'.format(epoch,valid_loss))

In [None]:
with torch.no_grad():
    model.eval()
    test_loss=0
    preds=[]
    for data,target in test_loader:
        pred=model(data)
        loss=criterion(pred,target)
        preds.extend(pred.view(-1).numpy())
        test_loss+=loss.item()*data.size(0)
    test_loss/=len(all_data)

print('test loss:',test_loss)

plt.plot(all_data.x,all_data.y,all_data.x,preds)

모델의 용량이 증가하여 표현 능력이 향상된 것을 확인할 수 있습니다.  

# 모델 저장하기 & 불러오기  
모델의 저장은 `nn.Module.state_dict()`와 `torch.save()`를 이용

In [None]:
model=LinearModel(1,1)

print(model.state_dict())

In [None]:
optimizer=optim.SGD(model.parameters(),lr=0.0001)

print(optimizer.state_dict())

In [None]:
model_path='./model.pth'

torch.save(model.state_dict(),model_path)

모델을 불러오는 과정은 `torch.load()`와 `nn.Module.load_state_dict()`를 사용.

In [None]:
model.load_state_dict(torch.load(model_path))

모델을 저장하고 불러오기가 가능해 지면  
early stopping을 학습에 적용할 수 있습니다.  
  
Early Stopping은 patience를 설정하여,  
validation loss가 patience 만큼의 epoch동안 개선되지 않으면  
over fitting이라고 간주하고 학습을 종료하는 것 입니다.  

모델의 저장, 불러오기와 early stopping을 적용한 학습을 진행시켜 보겠습니다.  

In [None]:
model=Model(1,1)
criterion=nn.MSELoss()
optimizer=optim.Adam(model.parameters(),lr=1e-2)

In [None]:
num_epochs=10000
print_every=1000
patience=0
min_loss=np.inf
early_stop=75
model_path='./model.pth'

for epoch in range(num_epochs):
    model.train()
    train_loss=0
    for data,target in train_loader:
        optimizer.zero_grad()
        pred=model(data)
        loss=criterion(pred,target)
        loss.backward()
        optimizer.step()
        train_loss+=loss.item()*data.size(0)
    train_loss/=len(train_data)
    if epoch%print_every==0:
        print('Train Epoch {} - Loss : {:.6f}'.format(epoch,train_loss))
    
    with torch.no_grad():
        model.eval()
        valid_loss=0
        for data,target in valid_loader:
            pred=model(data)
            loss=criterion(pred,target)
            valid_loss+=loss.item()*data.size(0)
        valid_loss/=len(valid_data)
        if epoch%print_every==0:
            print('Validation Epoch {} - Loss : {:.6f}'.format(epoch,valid_loss))
        if valid_loss<min_loss:
            patience=0
            torch.save(model.state_dict(),model_path)
            min_loss=valid_loss
        else:
            patience+=1
        if patience==early_stop:
            print('Training finished by early stopping')
            break

In [None]:
model.load_state_dict(torch.load(model_path))

In [None]:
with torch.no_grad():
    model.eval()
    test_loss=0
    preds=[]
    for data,target in test_loader:
        pred=model(data)
        loss=criterion(pred,target)
        preds.extend(pred.view(-1).numpy())
        test_loss+=loss.item()*data.size(0)
    test_loss/=len(all_data)

print('test loss:',test_loss)

plt.plot(all_data.x,all_data.y,all_data.x,preds)