# 파이썬으로 배우는 기계학습
# Machine Learning with Python

# PyTorch

## 학습목표

- 신경망 구현을 위한 패키지
- PyTorch 란?
- PyTorch 환경 구축
- PyTorch 를 이용한 MNIST 데이터 분석

## 1. 신경망 구현을 위한 패키지

이번 강의에서는 PyTorch 를 소개하겠습니다. PyTorch 를 사용한다면 간단하게 신경망을 구성할 수 있습니다. 데이터를 읽어드린 다음, 신경망을 구성하고 학습시켜 결과를 예측하는 것을 보여드리겠습니다. 

## 2. PyTorch 란?

<img src="images/pytorch.PNG" width="500">
<br><center>그림 1: Pytorch [출처](https://pytorch.org/)</center>

Lua 언어로 개발된 Torch라는 딥러닝 라이브러리가 있었습니다. 머신러닝 라이브러리이자 Scientific Computing 프레임 워크 였습니다. 하지만, Lua 기반이라 다른 라이브러리에 비해 업데이트 속도도 느리고 사용자도 적었습니다. 그런데 이 Torch 를 Facebook에서 Python API로 개발하였습니다. 그러면서 폭발적인 인기를 얻게 되었고, 오늘 여러분들께 소개해 드리게 된 딥러닝 라이브러리 PyTorch입니다.

디버깅이 쉬운 직관적인 코드로 구성되어있다.
모델 그래프가 고정 상태가 아니기 때문에 언제든지 데이터에 따라 모델 조정 작업이 가능하다. (모델을 feed 하면서 정의하기 때문에 언제든 수정이 가능)

## 3. PyTorch 환경 구축

Keras 를 설치하기에 앞서 backend 엔진으로 사용할 TensorFlow 혹은 Theano, CNTK 중에 하나를 골라서 설치해야 합니다. 이번 강의에서 우리는 tensorflow 를 설치할 것입니다. 

지금까지의 경험으로보면, 가장 쉽게 Keras 를 설치하는 방법은 다음과 같습니다. Anaconda 를 우선 설치하고, Conda 명령어로 tensorflow 를 설치한 후에 Keras 를 설치하는 것입니다.

### 3.1 Anaconda 설치

Anaconda3 를 설치하세요. 다음 링크를 통해 설치하시면 됩니다: [링크](https://www.continuum.io/downloads)

### 3.2 Tensorflow 설치

#### OS X or Linux

아래의 명령어를 사용해서 Tensorflow 를 설치하세요.

```
conda create -n tensorflow python=3.6
source activate tensorflow
conda install pandas matplotlib jupyter notebook scipy scikit-learn
pip install tensorflow
```

#### Windows

cmd 혹은 Anaconda 쉘에서 아래의 명령어를 사용해서 Tensorflow 를 설치하세요.

```
conda create -n tensorflow python=3.6
activate tensorflow
conda install pandas matplotlib jupyter notebook scipy scikit-learn
pip install tensorflow
```

Tensorflow 가 정상적으로 설치되었는지 확인하기 위해 아래의 코드를 실행해보세요. tensorflow 라이브러리를 import 할 때에 문제가 생기지 않는다면, 정상적으로 설치된 것입니다.

In [1]:
import tensorflow as tf

### 3.3 PyTorch 설치

Tensorflow 까지 설치했다면, Keras 설치하는건 간단합니다. 콘솔창에서 다음 명령을 실행하면 됩니다.

```
pip install pytorch
pip install torchvision
```

다음의 명령어를 통해 PyTorch가 정상적으로 설치되었는지 확인합시다.

In [2]:
import torch
import torchvision

위에서 설치중에 어려움이 있다면, 아래 링크를 참고하도록 합니다.

- [Anaconda 설치](https://www.continuum.io/downloads)
- [tensorflow 설치](https://www.tensorflow.org/install/)
- [PyTorch 설치](https://pytorch.org/)

## 4. PyTorch 를 이용한 MNIST 데이터 분석

이제 PyTorch 를 사용할 환경이 구축되었습니다. PyTorch 를 이용해서 MNIST 데이터를 분석해보도록 합시다.

### 4.1 MNIST 데이터 읽어오기

PyTorch에는 datasets 라는 모듈이 있으며, 사람들이 많이 사용하는 데이터를 쉽게 사용할 수 있도록 만들어져 있습니다. MNIST 데이터를 읽어오기 위해서 아래와 같이 두 줄이면 충분합니다. torchvision.datasets 에 있는 MNIST 클래스를 호출하면 MNIST 데이터를 학습시킬 때 사용할 데이터와 테스트할 때 사용할 데이터를 얻을 수 있습니다.
MNIST 데이터를 train과 test로 각각 얻도록 합니다.

Tensorflow나 keras에서는 모델학습에 용이한 데이터처리를 위해 원핫인코딩(One-Hot-Encoding)을 사용했습니다. PyTorch에서는 이미지를 텐서로 바꿔주는 transforms를 사용할 것입니다. 이는 torchvision에서 MNIST 데이터를 불러올 때 transform 인자에 transforms 메소드의 ToTensor()를 사용하면 됩니다. 

In [3]:
# MNIST dataset
mnist_train = torchvision.datasets.MNIST(root='MNIST_data/',
                          train=True, 
                          transform=torchvision.transforms.ToTensor(),
                          download=True)

mnist_test = torchvision.datasets.MNIST(root='MNIST_data/',
                         train=False,
                         transform=torchvision.transforms.ToTensor(),
                         download=True)

나뉘어진 데이터 세트의 형상은 아래와 같습니다. 학습할 데이터에는 60,000개의 입력값이, 테스트할 `X` 데이터에는 10,000개의 입력값이 저장되어있는 것을 볼 수 있습니다. 각각의 입력값은 28 x 28 의 크기로 0 ~ 255 범위에 있는 숫자가 저장됩니다. `y` 에는 해당 입력값의 실제 숫자 0 ~ 9가 저장됩니다. 

In [4]:
X_train = mnist_train.train_data
y_train = mnist_train.train_labels
X_test = mnist_test.test_data
y_test = mnist_test.test_labels

print("X_train.shape: {}\ny_train.shape: {}\nX_test.shape: {}\ny_test.shape:{}\n".
      format(X_train.shape, y_train.shape, X_test.shape, y_test.shape))
print("X_train: minimum value={}, maximum value={}".format(X_train.min(), X_train.max()))
print("X_test: minimum value={}, maximum value={}".format(X_test.min(), X_test.max()))
print("y_train: minimum value={}, maximum value={}".format(y_train.min(), y_train.max()))
print("y_test: minimum value={}, maximum value={}".format(y_test.min(), y_test.max()))

X_train.shape: torch.Size([60000, 28, 28])
y_train.shape: torch.Size([60000])
X_test.shape: torch.Size([10000, 28, 28])
y_test.shape:torch.Size([10000])

X_train: minimum value=0, maximum value=255
X_test: minimum value=0, maximum value=255
y_train: minimum value=0, maximum value=9
y_test: minimum value=0, maximum value=9




### 4.2 모든 feature의 값을 0 ~ 1 사이로

기계학습을 하게되면 일반적으로 모든 feature를 0 에서 1 사이의 값으로 맞추어서 모델을 학습하곤 합니다. 여러 이유가 있겠지만, (1) 각 입력값의 특정 feature 가 큰 범위로 변할 경우 다른 feature의 영향력이 모델링 하는 단계에서 무시될 수 있기도 하며 (2) 비용함수를 계산하는 과정에서 값이 너무 크게되는 경우도 발생합니다.

MNIST 데이터는 각 feature들이 왼쪽 위에서부터 오른쪽 아래까지의 pixel 값들이기 때문에, 모든 feature들의 최소값은 0이고 최대값은 255 입니다. 따라서 모든 feature들의 값을 255로 나눠주겠습니다.

In [5]:
# normalization
X_train = (X_train / 255.)
X_test = (X_test / 255.)

그 다음 정수로 저장된 `y` 값을 one-hot 으로 바꿔주겠습니다. `torch.nn` 에 있는 `functional` 메소드를 사용해서 쉽게 해결할 수 있습니다.

### 4.3 one-hot 인코딩
이제 `y_train` 과 `y_test` 를 one-hot 인코딩 하겠습니다. `y_train` 의 처음 5개 레이블을 `[5 0 4 1 9]` 입니다. one-hot 인코딩이 정말 간단하죠?

In [6]:
import torch.nn.functional as F

print("previous five labels in y_train: {}".format(y_train[:5]))

y_train = F.one_hot(y_train)
y_test = F.one_hot(y_test)

print('One-hot encoded labels of y_train: \n{}'.format(y_train[:5]))

previous five labels in y_train: tensor([5, 0, 4, 1, 9])
One-hot encoded labels of y_train: 
tensor([[0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
        [1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
        [0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 1]])


그러면 이제 본격적으로 DataLoader를 만들어주도록 하겠습니다. PyTorch는 Data를 배치 형태 또는 이미지 묶음 형태로 이용할 수 있도록 DataLoader라는 클래스를 제공합니다. 
이때 DataLoader에는 4개의 인자가 있습니다. 첫번째 인자인 dataset은 로드할 대상을 의미하며, 두번째 인자인 batch_size는 배치 크기, shuffle은 매 epoch마다 미니 배치를 셔플할 것인지의 여부, drop_last는 마지막 배치를 버릴 것인지를 의미합니다.

여기서는 학습데이터로 DataLoader를 만들어주도록 하겠습니다. DataLoader를 만들기 전에 거쳐야 하는 작업이 있습니다. TensorDataset을 사용해서 학습 데이터와 레이블 데이터를 묶어서 DataLoader에 전달해주도록 합니다.

In [7]:
from torch.utils.data import TensorDataset, DataLoader

X_train = torch.tensor(X_train, dtype=torch.float32)
y_train = torch.tensor(y_train, dtype=torch.float32)
X_test = torch.tensor(X_test, dtype=torch.float32)
y_test = torch.tensor(y_test, dtype=torch.float32)

dataset_train = TensorDataset(X_train, y_train)
dataset_test = TensorDataset(X_test, y_test)

# dataset loader
data_loader = DataLoader(dataset=dataset_train, batch_size=32, shuffle=True) 

  X_train = torch.tensor(X_train, dtype=torch.float32)
  y_train = torch.tensor(y_train, dtype=torch.float32)
  X_test = torch.tensor(X_test, dtype=torch.float32)
  y_test = torch.tensor(y_test, dtype=torch.float32)


### 4.4 신경망 구축

이제 신경망을 구축합니다. 가장 간단한 종류의 `Linear`레이어를 사용해서 신경망을 구축하겠습니다. `Linear` 은 다른 프레임워크에서는 Dense Layer 또는 Fully Connected Layer라고 부르기도 합니다. 다수의 복수 레이어를 사용하는 개념으로 각 레이어 마다 입력 데이터읭 패턴을 학습하고, 다음 레이어는 앞에서 학습한 패턴을 기반으로 학습을 이어나갑니다.

In [8]:
import torch.nn as nn

class NeuralNet(nn.Module):
    def __init__(self):
        super(NeuralNet, self).__init__()
        
        self.fc1 = nn.Linear(784, 512)
        self.fc2 = nn.Linear(512, 10)
        self.relu = nn.ReLU()
        self.drop = nn.Dropout()
        
    def forward(self, x):
        x = x.view(-1, 784)
        x = self.relu(self.fc1(x))
        x = self.drop(x)
        x = self.relu(self.fc2(x))
        return x


In [9]:
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)

model = NeuralNet()
print(model)
print(f'The model has {count_parameters(model):,} trainable parameters')

NeuralNet(
  (fc1): Linear(in_features=784, out_features=512, bias=True)
  (fc2): Linear(in_features=512, out_features=10, bias=True)
  (relu): ReLU()
  (drop): Dropout(p=0.5, inplace=False)
)
The model has 407,050 trainable parameters


### 4.5 컴파일

자, 이제 신경망을 구축했으니 모델을 컴파일하면 되겠군요. 이 단계에서는 어떤 손실함수를 쓸 것인지 (loss), 어떠한 최적화기를 사용할 것인지 (optimizer), 무엇을 기준으로 학습 할 것인지 (metrics) 를 설정해줍니다. 아래의 조합은 분류를 할 때에 일반적으로 사용합니다.

In [10]:
# 손실 함수와 옵티마이저 정의
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

### 4.6 모델 학습

이제 모델을 학습시키는 단계입니다. 우선 `train()`을 이용해 모델의 상태를 학습상태로 전환합니다. optimizer의 `zero_grad()`메소드를 사용해서 Gradient를 0으로 초기화해주도록 합니다. 앞에서 만든 DataLoader를 불러와 입력값 X와 레이블 Y로 분리해줍니다. 이후 모델에 입력값 X를 입력으로하여 결과값을 얻습니다. 결과값으로 loss를 계산하고, `backward()`메소드를 통해 Gradient를 계산합니다. 그리고 `step()`메소드를 통해 parameter를 업데이트합니다.

In [11]:
epochs = 10
model.train()
for epoch in range(epochs):
    avg_loss = 0

    for X, Y in data_loader:
        
        optimizer.zero_grad()
        y_hat = model(X)
        loss = criterion(y_hat, Y)
        loss.backward()
        optimizer.step()

        avg_loss += loss.item() / len(data_loader)

    print('|Epoch: {:3d}| loss = {:.7f}'.format(epoch + 1, avg_loss))

|Epoch:   1| loss = 1.2809217
|Epoch:   2| loss = 1.2039669
|Epoch:   3| loss = 1.1873105
|Epoch:   4| loss = 1.1783078
|Epoch:   5| loss = 1.1721913
|Epoch:   6| loss = 1.1679820
|Epoch:   7| loss = 1.1644285
|Epoch:   8| loss = 1.0782170
|Epoch:   9| loss = 0.9403742
|Epoch:  10| loss = 0.9352827


### 4.7 분류 정확도 측정

이제 테스트 세트를 예측해봅니다.

`eval()`을 사용해서 model의 상태를 evaluate로 변경합니다. 그리고, 테스트 세트에 있는 입력값들의 레이블을 예측합니다.

코드를 실행할 때마다 accuracy 는 차이가 있겠지만 위와 같은 인자들로 신경망을 학습시켰을 때에 88% 전후의 정확도를 보여줍니다. 즉, 0에서 9까지 적혀있는 28 x 28 사이즈의 입력값이 들어왔을 때에, 88% 정확도로 어떤 숫자인지 알아내는 신경망을 학습시킨 것입니다.

In [12]:
# 학습을 진행하지 않을 것이므로 torch.no_grad()
model.eval()
with torch.no_grad():
    X_test = mnist_test.test_data.view(-1, 28 *28).float()
    Y_test = mnist_test.test_labels

    prediction = model(X_test)
    correct_prediction = torch.argmax(prediction, 1) == Y_test
    accuracy = correct_prediction.float().mean()
    print('Accuracy:', accuracy.item())

Accuracy: 0.6032999753952026


## 5. PyTorch를 이용한 CNN 구현

이번에는 PyTorch를 이용해 CNN을 구현해보도록 하겠습니다. 먼저 데이터를 다시 불러와줍니다.

In [13]:
# MNIST dataset
mnist_train = torchvision.datasets.MNIST(root='MNIST_data/',
                          train=True, 
                          transform=torchvision.transforms.ToTensor(),
                          download=True)

mnist_test = torchvision.datasets.MNIST(root='MNIST_data/',
                         train=False,
                         transform=torchvision.transforms.ToTensor(),
                         download=True)
data_loader = torch.utils.data.DataLoader(dataset=mnist_train,
                                          batch_size=32,
                                          shuffle=True,
                                          drop_last=True)

그리고 모델을 만들어주도록 하겠습니다. 

In [17]:
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 16, kernel_size=2)
        self.conv2 = nn.Conv2d(16, 32, kernel_size=2)
        self.conv3 = nn.Conv2d(32, 64, kernel_size=2)
        self.dropout = nn.Dropout(0.2)
        self.fc1 = nn.Linear(256, 10)
        
    def forward(self, x):
        x = F.max_pool2d(F.relu(self.conv1(x)), 2)
        x = self.dropout(x)
        x = F.max_pool2d(F.relu(self.conv2(x)), 2)
        x = self.dropout(x)
        x = F.max_pool2d(F.relu(self.conv3(x)), 2)
        x = x.view(-1, 256)
        x = self.fc1(x)
        return F.log_softmax(x, dim=1)

손실함수와 옵티마이저를 정의하고 모델을 출력해보도록 하겠습니다.

In [18]:
cnn = CNN()
# 손실 함수와 옵티마이저 정의
criterion = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(cnn.parameters(), lr=0.001)

print(cnn)

CNN(
  (conv1): Conv2d(1, 16, kernel_size=(2, 2), stride=(1, 1))
  (conv2): Conv2d(16, 32, kernel_size=(2, 2), stride=(1, 1))
  (conv3): Conv2d(32, 64, kernel_size=(2, 2), stride=(1, 1))
  (dropout): Dropout(p=0.2, inplace=False)
  (fc1): Linear(in_features=256, out_features=10, bias=True)
)


이제 학습단계입니다. 학습을 진행해보도록 하겠습니다.

In [19]:
epochs = 10
cnn.train()
for epoch in range(epochs):
    avg_loss = 0

    for X, Y in data_loader:
        
        optimizer.zero_grad()
        y_hat = cnn(X)
        loss = criterion(y_hat, Y)
        loss.backward()
        optimizer.step()

        avg_loss += loss.item() / len(data_loader)

    print('|Epoch: {:3d}| loss = {:.7f}'.format(epoch + 1, avg_loss))

|Epoch:   1| loss = 0.4284947
|Epoch:   2| loss = 0.1545086
|Epoch:   3| loss = 0.1190707
|Epoch:   4| loss = 0.0997048
|Epoch:   5| loss = 0.0887598
|Epoch:   6| loss = 0.0818710
|Epoch:   7| loss = 0.0757985
|Epoch:   8| loss = 0.0717313
|Epoch:   9| loss = 0.0672000
|Epoch:  10| loss = 0.0634028


다음으로 평가를 진행하겠습니다. 평가에는 학습을 진행하지 않을 것이므로 torch.no_grad()를 명시해줍니다. 평가 결과 CNN을 사용한 모델은 약 96% 정확도를 보이는 것을 확인했습니다.

In [20]:
cnn.eval()
with torch.no_grad():
    X_test = mnist_test.data.view(len(mnist_test), 1, 28, 28).float()
    Y_test = mnist_test.targets

    prediction = cnn(X_test)
    correct_prediction = torch.argmax(prediction, 1) == Y_test
    accuracy = correct_prediction.float().mean()
    print('Accuracy:', accuracy.item())

Accuracy: 0.9607999920845032


## 참고자료

- [PyTorch Documents](https://pytorch.org/)
- [PyTorch with MNIST Datasets](https://wikidocs.net/60324)