### CNN
- convolutional neural network
- 합성곱 신경망
- 이미지나 비디오 같은 영상 인식에 특화된 설계
- 병렬 처리가 쉽다
- 최근 이미지뿐 아니라 자연어 처리와 추천 시스템에 응용

### 컨볼루션
- 사람은 이미지를 보는 순간 이미지 속의 계층적인 특성을 곧바로 인식
- 컨볼루션의 목적은 계층적으로 인식할 수 있도록 단계마다 이미지의 특징을 추출
- 필터를 적용할때 이미지 왼쪽 위에서 오른쪽 밑까지 밀어가며 곱하고 더하는데 이작업을 '컨볼루션' 이라고 함
- CNN은 이미지를 추출하는 필터를 학습
- 필터가 하나의 작은 신경망

### CNN 모델
- 컨볼루션 계층, 풀링 계층, 특징들을 모아 최종 분류하는 일반적인 인공 신경망 계층으로 구성
- 컨볼루션 계층은 이미지의 특징을 추출하는 역할
- 풀링 계층은 필터를 거친 여러 특징 중 가장 중요한 특징 하나를 골라냄
- 덜 중요한 특징을 버리기 때문에 이미지의 차원이 감소
- 풀고자 하는 문제에 따라 계층 구성을 달리 할 수 있음
- 컨볼루션 계층으로만 구성된 모델을 만들 수 있음
- 컨볼루션 연산은 이미지를 겹치는 매우 작은 조각으로 쪼개어 필터 기능을 하는 작은 신경망에 적용
- 신경망은 모든 조각에 동일하게 적용되며 특징을 추출하기 때문에 컨볼루션 필터, 커널이라고 부름
- 커널은 컨볼루션 계층 하나에 여러개가 존재할 수 있음
- 보통 3x3, 5x5 크기의 커널이 쓰임
- 학습 시 필터 행렬의 값은 특징을 잘 뽑을 수 있도록 최적화
- 움직이는 칸을 조절하는 값을 스트라이드(stride)라고 함
    - 스트라이드를 올려 여러칸을 건너 뛸수록 출력되는 텐서가 크기가 작아짐
- 컨볼루션을 거쳐 만들어진 새로운 이미지는 특징 맵이라고 부름
- 컨볼루션 계층마다 여러 특징 맵이 만들어지며, 다음 단계인 풀링 계층으로 넘어감
- 특징 맵의 크기가 크면 학습이 어렵고 과적합 위험이 증가

### CNN 모델 구현하기
- 컨볼루션, 풀링, 드롭아웃, 그리고 일반적인 신경망 계층의 조합으로 이루어짐
- 예제에선 [컨볼루선 -> 풀링 -> 컨볼루션 -> 드롭아웃 -> 풀링 -> 신경망 -> 드롭아웃 -> 신경망] 식으로 이루어짐

In [5]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import transforms, datasets

USE_CUDA = torch.cuda.is_available()
DEVICE = torch.device('cuda' if USE_CUDA else 'cpu')

EPOCHS = 40
BATCH_SIZE = 64

train_loader = torch.utils.data.DataLoader(
    datasets.FashionMNIST('./data',
                         train=True,
                         download=True,
                         transform=transforms.Compose([transforms.ToTensor(),
                                                      transforms.Normalize((0.1307,), (0.3081,))
                                                      ])),
    batch_size=BATCH_SIZE, shuffle=True)

test_loader = torch.utils.data.DataLoader(
    datasets.FashionMNIST('./data',
                         train=False,
                         transform=transforms.Compose([transforms.ToTensor(),
                                                      transforms.Normalize((0.1307,), (0.3081,))
                                                      ])),
    batch_size=BATCH_SIZE, shuffle=True)

# 지금 만드는 CNN 모델의 커널 크기는 5x5 이고 컨볼루션 계층은 2개

class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.drop = nn.Dropout2d()
        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)
        
    def forward(self, x):
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2(x), 2))
        x = x.view(-1, 320) # -1: 남은 차원 모두, 320: x가 가진 원소 개수
        x = F.relu(self.fc1(x))
        x = self.drop(x)
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)
    
model = CNN().to(DEVICE)
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.5)

def train(model, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(DEVICE), target.to(DEVICE)
        optimizer.zero_grad()
        output = model(data)
        loss = F.cross_entropy(output, target)
        loss.backward()
        optimizer.step()
        
        if batch_idx % 200 == 0:
            print('Train Epoch: {} [{}/{} ({:.0f}%\tLoss:{:.6f})]'.format(epoch, batch_idx * len(data), len(train_loader.dataset), 100. * batch_idx / len(train_loader), loss.item()))
            
def evaluate(model, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(DEVICE), target.to(DEVICE)
            output = model(data)
            
            # 배치 오차를 계산
            test_loss += F.cross_entropy(output, target, reduction='sum').item()
            
            # 가장 높은값을 인덱스가 바로 예측값
            pred = output.max(1, keepdim=True)[1]
            correct += pred.eq(target.view_as(pred)).sum().item()
            
    test_loss /= len(test_loader.dataset)
    test_accuracy = 100. * correct / len(test_loader.dataset)
    return test_loss, test_accuracy

for epoch in range(1, EPOCHS + 1):
    train(model, train_loader, optimizer, epoch)
    test_loss, test_accuracy = evaluate(model, test_loader)
    
    print('[{}] Test Loss: {:.4f}, Accuracy: {:.2f}%'.format(epoch, test_loss, test_accuracy))
            

Train Epoch: 1 [0/60000 (0%	Loss:2.324538)]
Train Epoch: 1 [12800/60000 (21%	Loss:1.306861)]
Train Epoch: 1 [25600/60000 (43%	Loss:0.783383)]
Train Epoch: 1 [38400/60000 (64%	Loss:0.805570)]
Train Epoch: 1 [51200/60000 (85%	Loss:0.845462)]
[1] Test Loss: 0.6151, Accuracy: 75.61%
Train Epoch: 2 [0/60000 (0%	Loss:0.655264)]
Train Epoch: 2 [12800/60000 (21%	Loss:0.688394)]
Train Epoch: 2 [25600/60000 (43%	Loss:0.438884)]
Train Epoch: 2 [38400/60000 (64%	Loss:0.694537)]
Train Epoch: 2 [51200/60000 (85%	Loss:0.606960)]
[2] Test Loss: 0.5422, Accuracy: 78.32%
Train Epoch: 3 [0/60000 (0%	Loss:0.561760)]
Train Epoch: 3 [12800/60000 (21%	Loss:0.617927)]
Train Epoch: 3 [25600/60000 (43%	Loss:0.636660)]
Train Epoch: 3 [38400/60000 (64%	Loss:0.561378)]
Train Epoch: 3 [51200/60000 (85%	Loss:0.673515)]
[3] Test Loss: 0.5028, Accuracy: 80.35%
Train Epoch: 4 [0/60000 (0%	Loss:0.759757)]
Train Epoch: 4 [12800/60000 (21%	Loss:0.753279)]
Train Epoch: 4 [25600/60000 (43%	Loss:0.655037)]
Train Epoch: 4 [38

[29] Test Loss: 0.2924, Accuracy: 89.31%
Train Epoch: 30 [0/60000 (0%	Loss:0.543787)]
Train Epoch: 30 [12800/60000 (21%	Loss:0.211153)]
Train Epoch: 30 [25600/60000 (43%	Loss:0.311559)]
Train Epoch: 30 [38400/60000 (64%	Loss:0.336125)]
Train Epoch: 30 [51200/60000 (85%	Loss:0.488740)]
[30] Test Loss: 0.2985, Accuracy: 89.19%
Train Epoch: 31 [0/60000 (0%	Loss:0.256240)]
Train Epoch: 31 [12800/60000 (21%	Loss:0.281465)]
Train Epoch: 31 [25600/60000 (43%	Loss:0.260543)]
Train Epoch: 31 [38400/60000 (64%	Loss:0.169477)]
Train Epoch: 31 [51200/60000 (85%	Loss:0.334376)]
[31] Test Loss: 0.3012, Accuracy: 89.28%
Train Epoch: 32 [0/60000 (0%	Loss:0.160435)]
Train Epoch: 32 [12800/60000 (21%	Loss:0.261475)]
Train Epoch: 32 [25600/60000 (43%	Loss:0.254912)]
Train Epoch: 32 [38400/60000 (64%	Loss:0.371524)]
Train Epoch: 32 [51200/60000 (85%	Loss:0.263428)]
[32] Test Loss: 0.3112, Accuracy: 89.19%
Train Epoch: 33 [0/60000 (0%	Loss:0.208024)]
Train Epoch: 33 [12800/60000 (21%	Loss:0.204040)]
Train 

### ResNet (residual network)
- CNN을 응용한 모델
- 이미지 천만장을 학습하여 15만 장으로 인식률을 겨루는 이미지넷 대회에서 2015년에 우승한 모델

In [9]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
from torchvision import transforms, datasets

USE_CUDA = torch.cuda.is_available()
DEVICE = torch.device('cuda' if USE_CUDA else 'cpu')


EPOCHS = 300
BATCH_SIZE = 128

# Fashion MNIST 대신 CIFAR-10 데이터셋 사용

train_loader = torch.utils.data.DataLoader(
    datasets.CIFAR10('./data',
                         train=True,
                         download=True,
                         transform=transforms.Compose([
                             transforms.RandomCrop(32, padding=4),
                             transforms.RandomHorizontalFlip(),
                             transforms.ToTensor(),
                             transforms.Normalize((0.5, 0.5, 0.5), 
                                                  (0.5, 0.5, 0.5))
                         ])),
    batch_size=BATCH_SIZE, shuffle=True)

test_loader = torch.utils.data.DataLoader(
    datasets.CIFAR10('./data',
                         train=False,
                         transform=transforms.Compose([transforms.ToTensor(),
                                                      transforms.Normalize((0.5, 0.5, 0.5), 
                                                  (0.5, 0.5, 0.5))
                                                      ])),
    batch_size=BATCH_SIZE, shuffle=True)

# 드롭아웃은 학습 중 데이터 일부를 배제하여 간접적으로 과적합을 막는 방식이지만, 배치 정규화는 신경만 내부 데이터에 직접 영향을 주는 방식
class BasicBlock(nn.Module):
    def __init__(self, in_planes, planes, stride=1):
        super(BasicBlock, self).__init__()
        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=3, stride=stride, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn2 = nn.BatchNorm2d(planes)
        
        self.shortcut = nn.Sequential()
        if stride != 1 or in_planes != planes:
            self.shortcut = nn.Sequential(
                nn.Conv2d(in_planes, planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(planes)
            )
        # nn.Sequential은 여러 모듈(nn.Module)을 하나의 모듈로 묶는 역할을 함
        # 각 레이어를 데이터가 순차적으로 지나갈 때 사용하면 코드를 간결하게 만들 수 있음

        
    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out += self.shortcut(x)
        out = F.relu(out)
        return out
    
    
class ResNet(nn.Module):
    def __init__(self, num_classes=10):
        super(ResNet, self).__init__()
        self.in_planes = 16
        
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, stride=1, padding=1, bias=False)
        self.bn1 = nn.BatchNorm2d(16)
        self.layer1 = self._make_layer(16, 2, stride=1)
        self.layer2 = self._make_layer(32, 2, stride=2)
        self.layer3 = self._make_layer(64, 2, stride=2)
        self.linear = nn.Linear(64, num_classes)
        
    
    def _make_layer(self, planes, num_blocks, stride):
        strides = [stride] + [1] * (num_blocks -1)
        layers = []
        for stride in strides:
            layers.append(BasicBlock(self.in_planes, planes, stride))
            self.in_planes = planes
        return nn.Sequential(*layers)
    
    # 16채널을 받아 32 채널을 출력, 32채널을 받아 64 채널을 출력, 이렇게 증폭하는 역할을 하는 모듈은 shortcut 모듈을 따로 갖게 된다.
    # shortcut 모듈은 이전 입력을 중간층에 더해주어 이미지의 맥락이 보존될 수 있도록 하는 역할을 한다
    
    def forward(self, x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.layer1(out)
        out = self.layer2(out)
        out = self.layer3(out)
        out = F.avg_pool2d(out, 8)
        out = out.view(out.size(0), -1)
        out = self.linear(out)
        return out
    
model = ResNet().to(DEVICE)
optimizer = optim.SGD(model.parameters(), lr=0.1, momentum=0.9, weight_decay=0.0005)
schedular = optim.lr_scheduler.StepLR(optimizer, step_size=50, gamma=0.1)

print(model)

def train(model, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(DEVICE), target.to(DEVICE)
        optimizer.zero_grad()
        output = model(data)
        loss = F.cross_entropy(output, target)
        loss.backward()
        optimizer.step()
            
def evaluate(model, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(DEVICE), target.to(DEVICE)
            output = model(data)
            
            # 배치 오차를 계산
            test_loss += F.cross_entropy(output, target, reduction='sum').item()
            
            # 가장 높은값을 인덱스가 바로 예측값
            pred = output.max(1, keepdim=True)[1]
            correct += pred.eq(target.view_as(pred)).sum().item()
            
    test_loss /= len(test_loader.dataset)
    test_accuracy = 100. * correct / len(test_loader.dataset)
    return test_loss, test_accuracy

for epoch in range(1, EPOCHS + 1):
    schedular.step()
    train(model, train_loader, optimizer, epoch)
    test_loss, test_accuracy = evaluate(model, test_loader)
    
    print('[{}] Test Loss: {:.4f}, Accuracy: {:.2f}%'.format(epoch, test_loss, test_accuracy))

Files already downloaded and verified
ResNet(
  (conv1): Conv2d(3, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
  (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (layer1): Sequential(
    (0): BasicBlock(
      (conv1): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (shortcut): Sequential()
    )
    (1): BasicBlock(
      (conv1): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn1): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(16, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2

KeyboardInterrupt: 