#  AutoGrad & Optimizer

논문 구현 : 수 많은 반복의 연속  
Layer = Block 
Layer를 쌓는것(블록의 연속)을 다시 Layer에 넣기도함

### torch.nn.Module
- 딥러닝을 구성하는 Layer의 base class(Auto Grad)
- 4가지를 정함 : Input, Output, Forward, Backward(Weights)
- 학습의 대상이 되는 parameter(tensor) 정의

### nn.Parameter
- Tensor 객체의 상속 객체
- nn.Module 내에서 __attribute__ 가 될 때는 required_grad=True(Auto Grad)로 지정되어 학습 대상이 되는 Tensor
- 직접 지정할 일은 잘 없다 : 대부분의 layer에는 weights 값들이 지정되어 잇다.

### Backward
- Layer에 있는 Parameter 들의 미분을 수행
- Forward의 결과값(model의 output=예측치)과 실제값간의 loss에 대해 미분
- 해당 값으로 Parameter 업데이트
- 총 4단계
 1. optimizer.zero_grad() 
 2. loss = criterion(outputs, labels)
 3. loss.backward()
 4. optimizer.step()

### Backward from the scratch
- 실제 backward는 Module 단계에서 직접 지정가능(하지만 할필요가 x)
- Module에서 backward와 optimizer 오버라이딩
- 사용자가 직접 미분 수식을 써야하는 부담감  
    $\rightarrow$ 쓸일은 없으나 순서는 이해할 필요 있음

# PyTorch Dataset

- 모델에 데이터를 먹이는 법

<img src = "../images/ai_32.png">

1. Data가 있는 폴더가 있다.
2. Data set class에서 를 어떻게 시작(init)할건지 길이가 얼만지(len) 어떻게 불러올것인지(getitem > __map-style__ 중요)
3. transforms에서 data 변형(tensor로)
4. DataLoader : 데이터를 묶어서 model에 feeding해줌


### Data set 클래스
- 데이터 입력 형태를 정의하는 클래스
- 데이터를 입력하는 방식의 표준화
- Image, Text, Audio등에 따른 입력 정의 

### Dataset 클래스 생성시 유의점
- 데이터 형태에 따라 각 함수를 다르게 정의함
- 모든 것을 데이터 생성 시점에 처리할 필요는 없음 : image의 Tensor 변화는 학습에 필요한 시점에 변환
- Dataset에 대한 표준화된 처리방법 제공 필요 
- 최근엔 HuggingFace등 표준화된 라이브러리 사용

### DataLoader 클래스
- Data의 Batch를 생성해주는 클래스
- 학습직전(GPU feed전) 데이터의 변환을 책임
- Tensor로 변환 + Batch 처리가 메인 업무
- 병렬적인 데이터 전처리 코드의 고민 필요

### Casestudy
- 데이터 다운로드 부터 loader까지 구현해보기
- NotMNIST 데이터의 다운로드 자동화 도전|

In [9]:
from torchvision.datasets import VisionDataset
from typing import Any, Callable, Dict, List, Optional, Tuple
import os

from tqdm import tqdm
import os
import sys
from pathlib import Path
import requests

from skimage import io, transform
import matplotlib.pyplot as plt


ModuleNotFoundError: No module named 'skimage'

In [None]:

import tarfile

    
class NotMNIST(VisionDataset):
    resource_url = 'http://yaroslavvb.com/upload/notMNIST/notMNIST_large.tar.gz'
    
    def __init__(
            self,
            root: str,
            train: bool = True,
            transform: Optional[Callable] = None,
            target_transform: Optional[Callable] = None,
            download: bool = False,
    ) -> None:
        super(NotMNIST, self).__init__(root, transform=transform,
                                    target_transform=target_transform)

        if not self._check_exists() or download:
            self.download()
            
        self.data, self.targets = self._load_data()
        

    def __len__(self):
        return len(self.data)

    
    def __getitem__(self, index):
        image_name = self.data[index]
        image = io.imread(image_name)
        label = self.targets[index]
        if self.transform:
            image = self.transform(image)
        return image, label

    def _load_data(self):
        filepath = self.image_folder
        data = []
        targets = []
        
        for target in os.listdir(filepath):
            filenames = [os.path.abspath(
                os.path.join(filepath, target, x)) for x in os.listdir(
                os.path.join(filepath, target))]
            
            targets.extend([target] * len(filenames))
            data.extend(filenames)
        return data, targets

    @property
    def raw_folder(self) -> str:
        return os.path.join(self.root, self.__class__.__name__, 'raw')

    @property
    def image_folder(self) -> str:
        return os.path.join(self.root, 'notMNIST_large')


    def download(self) -> None:
        os.makedirs(self.raw_folder, exist_ok=True)
        fname = self.resource_url.split("/")[-1]
        chunk_size = 1024
        
        filesize = int(requests.head(self.resource_url).headers["Content-Length"])
        
        with requests.get(self.resource_url, stream=True) as r, open(
            os.path.join(self.raw_folder, fname), "wb") as f, tqdm(
            unit="B",  # unit string to be displayed.
            unit_scale=True,  # let tqdm to determine the scale in kilo, mega..etc.
            unit_divisor=1024,  # is used when unit_scale is true
            total=filesize,  # the total iteration.
            file=sys.stdout,  # default goes to stderr, this is the display on console.
            desc=fname  # prefix to be displayed on progress bar.
        ) as progress:
            for chunk in r.iter_content(chunk_size=chunk_size):
                # download the file chunk by chunk
                datasize = f.write(chunk)
                # on each chunk update the progress bar.
                progress.update(datasize)
        
        self._extract_file(os.path.join(self.raw_folder, fname), target_path=self.root)
        
    def _extract_file(self, fname, target_path) -> None:
        if fname.endswith("tar.gz"):
            tag = "r:gz"
        elif fname.endswith("tar"):
            tag = "r:"
        tar = tarfile.open(fname, tag)
        tar.extractall(path=target_path)
        tar.close()
    
    def _check_exists(self) -> bool:
        return os.path.exists(self.raw_folder)
        

In [None]:
dataset = NotMNIST("data", download=True)

In [None]:
fig = plt.figure()

for i in range(8):
    sample = dataset[i]

    ax = plt.subplot(1, 4, i + 1)
    plt.tight_layout()
    ax.set_title('Sample #{}'.format(i))
    ax.axis('off')
    plt.imshow(sample[0])

    if i == 3:
        plt.show()
        break

In [None]:
import torch
from torchvision import transforms, datasets

data_transform = transforms.Compose([
        transforms.RandomSizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406],
                             std=[0.229, 0.224, 0.225])
    ])

dataset = NotMNIST("data", download=False)

In [None]:
dataset_loader = torch.utils.data.DataLoader(dataset,
                                             batch_size=128, shuffle=True)

In [None]:
train_features, train_labels = next(iter(dataset_loader))


In [None]:
train_features.shape

In [None]:
train_labels

In [7]:
train_features.shape

NameError: name 'train_features' is not defined