## Lightning 모듈 내부 해부

일반적인 pytorch 에서 학습 sequence 는 다음과 같다. (traning loop)

In [10]:
def train_loop( dataloader, model, lossfn, optimizer):
    size = len(dataloader.dataset)
    for batch, (x, y) in enumerate(dataloader):

        pred = model(x) # model class 가 callable 한 경우! forward를 직접 불러도 결과는 같겠지만 hook 이 동장하지 않음!
        loss = lossfn( pred, y) 

         
        if batch%100 == 0 :
            loss, current = loss.item(), batch*len(x)
            print(f"loss : { loss }, [{current}/{size}")
        
        

반면 torch lightning 에서 학습을 정의하는 부분은 다음과 같다. (traning_step)

In [None]:
#in the class 
    def traning_step(self, batch, batch_idx):
        x, y = batch
        y_hat = self(x) ## callable 한 경우 forward 진행 
        loss = loss_function(y_hat, y) ## loss_function 은 미리 주어져야함
        self.log('traninig loss', loss)
        return loss

구조는 매우 간단하다. 먼저 데이터를 받고 (x, y를 batch로부터, 이 부분은 pl.traniner.fit 이 알아서 해준다.) 이를 모델에 넣어서 나온 값(예측 y값)과, 실제 y값 의 차이를 loss_function 함수에 넣어서 loss 를 계산하고 이를 return 한다. 별도로 back propagation 이나 optimizer 설정은 필요 없음에 유의하자! 

이와 완벽하게 똑같은 구조로 validation 또는 test 를 위한 내부 메쏘드 설정도 가능하다. 이름은 똑같이 validation_step, test_step 이라고 정의하면 되고 또한 traninig step 에서의 return 은 loss 이지만 만약 역전파가 필요없는 validation 이나 test 에서는 return 을 정의하지 않고, 결과만 log 에 표현해도 된다. 

### History Log
Log 의 경우에는 다음의 문서에 잘 나와 있는데 (https://lightning.ai/docs/pytorch/stable/api_references.html#loggers), 각각 Step, Epoch level 에서 로깅이 가능하다. 

```python
LightningModule.log(name, value,
    prog_bar=False, logger=True, on_step=None, on_epoch=None, reduce_fx='mean',
    enable_graph=False, sync_dist=False, sync_dist_group=None, add_dataloader_idx=True,
    batch_size=None, metric_attribute=None, rank_zero_only=False)
```

예를들어 다음의 3개의 차이를 보면

In [None]:
from IPython.core.display import ProgressBar

## 1) 
def traninig_step( self, batch, batch_idx ) :
    x, y = batch
    y_hat = self(x)
    loss = loss_ftn(y_hat, y)
    self.log("loss", loss, on_step = True, on_epoch = False ) ## Step level 에서 
    return loss

## 2)
def training_step( self, batch, batch_idx ):
    x, y = batch
    y_hat = self(x)
    loss = loss_ftn(y_hat, y)
    self.log("loss", loss, on_step=False, on_epoch = True ) ## Epoch level 마다 log
    return loss

## 3)
def traning_step( self, batch, batch_idx ):
    x, y = batch
    y_hat = self(x)
    loss = loss_ftn(y_hat, y)
    acc = FM.accuracy(y_hat, y, task="multiclass", num_classes = 10)
    metrics = {'loss' : loss, 'acc' : acc }
    self.log_dict( metrics, prog_bar = True ) # by default, on_step = True, on_epoch = False 
    return loss
    

log 를 활용한 1) , 2) 의 경우의 차이는 step 마다 logging을 할 건지, 또는 epoch 마다 logging 을 할 건지의 차이고, 기본적으로는 on_step 이 default 이다. 만약 log 에 보다 자세한 정보를 기록하고 싶다면 먼저 log 에 담길 정보를 dict 형식으로 만든 다음에 (3번처럼), 이를 log_dict 매소드를 사용해서 기록하면 된다. 또한 prog_bar 를 활성화하면 진행정도를 볼 수 있는데 (마치 Keras 처럼) log 를 사용하면 자주 활성화 시키는 옵션이다. 이를 이용해서 실제 MNIST 모델을 만들어서 모델이 어떻게 돌아가는지 확인해보자.