<a href="https://colab.research.google.com/github/KwonDoRyoung/AdvancedBasicEducationProgram/blob/main/abep09.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Classification

## 1. 인공지능 신경망 선언
- nn.Module 은 Pytorch 에서 제공하는 인공신경망 클래스
- 직접 Backpropagation 연산을 선언할 필요없음
- Python의 상속을 이용
- def __init__(self, *):
  - 만들고자 하는 신경망의 구조를 선언하는 부분
  - nn에 있는 클래스를 활용하여 구조를 만들어야됨
- def forward(self, inputs, *):
  - __init__ 에서 선언한 구조들의 흐름을 만드는 곳
  - 신경망에 입력(inputs)을 넣어서 출력을 도출할 수 있음(함수의 return 인자를 활용)
- 다른 함수를 클래스 밑에 정의할 수 있음
-----
기본구조는
```python 
class <신경망의 이름>(nn.Module):
  def __init__(self, 매개변수1, 매개변수2, ...):
    # 신경망 구조 선언
    self.layer1 = nn.Linear(...)
    self.layer2 = nn....
    ...
    self.layer_n = nn....

  def forward(self, inputs, 매개변수1, ...):
    # 위에서 선언한 신경망 호출
    x = self.layer(inputs)
    x = self.layer2(x)
    ...
    x = self.layer_n(x)
    return x
```

### 1) Multi-layer perceptron
- Pytroch 에서는 nn.Linear와 활성화 함수를 조합하여 만들 수 있음
![nn_p](./markdown_images/nn_p_t.png)

In [1]:
import torch.nn as nn

class MLP(nn.Module): 
  def __init__(self,):
    super(MLP, self).__init__()
    # 1st layer 선언
    self.layer1 = nn.Linear(784, 100, bias=False) # 100 이라는 숫자를 바꾸면서
    self.activation1 = nn.Sigmoid() # ReLU
    # 2nd layer 선언
    self.layer2 = nn.Linear(100, 10, bias=False)
    self.activation2 = nn.Sigmoid()
    # 3rd layer 선언
    self.layer3 = nn.Linear(10, 10, bias=False)
  
  def forward(self, inputs):
    # 1st layer 입력
    outputs = self.layer1(inputs)
    outputs = self.activation1(outputs)
    # 2nd layer 입력
    outputs = self.layer2(outputs)
    outputs = self.activation2(outputs)
    # 3rd layer 입력
    outputs = self.layer3(outputs)
    return outputs

In [None]:
from torchvision.datasets import MNIST
import torchvision.transforms as T
import torch.utils.data

import torch
import torch.nn as nn

# 데이터의 정보개수가 28x28=784
# 총 데이터가 6만개
class MLP(nn.Module): 
  def __init__(self,):
    super(MLP, self).__init__()
    # 1st layer 선언
    self.layer1 = nn.Linear(784, 100, bias=False) # 100 이라는 숫자를 바꾸면서
    self.activation1 = nn.Sigmoid() # ReLU
    # 2nd layer 선언
    self.layer2 = nn.Linear(100, 10, bias=False)
    self.activation2 = nn.Sigmoid()
    # 3rd layer 선언
    self.layer3 = nn.Linear(10, 10, bias=False)
  
  def forward(self, inputs):
    # 1st layer 입력
    outputs = self.layer1(inputs)
    outputs = self.activation1(outputs)
    # 2nd layer 입력
    outputs = self.layer2(outputs)
    outputs = self.activation2(outputs)
    # 3rd layer 입력
    outputs = self.layer3(outputs)
    return outputs

# layer 입력 출력 개수 변경
# batch_size 변경
# learning rate 변경

# MNIST: 손글씨, 아라비아 숫자에 대한, 0 ~ 9
train_dataset = MNIST(root="/content/", transform=T.Compose([T.ToTensor()]), download=True)
test_dataset = MNIST(root="/content/", transform=T.Compose([T.ToTensor()]), train=False)
# batch size 만큼 묶어주는 함수가 필요.
# train_dataset[index] 호출 -> (image data, image target)

print(f"data 1st:{train_dataset[0][0].size()}, {train_dataset[0][1]}") # 데이터를 통해 batch learning

train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=32, shuffle=True) # batch size 32~64,... 
test_loader = torch.utils.data.DataLoader(test_dataset, batch_size=1, shuffle=False)

model2 = MLP().to("cuda")

# weight? parameter? -> self.layer = nn.Linear
optimizer = torch.optim.SGD(model2.parameters(), lr=0.01) # 최적화 함수

# 손실함수
criterion = nn.CrossEntropyLoss() # addition ... 수학적 설명 화요일

for epoch in range(100):
  # 데이터를 한 번 학습
  model2.train() # 여기서부터는 학습 Flag
  train_loss = 0
  for step, x in enumerate(train_loader): # 한번 데이터를 다 보는 거 (batch0, batch1, batch2, ...,batch_m)
    batch_image = x[0] # torch.Size([16, 1, 28, 28]) dim=4
    # batch_image = batch_image.reshape([16, 784]) # 펼치는 것
    batch_image = torch.flatten(batch_image, start_dim=1).to("cuda")
    batch_target = x[1].to("cuda")
    outputs = model2(batch_image) # forward 함수를 활용
    # model2: Multilayer perceptron 입력형태: size: (batch_size, features==정보의 개수) dim=2
    # print(outputs)
    # print(batch_target.unsqueeze(dim=1))
    # minmize mean(abs(outputs - batch_target)) <- 손실함수 object function, loss
    # 기존 가설: 출력과 정답이 일치해야됨 == 출력과 정답의 차가 0으로 수렴해야된다. -> minmize |outputs - target|
    # loss = torch.abs(outputs - batch_target.unsqueeze(dim=1)) # loss 거의 0에 수렴해야됨.
    # loss = torch.mean(loss)

    # 새로운 가설: 0~9 까지 10개
    # outputs size: (batch_size, num_classes==예측하고자하는 경우의 수)
    # target size : (batch_size) 단 0 <= element < num_classes <- 내일 추가로 설명.
    loss = criterion(outputs, batch_target)
    
    train_loss += loss # 추가된 라인

    # 학습을 진행하는 곳
    optimizer.zero_grad()
    loss.backward() # 역전파 -> 미분값이 저장
    optimizer.step() # 미분값이 저장을 활용해서 최적화

    if step % 1000 == 0: 
      print(f"[{step}] Loss: {loss.item():.4f}")
  train_loss = train_loss/len(train_loader)
  print(f"Train loss: {train_loss.item():.4f}")

  # 매번 확인 or 특정 epoch 마다 확인 예) 10 epoch, 20 epoch
  # 평가 코드가 활성화 되는 지점 # 1000개 <- 부하가 적음, 평가 데이터가 엄청 많다. 그러면 평가 자체도 부하
  model2.eval() # 여기서부터는 평가 Flag
  valid_loss = 0
  for i, v in enumerate(test_loader):
    batch_image = v[0] 
    batch_image = torch.flatten(batch_image, start_dim=1).to("cuda")
    batch_target = v[1].to("cuda")
    outputs = model2(batch_image) # forward 함수를 활용

    loss = criterion(outputs, batch_target)

    valid_loss += loss
    
    if i == 100:
      print(batch_target) # [1, 3, 5, 1, ..., 6]
      print(outputs) # outputs size : (batch size(16), 출력개수(10))
      # [[p0, p1, p2, p3, p4, p5, p6, p7, p8, p9], 예 p0 가 제일크다.
      #  ..., 예 p9 가 제일크다
      #  [p0, p1, p2, p3, p4, p5, p6, p7, p8, p9]] p7 제일 크다.
      print(torch.argmax(outputs, dim=1))
      # [0, 9, 7, 1,..., 6]
      print(batch_target == torch.argmax(outputs, dim=1))
      # [F, F ,F, T, ..., T] - T == 1, F == 0
      # [0, 0, 0, 1, ..., 1] <= (batch_target == torch.argmax(outputs, dim=1)).float()
      accuarcy = torch.mean((batch_target == torch.argmax(outputs, dim=1)).float())
      print(accuarcy)

  valid_loss = valid_loss/len(test_loader)
  print(f"Valid Loss: {valid_loss.item():.4f}")
  print("="*100)