# 230. mnist dataset 손글씨 인식 - LeNet

- CNN 을 이용한 mnist dataset 손글씨 인식  
- Yan LeCunn 이 1998 년 발표한 LeNet-5 을 Pytorch 로 customize 하여 재현

transforms.ToTensor()의 주요 특징:

1) 데이터 타입 변환: PIL 이미지나 NumPy ndarray를 torch.FloatTensor로 변환  
2) 스케일링: 이미지의 픽셀 값 범위를 [0, 255]에서 [0.0, 1.0]으로 스케일링  
3) 차원 재배열: PyTorch에서는 이미지 데이터를 [C, H, W] 형식(채널, 높이, 너비)으로 처리하므로 입력 이미지 데이터의 차원을 이 형식으로 자동으로 재배열

In [None]:
# transforms.Compose는 여러 변환(transform)을 함께 결합할 때 사용됩니다.
    # 정규화를 수행합니다. 평균(mean)은 0.1, 표준편차(std)는 0.3으로 설정
    # 이 경우는 단일 채널(예: 흑백 이미지)의 이미지를 가정

In [None]:
# torchvision.datasets 모듈을 활용하여 MNIST 데이터셋을 불러옵니다.
# MNIST 데이터셋: 손글씨 숫자(0~9) 이미지로 구성된 데이터셋
# 학습 데이터(train) 로드
# 테스트 데이터(test) 로드

In [None]:
# train_data 객체 출력
# test_data 객체 출력

- Data 시각화

In [None]:
# 테스트 데이터에서 20개의 이미지 출력
    # 서브플롯 생성 (2행 10열 배치, 현재 i번째 위치)
    # 이미지를 28x28 크기로 변환하여 출력 (MNIST 데이터는 28x28 크기의 흑백 이미지)
    # 이미지 제목 설정 (해당 숫자 클래스 표시)
    # x축, y축 눈금 제거 (불필요한 좌표 값 숨김)

### Dataset Loader 생성
- Train dataset 을 train, validation, test dataset 으로 3 분할

In [None]:
# 전체 훈련 데이터의 20%를 검증(validation) 데이터로 설정
# 배치 크기(batch size) 설정
# PyTorch의 random_split()을 사용하여 훈련 데이터(train)와 검증 데이터(validation)로 분할
# train_data를 train과 validation으로 랜덤하게 분할
# DataLoader를 사용하여 미니배치 단위로 데이터 로딩

## Model build

<img src="https://d2l.ai/_images/lenet.svg" width="800" />

In [None]:
# LeNet 모델 정의 (CNN 기반 신경망)
class LeNet(nn.Module):
    def __init__(self):
        # 첫 번째 합성곱 계층 (입력 채널: 1, 출력 채널: 6, 커널 크기: 5, 패딩: 2)
        # 두 번째 합성곱 계층 (입력 채널: 6, 출력 채널: 16, 커널 크기: 5)
        # 첫 번째 완전 연결층 (입력 크기: 16 * 5 * 5, 출력 크기: 120)
        # 두 번째 완전 연결층 (입력 크기: 120, 출력 크기: 84)
        # 세 번째 완전 연결층 (입력 크기: 84, 출력 크기: 10) → 10개의 클래스 (0~9)
        # 풀링 계층 (최대 풀링, 커널 크기: 2)
        # 활성화 함수 (ReLU)
        # Dropout 추가 (과적합 방지)
    # 순전파(Forward) 연산 정의
    def forward(self, x):
        # 출력을 1차원으로 평탄화 (Flatten)

In [None]:
# LeNet 모델 객체 생성
# 모델 구조 출력

In [None]:
# train_loader에서 첫 번째 배치의 데이터(특성) 가져오기
# 출력 형태 확인 [배치 크기, 채널 수, 높이, 너비]

In [None]:
# 첫 번째 배치 데이터를 모델에 전달하여 순전파 수행

### Model Summary

In [None]:
# 모델의 상태 딕셔너리(state_dict)에서 각 가중치 텐서의 이름과 파라미터 수 출력
# 모델의 전체 파라미터 수 출력

### Loss Function

In [None]:
# 손실 함수 정의 (CrossEntropyLoss: 분류 문제에서 사용)
# 모델을 지정한 장치(GPU 또는 CPU)로 이동
# PyTorch 2.0에서 권장하는 `torch.compile()` 적용

In [None]:
# 학습률 설정
# SGD(확률적 경사 하강법) 옵티마이저 정의
# 학습률 스케줄러 (5 에포크마다 학습률을 0.5배 감소)

In [None]:
    # 학습률 업데이트
    # 에폭별 훈련 및 검증 결과 출력

In [None]:
# 훈련 손실과 검증 손실 그래프
# 훈련 정확도와 검증 정확도 그래프

## Model 평가 - Test set 사용

In [None]:
# 테스트 로더를 통해 테스트 데이터셋의 배치를 순회
        # 예측 결과와 실제 레이블을 CPU로 이동 후 numpy 배열로 변환하여 리스트에 추가
# 예측값과 실제 레이블이 일치하는 인덱스 추출
# 예측값과 실제 레이블이 일치하지 않는 인덱스 추출
# 정확도 계산: 정확한 예측의 수를 전체 예측의 수로 나눈 후 백분율로 변환

## Category 별 분류 성능 측정

In [None]:
# 혼동 행렬 계산
# 혼동 행렬 시각화
# 클래스별 정확도 출력

# 실습 : fashion MNIST 를 이용하여 위와 동일한 작업

Label	Class

0	T-shirt/top  
1	Trouser  
2	Pullover  
3	Dress  
4	Coat  
5	Sandal  
6	Shirt  
7	Sneaker  
8	Bag  
9	Ankle boot

In [None]:
# load mnist data

In [None]:
# Your code here