In [None]:
from tensorflow import keras
import matplotlib.pyplot as plt
import numpy as np
from sklearn.model_selection import cross_validate, train_test_split
from sklearn.linear_model import SGDClassifier

In [None]:
from tensorflow.python.client import device_lib
device_lib.list_local_devices()

# 데이터 확인

In [None]:
# 패션 MNIST 데이터 로드
(x_train, y_train), (x_test, y_test) = keras.datasets.fashion_mnist.load_data()

In [None]:
# load된 훈련데이터 확인
print(x_train.shape, y_train.shape)

- 훈련 데이터는 60000개의 이미지로 이루어져 있음
- 각 이미지의 크기는 28 x 28
- 타깃은 60000개의 원소가 있는 1차원 배열

In [None]:
# 테스트 데이터 확인
print(x_test.shape, y_test.shape)

In [None]:
np.unique(x_test)

In [None]:
# 샘플 이미지 확인
fig, axs = plt.subplots(1, 10, figsize = (15, 15))

for i in range(10):
    axs[i].imshow(x_train[i], cmap = "gray_r")
    axs[i].axis("off")
plt.show()

In [None]:
# 종속변수 확인
print([y_train[i] for i in range(10)])

- 패션 MNIST 레이블의 의미
    - 0 : 티셔츠
    - 1 : 바지
    - 2 : 스웨터
    - 3 : 드레스
    - 4 : 코트
    - 5 : 샌달
    - 6 : 셔츠
    - 7 : 스니커즈
    - 8 : 가방
    - 9 : 앵클부츠

In [None]:
# 각 레이블 당 샘플 개수 확인
print(np.unique(y_train, return_counts = True))

- 0 ~ 9까지 레이블마다 정확히 6000개의 샘플이 들어 있음

# 확률적 경사하강법으로 패션 아이템 분류

In [None]:
# SGDClassifier는 2차원 데이터 입력을 다루지 못하기 때문에 데이터를 1차원 배열로 변환
scaled_train = x_train / 255.0
scaled_train = scaled_train.reshape(-1, 28*28)

In [None]:
print(scaled_train.shape)

In [None]:
sgd = SGDClassifier(loss = "log", max_iter = 5, random_state = 4)
scores = cross_validate(sgd, scaled_train, y_train, n_jobs = -1)
print(np.mean(scores["test_score"]))

# 인공신경망

- 로지스틱 회귀식
    - z_티셔츠 = w1 * 픽셀1 + w2 * 픽셀2 + ... + w784 * 픽셀784 + b (y절편)
    - z_바지 = w1' * 픽셀1 + w2' * 픽셀2 + ... + w784' * 픽셀784 + b' (y절편)

- 로지스틱 회귀
<img src = "./img/logistic_ann.png">

- 인공신경망

<img src = "./img/neuron-node.png">

- 활성화 함수 자리에 로지스틱 회귀의 softmax가 들어가므로 z1 ~ z10까지 레이블에 대한 확률값을 계산
    - 이 z1 ~ z10까지의 뉴런을 바탕으로 클래스를 예측하기 때문에 신경망의 최종값을 만든다는 의미에서 출력층(output layer)라고 부름
    
- 인공신경망에서는 z값을 계산하는 단위를 뉴런(neuron)이라고 불렀음
    - 현재는 뉴런 대신에 유닛(unit)이라는 표현을 사용
    
- x1 ~ x784 까지를 입력층(input layer)라고 부름
    - 입력층은 픽셀값 그 자체이고 특별한 계산을 수행하지는 않음
    
- 인공 신경망은 1943년 워런 매컬러(Warren McCulloch)와 월터 피츠(Walter Pitts)가 제안한 뉴런 모델로부터 시작됨
    - 이를 매컬러-피츠 뉴런 이라고 부름
    - 인공 뉴런은 생물학적 뉴런에서 영감을 얻어 만들어짐
    
1. 생물학적 뉴런은 수상 돌기로부터 신호를 받아 세포체에 모음
2. 신호가 어떤 임곗값에 도달하면 축삭 돌기를 통하여 다른 세포에 신호를 전달

## 텐서플로와 케라스

- 텐서플로
    - 텐서플로는 구글이 2015년 11월 오픈소스로 공개한 딥러닝 라이브러리
    - 기본 자료 구조 : Tensor
    - Tensor는 다차원 행렬 계산이다
    - 라이센스 apache 2.0을 따르기 때문에 상용화, 상업화가 가능
    - 방대한 자료
    - C++ 코어로 개발
    - 공식사이트
        - https://www.tensorflow.org
    - 구동원리
        - 파이썬에서 무거운 작업을 독립적으로 수행하지 않음
        - 상호연관있는 수행 작업들을 그래프로 기술하고
        - 연산은 파이썬의 바깥쪽, 텐서플로우에서 처리
        
- 케라스
    - 텐서플로의 고수준 API
        - 엔진이 아니라 인터페이스
        - 현재는 텐서플로우에 keras가 들어가있음

# pyTorch(파이토치)

- 개요
    - python/C++/Java 딥러닝 구현을 위한 오픈소스 라이브러리
    - gpu 지원은 nvidia만 가능(CUDA만 사용가능)
    - Lua(루아, 핵심사용언어), C++ 등으로 개발
    - Facebook 인공지능팀 개발(= 뉴욕대 협업)
    - 장점
        - 복잡하고, 계산양이 많은 그래프를 쉽게 구성함
        - 계산 그래프를 확용하면 미분/적분도 간단하게 처리
        - GPU 연산을 손쉽게 활용하여 빠른 처리가 가능
        
- 특징
    - numpy를 기반으로 Tensor연산을 GPU로 수행가능
    - 자동 미분 시스템을 이용하여, 모델을 손쉽게 구성
    - 같이 활용되는 python 패키지
        - Scipy
        - Numpy
        - Cython : 파이썬의 빠른 생산성, 외부 C 라이브러리와 간결하게 연동, 실행속도를 향상
    - 학습, 추론속도가 빠르고 다루기도 쉬움

## 딥러닝 라이브러리와 머신러닝 라이브러리의 차이

- 그래픽 처리 장치인 GPU를 사용하여 인공 신경망을 훈련
    - GPU는 벡터와 행렬 연산에 최적화되어 있기 때문에 곱셈과 덧셈이 많이 수행되는 인공 신경망에 큰 도움이 됨

In [None]:
# 위에서 만든 데이터를 그대로 활용하여 검증세트 나누기
scaled_train, scaled_val, y_train, y_val = train_test_split(scaled_train, y_train, test_size = 0.2, random_state = 4)

In [None]:
print(scaled_train.shape, y_train.shape)

In [None]:
print(scaled_val.shape, y_val.shape)

## 밀집층(dense layer)

- 784개의 픽셀과 10개의 출력층 뉴런이 모두 연결되는 층
- 양쪽의 뉴런이 모두 연결하고 있기 때문에 완전 연결층(fully connected layer, 전결합층)이라고도 부름

In [None]:
# Dense 클래스의 매개변수 = 뉴런 개수, 출력에 적용할 활성화 함수, 입력의 크기
dense = keras.layers.Dense(10, activation = "softmax", input_shape = (784,))

- 뉴련 개수 = 10
    - 10개의 레이블이 존재하기 때문
    
- 활성화함수 = softmax
    - 10개의 뉴런에서 출력되는 값을 확률값으로 바꾸기 위해서 softmax 사용
    - 만약에 이진분류 문제라면 활성화함수를 시그모이드 함수로 설정하는 것도 가능
        - activasion = "sigmoid"
        
- 입력 크기 = (784, )
    - 10개의 뉴런이 각각 몇개의 입력을 받는지 튜플로 지정
    - 현재 예제에서는 784개의 픽셀값 1차원으로 받기 때문에 (784, )를 입력

In [None]:
# 신경망 모델을 생성
model = keras.Sequential()

In [None]:
# 신경망 모델에 밀집층을 추가
model.add(dense)

In [None]:
# 모델 구조 확인
model.summary()

In [None]:
# 모델을 학습시키기 위한 학습과정을 설정
model.compile(loss = "sparse_categorical_crossentropy", metrics = "accuracy")

- loss = "sparse_categorical_crossentropy"
    - sparse_categorical_crossentropy : 다중 분류에서 주로 사용하는 손실 함수
        - 정답의 확률값을 1에 가깝게, 오답의 확률값을 0에 가깝게 만들도록 유도하는 손실 함수
    - 이진분류에서는 binary_crossentropy를 사용
    
- metrics = "accuracy"
    - 케라스는 모델이 훈련할 때 기본적으로 매 에포크마다 손실 값을 출력해줌
    - 손실 값 외에 정확도를 함께 출력해주기 위해 정확도를 나타낼 지표 accuracy를 지정

In [None]:
model.fit(scaled_train, y_train, epochs = 5)

In [None]:
# 검증데이터로 성능 평가
model.evaluate(scaled_val, y_val)