<a href="https://colab.research.google.com/github/HoonC-corgi/Machine_Learning_SelfStudy/blob/main/07_2_Deep_Neural_Network%2C_DNN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 두 개의 층

In [3]:
from tensorflow import keras
(train_input, train_target), (test_input, test_target) =\
    keras.datasets.fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


In [4]:
from sklearn.model_selection import train_test_split
train_scaled = train_input / 255.0
train_scaled = train_scaled.reshape(-1, 28*28)
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)

In [5]:
# 시그모이드 활성화 함수를 사용한 은닉층과 소프트맥스 함수를 사용한 출력층을 케라스의 Dense 클래스로 만들면,
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))    # 신경망의 첫 번째 층은 반드시 input_shape 매개변수로 입력의 크기를 지정해야 함
# 은닉층
dense2 = keras.layers.Dense(10, activation='softmax')
# 출력층

# 심층 신경망 만들기

In [6]:
# 은닉층&출력층을 Sequential 클래스에 추가
model = keras.Sequential([dense1, dense2])    # 여러 개의 층을 추가하려면 denseN을 리스트로 만들어 전달하여야 함
# 출력층은 반드시 마지막에 두어야 함
# 처음 등장하는 은닉층에서 마지막 출력층의 순서로 나열

In [8]:
# 케라스는 모델의 summary() 메서드를 호출하면 층에 대한 정보를 얻을 수 있음
model.summary()
# 모델 이름, 모델 층의 나열(은닉층 > 출력층)
# 각 층마다 층 이름, 클래스, 출력 크기, 모델 파라미터 개수가 출력
# 층을 만들 때 name 매개변수로 이름을 지정할 수 있음, 미지정 시 'dense'로 지정됨
# (샘플 개수, 뉴런 개수(특성, 출력 개수))
# (None, 100)으로 표기 되는 것은 미니배치 경사 하강법을 사용하기 때문에 데이터를 나누어 여러번 사용하여, 샘플 개수가 정해져 있지 않기 때문, 미니배치 디폴트는 32개
# 파라미터 수 = 특성수 X 샘플 수 + 절편수

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


# 층을 추가하는 다른 방법

In [10]:
# Sequential 클래스의 생성자 안에서 바로 Dense 클래스의 객체를 만들 수도 있음
model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784,),
                        name='hidden'),   # name 매개변수 통해 이름 지정
    keras.layers.Dense(10, activation='softmax', name='output')
], name='패션 MNIST 모델')

In [11]:
model.summary()

Model: "패션 MNIST 모델"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 output (Dense)              (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [13]:
# Sequential 클래스에서 층을 추가할 때 가장 보편적인 방법은 add() 메소드를 사용하는 것
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name='hidden'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [14]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 dense_4 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [15]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f2df9507040>

# 렐루 함수

In [16]:
# keras의 Flatten층은 넘파이 배열의 reshape() 메소드와 같은 기능을 함
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))   # input_shape를 Flatten 층에 넣고, 활성함수를 'relu'로 지정
model.add(keras.layers.Dense(10, activation='softmax'))
# flatten 층은 단순히 차원 축소의 기능을 할 뿐, 학습하지 않으므로 깊이에 포함되지는 않음

In [17]:
model.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 dense_5 (Dense)             (None, 100)               78500     
                                                                 
 dense_6 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [18]:
# 케라스 API는 입력 데이터에 대한 전처리 과정을 될 수 있으면 모델에 포함하는 것을 지향함
# reshape() 메소드 없이 모델을 만들면,
(train_input, train_target), (test_input, test_target)  =\
    keras.datasets.fashion_mnist.load_data()
train_scaled = train_input / 255.0
train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42
)

In [19]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f2df634ff10>

In [20]:
model.evaluate(val_scaled, val_target)



[0.3641558885574341, 0.871749997138977]

# 옵티마이저
       케라스가 제공하는 다양한 종류의 경사 하강법 알고리즘
       compile() 메소드의 optimizer 매개변수를 통해 지정

In [22]:
model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics='accuracy')
# SGD 옵티마이저는 tensorflow.keras.optimizers 패키지 아래 SGD 클래스로 구현

In [25]:
sgd = keras.optimizers.SGD()
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')
# == model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics='accuracy')

In [26]:
# learning_rate 매개변수를 지정하여 학습률을 지정할 수 있음
sgd = keras.optimizers.SGD(learning_rate=0.1)

In [27]:
# SGD 클래스의 momentum 매개변수 디폴트는 0으로, 그 이상으로 지정하면, 이전의 그레이디언트를 가속도로 사용하는 모멘텀 최적화를 사용한다. 일반적으로 0.9 이상으로 지정
# SGD 클래스의 nesterov 매개변수를 기본값 False에서 True로 바꾸면 네스테로프 모멘텀 최적화를 사용함
sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True)
# 네스테로프 모멘텀은 모멘텀 최적화를 2번 반복하여 구현, 대부분 네스테로프 모멘텀 최적화가 기본 확률적 경사하강법보다 더 나음

## 적응적 학습률
      모델이 최적점에 가까이 갈수록 학습률을 낮출 수 있음
      안정적으로 최적점에 수렴할 가능성을 높임
      대표적 옵티마이저는 Adagrad, RMSprop로,
      각각 compile(), optimizer 매개변수에 'adagrad', 'rmsprop'로 지정
      optimizer 매개변수의 디폴트는 'rmsprop'

In [28]:
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer=adagrad, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [29]:
rmsprop = keras.optimizers.RMSprop()
model.compile(optimizer=rmsprop, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [30]:
# Adam 알고리즘은 모멘텀 최적화와 RMSprop의 장점을 접목한 것으로, 맨처음 시도해 볼 수 있는 좋은 알고리즘
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28,28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [31]:
# compile() 메소드의 optimizer를 'adam'으로 설정하고 5번의 에포크 동안 훈련
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics='accuracy')
model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7f2dfea79d60>

In [32]:
model.evaluate(val_scaled, val_target)



[0.33937475085258484, 0.8802499771118164]

# 전체 소스코드

# 심층 신경망

<table align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/hg-mldl/blob/master/7-2.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩에서 실행하기</a>
  </td>
</table>

In [None]:
# 실행마다 동일한 결과를 얻기 위해 케라스에 랜덤 시드를 사용하고 텐서플로 연산을 결정적으로 만듭니다. 
import tensorflow as tf

tf.keras.utils.set_random_seed(42)
tf.config.experimental.enable_op_determinism()

## 2개의 층

In [None]:
from tensorflow import keras

(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

In [None]:
from sklearn.model_selection import train_test_split

train_scaled = train_input / 255.0
train_scaled = train_scaled.reshape(-1, 28*28)

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

In [None]:
dense1 = keras.layers.Dense(100, activation='sigmoid', input_shape=(784,))
dense2 = keras.layers.Dense(10, activation='softmax')

## 심층 신경망 만들기

In [None]:
model = keras.Sequential([dense1, dense2])

2022-05-19 01:03:43.556049: I tensorflow/core/platform/cpu_feature_guard.cc:193] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 AVX512F FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [None]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 100)               78500     
                                                                 
 dense_1 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


## 층을 추가하는 다른 방법

In [None]:
model = keras.Sequential([
    keras.layers.Dense(100, activation='sigmoid', input_shape=(784,), name='hidden'),
    keras.layers.Dense(10, activation='softmax', name='output')
], name='패션 MNIST 모델')

In [None]:
model.summary()

Model: "패션 MNIST 모델"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 hidden (Dense)              (None, 100)               78500     
                                                                 
 output (Dense)              (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
model = keras.Sequential()
model.add(keras.layers.Dense(100, activation='sigmoid', input_shape=(784,)))
model.add(keras.layers.Dense(10, activation='softmax'))

In [None]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_2 (Dense)             (None, 100)               78500     
                                                                 
 dense_3 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fa888270250>

## 렐루 활성화 함수

In [None]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [None]:
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 flatten (Flatten)           (None, 784)               0         
                                                                 
 dense_4 (Dense)             (None, 100)               78500     
                                                                 
 dense_5 (Dense)             (None, 10)                1010      
                                                                 
Total params: 79,510
Trainable params: 79,510
Non-trainable params: 0
_________________________________________________________________


In [None]:
(train_input, train_target), (test_input, test_target) = keras.datasets.fashion_mnist.load_data()

train_scaled = train_input / 255.0

train_scaled, val_scaled, train_target, val_target = train_test_split(
    train_scaled, train_target, test_size=0.2, random_state=42)

In [None]:
model.compile(loss='sparse_categorical_crossentropy', metrics='accuracy')

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fa8801e1d30>

In [None]:
model.evaluate(val_scaled, val_target)



[0.37255606055259705, 0.8715833425521851]

## 옵티마이저

In [None]:
model.compile(optimizer='sgd', loss='sparse_categorical_crossentropy', metrics='accuracy')

In [None]:
sgd = keras.optimizers.SGD()
model.compile(optimizer=sgd, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [None]:
sgd = keras.optimizers.SGD(learning_rate=0.1)

In [None]:
sgd = keras.optimizers.SGD(momentum=0.9, nesterov=True)

In [None]:
adagrad = keras.optimizers.Adagrad()
model.compile(optimizer=adagrad, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [None]:
rmsprop = keras.optimizers.RMSprop()
model.compile(optimizer=rmsprop, loss='sparse_categorical_crossentropy', metrics='accuracy')

In [None]:
model = keras.Sequential()
model.add(keras.layers.Flatten(input_shape=(28, 28)))
model.add(keras.layers.Dense(100, activation='relu'))
model.add(keras.layers.Dense(10, activation='softmax'))

In [None]:
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics='accuracy')

model.fit(train_scaled, train_target, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x7fa890954eb0>

In [33]:
model.evaluate(val_scaled, val_target)



[0.33937475085258484, 0.8802499771118164]

# 총 정리

## 키워드

### 심층 신경망
      2개 이상의 층을 포함한 신경망
      종종 다층 인공 신경망, 심층 신경망, 딥러닝을 같은 의미로 사용

### 은닉층 Hidden Layer
      입력층과 출력층 사이에 있는 모든 층

### 렐루 함수
      이미지 분류 모델의 은닉층에 많이 사용하는 활성화 함수
      시그모이드는 층이 많을수록 활성화 함수의 양쪽 끝에서 변화가 작기에 학습이 어려움
      렐루는 좋음

### 옵티마이저
      신경망의 가중치와 절편을 학습하기 위한 알고리즘 또는 방법
      케라스에는 대표적으로 SGD, 네스테로프 모멘텀, RMSprop, Adam 등이 있음

### 적응적 학습률
      모델이 최적점에 가까이 갈수록 학습률을 낮출 수 있음
      안정적으로 최적점에 수렴할 가능성을 높임
      대표적 옵티마이저는 Adagrad, RMSprop로,
      각각 compile(), optimizer 매개변수에 'adagrad', 'rmsprop'로 지정
      optimizer 매개변수의 디폴트는 'rmsprop'

## 핵심 패키지와 함수

### TesorFlow

#### add()
      케라스 모델의 add() 메소드는 keras.layers 패키지 아래에 있는 층의 객체를 입력받아 신경망 모델에 추가함,
      add() 메소드를 호출하여 전달한 순서대로 층이 차례대로 늘어남

#### summary()
      케라스 모델의 정보를 출력
      모델에 추가된 층의 종류와 순서, 모델 파라미터 개수를 출력
      층을 만들 때 name 매개변수로 이름을 지정하면 summary() 메소드 출력에서 구분이 쉬움

#### SGD
      기본 경사 하강법 옵티마이저 클래스
      learning_rate 매개변수로 학습률을 지정, 디폴트는 0.01
      momentum 매개변수에 0 이상의값을 지정하면 모멘텀 최적화를 수행, 일반적으로 0.9 이상으로 지정
      nesterov 매개변수를 True로 설정하면 네스테로프 모멘텀 최적화 수행
      

#### Adagrad
      Adagrad 옵티마이저 클래스
      learning_rate 매개변수로 학습률을 지정, 디폴트는 0.001
      Adagrad는 그레이디언트 제곱을 누적하여 학습률을 나눔, initial_accumulator_value 매개변수에서 누적 초깃값을 지정, 디폴트는 0.1

#### RMSprop
      RMSprop 옵티마이저 클래스
      learning_rate 매개변수로 학습률을 지정, 디폴트는 0.001
      모멘텀 최적화에 있는 그레이디언트의 지수 감소 평균을 조절하기 위한 beta_1 매개변수가 있음, 디폴트는 0.9
      RMSprop에 있는 그레이디언트 제곱의 지수 감소 평균을 조절하기 위한 beta_2 매개변수가 있음, 디폴트는 0.999

# 팁

*   출력층에 적용하는 활성화 함수는 종류가 제한되어 있지만 은닉층은 자유로운 편

*   회귀를 위한 신경망의 출력층에서는 활성화 함수를 적용할 필요가 없다, Dense 층의 activation 매개변수에 아무런 값을 지정하지 않음

*   모든 신경망에는 항상 활성화 함수가 있다

*   은닉층의 뉴런 개수는 출력층의 뉴런보다 많아야 한다

*   은닉층, 출력층을 Sequential 클래스에 추가하여 심층 신경망을 만듦

*   SGD는 지정된 함수를 따를 뿐, 적응적 학습률을 가지지 않는다

*   Adam은 RMSprop와 함께 맨처음 시도해 보기 좋다









