# Tensorflow 레이어들

## 레이어 종류

### 단층/다층(심층)신경망 모형

- Dense 레이어: 전결합층, 완전 연결층, 밀집 연결층

#### Dense레이어에서 파라미터 수의 계산

##### 2번째 Dense레이어의 파라미터 수

- 입력 레이어의 변수노드(784개)와 Dense레이어의 노드 256개 연결됨
- 2번째 레이어의 각 노드에 대해,
> 입력 노드별로 가중치 파라미터가 784개,
> 절편을 나타내는 파라미터가 1개 있음

- 256*(784+1)=200,960

##### 3번째 Dense레이어의 파라미터 수

- 2번째 Dense레이어의 노드 256개가 3번째 Dense레이어의 노드(128개)와 연결
- 3번째 레이어의 각 노드 별로,
> 2번째 레이어의 256개 노드로부터 입력되는 가중치를 나타내는 256개, 파라미터와 절편을 나타내는 1개의 파라미터 도합 257개의 파라미터가 잇음

- 128*(256+1)=32896

### 합성곱 신경망 모형

- Convolution 레이어(이미지가 가지고 있는 것) : 합성곱 층
- Conv1D, Conv2D, Conv3D
- Pooling 레이어(풀링 층)

### 순환 신경망 모형(예측)

- LSTM레이어(Long Short Term Memory)
- GTM

## 레이어 특징

- 각 레이어들은 텐서 변환 기능 수행
> y=X*W+b (기본적으로 각각의 노드들은 선형변환 함)

# Tensorflow의 모형개발 API

- Keras의 표준 레이어들 사용

## 레이어 모형 구성법

### Sequential 모형

- 레이어를 계속 쌓아서 모형 구성
> Model.add()
- 하나의 입력자료와 하나의 출력 값에 대해서만 모델링 가능

- Sequential()모형 함수의 ()안에 추가될 레이어들을 리스트로 표시

In [48]:
model2=tf.keras.Sequential(
    [tf.keras.layers.Dense(256,input_shape=(784, ),activation='sigmoid'),
     tf.keras.layers.Dense(128,activation='relu'),
     tf.keras.layers.Dense(10,activation='softmax')])

### Functional 모형

- Tensor를 레이어의 인자로 넘겨줌
- 여러개의 입력자료와 여러개의 출력 값 모델링 가능

# 심층 신경망 모형

In [1]:
import numpy as np
import tensorflow as tf

In [2]:
model=tf.keras.models.Sequential()

In [3]:
#input레이어에서 입력데이터의 shape를 표시해주어야 함/ 샘플 수는 표시하지 않고, 특성 수만 표시
#각 레이어에서 활성화 함수 별도 지정
model.add(tf.keras.layers.Dense(256,input_shape=(784, ),activation='sigmoid'))

In [4]:
model.add(tf.keras.layers.Dense(128,activation='relu'))

In [5]:
model.add(tf.keras.layers.Dense(10,activation='softmax'))

In [6]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense (Dense)               (None, 256)               200960    
                                                                 
 dense_1 (Dense)             (None, 128)               32896     
                                                                 
 dense_2 (Dense)             (None, 10)                1290      
                                                                 
Total params: 235,146
Trainable params: 235,146
Non-trainable params: 0
_________________________________________________________________


## 심층 신경망 모형 입력 데이터

### 입력데이터 준비

- 훈련 데이터와 테스트 데이터 분리

### 입력데이터 분리방법

- Scikit-learn의 train_test_split( ) 함수 사용
- 이미 만들어진 입력 데이터 셋의 경우 load_data( ) 함수를 사용
 

In [26]:
(X_train, Y_train),(X_test,Y_test)=tf.keras.datasets.mnist.load_data()

In [14]:
print(X_train[0])

[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0]
 [  0   0   0   0   0   0   0   0   0   0   0   0   3  18  18  18 126 136
  175  26 166 255 247 127   0   0   0   0]
 [  0   0   0   0   0   0   0   0  30  36  94 154 170 253 253 253 253 253
  225 172 253 242 195  64   0   0   0   0]
 [  0   0   0   0   0   0   0  49 238 253 253 253 253 253 253 253 253 251
   93  82  82  56  39   0   0   0   0   0]
 [  0   0   0   0   0   0   0  18 219 253 253 253 253 253 198 18

## 데이터 전처리

### 모든 데이터를 텐서(배열)로 변환

- (28,28)의 2차원 이미지를 (784,)의 1차원 배열로 변환
- 입력데이터는 [샘플수, 784(열의 개수)]의 2차원 배열로 표시

In [16]:
RESHPAED=28*28

In [17]:
X_train=X_train.reshape(-1,RESHPAED)

In [18]:
print(X_train[0])

[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
   0   0   0   0   0   0   0   0   3  18  18  18 126 136 175  26 166 255
 247 127   0   0   0   0   0   0   0   0   0   0   0   0  30  36  94 154
 170 253 253 253 253 253 225 172 253 242 195  64   0   0   0   0   0   0
   0   0   0   0   0  49 238 253 253 253 253 253 253 253 253 251  93  82
  82  56  39   0   0   0   0   0   0   0   0   0   0   0   0  18 219 253
 253 253 253 253 198 182 247 241   0   0   0   0   

In [10]:
X_test=X_test.reshape(-1,RESHPAED)

## 데이터 정규화

- (0,255)의 정수값을 (0,1)의 실수값으로 변환

In [19]:
X_train=X_train/255.0

In [20]:
X_test=X_test/255.0

## Y값 분류를 위한 노드로 변환(one-hot 인코딩)

- y값이 5
- 4번째 원소가 1인 벡터로 변환

In [28]:
Y_train=tf.keras.utils.to_categorical(Y_train,10)#10개의 카테고리값으로 바꿔라

In [29]:
print(Y_train[:])

[[0. 0. 0. ... 0. 0. 0.]
 [1. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 1. 0.]]


In [44]:
Y_test=tf.keras.utils.to_categorical(Y_test,10)

## 모형 컴파일

- 모형의 최적화 기법과 비용함수(손실함수) 지정

In [54]:
model.compile(optimizer=tf.keras.optimizers.RMSprop(learning_rate=0.001),#모형최적화 기법
             loss=tf.keras.losses.CategoricalCrossentropy(),#비용함수 지정
             metrics=['accuracy'])

### 최적화 기법

- '가중치의 변화'에 따른 '출력값의 변화율(미분값)'계산
> 미분값>0 : 가중치(계수) 줄임
> 미분값<0 : 가중치(계수) 크게 함

#### Gradient Descent Optimizer

- 손실함수(loss, cost)의 크기 최소화
- 오차를 나타내는 함수값을 최소화하도록 모형계수(w,b)변화시킴

- 변화시키는 방법: 모형계수의 값이 변함에 따라 하는 손실 함수값의 변화를 계산해서,(이것이 해당 지점의 gradient(=미분값))
> Gradient가 +이면, 모형계수의 값을 감소하는 방향 조정,
> Gradient가 -이면, 모형계수의 값을 증가하는 방향 조정

- 문제점 : 제일 큰 골짜기를 찾아야 되는데, 얕은 골짜기에서 여기가 골짜기다! 하는 것

#### 학습율(learning-rate)

- 미분값에 따른 가중치의 변경 크기

##### 학습율에 따른 학습의 성과
- 너무 작은 학습율 : 학습 시간이 너무 오래걸림
- 너무 큰 학습율 : 최적점을 건너 뛰고 계속 왔다갔다 할 수 있음

- 문제점 : 제일 큰 골짜기를 찾아야 되는데, 얕은 골짜기에서 여기가 골짜기다! 하는 것

### 비용함수

- 분류모형의 경우, cross-entropy계산하여, '예측의 부정확성' 측정

# 예측값의 종류와 활성화 함수 및 비용함수

## 예측값의 종류

- 실수 값
- 이진분류 : 특정 사건이 발생할 확률
- 단일 레이블 다중분류 : 여러 유형 중 1개가 발생할 확률
- 다중 레이블 다중분류 : 여러 유형 중 여러개가 발생할 확률
- 0과 1사이 실수값

## 마지막 레이어의 활성화 함수

- 없음
- sigmoid
- softmax : 여러 유형의 활성화 값의 합이 1이 되도록 하는 활성화 함수
- sigmoid
- sigmoid

## 비용함수

- mean_square_error: 값예측/ 정확도 예측
- binary_crossentropy : 카테고리가 포함되지 않느냐
- categorical_crossentropy : 카테고리 여러개가 포함되지 않느냐
- binary_crossentropy
- mean_sqare_error : 값예측/ 정확도 예측

### entropy

- 정보의 불확실성(복잡도)을 측정하는 값
- 발생 가능한 상태(유형)이 K개 이고, 
- 이들 중 하나가 발생할 경우, 특정 정보를 통해서 알 수 있는 각 상태가 발생할 확률이 다음과 같음
> p1, p2, ... ,pk
- 이 정보의 불확실성은 다음과 같으며,
> -(p1log(p1)+p2log(p2)+...+pklog(pk))

--> 이를 엔트로피라고 함

### cross entropy

- 예측 확률의 부정확성을 측정하는 값
- 발생 가능한 상태(유형)이 K개이고, 
- 이들이 발생할 실제 확률은 다음과 같을때(이들 중 하나만1, 나머지0)
> p1,p2,...,pk
- 예측값은 다음과 같을 경우,
> p1^,p2^,...,pk^
- 예측값의 부정확성은 다음과 같으며,
> -(p1log(p1^)+p2log(p2^)+...+pklog(pk^))

--> 이를 교차 엔트로피라고 함

# 다층 신경망 모형 학습

## Tensorboard

모형 학습 분석 위한 도구

사용 절차: Tensorboard의 로그 디렉토리 지정->모형 훈련시, Tensorboard의 로그 디렉토리를 callback에 표시

In [72]:
tensorboard=tf.keras.callbacks.TensorBoard(log_dir="D:/tb_dir/mnist_digital_images")

In [75]:
#학습 시키기
history=model.fit(X_train,Y_train,
                 batch_size=128,
                 epochs=50,
                 verbose=1,
                 validation_split=0.2,
                callbacks=[tensorboard,
                            tf.keras.callbacks.EarlyStopping(monitor='val_loss',patience=5)])

Epoch 1/50


ValueError: in user code:

    File "C:\Users\user\anaconda3\lib\site-packages\keras\engine\training.py", line 1249, in train_function  *
        return step_function(self, iterator)
    File "C:\Users\user\anaconda3\lib\site-packages\keras\engine\training.py", line 1233, in step_function  **
        outputs = model.distribute_strategy.run(run_step, args=(data,))
    File "C:\Users\user\anaconda3\lib\site-packages\keras\engine\training.py", line 1222, in run_step  **
        outputs = model.train_step(data)
    File "C:\Users\user\anaconda3\lib\site-packages\keras\engine\training.py", line 1024, in train_step
        loss = self.compute_loss(x, y, y_pred, sample_weight)
    File "C:\Users\user\anaconda3\lib\site-packages\keras\engine\training.py", line 1082, in compute_loss
        return self.compiled_loss(
    File "C:\Users\user\anaconda3\lib\site-packages\keras\engine\compile_utils.py", line 265, in __call__
        loss_value = loss_obj(y_t, y_p, sample_weight=sw)
    File "C:\Users\user\anaconda3\lib\site-packages\keras\losses.py", line 152, in __call__
        losses = call_fn(y_true, y_pred)
    File "C:\Users\user\anaconda3\lib\site-packages\keras\losses.py", line 284, in call  **
        return ag_fn(y_true, y_pred, **self._fn_kwargs)
    File "C:\Users\user\anaconda3\lib\site-packages\keras\losses.py", line 2004, in categorical_crossentropy
        return backend.categorical_crossentropy(
    File "C:\Users\user\anaconda3\lib\site-packages\keras\backend.py", line 5532, in categorical_crossentropy
        target.shape.assert_is_compatible_with(output.shape)

    ValueError: Shapes (128, 10, 10) and (128, 10) are incompatible


## 학습 파라미터들

- 전체 학습 횟수
- Batch의 크기 : 학습 데이터들을 1번에 다 학습하는 것이 아니라, 작은 샘플(=미니배치)로 나누어 학습
- 검증 데이터의 비율
- 학습 종료 기준
-> 척도 : 보통 검증 데이터의 비용함수 사용 
-> 과적합 횟수