### DNN(Deep Neural Network, 심층 신경망)
* 입력층과 출력층 사이에 여러 개의 은닉층들로 이루어진 신경망
* 장점
    - 예측력이 다른 신경망에 비해 좋다
    - 특성공학을 자동으로 수행해 준다. 즉, 변수 선택의 번거로움을 줄여준다
    - 데이터의 양이 많아지면 성능이 계속 좋아진다
* 단점
    - 신경망이 복잡할 경우 시간이 오래 걸린다. 때문에 GPU연산이 필요하다

![img](images/1.신경망.png)

### 신경망 구조
* Input layer(입력층)
    - 피처의 개수가 입력층의 뉴럴 개수가 된다
* Hidden layer(은닉층)
    - 입력층으로 부터 전달 받은 데이터를 연산하는 단계이다
    - 은닉층이 많을 수록 유용한 정보를 추출할 수 있다
    - 은닉층이 많아 질수록 시간이 오래 걸린다
* Output layer(출력층)
    - 은닉층에서 연산된 결과값을 도출하는 단계이다

In [1]:
import numpy as np

x = np.arange(1, 11)
y = np.arange(1, 11)

x_train = x[:7] #1~7
y_train = y[:7] #1~7

x_test = x[7:] #8~10
y_test = y[7:] #8~10

print('train: ', x_train)
print('test: ', x_test)

train:  [1 2 3 4 5 6 7]
test:  [ 8  9 10]


### 모델 구성하기
* Sequential(시퀀쉘)
    - 모델 생성 클래스
* Dense
    - 층 생성시 사용
* Activation(활성화 함수)
    - 입력층에서 받아온 데이터를 은닉층 또는 출력층에서 연산한 결과를 어떠한 방식으로 처리할지 지정해주는 함수
    - 회귀 : 생략 또는 Linear(선형회귀). 생략하면 linear이다
    - 이진분류 : sigmoid(0.0 ~ 1.0값)
    - 다중분류 : softmax(총 합을 1로 만드는 것)
    - 은닉층 : relu(음수는 0으로 만들며 양수 값은 있는 그대로 가져간다)

In [2]:
# !pip install keras
# !pip install tensorflow

In [3]:
from keras.models import Sequential #모델 생성
from keras.layers import Dense, Activation # 층, 활성화 함수

In [4]:
model = Sequential()

model.add( Dense(units=128, input_dim=1 )) #넣어줄 데이터 갯수는 128개구요~ 컬럼은 하나입니다~ 입력층
model.add( Activation('relu') ) #연산 방법은 렐루입니다~ 은닉층
model.add(Dense(units=1)) #결과값을 몇개 뽑아낼거냐 하나로뽑겠습니다~ 출력층
model.add( Activation('linear') ) # 바로수치보여줌~


### 모델의 성능 개선을 위한 설정
* compile
    - 각 층에서 설정한 값들의 결과값을 개선해주는 함수
    - 파라미터
        * loss(손실함수)
            - 알고리즘이 주어진 데이터를 얼마나 잘 모델링하였는지를 측정하는 방법
            - 실제 값과 예측값의 차이를 수치화 해주는 함수
            - 오차가 클 수록 손실 함수의 값이 크고 오차가 작을 수록 수치가 작다
            - loss에 적용하는 값(피드백 신호를 정의하는 손실 함수)
                - 분류
                    * 이진분류 : binary_crossentropy(출력층에서 시그모이드 사용)
                    * 다중분류(원-핫 백터인 경우) : categorical_crossentropy(출력층에서 소프트맥스 사용)
                    * 다중분류(정수) : sparse_categorical_crossentropy
                - 회귀
                    * mean_sequared_error(mse) : 이상치가 없는 경우
                    * mean_absolute_error(mae) : 이상치가 있는 경우
        * optimizer(최적화)
            - 성능 개선해주는 기능
            - loss(손실)함수에서 피드백을 받고 손실이 작아질때 까지 개선해준다
            - 보편적으로 Adam을 가장 많이 사용한다(Adam알고리즘으로 성능 개선)

* 손실함수 최적화
    * 시작점부터 목적지까지 한 사람이 가고자 한다
    * 이때 이 사람이 멈춘곳이 5지점에 멈췄다고 했을 경우 손실(loss)는 5가 된다.
    * 그럼 이 사람이 목적지 까지 가기위해서 손실을 최소화하기 위해 수정을 해야 한다
    * 보폭을 넖이던지(보폭에 가중치를 부여) 또는 잔걸음으로 좁게 많이 걷던지를 선택해야 한다
    * 가중치를 부여했을 경우 어떤 가중치를 부여했을때 가장 좋은 방법이 될지를 결정하는 것이 경사하강법이된다
>
![img](images/loss.png)

### 경사하강법
* 손실(loss)를 최소화하는 가중치(weight)를 찾는 것
* 기울기가 0인 지점을 찾는 것
>
![img](images/경사하강법.png)
>
* 경사하강법의 문제점
> 경사하강법은 기울기가 0인지점을 찾는 방법이 된다. 아래의 그림은 local minimum지점이 0이 되어 경사하강법으로 사용하게 된다면 최저점이 아닌 지점의 경사가 0인지점을 찾게되어 문제가 발생한다
![img](images/경사하강법-문제점.png)

* optimizer 경사하강법으로 성능개선하는 알고리즘 선택
1. 모멘텀(Momentum)
    * 경사가 급할 수록 속도가 붙어 거리를 점점 넓혀가며 이동하게 된다
    * 모멘텀 문제점
        - 오른쪽 이미지와 같이 거리를 점점 넓게 이동하다보니 Global minimum을 지나치게 되는 경우가 존재하게 되는 문제가 생긴다
>
![img](images/모멘텀.png)
>
2. RMSProp
    * 경사가 급할경우 거리를 좁게 이동하며, 완만한 경우에는 거리를 넓게 이동한다
>
![img](images/어뎁티브그래디언트디센트.png)
>
3. Adam
    * Momentum과 RMSProp를 합처놓은 기능으로 최적화된 기법이라고 보면 된다.

In [5]:
model.compile(loss='binary_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

### 학습
* fit : 학습
* fit 파라미터
    - epochs : 전체 데이터 반복 학습 회수
        * 10이 들어가면 전체 데이터 총 10번 학습
        * 반복수고 많을수록 시간이 오래 걸린다
        * 반복을 많이하면 과적합(overfitting)이 될 수 있다
    - batch_size
        * 데이터의 수를 넣으면 해당 데이터의 수가 됐을 경우 새롭게 갱신한다
        * 예) 총 10개의 데이터가 있다고 가정 했을 경우 10개의 데이터를 모두 학습 한 후 틀린 문제를 수정하는 것과, 2개씩 데이터를 학습하고 확인하고 문제가 있으면 수정하는 방법이라고 보면 된다.
            - 그렇다면 한번에 모든 문제를 학습하고 수정하는 것 보다 2개씩 학습하고 수정하면 조금 더 성능이 좋아지고 또 2개를 풀고 확인하고 수정하고 하는 방식이 더 효율적이 될 수 있다
        * batch_size를 작게 하면 연산 시간이 오래 걸린다

In [6]:
model.fit(x_train, y_train, epochs=10, batch_size=1)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.callbacks.History at 0x272cb624d60>

In [7]:
pred = model.predict(x_test)
pred



array([[3.0616758],
       [3.4184806],
       [3.7752202]], dtype=float32)

### 전반적인 동작 원리
* 데이터의 개수를 입력 받은 은닉층에서 연산을 하여 결과값을 units의 수에 맞게 Activation방식으로 결과를 출력한다.
* 연산된 결과값을 출력 층에서 입력받아 입력 받은 값을 units의 수에 맞게 linear방식으로 예측값을 출력한다.
* 출력된 예측 결과값과 실제값을 mse방식으로 손실값을 구한다
* 손실의 폭을 줄이기 위해 adam방식으로 연산하여 다시 은닉층으로 값을 전달한다.
* 위와 같은 방식으로 fit에서 지정한 epochs수 만큼 반복하여 손실값이 점점 줄어들게 되는 과정이다.

![img](images/2.라이프사이클.png)

In [8]:
pred = model.predict([[15],[128],[321]])
pred



array([[  5.558917],
       [ 45.865654],
       [114.70574 ]], dtype=float32)