# Deep Learning

- 해당 챕터는 확인이 필요한 부분에 대해서만 정리

### 2. 인공 신경망(Aritificial Neural Network)

##### 2-1. 피드 포워드 신경망(Feed-Forward Neural Network, FFNN)

![image.png](attachment:image.png)

- 위 그림의 MLP과 같이 오직 입력층에서 출력층 방향으로 연산이 전개되는 신경망을 피드 포워드 신경망

![image-2.png](attachment:image-2.png)

- 위 그림은 FFNN에 속하지 않는 RNN 신경망

- 이 신경망은 은닉층의 출력값을 출력층으로도 보내지만, 동시에 은닉층의 출력값이 다시 은닉층의 입력으로 사용

##### 2-2. 전결합층(Fully-connected layer, FC, Dense layer)

- 은닉층과 출력층에 있는 모든 뉴런은 바로 이전 층의 모든 뉴런과 연결되어 있음

##### 2-3. 활성화 함수(Activaiton Function)

- 활성화 함수의 특징

    - 비선형 함수

        - 활성화 함수가 선형일 경우 은닉층을 추가하더라도 선형식으로 표현이 가능하기 때문에 1회 추가한 것과 차이가 없음

        - 그러므로 비선형 함수(step function 등)를 사용함

        - 하지만 선형 함수 층을 사용하지 않는다는 것은 아님

        - 선형 층을 추가하면 학습 가능한 가중치가 새로 생긴다는 의미가 있으며, 임베딩 층도 활성화 함수가 없음

- sigmoid, hyperbolic tangent function에서 기울기 소실(vanishing gradient) 문제 발생

- 이를 해결하기 위해 ReLU 함수를 사용하나 max(0, x)에서 입력값이 음수면 기울기가 0이 되면서 이 뉴런은 다시 회생하는 것이 어려움

- 이를 죽은 렐루(dying ReLU)라고 함

- 죽은 렐루를 보완하기 위해 ReLU의 변형 함수들이 등장 대표적으로 Leaky ReLU = max(ax, x)

- Leaky ReLU는 입력값이 음수일 경우  0이 아니라 0.001과 같은 매우 작은 수를 반환

- 이를 통해 입력값이 음수라도 기울기가 0이 되지 않으면서 ReLU는 죽지 않음

- 은닉층에서는 ReLU함수나 변형 함수들을 사용하는 것이 일반적인 반면 출력층에서는 소프트맥스 함수가 주로 사용

- 시그모이드 함수가 이진 분류 문제에 사용된다면 소프트맥스 함수는 세 가지 이상의 다중 클래스 분류 문제에 주로 사용

### 3. 행렬곱으로 이해하는 신경망

##### 3-3. 행렬곱으로 병렬 연산 이해

- 행렬곱으로 변경하면 병렬 연산 가능

![image.png](attachment:image.png)

- 여기서 혼동하지 말아야 할 것은 인공 신경망의 4개의 샘플을 동시에 처리하고 있지만, 학습 가능한 매개변수의 수는 여전히 8개

- 다수의 샘플을 동시에 처리하는 것을 '배치 연산'

- 구현

![image.png](attachment:image.png)

In [5]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

model = Sequential()

model.add(Dense(8, input_dim=4, activation='relu'))

model.add(Dense(8, activation='relu'))

model.add(Dense(3, activation='softmax'))

model.summary()

Model: "sequential_3"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 dense_7 (Dense)             (None, 8)                 40        
                                                                 
 dense_8 (Dense)             (None, 8)                 72        
                                                                 
 dense_9 (Dense)             (None, 3)                 27        
                                                                 
Total params: 139 (556.00 Byte)
Trainable params: 139 (556.00 Byte)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________
