# 깊은 다층 퍼셉트론 (Deep Multilayer Perceptron)

---

## 1. 다층 퍼셉트론(MLP)이란?

- **퍼셉트론(Perceptron)** : 인공 뉴런 1개에 해당하는 가장 기본적인 단위.
- **다층 퍼셉트론(MLP)** : 퍼셉트론을 여러 층으로 쌓아 만든 인공 신경망.
  - 입력층(Input layer) → 은닉층(Hidden layers) → 출력층(Output layer)으로 구성.
  - 은닉층이 하나라도 있으면 ‘다층 퍼셉트론’이라고 부름.

---

## 2. 왜 ‘깊은’ MLP인가?

- **깊다(Deep)** 는 은닉층(Hidden layer)이 여러 개인 경우를 의미.
- 은닉층이 많을수록 복잡하고 추상적인 패턴까지 학습 가능.
- 단층 퍼셉트론으로는 선형 문제만 풀 수 있지만,
  다층으로 쌓으면 비선형 문제도 해결할 수 있음.

---

## 3. 구조 간단히 보기

- **입력층** : 원시 데이터(숫자, 이미지 등)를 받아옴.
- **은닉층** : 뉴런과 활성화 함수로 구성. 정보 변환 및 패턴 학습.
- **출력층** : 문제에 맞는 결과 출력 (예: 클래스 확률).

## 4. 주요 원리

- **Forward Propagation (순전파)** :
  - 입력 → 가중치(W) 곱하기 → 편향(b) 더하기 → 활성화 함수 → 출력.
  - 층을 따라 결과가 전달됨.

- **Activation Function (활성화 함수)** :
  - 뉴런의 출력에 비선형성을 추가해 복잡한 함수 근사 가능.
  - 예: ReLU, Sigmoid, Tanh 등.

- **Loss Function (손실 함수)** :
  - 출력값과 실제 정답의 차이 계산.
  - 손실을 줄이도록 모델을 학습시킴.

- **Backpropagation (역전파)** :
  - 손실 함수의 미분값을 이용해 가중치와 편향을 조정.
  - 경사하강법(Gradient Descent) 기반.

---

## 5. MLP의 특징

| 특징 | 설명 |
|------|------|
| Fully Connected | 모든 뉴런이 이전 층의 모든 뉴런과 연결됨 |
| 비선형성 | 활성화 함수로 비선형 패턴 학습 가능 |
| 입력 크기 고정 | 입력은 벡터 형태여야 함 (이미지는 flatten해서 사용) |
| 활용 예시 | 숫자 분류(MNIST), 간단한 회귀문제 등 |

---

## 6. 실제 예: MNIST 숫자 분류

- 입력: 28x28 흑백 이미지 → 784차원 벡터.
- 은닉층 예시: [512 → 256 → 128] 뉴런.
- 출력층: 0~9 숫자 → 10개 노드 + softmax.

---

## 7. 장점과 한계

**장점**
- 구조가 직관적이고 구현이 간단함.
- tabular 데이터, 기본적인 패턴 학습에 적합.

**한계**
- 입력 데이터가 벡터형이라 이미지/시계열에는 CNN, RNN이 더 적합.
- 층이 깊어지면 Gradient Vanishing 문제가 발생할 수 있음.

---

## 8. 한 문장 요약

> **깊은 다층 퍼셉트론(Deep MLP)** 은 뉴런과 은닉층을 여러 겹 쌓아 복잡한 패턴과 비선형성을 학습할 수 있는 가장 기본적인 인공 신경망

---

| 구성 요소          | 역할                  | 주요 특징                     |
| -------------- | ------------------- | ------------------------- |
| **Sequential** | 레이어를 순차적으로 쌓는 기본 모델 | 직관적, 간단                   |
| **Dense**      | 완전 연결층              | 입력과 출력 노드 모두 연결, 활성 함수 사용 |
| **SGD**        | 가중치 업데이트 방법         | 학습률로 경사하강, 딥러닝의 기본 옵티마이저  |

In [1]:
import numpy as np
import tensorflow as tf
import tensorflow.keras.datasets as ds

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import SGD

# [1] 데이터셋 로드
# MNIST 손글씨 데이터셋 불러오기
(x_train, y_train), (x_test, y_test) = ds.mnist.load_data()

# [2] 데이터 전처리
# 28x28 이미지를 784 벡터로 평탄화
x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)

# 픽셀 값을 0~1 범위로 정규화
x_train = x_train.astype(np.float32) / 255.0
x_test = x_test.astype(np.float32) / 255.0

# 레이블(정답)을 one-hot encoding
y_train = tf.keras.utils.to_categorical(y_train, 10)
y_test = tf.keras.utils.to_categorical(y_test, 10)

# [3] MLP 모델 구성
mlp = Sequential()  # Sequential API 사용

# 은닉층 (입력: 784, 출력: 512), 활성 함수: tanh
mlp.add(Dense(units=512, activation='tanh', input_shape=(784,)))

# 출력층 (클래스: 10개), 활성 함수: softmax
mlp.add(Dense(units=10, activation='softmax'))

# [4] 모델 컴파일
# 손실 함수: MSE (보통 다중분류는 categorical_crossentropy 사용 권장)
# 최적화 알고리즘: SGD(확률적 경사하강법)
# 평가 지표: 정확도
mlp.compile(loss='MSE',
            optimizer=SGD(learning_rate=0.01),
            metrics=['accuracy'])

# [5] 학습 실행
# 배치 사이즈: 128, 에폭: 50회, 검증 데이터: 테스트셋 사용
mlp.fit(x_train, y_train,
        batch_size=128,
        epochs=50,
        validation_data=(x_test, y_test),
        verbose=2)

# [6] 모델 평가
# 테스트셋에 대한 정확도 출력
res = mlp.evaluate(x_test, y_test, verbose=0)
print('정확률 =', res[1] * 100)


Epoch 1/50
469/469 - 1s - loss: 0.0899 - accuracy: 0.1554 - val_loss: 0.0868 - val_accuracy: 0.2669 - 1s/epoch - 3ms/step
Epoch 2/50
469/469 - 1s - loss: 0.0833 - accuracy: 0.3833 - val_loss: 0.0793 - val_accuracy: 0.4735 - 895ms/epoch - 2ms/step
Epoch 3/50
469/469 - 1s - loss: 0.0754 - accuracy: 0.5064 - val_loss: 0.0712 - val_accuracy: 0.5369 - 897ms/epoch - 2ms/step
Epoch 4/50
469/469 - 1s - loss: 0.0679 - accuracy: 0.5563 - val_loss: 0.0642 - val_accuracy: 0.5782 - 925ms/epoch - 2ms/step
Epoch 5/50
469/469 - 1s - loss: 0.0618 - accuracy: 0.5917 - val_loss: 0.0587 - val_accuracy: 0.6091 - 917ms/epoch - 2ms/step
Epoch 6/50
469/469 - 1s - loss: 0.0569 - accuracy: 0.6208 - val_loss: 0.0542 - val_accuracy: 0.6359 - 930ms/epoch - 2ms/step
Epoch 7/50
469/469 - 1s - loss: 0.0527 - accuracy: 0.6546 - val_loss: 0.0503 - val_accuracy: 0.6777 - 916ms/epoch - 2ms/step
Epoch 8/50
469/469 - 1s - loss: 0.0491 - accuracy: 0.6917 - val_loss: 0.0467 - val_accuracy: 0.7199 - 930ms/epoch - 2ms/step
Epo

# 활성 함수(Activation Function) 정리

---

## 1. 활성 함수란?

- 뉴런의 출력값을 결정하는 함수.
- 인공 뉴런에서 입력의 가중합을 비선형적으로 변환해줌.
- 비선형성을 추가해야 신경망이 복잡한 패턴(비선형 문제)을 학습할 수 있음.
- 활성 함수가 없으면 모든 층이 선형 결합만 되어버려서 아무리 깊어도 선형 모델과 같음!

---

## 2. 대표적인 활성 함수 종류

---

### 🔹 2-1. Step Function (계단 함수)

- **공식**: 출력은 0 또는 1로 이산적.
- **특징**: 최초 퍼셉트론에서 사용.
- **한계**: 미분 불가능 → 역전파 불가능.


---

### 🔹 2-2. Sigmoid

- **공식**: `f(x) = 1 / (1 + exp(-x))`
- 출력 범위: (0, 1)
- 확률값처럼 해석 가능.
- **한계**:
  - Gradient Vanishing 문제 발생 (큰 입력값에서는 기울기가 0에 가까워짐)
  - 출력이 0 또는 1에 가까워지면 학습 속도 저하.

---

### 🔹 2-3. Tanh (Hyperbolic Tangent)

- **공식**: `f(x) = (exp(x) - exp(-x)) / (exp(x) + exp(-x))`
- 출력 범위: (-1, 1)
- Sigmoid보다 중심이 0이라 성능이 좀 더 좋음.
- **한계**: 여전히 Gradient Vanishing 문제 존재.

---

### 🔹 2-4. ReLU (Rectified Linear Unit)

- **공식**: `f(x) = max(0, x)`
- 음수 입력은 0, 양수는 그대로 통과.
- 현재 가장 널리 사용됨 (CNN, MLP 모두)
- 계산이 단순해 학습 속도가 빠름.
- **한계**: Dead ReLU 문제 (음수 입력이 계속되면 뉴런이 죽어서 gradient가 0)

---

### 🔹 2-5. Leaky ReLU

- **공식**: `f(x) = x if x > 0 else αx` (보통 α=0.01)
- Dead ReLU 문제를 일부 완화.
- 음수 구간에도 작은 기울기 존재.

---

### 🔹 2-6. Softmax

- 다중 클래스 분류의 출력층에서 사용.
- 각 클래스에 대한 확률값 출력.
- 모든 출력의 합이 1이 됨.
- **공식**:  


---

## 3. 활성 함수 비교 표

| 함수       | 출력 범위 | 장점                         | 단점                           | 주로 사용되는 곳         |
|------------|------------|------------------------------|--------------------------------|--------------------------|
| Step       | {0,1}      | 구조가 간단                  | 미분 불가능                    | 퍼셉트론 초기            |
| Sigmoid    | (0,1)      | 확률 해석 가능               | Gradient Vanishing             | 출력층(이진 분류)        |
| Tanh       | (-1,1)     | 중심이 0이라 안정적          | Gradient Vanishing             | RNN 등                   |
| ReLU       | [0,∞)      | 빠르고 단순, 비선형성 유지   | Dead ReLU                      | CNN, MLP 은닉층          |
| Leaky ReLU | (-∞,∞)     | Dead ReLU 완화               | Hyperparameter(α) 필요         | CNN, MLP 은닉층          |
| Softmax    | (0,1), 합=1 | 다중 클래스 확률 출력        | 다중 클래스 외엔 부적합        | 출력층(다중 클래스 분류) |

---

## 4. 한 문장 요약 

> **활성 함수는 신경망에 비선형성을 부여해 복잡한 패턴을 학습할 수 있게 해주는 핵심 장치**

---

## 5. 실전

- 은닉층 : ReLU 계열 (ReLU, Leaky ReLU)
- 출력층 : 문제에 맞게
- 이진 분류 → Sigmoid
- 다중 클래스 분류 → Softmax
- 회귀 → 보통 활성 함수 X (선형)

---