# 1. 인공신경망의 시작: 퍼셉트론

## 1-1. 인공신경망이란? (Artificial Neural Network)

### 인공신경망과 퍼셉트론

- 인공신경망(ANN)은 뇌의 신경세포 뉴런의 연결 구조를 모방한 머신러닝 모델
- 입력값에 각 가중치(weight)를 곱해 합산(가중합)한 뒤, 활성화 함수로 판단하여 출력을 만들어냄

### 생물학적 뉴런과 인공신경망 비교

| 생물학적 신경망 | 인공신경망 |
| :--- | :--- |
| 가지돌기 | 입력값(inputs) |
| 시냅스 | 가중치(weights) |
| 세포체의 신호 합산 | 가중 합(weighted sum) |
| 역치(Threshold) | 활성화 함수(activation function) |
| 축삭돌기 | 출력(Output) |

### 퍼셉트론

초창기 인공신경망 구조

**계산 과정:**
입력 → 가중합 → 활성화 함수 → 출력

* 입력값과 가중치 곱의 합이 임계값($\theta$)을 넘으면 1, 아니면 0을 출력
* 활성화 함수로 계단 함수(Step), 이후에는 ReLU, Sigmoid 등도 발전

**퍼셉트론 수식**
$$
y = \text{Step} \left( \sum_{i=1}^{n} x_i w_i + b \right)
$$

* **가중치(weight):** 각 입력의 중요도, 값이 클수록 더 영향
* **활성화 함수(activation function):** 결과 신호를 출력 결정. 예: Step, Sigmoid, Tanh, ReLU, leaky ReLU
* **편향(bias):** 임계값과 동일하게 신호의 기준점 역할



## 1-2. 단층 퍼셉트론과 한계 (Single-Layer Perceptron)

### 단층 퍼셉트론

입력층, 출력층 두 층만으로 구성

```python

논리 게이트 구현

def AND_gate(x1, x2):
    w1, w2, b = 0.5, 0.5, -0.7
    return 1 if x1*w1 + x2*w2 + b > 0 else 0
def NAND_gate(x1, x2):
    w1, w2, b = -0.5, -0.5, 0.7
    return 1 if x1*w1 + x2*w2 + b > 0 else 0
def OR_gate(x1, x2):
    w1, w2, b = 0.6, 0.6, -0.5
    return 1 if x1*w1 + x2*w2 + b > 0 else 0
한계: XOR 게이트와 같은 비선형 분리는 실행 불가. 퍼셉트론은 입력값과 가중치의 선형결합만으로 분류함.




## 1-3. 다층 퍼셉트론 (MLP, Multi-Layer Perceptron)

### 다층 퍼셉트론


- 심층 신경망(DNN): 은닉층 2개 이상

- 딥러닝: DNN 학습

- 관계: 퍼셉트론 ⊂ MLP ⊂ 딥러닝 ⊂ 인공신경망

# 2. 딥러닝 모델의 학습 방법

## 2-1. 순전파와 역전파

* **순전파:** 입력값으로 예측값 생성
* **오차 계산:** 예측과 실제 비교
* **역전파:** 오차 역으로 전달 (Chain Rule)
* **가중치 업데이트**
* **반복(Epoch)**

**Chain Rule(연쇄법칙)**
여러 은닉층의 미분값 곱 → 앞쪽 영향이 점점 사라짐(기울기 소실 문제)



## 2-2. 손실 함수 (Loss Function)

**평균 제곱 오차(MSE):** 회귀문제
$$
\text{MSE} = \frac{1}{N} \sum (y - \hat{y})^2
$$

**이진 크로스 엔트로피(Binary Cross-Entropy, BCE):** 이진분류
$$
\text{BCE} = - (y \log \hat{y} + (1-y) \log(1-\hat{y}))
$$

**크로스 엔트로피(Cross Entropy, CE):** 다중분류
$$
\text{CE} = - \sum y \log \hat{y}
$$



## 2-3. 활성화 함수 (Activation Function)

* **계단 함수(Step):** 0/1 출력, 단층 퍼셉트론
* **Sigmoid:** $f(x) = \frac{1}{1 + e^{-x}}$, 0~1
* **ReLU:** $f(x) = \max(0, x)$, 음수 차단, 은닉층에서 자주 사용
* **Tanh:** -1~1 값 출력
* **Softmax:** 각 클래스별 확률 분포 계산


## 2-4. 경사 하강법(Gradient Descent)과 옵티마이저(Optimizer)
경사 하강법: 손실함수의 값이 최소가 되도록 가중치/편향을 효율적으로 조정함

종류

* **배치 경사하강법(Batch)**: 전체 데이터 사용

* **확률적(SGD)**: 데이터 1개씩 업데이트

* **미니배치(Mini-Batch)**: 일부 데이터 사용


대표적 옵티마이저

* **Momentum**: 이전 기울기 방향의 관성 효과 반영

* **RMSProp**: 각 방향별 학습률 자동 조절

* **Adam: RMSProp+Momentum**, 가장 많이 쓰이는 방식


## 2-5. 데이터 증강 & 전이학습
* **데이터 증강(Data Augmentation)**
원본 데이터의 다양한 변형을 학습에 사용(모델 일반화, 과적합 완화, 프라이버시 강화)

* **전이학습(Transfer Learning)**
사전훈련(Pre-trained) 모델의 특징을 활용해 새로운 문제에 빠르게 적용(Fine-tuning)


# 3. 합성곱신경망(CNN, Convolutional Neural Network) 구조

### 이미지 입력 데이터 기본

* **흑백:** H x W 2차원 배열
* **컬러(RGB):** H x W x 3

### CNN 계층 핵심

1.  **입력층**
2.  **Convolution Layer:** 필터(kernel)로 특징 추출
3.  **Pooling Layer:** 공간 크기 압축, 노이즈 제거
4.  **Flatten:** 다차원 feature map을 1D로 변환
5.  **Fully Connected Layer:** 분류 등 최종 출력



## 3-1. MLP vs CNN 비교

| 항목 | MLP | CNN |
| :--- | :--- | :--- |
| **구조** | 완전연결(1D 벡터화) | Conv+Pool 반복, 공간 정보 유지 |
| **파라미터 수** | 매우 많음 | 부분연결, 효율적 |
| **위치 변화 대응** | 민감 | Pooling으로 완화 |
| **공간정보** | flatten 단계에서 손실 | convolution/Pooling단계에서 보존 |



## 3-2. Convolution & Pooling

* **Convolution:** 필터(커널)가 이미지를 슬라이딩하며 특정 패턴 추출
* **Padding:** 경계 정보 손실을 막기 위한 주변에 0 채우기
* **Stride:** 필터 이동 간격(크면 특징 추출량 감소, 속도 증가)
* **Pooling:**
    * **Max pooling:** 구역 최댓값
    * **Average pooling:** 구역 평균값
    * 주로 Max pooling 사용(차원 축소, 계산효율↑, 노이즈↓, 과적합↓)



## 3-3. CNN 대표 아키텍처

* **AlexNet (2012):** GPU 기반, ReLU, Dropout 적용, 대규모 이미지 분류
* **VGGNet (2014):** 3x3 필터 반복, 층을 깊게 쌓아 전이학습에 적합
* **ResNet (2015):** Residual/Skip connection으로 기울기 소실 문제 극복, 깊은 모델 가능

# 4. 이미지 딥러NING 주요 응용

## 4-1. 이미지 분류 (Image Classification)

픽셀 데이터 기반 분류, CNN, AlexNet, VGG, ResNet, ViT 등 활용


| 모델명 | 특징 요약 | 주의사항 |
| --- | --- | --- |
| **AlexNet** | 비교적 단순한 구조, 초기 CNN 모델들 | 작은 데이터셋이나 학습 개념 설명용으로 적절 |
| **VGG** | 더 깊은 구조, 복잡한 블록 구조 적용 | 계산량 증대, 메모리 요구 높음 |
| **ResNet** | Residual 연결 (skip connections) → 매우 깊은 네트워크 가능 | 과적합 주의, batch size / regularization 조절 필요 |
| **Vision Transformer (ViT)** | Transformer 구조 응용 → 패치 기반 입력 처리 | 이미지와 순차 처리 모델의 결합, 대규모 데이터 필요 |

## 4-2. 객체 탐지 (Object Detection)

이미지 내 여러 객체의 클래스 및 위치(bounding box) 추출
대표 모델: YOLO, Faster R-CNN, SSD



## 4-3. 이미지 캡셔닝 (Image Captioning)

CNN 특징 추출 + RNN/Attention 네트워크로 자연어 설명 생성