# 단층 퍼셉트론/다층 퍼셉트론

![image.png](attachment:image.png)

## 단층 퍼셉트론
정의: 입력층과 출력층, 단 하나의 가중치 계층만 존재하는 가장 단순한 형태의 인공 신경망<br>
작동 방식: 입력값에 가중치를 곱하고 편향을 더한 후, 활성화 함수를 통과시켜 최종 출력을 결정<br>
<U>한계: 선형적으로 분리 가능한 문제만 해결할 수 있습니다. (예: AND, OR 게이트) 비선형 문제(예: XOR 게이트)는 해결할 수 없음!!</U>

![image.png](attachment:image.png)

## 다층 퍼셉트론
정의: 입력층과 출력층 사이에 하나 이상의 은닉층을 가진 신경망입니다. '피드포워드 신경망'이라고도 불립니다.<br>
특징: 은닉층과 비선형 활성화 함수의 도입으로 단층 퍼셉트론의 한계였던 <U>비선형 문제(XOR 포함)를 해결</U><br>
+++ 딥러닝: 은닉층의 개수가 충분히 많은 MLP를 딥 뉴럴 네트워크(DNN), 즉 딥러닝 모델이라고 부름

# 딥러닝 모델 학습 방법

## 순전파
설명 : 입력 데이터가 신경망의 "입력층 → 은닉층 → 출력층" 순서로 이동하며 최종 출력을 계산하는 과정<br>
목적 : 현재 가중치로 예측값을 도출하고 손실값(Loss)을 계산

## 역전파
설명 : 출력층에서 계산된 손실값을 바탕으로, 미분(기울기)을 이용해 "출력층 → 은닉층 → 입력층" 순서로 가중치에 대한 오차 기여도를 역산하는 과정<br>
목적 : 손실을 최소화하는 방향으로 가중치와 편향을 업데이트하기 위한 정보를 얻음

## 손실함수
정의: 모델의 예측값($\hat{y}$)이 실제 정답($y$)과 얼마나 차이가 나는지를 수치로 나타내는 함수 모델이 얼마나 "잘못 예측했는지"를 측정<br>
목표: 학습 과정에서 이 손실 함수의 값을 최소화하는 방향으로 가중치를 갱신
### $-\frac{1}{N}\sum(y-\hat{y})^2$
📌 MSE (Mean Squared Error) -> 회귀에 주로 사용
### $-\sum y \log \hat{y}$
📌 Cross Entropy -> 분류에 주로 사용

## 활성화 함수
정의: 신경망의 각 뉴런에서, 입력 신호의 총합을 다음 뉴런으로 전달할지 여부와 정도를 결정하는 비선형 함수<br>
역할: 신경망에 비선형성을 도입하여, 모델이 복잡하고 비선형적인 관계를 학습할 수 있게 해줌<br>
종류:
![image.png](attachment:image.png)

### Sigmoid:<br>출력 범위가 (0, 1)로 확률 표현에 유리하나, 기울기 소실(Vanishing Gradient) 문제 발생
![image-2.png](attachment:image-2.png)

### ReLU (Rectified Linear Unit):<br>가장 널리 사용. 계산이 빠르고 기울기 소실 문제를 완화 ($f(x) = \max(0, x)$)
![image-3.png](attachment:image-3.png)

### Softmax:<br>다중 클래스 분류(Multi-class Classification)의 출력층에서 사용되며, 출력을 전체 확률 분포(합이 1)로 변환

## 옵티마이저

![image.png](attachment:image.png)

정의: 손실 함수를 최소화하기 위해 신경망의 가중치와 편향을 업데이트하는 구체적인 방법을 정의한 알고리즘<br>

작동 원리: 역전파를 통해 얻은 기울기(Gradient) 정보를 활용하여, 경사 하강법의 원리를 기반으로 파라미터를 갱신<br>

종류:<br>
SGD (Stochastic Gradient Descent): 가장 기본적인 경사 하강법<br>
Adam (Adaptive Moment Estimation): 현재 딥러닝에서 가장 널리 사용되며, 모멘텀과 학습률 적응을 결합한 효율적인 옵티마이저

## 증강과 전이학습

데이터 증강<br> 
설명 : 기존 데이터를 변형(회전, 확대/축소, 반전 등)하여 학습에 사용할 새로운 데이터를 인위적으로 생성하는 기법<br>
목적 : 데이터 부족 문제를 해결하고, 모델의 일반화 성능을 높여 과적합을 방지

전이 학습<br>
설명 : 대규모 데이터셋으로 미리 학습된 모델의 가중치를 가져와, 새로운 작은 데이터셋에 맞게 파인튜닝(Fine-tuning)시키는 기법<br>
목적 : 데이터가 부족하거나 학습 시간이 부족할 때 효율적이며, 높은 성능을 빠르게 달성할 수 있습니다.

# CNN 구조

![image.png](attachment:image.png)


## 합성곱 계층
* 이미지의 특징(가장자리, 패턴 등)을 추출
* 필터를 사용하여 이미지 전체를 훑으며 특징 맵을 생성합니다.
## 풀링 계층
* 특징 맵의 크기를 줄이고, 중요한 특징을 강조하여 추출
* Max Pooling이 주로 사용되며, 모델이 이미지 위치 변화에 덜 민감하도록 만듭니다.
## 완전 연결 계층
* 특징 추출이 완료된 데이터를 분류 등 최종 작업을 수행할 수 있도록 변환
* 일반적인 다층 퍼셉트론처럼 작동하며, 최종 출력을 도출합니다.