# 인공신경만과 퍼셉트론 #

### **인공신경망** ###

: 우리 뇌의 신경망을 모방한 모델 

![image.png](attachment:e3af328b-375a-4fb7-8a29-5a599eaec268.png)

1. 가지돌기를 통해 외부 전기신호를 받아들임
2. 모인 신호가 일정 이상의 크기를 가지면
3. 축삭 독기를 통해 신호를 전달

![image.png](attachment:1a707cb8-8c68-4b7b-acee-b4e6572b097d.png)

1. 다수의 입력($x_1, x_2, …, x_n$)을 받아 각각에 가중치($w_1, w_2, … ,w_n$) 적용
2. 종합한 값이 일정 기준을 넘으면(활성화 함수)
3. output 출력

### **퍼셉트론** ###

: 초기 형태의 인공신경망

![image.png](attachment:cad89a8f-d158-456c-b5ba-20b771d5c83a.png)

⇒ 입력 → 가중합 → 활성화 함수 → 출력

1. 입력값과 가중치를 곱함 →  ${x_1*w_1}$
2. 곱한 값들의 총합을 구함 → ${x_1*w_2+x_1*w_2+x_3*w_3 +...+x_n*w_n}$
3. 총합이 임계값(${\theta}$**)**을 넘으면 $1$, 넘지 않으면 $0$을 출력 (= Step 활성화 함수의 작업)

*Training(훈련 또는 학습): 원하는 출력값을 내보내도록 가중치를 조정해가는 작업*

### **단층 퍼셉트론** ###

:두 개의 층(입력층, 출력층)으로만 이루어진 퍼셉트론

#### 단층 퍼셉트론의 한계

 -> XOR 게이트 구현 불가능 <br> 퍼셉트론은 입력값과 가중치의 선형 결합으로 이루어진 구조이기 때문에, 단층 퍼셉트론은 직선 하나로 두 영역을 나눌 수 있는 선형 분류 문제에 대해서만 구현이 가능

### **다층 퍼셉트론** ###

![image.png](attachment:dd6b692b-5f61-40e4-9587-972eddf7843e.png)


: XOR 게이트는 기존의 AND, NAND, OR 게이트를 조합하면 만들 수 있음.
퍼셉트론의 층을 더 쌓으면 가능

: 두 개 이상의 은닉층을 갖는 MLP가 딥러닝의 시초 모델로 발전

### **딥러닝 모델의 학습 방법** ###

#### **순전파와 역전파** ####

(1) **예측을 수행**: 시험 문제를 열심히 푼다 → ***순전파***

(2) **오차 계산**: 내가 쓴 답과 실제 정답을 비교해서 **예측 정확도**를 측정 → ***오차 계산***

(3) 오답 노트를 통해 **내가 틀린 문제를 다시 학습** (정답을 보고 다시 공부를 수행) → ***역전파***

(4) 나의 향상된 머리! → ***가중치 업데이트***

(5) 다시 시험 문제를 열심히 푼다

-> 반복하다 보면 오차값이 0에 가까워짐

![image.png](attachment:8f353b0d-1c90-40c5-a5fe-233eab3c6d86.png)

**순전파와 역적파의 이동과정** -> 연쇄법칙을 통해

연쇄법칙 : 서로 얽혀있는 변수 간의 상관관계를 계산하는 방법


순전파는 농구로 치면 공격하는 과정

역전파는 잘못된 원인을 찾는 것. -> 최종 실패 원인을 거슬러 올라가면서 각 노드/가중치의 책임을 따짐

#### **손실 함수** ####

: 출력층의 결과와 정답의 차이를 계산하는 데 사용되는 함수

**손실 함수의 종류**

1. 평균 제곱 오차
2. 이진 크로스 엔트로피
3. 크로스 엔트로피 오차

1. 평균 제곱 오차 (MSE, Mean Squarred Error)

**예측 값이 연속적이고, 예측 값과 실제 값 간의 차이를 직접적으로 측정하는 `회귀 문제`에 적합**

ex) 모델이 예측한 집 가격과 실제 집 가격 간의 차이를 최소화하는 집 가격 예측

2. 이진 크로스 엔트로피 Binary Cross-Entropy Loss (BCE)

(1) **실제 정답이 1일 때**

- 예측 확률이 1에 가까워질수록 loss값은 0에 가까워짐
- 예측 확률이 0에 가까워질수록 손실값이 급격히 증가

**⇒ 예측 확률이 0에 가깝다는 것 = 모델이 정답에 확신이 없는 경우**

(2) **실제 정답이 0일 때**

- 예측 확률이 0에 가까워질수록 loss값은 0에 가까워짐
- 예측 확률이 1에 가까워질수록 손실값이 급격히 증가

**⇒ 예측 확률이 1에 가깝다는 것 = 모델이 확신을 가지고 틀린 예측을 한 경우**

3. 크로스 엔트로피 오차 (CEE, Cross Entropy Error)

- 다중 클래스 분류 문제에서 **예측 확률이 실제 클래스와 얼마나 일치하는 지를 평가**하는 데 적합
- 두 확률 분포(**진짜 분포** / **예측 분포**) 의 **유사도**를 측정하는 데에 유용
- 2번 손실 함수와 거의 유사한 형태이지만, **다중 분류**에서 사용!

#### **활성화함수** ####

: 손실함수와 다르게 활성화 함수는 농구선수의 패스를 적절한 각도로 조정하여 다음 선수에게 전달하는 것을 의미함

![image.png](attachment:eab4fe4f-9bb3-46a0-a7b9-ce1d0c65d449.png)

- **가중치:** 입력값이 결과에 얼마나 영향을 미치는 지를 결정하는 값
- **편향:** 활성화 함수의 출력값을 조정하는 값으로, 기준점 역할을 수행

**활성화 함수의 종류**

1. 계단함수 (단층 퍼셉트론)

: 입력 값과 가중치의 곱을 모두 더한 뒤, 특정 기준을 넘으면 “1”, 아니면 “0”을 출력하는 간단한 구조로, 주로 단층 퍼셉트론에서 사용

2. 시그모이드 함수

:력 신호를 특정 범위 (0과 1 사이)로 변환하는 역할을 수행!

→ 이때, 함수는 직선이 아니라, **곡선 형태의 비선형 함수**

>계단함수와 다른 점은 계단함수는 x축이 0 이하일 때 0, 0 이상일 때 1인 반면, 
시그모이드 함수는 x값에 따라서 y값이 연속적으로 변화

**3. ReLU 함수**

: 입력이 0을 넘으면 그 입력값을 그대로 출력하고, 0 이하면 0을 출력하는 **비선형 함수**

→ 간단하지만 딥러닝에서 **가장 많이 사용하는 활성화 함수**

 ReLu 함수 장점
 - 계산이 간단하며 효율적
 - 비선형성 제공
 - 같은 신경망에서도 역전파가 잘 전달됨


4. Tanh(쌍곡탄젠트)함수

: **시그모이드 함수**의 변형

→ 출력값의 범위가 다름 (**시그모이드: 0~1**, **쌍곡탄젠트: -1~1**)

- 입력값의 중심을 0으로 맞추고 싶을 때 사용

5. Softmax 함수

: 시그모이드 함수와 비슷한 개형을 갖지만, **“다중 클래스 분류 문제의 활성화 함수”**로 사용

출력 값을 확률로 변환함으로써 **개별 클래스의 확률**을 알 수 있음

→ 출력값들의 합은 **1**

### **옵티마이저** ###

: 경사하강법을 더 효율적이고 안정적으로 수행하기 위해서는 옵티마이저 필요
경사하강법에서 옵티마이저를 통해 더 효과적인 최솟값을 찾아갈 수 있음

![image.png](attachment:49a97b45-cb56-42ce-a92f-b2e39c933e37.png)

- 모멘텀 (momentum)
- 알엠에스프롭(RMSProp)
- 아담(Adam)

1. 모멘텀(Momentum)

: 관성을 응용한 방법 
- 경사하강법 + 관성
- 경사 하강법에서 계산된 접선의 기울기에 바로 한 시점 전의 접선의 기울기값을 일정 비율만큼 반영
    
    →따라서 언덕에서 공이 내려올 때, 중간의 작은 웅덩이(local mininum)에 빠지더라도 관성의 힘으로 넘어올 수 있음

![image.png](attachment:4952a049-9bf8-4d3c-87b1-144c80e0fa92.png)

2. 알엠에스프롭(RMSProp)

: 경사하강법의 문제점인 기울기가 큰방향에서는 너무 많이, 작은 방향에서는 너무 작게 이동하는 것을 조정하여 **안정적이고 빠르게** 학습하도록 함

![image.png](attachment:21453ed1-dacc-41cb-afe1-1b9105c88e9f.png)

- **급한 경사에서는 속도를 줄이고**
- **완만한 경사에서는 속도를 유지하거나 증가**

3. 아담(Adam)

: RMSProp과 Momentum을 합친, “방향과 스텝 사이즈를 적절하게 합친 방법”

각 파라미터의 1차 모멘트(기울기의 평균)와 2차 모멘트(기울기의 제곱 평균)을 사용하여 학습률을 조정

### **데이터 증강과 전이 학습** ###

: 기존 데이터에서 다양한 변형을 만들어 학습 데이터를 늘려 효과적으로 학습 가능

데이터 증강의 효과

- 모델 성능의 향상
- 데이터 의존성 감소
- 과적합 완화
- 데이터 프라이버시 보호

**전이 학습**

: **한 문제에서 학습한 지식**을 **다른 관련된 문제에 활용**해서 모델의 성능을 높이는 방법

-> 즉, 이미 배운 것을 **재활용**해서 새로운 문제를 **더 빨리, 더 잘 해결**함

전이 학습의 장점

- 계산 비용 절감
- 데이터셋 크기 문제 완화
- 일반화 가능성 향상
- 성능의 향상

### **합성곱 신경망 (CNN, Convolutional NN)** ###

: 원본 이미지와 픽셀 단위로 나눈 이미지가 확연히 다른걸 알 수 있음 

![image.png](attachment:6c3039fd-9f9b-405d-a9a0-e114dbbc1ff7.png)

**CNN 모델** 

![image.png](attachment:e6c0d616-01b0-44c7-bdf1-ba86df19e4d7.png)

- CNN 모델은 위 이미지와 같이 이미지의 위치 별 특징을 추출(Feature Learning)하는 부분과 클래스를 분류하는 부분(Classification)으로 나눌 수 있다.
- 특징 추출(Feature learning) 영역은 **Convolution Layer**와 **Pooling Layer**를 여러 겹 쌓는 형태로 구성된다.
- 이미지 분류(Classification)를 하는 영역은 CNN 모델의 마지막에 위치하고 Fully Connected Layer로 구성된다.
- Feature Learning(Conv + Pool)과 Classification(FC Layer) 사이에 **3차원**을 **1차원 배열 형태로** 만드는 **Flatten**가 위치한다.

**CNN 모델의 구조**

- **특징 추출 (Feature Learning)** - **Convolution,** **Pooling**이 담당
- **클래스 분류 (Classification)** - **Fully Connected Layer**가 담당

1) Convolution Layer

: 전체 이미지를 일정 크기의 필터로 훑으면서 이미지의 특징을 학습

![image.png](attachment:bd694d81-b9e5-4c82-b17a-1570182588ec.png)

2. Padding

: filter를 거치며 정보를 잃어버리는 것을 막기 위해 이미지 바깥을 0으로 둘러싸는 기법

![image.png](attachment:5960ed5a-291d-4fb2-a051-ca54367f2982.png)

- padding=1로 설정했을 의 연산 과정
- padding을 적용하지 않은 경우 feature map의 크기는 **2x2 → padding 적용시 4x4**

3. Stride (보폭)

: 이미지를 몇 칸씩 점프하면서 훑을 것인지 결정하는 값

![image.png](attachment:58260afa-7a22-4e89-a68f-c623fe55b131.png)

- **Stride = 1**: 한 칸씩 이동 (세밀한 특징 추출)
- **Stride = 2**: 두 칸씩 이동 (빠른 처리, 크기 축소)

→ 계산량 감소, 겹치는 영역을 줄여 효율적으로 요약

 **⇒ stride가 커질 수록 feature map의 크기가 작아짐**

4) Pooling

:피처맵에서 특징을 추출하기 위해 이미지를 격자 형태로 분할한 뒤, 해당 영역 안에서 가장 큰 값 또는 평균값을 취하는 것

![image.png](attachment:93af7e78-78ae-4323-bd61-55c7e128a25c.png)

**CNN 구조 정리**

![image.png](attachment:9905866b-a8cb-4abf-b0b6-428dcf18c08b.png)

 **CNN 세 줄 요약**
    
    1. CNN은 (Conv + Pool)의 반복으로 특징을 학습(Feature Learning)하고,
    
    2. FC Layer를 적용하여 이미지를 분류(Classification)한다.
    
    3. 이때, (Conv + Pool)에 여러 방법을 적용할 수 있으며, 그에 따라 모델의 성능이 달라진다!