선형 모델은 단순한 데이터를 해석할 때는 도움이 되겠지만, 만약 분류 문제나 복잡한 패턴을 가진 문제를 풀 때는 선형 모델로만 높은 예측을 하기는 힘들다.

그렇기 때문에 비선형 모델로 인공 신경망을 통해 예측을 한다. 수학적으로 수식을 분해하면 선형 모델이 수식 안에 숨겨져 있고 선형 모델과 비선형 모델의 결합으로 이루어져 있다.

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

아래에 있는 그래프의 화살표가 W 가중치 행렬이 된다.

#### 소프트맥스 연산
- #### 모델의 출력을 확률로 해석할 수 있게 변환해주는 연산
- #### 분류 문제를 풀 때 선형모델과 소프트맥스 함수를 결합하여 예측한다.
![image.png](attachment:image.png)

In [1]:
def softmax(vec):
    denumerator = np.exp(vec - np.max(vec, axis=-1, keepdims=True))
    numerator = np.sum(denumerator, axis=-1, keepdims=True)
    val = denumerator / numerator
    return val

In [2]:
import numpy as np
vec = np.array([[1,2,0],[-1,0,1],[-10,0,10]])
softmax(vec)

array([[2.44728471e-01, 6.65240956e-01, 9.00305732e-02],
       [9.00305732e-02, 2.44728471e-01, 6.65240956e-01],
       [2.06106005e-09, 4.53978686e-05, 9.99954600e-01]])

학습을 할 때 소프트 맥스 함수를 쓰지만 추론을 할 때는 쓰지 않는다.

## 신경망을 수식으로 분해해보기
- 신경망은 선형모델과 활성함수를 합성한 함수이다.
- 활성화함수는 벡터를 input으로 받지 않고 하나의 실수값을 받는다.
- 선형모델로 나온 출력물을 비선형으로 변형 가능.
- 비선형으로 변형한 것을 잠재벡터라고 부른다.

### 활성함수?
- 활성함수는 R 위에 정의된 비선형함수.
- 활성함수를 쓰지 않으면 딥러닝은 선형모형과 차이가 없다.
- 딥러닝에서는 ReLU 함수를 많이 씀.
![image-2.png](attachment:image-2.png)

---

![image.png](attachment:image.png)

위 사진의 과정을 여러층 쌓으면 다층 퍼셉트론이 된다.

![image-2.png](attachment:image-2.png)

- 이론적으로 2층 신경망으로도 임의의 연속함수를 근사할 수 있다.
- 층이 깊을수록 목적함수를 근사하는데 필요한 뉴런(노드)의 숫자가 훨씬 빨리 줄어들어 좀 더 효율적이기 때문에 여러 층을 쌓는다.

#### 딥러닝 학습원리 : 역전파 알고리즘
- 딥러닝은 역전파(backpropagation) 알고리즘을 이용하여 각 층에 사용된 파라미터를 학습한다.
![image.png](attachment:image.png)