# 3. 오차와 Loss 함수

---

## 학습 목표
- 데이터와 회귀 모델의 오차를 표현하는 방법에 대해서 학습합니다. 
- 어떤 회귀 모델이 좋은 모델인지를 판단하는 loss 함수에 대해서 학습합니다.

---

## 목차

### 1. 데이터와 회귀 분석 모델 사이의 오차
1. 오차 or 잔차 정의 
2. 모델에 따른 오차값 비교

### 2. Loss 함수 정의 및 계산
1. MSE 정의
2. Loss 함수 정의
3. 근사선에 대응되는 loss 값 출력하기


---

## 1. 데이터와 회귀 분석 모델 사이의 오차

### 1-1. 오차 or 잔차 정의

2장에서 1차 함수를 배우고 선형 파라미터 값인 y절편과 기울기에 대해서 학습하였습니다.

이제 선형 파라미터 값에 따라서 어떤 모델이 좋은 모델인지를 정량화 하는 방법에 대해서 알아봅시다.

이해를 높이기 위해서 `1-2. 선형 회귀 모델`에서의 데이터와 모델을 가져와봅시다.

##### Feature 데이터

> $$X=\begin{pmatrix}
1 \\ 
2 \\ 
3 \\ 
4
\end{pmatrix},\;\;$$ 

##### label 데이터

> $$Y=\begin{pmatrix}
3.1 \\ 
4.9 \\ 
7.2 \\ 
8.9
\end{pmatrix}$$

##### 선형 모델

>$$Y \approx 2X+1,$$

> $$Y=\begin{pmatrix}
3.1 \\ 
4.9 \\ 
7.2 \\ 
8.9
\end{pmatrix} \approx 2X+1=\begin{pmatrix}
3 \\ 
5 \\ 
7 \\ 
9
\end{pmatrix}, \;\;$$ 

> $$y_i \approx f(x_i) = 2x_i+1.$$

실제 레이블 데이터 $Y$와 예측한 데이터 $2X+1$은 얼마나 차이나는지에 대해서 그래프로 표현해 봅시다.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

그림에서의 차이처럼 **첫 번째 데이터**와 첫 번째 데이터를 **예측한 데이터** 간의 차이를 표현하면 $3.1-3=0.1$ 로 표현할 수 있습니다.

두 번째 데이터도 마찬가지로 구하면 $4.9-5=-0.1$로 표현이 가능합니다.

이 과정을 일반화 하면 아래와 같이 표현이 가능합니다.

##### error 정의

> $$error_i = y_i-f(x_i)$$

$error_i$는 $i$ 번째 오차(error) or 잔차(residual)를 의미합니다.

##### <예제 1> error 값 출력

위에서 정의한 feature 데이터와 label 데이터에 대하여 $f(x_i) = 2x_i+1$ 모델에 대한 $error_i$ 값을 출력하는 코드를 수행하여 봅시다.

In [1]:
import numpy as np


feature_data = np.array([1,2,3,4]).reshape((-1,1))
label_data = np.array([3.1,4.9,7.2,8.9]).reshape((-1,1))

f_x = 2*feature_data + 1

error = label_data - f_x

print("label: \n{}\n".format(label_data))
print("f_x: \n{}\n".format(f_x))
print("error: \n{}\n".format(error))

label: 
[[3.1]
 [4.9]
 [7.2]
 [8.9]]

f_x: 
[[3]
 [5]
 [7]
 [9]]

error: 
[[ 0.1]
 [-0.1]
 [ 0.2]
 [-0.1]]



### 1-2. 모델에 따른 오차값 비교

오차 값의 정의를 학습 했으니, 이제는 다양한 모델에서의 오차를 출력해 봅시다.

##### <예제 2> 다양한 모델의에 따른 error 값

1차 함수, 2차 함수, 지수 함수 형태로 회귀 분석 모델을 정의하여 각 모델의 error값을 출력해 봅시다.

In [3]:
# 1차 선형 함수
model1 = 3*feature_data
# 2차 함수
model2 = feature_data**2 + 1
# 지수 함수
model3 = np.exp(feature_data)

error1 = label_data - model1
error2 = label_data - model2
error3 = label_data - model3

print("error1: \n{}\n".format(error1))
print("error2: \n{}\n".format(error2))
print("error3: \n{}\n".format(error3))

error1: 
[[ 0.1]
 [-1.1]
 [-1.8]
 [-3.1]]

error2: 
[[ 1.1]
 [-0.1]
 [-2.8]
 [-8.1]]

error3: 
[[  0.38171817]
 [ -2.4890561 ]
 [-12.88553692]
 [-45.69815003]]



---