# Loss Function 이해하기

(출처: Andrew Ng)

In [5]:
import numpy as np
import matplotlib.pyplot as plt
from plot_utils import plt_intuition, plt_stationary, plt_update_onclick, soup_bowl

## 문제 설명

집의 크기를 기준으로 주택 가격을 예측할 수 있는 모델을 만들고 싶습니다. 이전 실습과 동일한 두 데이터를 사용합시다 - 1000 평방 피트의 집은 $300,000에 팔렸고, 2000 평방 피트의 집은 $500,000에 팔렸습니다.


| 크기 (1000 sqft)     | 가격 (1000달러 단위) |
| -------------------| ------------------------ |
| 1                 | 300                      |
| 2                  | 500                      |


In [None]:
x_train = np.array([1.0, 2.0])               #(주택 넓이: 1000 평방 피트)
y_train = np.array([300.0, 500.0])           #(가격: $1000)

## Loss 계산하기

이 과제에서 'loss'라는 용어는 데이터가 주택 비용이기 때문에 다소 혼란스러울 수 있습니다. 여기서 loss는 모델이 주택의 목표 가격을 얼마나 잘 예측하고 있는지를 측정하는 지표입니다. 주택 데이터에는 'price'라는 용어가 사용됩니다.

하나의 변수로 구성된 loss의 방정식은 다음과 같습니다:
  $$J(w,b) = \frac{1}{2m} \sum\limits_{i = 0}^{m-1} (f_{w,b}(x^{(i)}) - y^{(i)})^2 \tag{1}$$ 

여기서 
  $$f_{w,b}(x^{(i)}) = wx^{(i)} + b \tag{2}$$
  
- $f_{w,b}(x^{(i)})$는 매개변수 $w,b$를 사용하여 예제 $i$에 대한 예측입니다.  
- $(f_{w,b}(x^{(i)}) -y^{(i)})^2$는 목표 값과 예측 값의 제곱 차이입니다.   
- 이 차이값은 모든 $m$ 개 데이터에 대해 합산되고 `2m`으로 나누어져 loss $J(w,b)$를 생성합니다.  

아래 코드는 각 예제를 반복하여 loss를 계산합니다. 각 반복에서:
- `f_wb`, 즉 예측값이 계산됩니다.
- 목표 값과 예측 값의 차이가 계산되고 제곱됩니다.
- 이것이 총 loss에 추가됩니다.

In [None]:
# 예시
x = 1
y = 300
w = 200
b = 100
# ...

In [None]:
def compute_loss(x, y, w, b): 
    m = x.shape[0] 
    
    loss_sum = 0 
    for i in range(m): 
        f_wb = w * x[i] + b   
        loss = (f_wb - y[i]) ** 2  
        loss_sum = loss_sum + loss  
    total_loss = (1 / (2 * m)) * loss_sum  

    return total_loss

## Loss Function에 대한 직관적 이해

우리의 목표는 매개변수 $w,b$를 사용하여 입력 $x$가 주어졌을 때 주택 가치를 정확하게 예측할 수 있는 모델 $f_{w,b}(x) = wx + b$를 찾는 것입니다. loss는 학습 데이터에 대한 모델의 정확도를 측정하는 지표입니다.

위의 loss 방정식 (1)은 $w$와 $b$를 선택하여 예측값 $f_{w,b}(x)$이 목표 데이터 $y$와 일치하도록 할 수 있음을 보여줍니다. 이 경우 $(f_{w,b}(x^{(i)}) - y^{(i)})^2$ 항이 0이 되어 loss가 최소화됩니다. 이 간단한 두 포인트 예제에서 당신은 이것을 달성할 수 있습니다!

이전 실습에서 $b=100$이 최적의 솔루션을 제공한다는 것을 확인했으므로 $b$를 100으로 설정하고 $w$에 집중합시다.

아래에서 슬라이더 컨트롤을 사용하여 loss를 최소화하는 $w$ 값을 선택하십시오. 시각화 업데이트에 몇 초가 걸릴 수 있습니다.

In [None]:
plt_intuition(x_train, y_train)

위 시각화에는 주목할 만한 몇 가지 점이 있습니다.
- $w = 200$일 때 loss가 최소화되며, 이는 이전 실습의 결과와 일치합니다.
- 목표 값과 예측 값의 차이가 loss 방정식에서 제곱되기 때문에, $w$가 너무 크거나 작을 때 loss는 급격히 증가합니다.
- loss를 최소화하여 선택된 `w`와 `b`를 사용하면 데이터에 완벽하게 맞는 선이 생성됩니다.

## 3D Loss Function 시각화 - 3D

`w`와 `b` 모두에 대해 loss가 어떻게 변하는지 3D 플롯이나 등고선 플롯을 사용하여 확인할 수 있습니다.

### 큰 데이터 세트
몇 개의 데이터 포인트가 더 있는 시나리오를 보시죠. 이 데이터 세트는 동일한 선에 있지 않은 데이터 포인트를 포함합니다. 이것이 loss 방정식에 대해 무엇을 의미할까요? loss가 0이 되도록 하는 $w$와 $b$를 찾을 수 있을까요?

In [None]:
x_train = np.array([1.0, 1.7, 2.0, 2.5, 3.0, 3.2])
y_train = np.array([250, 300, 480,  430,   630, 730,])

등고선 플롯이 아래와 같이 출력됩니다.


In [None]:
plt.close('all') 
fig, ax, dyn_items = plt_stationary(x_train, y_train)
updater = plt_update_onclick(fig, ax, x_train, y_train, dyn_items)

위 그림에서 왼쪽 플롯의 점선에 주목하십시오. 이는 학습 세트의 각 예제에 의해 기여되는 비용의 부분을 나타냅니다. 이 경우, 대략 $w=209$ 및 $b=2.4$ 값이 낮은 비용을 제공합니다. 학습 예제가 선에 있지 않기 때문에 최소 비용은 0이 아닙니다.


### 볼록한 비용 표면
비용 함수가 손실을 제곱하기 때문에 '오류 표면'이 수프 그릇(soup bowl)처럼 볼록합니다. 모든 차원에서 기울기를 따라가면 항상 최소값에 도달할 수 있습니다. 이전 플롯에서는 $w$와 $b$ 차원이 다르게 스케일되기 때문에 이를 인식하기 쉽지 않습니다. 강의에서 보여준 대로 $w$와 $b$가 대칭인 다음 플롯을 참조하십시오.


In [None]:
soup_bowl()