# Advice for applying machine learning

## 다음에 무엇을 할 지 결정하기

#### 학습 알고리즘 디버깅:

당신이 집 가격을 예측하기 위해서 정규화된 선형회귀를 구현했다고 가정해보자.


$$J(\theta) =  { 1 \over 2m} \left[ \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 +   \lambda \sum_{j=1}^n \theta_j^2 \right]$$


그러나, 당신의 가설을 새로운 집들 자료에 시험했을 때, 그 추측에서 받아드릴 수
없을 정도로 큰 오차를 만드는 것을 발견했다. 당신은 다음에 무엇을 시도해야
하는가?

* 더 많은 훈련자료를 얻는다.

* 더 적은 특징집합으로 시도해본다.

* 추가적인 특징들로 시도해본다.

* 고차원 항들을 추가해 본다. $(x_1^2, x_2^2, x_1x_2, etc.)$

* $\lambda$ 를 감소시켜본다.

* $\lambda$ 를 증가시켜본다.

#### 기계학습 진단:

진단(Diagnostic): 학습알고리즘에서 가지고 무엇이 작동하고
무엇이 작동하지 않는 지에 대한, 그리고 그 성능을 어떻게
최대로 개선할 수 있는 지에 대한 안내에 대한 통찰을 얻기
위해서 얻기 위해서 당신이 실행할 수 있는 시험.

진단은 구현에 시간이 걸릴 수는 있으나, 실행하는 것이
당신의 시간을 가장 잘 사용하는 것일 수 있다.

## 가설(hypothesis)을 평가하기

#### 당신의 가설을 평가하기

<img src="./images/reg-graph.png" width="200" >

$ h_\theta(x) = \theta_0 + \theta_1 x +\theta_2 x^2 +\theta_3 x^3 +\theta_4 x^4 $

훈련자료 집합에 없는 새로운 자료에 일반화하는데 실패

$\begin{align}
x_1 = & \text{ size of house }\\
x_2 = & \text{ no. of bedrooms } \\
x_3 = & \text{ no. of floors } \\
x_4 = & \text{ age of house } \\
x_5 = & \text{ average income in neighborhood }\\
x_6 = & \text{ kitchen size } \\
\vdots & \vdots \\
x_{100} = & \\
\end{align}$ 


Evaluating your hypothesis

Dataset:

| Size | Price | 
|------|-------|------- 
| 2104 | 400   |  $(x^{(1)}, y^{(1)})$
|1600 | 330  |  $(x^{(2)}, y^{(2)})$
| 2400 | 369 | $\vdots$
|1416 | 232| $\vdots$
| 3000 | 540| $\vdots$
| 1985 | 300| $(x^{(m)}, y^{(m)})$
|1534 | 315  |   $(x_{test}^{(1)}, y_{test}^{(1)})$
| 1427 | 199  | $(x_{test}^{(2)}, y_{test}^{(2)})$
| 1380 | 212   |  $\vdots$
| 1494 | 243  |  $(x_{test}^{(m_{test})}, y_{test}^{(m_{test})})$





선형회귀에 대한 훈련/시험과정

훈련자료로부터 파라메타 를 학습 (훈련 오차 를
최소화함으로 )

시험집합(test set) 오차를 계산 :



로지스틱회귀에 대한 훈련/시험 과정

훈련자료로부터 파라메타 를 학습

시험집합(test set) 오차를 계산 :

$$ J_{test}(\theta) = {1 \over m_{test}}  \sum_{i=1}^{m_test}  y_{test}^{(i)} \log (h_\theta(x_{test}^{(i)})) + (1 -y_{test}^{(i)}) \log h_\theta(x_{test}^{(i)})$$


오분류 오차 (0/1 misclassification error):

## 모델 선택과 훈련/검증/시험 집합들

#### 과적합(Overfitting) 예

<img src="./images/reg-graph.png" width="200" >

$ h_\theta(x) = \theta_0 + \theta_1 x +\theta_2 x^2 +\theta_3 x^3 +\theta_4 x^4 $

매개 변수가 일부 데이터 세트 (트레이닝 세트)에 적합하면 해당 데이터에서 측정 된 매개 변수의 오류 (훈련 오류 xxxxx)가 실제 일반화 오류보다 낮을 수 있습니다.
size

price

파라메타들이

어떤 자료집합 (training set)에
적합되면, 그 자료에서 측정된
파라메타들의 오차는 (훈련오차
xxxx ) 실제 일반화된 오차보다
낮을 가능성이 있다.

#### 모델 선택

1. $h_\theta (x) = \theta_0 + \theta_1 x$ 

2. $h_\theta (x) = \theta_0 + \theta_1 x + \theta_2 x^2$ 

3. $h_\theta (x) = \theta_0 + \theta_1 x + \cdots + \theta_3 x^3$ 

$\vdots$

10.  $h_\theta (x) = \theta_0 + \theta_1 x + \cdots + \theta_{10} x^{10}$ 

선택

모델이 얼마나 잘 일반화하는가? 시험 집합 오차를 보고한다
.

문제: 는 일반화 오차의 낙관적 추정일 가능성이 있다. 즉,
우리의 추가 파라메타 ( = degree of polynomial) 가 시험자료에 적합된다.

Evaluating your hypothesis

Dataset:

| Size | Price | 
|------|-------|------- 
| 2104 | 400   |  $(x^{(1)}, y^{(1)})$
|1600 | 330  |  $(x^{(2)}, y^{(2)})$
| 2400 | 369 | $\vdots$
|1416 | 232| $(x^{(m)}, y^{(m)})$
| 3000 | 540| $(x_{CV}^{(1)}, y_{CV}^{(1)})$
| 1985 | 300| $\vdots$
|1534 | 315  |   $(x_{CV}^{(m_{CV})}, y_{CV}^{(m_{CV})})$
| 1427 | 199  | $(x_{test}^{(1)}, y_{test}^{(1)})$
| 1380 | 212   |  $\vdots$
| 1494 | 243  |  $(x_{test}^{(m_{test})}, y_{test}^{(m_{test})})$


$$J(\theta) =  { 1 \over 2m} \left[ \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 +   \lambda \sum_{j=1}^n \theta_j^2 \right]$$