# 4장 모델 훈련 (2부)

## 4.4. 학습 곡선

### 과소적합/과대적합 판정

* 예제: 선형 모델, 2차 다항 회귀 모델, 300차 다항 회귀 모델 비교

* 다항 회귀 모델의 차수에 따라 훈련된 모델이 훈련셋에 과소 또는 과대 적합할 수 있음.

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-08.png" width="600"/></div>

### 교차 검증 vs. 학습 곡선

모델 성능 평가는 보통 다음 두 가지 방식을 따른다.

* 교차 검증(2장)
    * 과소적합: 훈련셋에 대한 성능 평가와 교차 검증 점수 모두 낮은 경우
    * 과대적합: 훈련셋에 대한 성능 평가는 우수하지만 교차 검증 점수가 낮은 경우

* 학습 곡선<font size='2'>learning curve</font>
    * 훈련셋와 검증셋에 대한 모델 성능을 비교하는 그래프
        - x-축: 훈련셋 크기. 훈련셋의 크기를 10%에서부터 출발해서 점차 키워 나가면서 모델 성능 평가
        - y-축: 훈련셋 크기에 따른 모델 성능. 회귀 모델의 경우 일반적으로 RMSE 사용.
    * 학습 곡선의 모양에 따라 과소적합/과대적합 판정 가능
    * `sklearn.model_selection` 모듈의 `learning_curve()` 함수를 이용해서 쉽게 시각화 가능

### 과소적합 모델의 학습 곡선 특징

- 2차 다항 함수의 분포를 따르는 데이터셋에 `LinearRegression` 모델을 적용한 학습 곡선

    * 훈련셋에 대한 성능(빨강)
        * 훈련셋가 커지면서 RMSE(평균 제곱근 오차)가 커짐
        * 훈련셋가 어느 정도 커지면 더 이상 RMSE가 변하지 않음

    * 검증셋에 대한 성능(파랑)
        * 검증셋에 대한 성능이 훈련셋에 대한 성능과 거의 비슷해짐

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-09.png" width="600"/></div>


### 과대적합 모델의 학습 곡선 특징

- 2차 다항 함수의 분포를 따르는 데이터셋에 10차 다항회귀 모델을 적용한 학습 곡선
    
    * 훈련셋에 대한 성능(빨강): 훈련 데이터에 대한 평균 제곱근 오차가 매우 낮음.
    * 검증셋에 대한 성능(파랑): 훈련 데이터에 대한 성능과 차이가 크게 벌어짐.
- 과대적합 모델 개선법: 훈련 데이터 추가. 하지만 일반적으로 어렵거나 불가능.

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-10.png" width="600"/></div>

### 편향 vs 분산

* 편향<font size='2'>bias</font>

    - 데이터셋에 대한 모델링이 틀린 경우
    - 예를 들어 실제로는 2차원 모델인데 1차원 모델을 사용하는 경우 발생
    - 과소적합 발생 가능성 높음.

* 분산<font size='2'>variance</font>
    - 모델이 훈련 데이터에 민감하게 반응하는 정도
    - 고차 다항 회귀 모델일 수록 분산이 커짐
    - 과대적합 발생 가능성 높음.

* 편향과 분산의 트레이드 오프
    - 복잡한 모델일 수록 편향을 줄고 분산은 커짐.
    - 단순한 모델일 수록 편향은 늘고 분산은 줄어듦

### 모델 일반화 오차

- 훈련 후에 새로운 데이터 대한 예측에서 발생하는 오차.

- 모델의 일반화 성능은 일반화 오차가 낮을수록 높음.

- 오차의 종류
    - 편향
    - 분산
    - 줄일 수 없는 오차: 데이터 자체가 갖고 있는 잡음(noise) 때문에 발생하는 어쩔 수 없는 오차

- 결론: 일반화 오차를 줄이기 위해 편향 또는 분산 둘 중에 하나에 집중해야 함.

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-08.png" width="600"/></div>

## 4.5. 모델 규제

### 자유도와 규제

* **자유도**<font size='2'>degree of freedom</font>: 학습 모델 결정에 영향을 주는 요소(특성)들의 수
    * 선형 회귀: 특성 수
    * 다항 회귀: 특성 수 + 차수

* 규제<font size='2'>regularization</font>: 자유도 제한
    * 선형 회귀 모델 규제: 가중치 역할 제한
    * 다항 회귀 모델 규제: 차수 줄이기

### 선형 회귀 모델 규제 방법

* 릿지 회귀

* 라쏘 회귀

* 엘라스틱 넷

### 릿지 회귀

* 비용함수

$$J(\theta) = \textrm{MSE}(\theta) + \frac{\alpha}{m_b} \sum_{i=1}^{n}\theta_i^2$$

- $m_b$: 배치 크기

* $\alpha$(알파): 규제 강도 지정. 
    - $\alpha=0$이면 규제가 전혀 없는 기본 선형 회귀

    * $\alpha$가 커질 수록 가중치의 역할이 줄어듦. 
        비용을 줄이기 위해 가중치를 작게 유지하는 방향으로 학습.
        따라서 모델의 분산 정도가 약해짐.

* $\theta_0$은 규제하지 않음

* 주의사항: 특성 스케일링 전처리를 해야 규제 모델의 성능이 좋아짐.

### 라쏘 회귀

* 비용함수

$$J(\theta) = \textrm{MSE}(\theta) + 2\alpha \, \sum_{i=1}^{n}\mid\theta_i\mid$$

* $\alpha$(알파): 규제 강도 지정.
    $\alpha=0$이면 규제가 전혀 없는 기본 선형 회귀

* 덜 중요한 특성을 무시하기 위해 해당 특성의 가중치 $\mid\theta_i\mid$를 보다 빠르게 0에 수렴하도록 유도.
    또한 기본적으로 $\mid \theta_i \mid$ 가 가능하면 작게 움직이도록 유도.

* $\theta_0$은 규제하지 않음

### 엘라스틱 넷 회귀

* 비용함수

$$
J(\theta) = 
\textrm{MSE}(\theta) + 
r\cdot \bigg (2 \alpha \, \sum_{i=1}^{n}\mid\theta_i\mid \bigg) + 
(1-r)\cdot \bigg (\frac{\alpha}{m_b}\, \sum_{i=1}^{n}\theta_i^2 \bigg )
$$

* 릿지 회귀와 라쏘 회귀를 절충한 모델

* 혼합 비율 $r$을 이용하여 릿지 규제와 라쏘 규제를 적절하게 조절

### 규제 선택

* 대부분의 경우 약간이라도 규제 사용 추천

* 릿지 규제가 기본

* 유용한 속성이 많지 않다고 판단되는 경우 
    * 라쏘 규제나 엘라스틱 넷 활용 추천
    * 불필요한 속성의 가중치를 0으로 만들기 때문

* 특성 수가 훈련 샘플 수보다 많거나 특성 몇 개가 상호 강하게 연관되어 있는 경우엔 엘라스틱 넷 추천

### 조기 종료

- 모델이 훈련 중에 훈련셋에 너무 과하게 적응하지 못하도록 하는 가장 일반적인 규제 기법

* 에포크가 남아있다 하더라도 검증셋 대한 비용함수의 값이 줄어 들다가 다시 커지는 순간 훈련 종료

* 검증셋에 대한 비용 함수의 곡선이 진동이 발생할 있기에
    검증 손실이 한동안 최솟값보다 높게 유지될 때 훈련 멈추고 기억해둔 최적의 모델 사용

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-11.png" width="600"/></div>

## 4.6 로지스틱 회귀

- 회귀 모델을 분류 모델로 활용

* 이진 분류: 로지스틱 회귀

* 다중 클래스 분류: 소프트맥스 회귀

### 확률 추정

* 시그모이드 함수

$$\sigma(t) = \frac{1}{1 + e^{-t}}$$

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-12.png" width="600"/></div>

* 로지스틱 회귀 모델에서 샘플 $\mathbf x$가 양성 클래스에 속할 확률

$$\hat p = h_\theta (\mathbf x)
= \sigma(\theta_0 + \theta_1\, x_1 + \cdots + \theta_n\, x_n)$$

### 예측값

$$
\hat y = 
\begin{cases}
0 & \text{if}\,\, \hat p < 0.5 \\
1 & \text{if}\,\, \hat p \ge 0.5
\end{cases}
$$

* 양성 클래스인 경우: 

$$\theta_0 + \theta_1\, x_1 + \cdots + \theta_n\, x_n \ge 0$$

* 음성 클래스인 경우: 

$$\theta_0 + \theta_1\, x_1 + \cdots + \theta_n\, x_n < 0$$

### 비용함수

* 비용함수: 로그 손실<font size='2'>log loss</font> 함수 사용

$$
J(\theta) = 
- \frac{1}{m_b}\, \sum_{i=1}^{m_b}\, \left( y^{(i)} \cdot \log(\,\hat p^{(i)}\,) + (1-y^{(i)}) \cdot \log(\,1 - \hat p^{(i)}\,)\right)
$$

* 모델 훈련: 위 비용함수에 대해 경사 하강법 적용

### 로그 손실 함수 이해

* 틀린 예측을 하면 손실값이 무한이 커짐
- 아래 왼쪽 그림: 샘플의 레이블이 1(양성)인데 예측 확률($\hat p$)이 0에 가까운 경우 로그 손실이 매우 클 수 있음
- 아래 오른쪽 그림: 샘플의 레이블이 0(음성)인데 예측 확률($\hat p$)이 1에 가까운 경우 로그 손실이 매우 클 수 있음

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-12-10a.png" width="600"/></div>

### 붓꽃 데이터셋

붓꽃의 품종 분류를 로지스틱 회귀로 진행한다.

### 결정 경계

#### 예제: 붓꽃 데이터셋

* 꽃받침(sepal)과 꽃입(petal)과 관련된 4개의 특성 사용
    * 꽃받침 길이
    * 꽃받침 너비
    * 꽃잎 길이
    * 꽃잎 너비

* 타깃: 세 개의 품종
    * 0: Iris-Setosa(세토사)
    * 1: Iris-Versicolor(버시컬러)
    * 2: Iris-Virginica(버지니카)

#### 꽃잎의 너비를 기준으로 Iris-Virginica 여부 판정하기

* 결정경계: 약 1.6cm

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-14.png" width="700"/></div>

#### 꽃잎의 너비와 길이를 기준으로 Iris-Virginica 여부 판정하기

* 결정경계: 검정 점선

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-15.png" width="700"/></div>

### 로지스틱 회귀 규제하기

* 하이퍼파라미터 `penalty`와 `C` 이용

* `penalty`
    * `l1`, `l2`, `elasticnet` 세 개중에 하나 사용.
    * 기본은 `l2`, 즉, $\ell_2$ 규제를 사용하는 릿지 규제.
    * `elasticnet`을 선택한 경우 `l1_ration` 옵션 값을 함께 지정.

* `C`
    * 릿지 또는 라쏘 규제 정도를 지정하는 $\alpha$의 역수에 해당. 
    * 따라서 0에 가까울 수록 강한 규제 의미.

### 4.6.4 소프트맥스(softmax) 회귀

* 로지스틱 회귀 모델을 일반화하여 다중 클래스 분류를 지원하도록 한 회귀 모델

* **다항 로지스틱 회귀** 라고도 불림

* 주의사항: 소프트맥스 회귀는 다중 출력 분류 지원 못함. 
    예를 들어, 하나의 사진에서 여러 사람의 얼굴 인식 불가능.

#### 소프트맥스 회귀 학습 아이디어

* 샘플 $\mathbf x$가 주어졌을 때 각각의 분류 클래스 $k$ 에 대한 점수 $s_k(\mathbf x)$ 계산.
    즉, `k*(n+1)` 개의 파라미터를 학습시켜야 함.

$$
s_k(\mathbf x) = \theta_0^{(k)} + \theta_1^{(k)}\, x_1 + \cdots + \theta_n^{(k)}\, x_n
$$    

* __소프트맥스 함수__를 이용하여 각 클래스 $k$에 속할 확률 $\hat p_k$ 계산

$$
\hat p_k = 
\frac{\exp(s_k(\mathbf x))}{\sum_{j=1}^{K}\exp(s_j(\mathbf x))}
$$

* 추정 확률이 가장 높은 클래스 선택

$$
\hat y = 
\mathrm{argmax}_k s_k(\mathbf x)
$$

### 소프트맥스 회귀 비용함수

* 각 분류 클래스 $k$에 대한 적절한 가중치 벡터 $\theta_k$를 학습해 나가야 함.

* 비용함수: 크로스 엔트로피 비용 함수 사용

$$
J(\Theta) = 
- \frac{1}{m}\, \sum_{i=1}^{m}\sum_{k=1}^{K} y^{(i)}_k\, \log(\hat{p}_k^{(i)})
$$

* 위 비용함수에 대해 경사 하강법 적용

* $K=2$이면 로지스틱 회귀의 로그 손실 함수와 정확하게 일치.

* 주어진 샘플의 타깃 클래스를 제대로 예측할 경우 높은 확률값 계산

* 크로스 엔트로피 개념은 정보 이론에서 유래함. 자세한 설명은 생략.

### 다중 클래스 분류 예제

* 사이킷런의 `LogisticRegression` 예측기 활용
    * `multi_class=multinomial`로 지정
    * `solver=lbfgs`: 다중 클래스 분류 사용할 때 반드시 지정

* 붓꽃 꽃잎의 너비와 길이를 기준으로 품종 분류
    * 결정경계: 배경색으로 구분
    * 곡선: Iris-Versicolor 클래스에 속할 확률

<div align="center"><img src="https://raw.githubusercontent.com/codingalzi/handson-ml3/master/jupyter-book/imgs/ch04/homl04-16.png" width="700"/></div>