## 회귀분석
- 지도학습($Y = f(X)$에 대해 $X$와 $Y$의 관계 모델링) 중 Y가 연속형 변수인 경우

### 단순 선형 회귀분석
- 알아내고 싶은 식 : $Y = \beta_0 + \beta_1 X + \epsilon$
- 추정해야 하는 식 : $\hat Y = \hat\beta_0 + \hat\beta_1 X$
---
- 가정 
    - $\epsilon_i \sim i.i.d N(0, \sigma^2)$
    - $Y_i \sim N(\beta_0 + \beta_1 X_i, \sigma^2)$
    - $X$와 $Y$는 선형관계
- 회귀계수(coefficients) : $\beta_0$ 절편(intercept), $\beta_1$ 기울기(slope)
- 실제 $\beta_0$와 $\beta_1$는 구할 수 없는 계수로, 학습데이터를 통해 추정해서 사용
---
#### 회귀계수 추정
- 직선과 데이터의 차이가 평균적으로 가장 작아지는 직선
- 실제값과 추정한 값의 차이(잔차, residual)가 작을수록 좋다
    - $e_i = y_i - \hat y_i$
    
- 잔차제곱합(SSE; Error Sum of Squares)
    - 잔차의 합은 0이 되는 해가 무수히 많거나, 미분 불가능한 형태의 식이므로 SSE 사용
    - SSE는 2차함수의 형태로 미분가능
    - $SSE = \Sigma e_i^2 = e_1^2 + e_2^2 + \dots + e_n^2 = (y_i - \hat\beta_0 - \hat\beta_1 x_i)^2$
    
- 최소자승법(Least Square Method)
    - SSE를 $\hat\beta_0$과 $\hat\beta_1$로 편미분하여 연립방정식 푸는 방법
    - $\hat\beta_0$로 편미분 -> 0 이되는 $\hat\beta_0$ 구하기
    - $\hat\beta_1$로 편미분 -> 0 이되는 $\hat\beta_1$ 구하기
---
#### 회귀계수 의미
- $\hat\beta_0$ 해석: X가 1단위 증가할 때마다 y가 $\hat\beta_0$만큼 증가
- 선형회귀 정확도
    - SSE를 최소화하는 방법으로 회귀계수 추정 -> SSE가 작을수록 좋은 모델
    - MSE(Mean Squared Error)는 SSE를 표준화한 개념
        - $SSE = \Sigma (y_i - \hat y_i)^2$
        - $MSE = {1 \over n - 2} SSE$
    - $SST = SSE + SSR$
        - SST(Total Sum of Squares) : $\sum_{i=1}^{n} (y_i - \bar y)^2$
        - SSE(Error Sum of Squares) : $\sum_{i=1}^{n} (y_i - \hat y_i)^2$
        - SSR(Regression Suj of Squares) : $\sum_{i=1}^{n} (\hat y_i - \bar y)^2$
            - Sum of Squares $\div$ Degree of Freedom = Mean Square
            
| Source of Variation | Sum of Squares | Degree of Freedom | Mean Square |
|------|-------|-----|------|
| Regression | SSR | 1 | SSR |
| Error | SSE | N - 2 | MSE |
| Total | SST | N - 1 | |

---
#### 선형회귀 정확도 평가

$$\sum_{i=1}^{n} (y_i - \bar y)^2 = \sum_{i=1}^{n} (y_i - \hat y_i)^2 + \sum_{i=1}^{n} (\hat y_i - \bar y)^2$$
- Y의 총 변동은 회귀직선으로 설명불가능한 변동(SSE)과 회귀직선으로 설명가능한 변동(SSR)으로 이루어져 있음
    - $R^2 = {SST - SSR \over SST} = 1 - {SSE \over SST} = {SSR \over SST}$

    - $R^2$는 MSE, SSE의 단점을 보완한 평가지표로 0 ~ 1의 범위를 가짐
    - $R^2$는 설명력. 입력변수인 X로 설명할 수 있는 Y의 변동을 의미
    - $R^2$가 1에 가까울 수록 선형회귀 모형의 설명력이 높다
- 회귀분석은 결국 **Y의 변동성**을 얼마나 독립변수가 잘 설명하느냐가 중요
- 변수가 여러개일 때 각각 Y를 설명하는 변동성이 크면 좋은 변수 -> p-value 자연스레 낮아짐
    - $ R^2 = {SSR \over SST}$
        - SSR : Y를 설명하는 X의 변동성(분산)
        - SST : Y의 변동성(분산)
---
#### 회귀계수 검정
- t-분포 이용
- $\hat\beta_1$의 표준오차 : $S.E(\hat\beta_1) = {\sigma \over \sqrt{S_{xx}}}$
    - 오차의 표준편차 $\sigma$가 알려져 있지 않은 경우, $s = \sqrt{SSE\over n-2}$ 대입하여 추정
- $\hat\beta_1$의 표본분포 : $t = {(\hat\beta_1 - \beta_1) \over {s\over \sqrt{S_{xx}}}} \sim t(n - 2)$

- $\hat\beta_1$의 검정
    - 귀무가설 : $\beta_1 = 0$ (회귀계수는 0이다, 즉 변수의 설명력이 없다) - 기각하기 쉽다
    - 대립가설 : $\beta_1 \not= 0$ (회귀계수는 0이 아니다, 즉 변수의 설명력이 존재한다)
        - $t = {\hat\beta_1 \over {s \over \sqrt{S_{xx}}}} = {\hat\beta_1 \over s.e(\hat\beta_1)}$
- $\hat\beta_1$의 신뢰구간
    - $\beta_1$의 $100(1-a)%$ 신뢰구간 : $\hat\beta_1 \pm t_{a/2}(n - 2) \times {s \over \sqrt{S_{xx}}}$
- $\hat\beta_0$의 신뢰구간
    - $\beta_0$의 $100(1-a)%$ 신뢰구간 : $\hat\beta_0 \pm t_{a/2}(n - 2) \times s \sqrt{{1\over n} + {\bar x^2 \over S_{xx}}}$