# 9장 회귀분석

- 회귀분석
    - 어떤 변수가 다른 변수와 인과관계가 있다면, 결과에 해당하는 변수를 원인에 해당하는 변수로 표현하는 것
    - 통계학에서 취급하는 자료 : 일정한 값 X, 서로 다른 값을 갖는다 (변수)
    - 외귀 분석이란 서로 다른 값을 갖는 이유를 몇 개의 다른 변수로 설명하는 통계기법

$$ Y = (Y의 평균) + 오차 $$
$$ E(Y) = \beta_0 + \beta_1X_1 + ... + \beta_pX_p $$
- 이 때, $\beta$ 값을 추정하는 것이 회귀분석의 목적

- 변수 $(X_1, ..., X_p)는 측정하여 그 값을 얻게 되지만 회귀 분석에서는 이 값을 주어진 값으로 취급한다
    - $X$를 변수라고는 부르지만, 어떤 분포를 따른다고 하지는 않는다

$$ Y = E(Y) + 오차 \\ = \beta_0 + \beta_1x_1 + ... + \beta_px_p + \epsilon $$ 
- $Y$ : 반응변수, 종속변수
- $x_1, ..., x_p$ : 설명변수, 종속변수
- \epsilon : 오차 (error)

## 9-1. 단순선형회귀모형

- 분석하고자 하는 자료 $Y$를 하나의 설명변수 $X$로 설명하는 경우
    - ex) 성인 남자의 키 $(Y)$는 성인 남자 키의 평균 $(\mu)$와 오차(\epsilon)의 합
$$ Y = E(Y) + \epsilon = \mu + \epsilon $$

- 성인 남자 키의 평균 $(\mu)$를 아버지의 키 $(X)$로만 나타내는 경우 \
    **→ 단순선형회귀모형 (Simple Linear Regression Model)**
$$ Y = \beta_0 + \beta_1x + \epsilon $$
- 여기서 아버지의 키 $(X)$도 측정 가능한 변수이나, 주어진 값 (상수)라고 전제하고 회귀분석
- 오차 $(\epsilon)$는 평균이 0, 분산이 $\sigma^2$인 정규분포 따른다고 가정

$$ (가정) \epsilon ~ N(0, \sigma^2) \\
→ (가정) Y ~ N(\beta_0 + \beta_1x, \sigma^2) $$

- 따라서, **회귀분석을 할 자료 ($Y$)는 정규분포를 따라야 한다**
    - 자료의 정규분포 만족 여부에 크게 구애받을 필요는 없다
    - **자료의 수가 많거나 $Y$가 취하는 값의 범위가 크다면 문제 X**
    - 오차 $\epsilon$에 대한 가정 만족 여부는 검토해야 한다

### 9-1-1. 최소제곱법
$$ \hat{y} = \hat{\beta_0} +\hat{\beta_1}x $$
- $\hat{y}$는 표본 회귀식 또는 추정된 회귀 직선


![image.png](attachment:image.png)

- $n$개의 점을 가장 고르게 지나가는 직선을 얻는 방법
    - 얻어지는 직선의 절편 $(\beta_0)$과 기울기 $(\beta_1)$의 값이 최소가 되는 값
    - 잔차제곱합
    $$ \sum_{i=1}^n(y_i-\hat{y_1})^2 = \sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1x_i})^2 = \sum_{i=1}^ne_i^2$$


- 이렇게 $\hat{beta_0}, \hat{beta_1}$ 얻는 방법 : 최소제곱법 (Method of Least Square)
    - 이렇게 얻은 추정량 : 최소제곱추정량 (Least Squares Estimation, LSE)
    - $(y_i-\hat{y_i}) : e_i$ : 잔차 (Residual)
        - 잔차 : 오차($\epsilon_i$)의 실제 얻어진 값


$$ (모형)\quad Y_i = \beta_0 +\beta_1x_i + \epsilon_i$$
$$ (표본값)\quad y_i = \hat{\beta_0} +\hat{\beta_1}x_i + (y_i-\hat{\beta_0}-\hat{\beta_ix_i})$$

- 잔차의 합 : 항상 0이다
    - 따라서, 잔차제곱합 (sum of squares for residual: SSE)가 최소가 되는 $\hat{\beta_0},\ \hat{\beta_1}$을 얻으면 $n$개의 자료를 가장 고르게 지나는 직선식이 된다

- 여기서, $x_i, \ y_i$은 이미 알고 있는 값 (측정값)
- $\hat{\beta_0}, \ \hat{\beta_1}$을 구하려면, 아래의 식을 $\hat{\beta_0}, \ \hat{\beta_1}$으로 각각 편미분한 결과가 0인 식을 얻어야 한다 \
→ 정규방정식 (Normal Equation)
 $$ \sum_{i=1}^n(y_i-\hat{y_1})^2 = \sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1x_i})^2 = \sum_{i=1}^ne_i^2$$


### 9-1-2. 오차의 분산 $(\sigma^2)% 추정치
- 단순 회귀 모형에서 추정되어야 하는 모수 : $\beta_0, \beta_1, \sigma^2$
- 오차$(\epsilon)$라는 확률변수의 분산 $(\sigma^2)$는 어떻게 추정할까?

- 오차 $(\epsilon)$의 실현된 값인 잔차값을 표본값처럼 취급하여 $\sigma^2$를 추정
$$ {\epsilon_1, \epsilon_2, ..., \epsilon_n}$$
$$ \hat{\sigma^2} = \frac{\sum(e_i - \bar{e})^2}{자유도} = \frac{\sum(y_i - \hat{\beta_0} - \hat{\beta_i}x_i)^2 }{(n-2)} $$
- 잔차의 평균 $ \bar{e} = 0 $
- 추정된 모수 2개 $(\hat{\beta_0}, \ \hat{\beta_1})$ → 자유도 $(n-2)$

## 9-2. $\hat{\beta_1}$에 대한 통계적 성질

- $\hat{\beta_1}$ : 단순 선형 회귀모형에서의 기울기 ${\beta_1}$에 대한 추정치
$$
\hat{\beta_1} = \frac{\sum{(x_i-\bar{x})(y_i-\bar{y})}}{\sum(x_i-\bar{x})^2}
$$

- $Y$를 확률변수로 표현한다면,
$$
\hat{\beta_1} = \frac{\sum{(x_i-\bar{x})(Y_i-\bar{Y})}}{\sum(x_i-\bar{x})^2}
$$
- $Y_i, \ \bar{Y}$가 확률 변수 → 이들로 표현된 $\hat{\beta_1}$은 하나의 통계량으로써 확률 변수이며 확률 분포를 갖게된다
- **$Y_i$가 정규 분포 따른다고 가정 → $\bar{Y}$도 정규분포, $\hat{\beta_1}$도 정규분포를 따른다**
    - **$\hat{\beta_1}$은 $\beta_1$의 불편추정량 (Unbiased Estimator)**

- 계산된 $\hat{\beta_1}$ 값을 사용해도 되는가? \
    → 이 값이 유의적인지 결정하려면 가설검정을 해야 한다

$$ H_0 : \beta_1 = 0, \quad H_1 : \beta_1 \neq 0 $$
- $H_0$ : $X,\ Y$가 아무 관계가 아니라서 직선의 함수 관계를 얻을 수 없다 \
    → 따라서 $H_0$이 기각되어야 계산된 $\hat{\beta_i}$값을 사용하여 $X, \ Y$의 관계식 얻을 수 있다

- 프로그램은 **입력된 자료로부터 계산된 $t$값으로 자유도 $(n-2)$인 $t$-분포를 이용하여 정확한 $p$ 값을 제공한다**

## 9-3. $\hat{Y}$에 대한 통계적 성질

$$ \hat{y_i} = \hat{\beta_0} + \hat{\beta_1}x_i $$
- 주어진 $x$ 값 $(x_1, x_2, ..., x_n)$에 대한 $\hat{y}$ 값 $(\hat{y_1}, \hat{y_2}, ..., \hat{y_n})$ : 적합값 (Fitted Value)
- 적합값을 확률변수로 표현한 관계식
$$ \hat{Y_i} = \hat{\beta_0} + \hat{\beta_1}x_i $$

- 회귀분석의 목적에 따라, $\hat{Y_i}$의 통계적 성질이 달라진다

- $\hat{Y_i}$이 $E(Y_i)$를 추정하기 위해 사용되는 경우
$$ \hat{Y_i} \sim N(E(Y_i), \sigma^2(\frac{1}{n} + \frac{(x_i - \bar{x_i}^2)}{\sum(x_i-\bar{x})^2})) $$ 

- 주어진 어떤 값 $x_0$에서 $Y$를 예측하는 경우
$$ \hat{Y_0} \sim N(\beta_0+\beta_1x_0, \sigma^2(1 + \frac{1}{n} + \frac{(x_i - \bar{x_i}^2)}{\sum(x_i-\bar{x})^2})) $$ 

- 두 식의 차이점 : 분산이 다르다
    - 예측의 목적으로 사용되는 경우, 분산이 $\sigma^2$만큼 크다
    - **미래를 예측하는 것이기 때문에, $\hat{Y}$ 값이 더 다양하게 얻어질 수 있다는 의미**

## 9-4. 결정계수

- 회귀 분석 결과를 해석하는 데 중요한 요소 : 결정계수 $(R^2)$
    - 설명변수가 $Y$의 변동을 설명하는 지표 (비율)

$$
\sum_{i=1}^n(y_i - \bar{y})^2 = \sum_{i=1}^n(y_i - \hat{y})^2 + \sum_{i=1}^n(\hat{y_i} - \bar{y})^2
$$

- $\sum_{i=1}^n(y_i - \bar{y})^2$ : 총 제곱합 (total sum of squares, **SST**)
- $\sum_{i=1}^n(y_i - \hat{y})^2$ : 잔차제곱합 (sum of squares for residual, **SSE**)
- $\sum_{i=1}^n(\hat{y_i} - \bar{y})^2$ : 회귀제곱합 (sum of squares for regression, **SSR**)

$$ SST 자유도 (n-1) = SSE 자유도 (n-2) + sSR 자유도 (1) $$

![image.png](attachment:image.png)
- https://www.youtube.com/watch?v=ClKeKeNz7RM

- SSR : 우리가 갖고 있는 $x$로 인해 얼마만큼 설명할 수 있는지
- SSE : $x$로 설명할 수 없는 부분 표현

- $(\hat{y_i} - \bar{y})$는 기울기를 결정하는 부분
- 기울기 $\hat{\beta_1}$은 $X,\ Y$의 관계를 나타내며, $X$로 $Y$가 어떻게 설명되는지 결정해주는 요소
- $X$에 의해 $Y$가 설명되는 부분 $(\hat{y_i}-\bar{y})$를 제곱하여 합한 회귀제곱합 (**SSR**) \
    → 회귀선에 의해 설명이 되는 변동
- $(y_i - \hat{y_i})$ : 잔차, $X$에 의해 $Y$가 설명될 수 없는 부분
    - $(y_i - \hat{y_i})$을 제곱하여 합한 잔차제곱합 **SSE** \
    → 회귀선에 의해 설명이 되지 않는 변동

$$ SST = SSE + SSR$$
$$ 총\ 변동 = 회귀선에 \ 의해 \ 설명되지 \ 않는 \ 변동 \ + \ 회귀선에 \ 의해 \ 설명되는 \ 변동 $$


- 결정계수 (Determination Coefficient)
    - 총 변동 중에서 설명번동이 차지하는 비율
    - 총 변동 중에서 $X$에 의해 $Y$가 설명되는 변동이 차지하는 비율 \
        → $Y$가 설명변수 $X$로 얼마나 설명되는지 나타내는 지표

$$ R^2 = \frac{SSR}{SST} $$

## 9-5. 잔차분석
$$ Y_i = \beta_0 + \beta_1+x_i + \epsilon_i, \quad i=1, ..., n\\
(가정) \epsilon_i \sim N(0, \sigma^2) $$

- 오차의 모든 $i$에 대해 평균 = 0, 분산은 일정하게 (equal variance) $sigma^2$인 정규분포 따른다고 가정
- 따라서, 오차에 대한 가정 자체가 타당하지 않으면 $X,\ Y$의 1차식 관계도 문제가 있다\
    → 오차에 대한 가정의 타당성 여부 확인해야 한다

- 오차에 대한 가정의 타당성 여부 : 잔차로 수행
    - 잔차의 합 = 항상 0
    - 잔차의 분포가 정규분포 따르는지는 정규확률지 (Normal Probaility Plot) 사용해서 확인
    - 또는, `Shapiro-Wilks` 검정 이용하여 정규성 여부 검정
$$ H_0 : 자료는 정규분포 따른다 \\
H_1 : 자료는 정규분포 따르지 않는다 $$

- 등분산 가정은 잔차 도표를 통해 확인

### 9-5-1. 스튜던트화 잔차

- 표준화 (Standardized) 잔차
    - 단순히 잔차값의 단위를 제거하면서 잔차의 분산이 1이 되게 하는 것
    - 표준화 잔차는 단위가 있는 잔차로 얻어진 잔차도표와 분포의 형태가 같다
$$ \frac{e_i-\bar{e}}{\hat{\sigma}} = \frac{e_i}{\hat{\sigma}} $$

- 스튜던트화 (Studentized) 잔차
    - 잔차를 확률변수로 생각하고, $e_i = Y_i - \hat{Y_i} $로 표현
        - 확률변수인 $e_i$는 분산을 갖는다
        - $e_i$의 표준화는, 아래의 형태를 갖는다
    
$$ \frac{e_i - E(e_i)}{s.e.(e_i)} = \frac{e_i}{s.e.(e_i)} $$

- 표준화 잔차는 모든 잔차를 하나의 값 $sigma$로 나누어주지만,\
스튜던트화 잔차는 각 잔차의 표준 오차로 나누어준 것이기 때문에 잔차도표는 스튜던트화 잔차로 얻는 것이 좋다

- 스튜던트화 잔차가 0을 기준으로 대칭이며 $X_i$ 값에 따라 크게 다르지 않고 \
(-2, 2) 범위를 벗어나는 스튜던트화 잔차 많지 않으면, 오차 $\epsilon_i$에 대한 가정 만족한다


- (-2, 2) 범위를 벗어나는 스튜던트화 잔차가 있다면, 이 잔차에 해당하는 관찰치 $y_i$는 이상치이다

## 9-6. 원점을 지나는 회귀모형

- 원점을 지나느 회귀모형을 다루는 경우 간혹 있다
    - ex) 편의점에서 한매하는 복권의 종류 수 $X$와 복권 판매량 $Y$간의 관계를 회귀모형 설정한다면, \
    어떤 편의점에서 복권을 판매하지 않으면 $X=0,\ Y=0$ 인 값이 관찰치로 얻어진다 \
    → 원점을 지나는 모형
- 회귀분석 하고자 하는 자료의 유형에 따라 원점을 지나는 모형 고려할 수 있다
    - 앞서 다뤘던 모형에서 $\beta_0$이 제외된 형태

$$ Y_i = \beta_1x_i + \epsilon_i, \quad \quad i = 1, ..., n \\
(가정) \epsilon_i \sim N(0, \sigma^2) $$

- 원점을 지나는 회귀 모형에서 얻어진 잔차의 평균은 반드시 0이 아니다

- 원점을 지나는 회귀모형 사용 시 유의사항
    - 회귀선이 원점을 지나야한다고 믿어져도 비선형일 가능성과 오차의 등분산성 확인해야 한다
    - 표본의 크기가 작지 않으면, 원점을 지나는 모형에 적합하기보다\
     절편이 있는 모형을 회귀분석하여 절편에 대한 유의성 여부를 판단한 후, \
     원점을 지나는 모형으로 회귀분석 하는 것이 더 바람직한 결과를 얻을 수 있다