# (Review) 회귀

## 1. 회귀란
- 정의: 연속적인 데이터에서 함수관계를 찾아내는 통계적 방법
- 종류: **선형회귀, 비선형회귀**, 로지스틱회귀, 릿지회귀, 라쏘회귀, **다항회귀**
- 활용: 데이터의 요약, 예측, 시계열 모델링 및 변수간 인과관계 발견 등
- 평가지표: MSE, MAE, **$R^2$, Adjusted $R^2$, AIC, BC(SC)**
- 지도학습: 정답이 있는 데이터
- 비지도학습: 정답이 없는 데이터


## 2. 단순/다중선형회귀분석
: 설명변수가 1개/2개 이상인 회귀 분석
## 3. 최소제곱법, 최소자승법(Least Squares Method, Ordinary Least Square)
- (회귀선에서의 예측값) - (관측된 데이터 값) = 잔차
- 잔차의 제곱의 합(RSS or SSR)을 최소화하는 회귀선을 찾는 방법

# 선형회귀

## 0. 전체적인 회귀분석 프로세스
**사전검증 --> 모델 생성 및 모델 fit --> 모델 평가 --> 모델 성능 개선**

**사전검증**
- 데이터 탐색 및 전처리
- 회귀 분석의 기본 가정 6가지 검토

**모델 생성 및 모델 fit**
- 회귀모델 생성, 모델 설정, 모델 학습
- 모델의 유의성 검정(F-검정, T-검정)

**모델 성능 평가**
- R-squared
- 회귀분석 후 검증 가능한 가설 검토

**모델 성능 개선**
- 필요 없는 변수 제거
- 비선형 모델 활용

## 1. 다중선형회귀의 수식적 이해
$y_i = \beta_1X_{1i} + \beta_2X_{2i} + ... + \beta_kX_{ki} + \beta_0 + \epsilon_i$

설명변수($X$)에 가중치($\beta$)를 곱해 더함으로써 종속변수($y$)를 얼마나 잘 설명하는지 나타냄<BR>
$\epsilon_i $: 오차항<BR>
$\beta_0$: 상수항, 절편

## 2. 다중선형회귀의 기본가정

#### **가정1. 선형성**
$E(y|X) = \beta_1+\beta_2X_2+...+\beta_nX_n$
- 종속변수와 설명변수 관계가 선형적이어야 함
- *scattor plot*

#### **가정2. 독립성**
- 각 설명변수가 서로 선형독립적이어야 함(다중공선성이 없어야 함)
- *VIF 지수, 상관계수*
  
#### **가정3. 오차항의 평균은 0이다(0에 가까워야 한다)**
$E(\varepsilon_i|X_i) = 0$
- 오차항(백색잡음): 실제값과 예측값 차이
- 회귀 분석 전 검증 불가
- *`np.mean(residuals)`*

#### **가정4. 등분산성**
$Var(\varepsilon_i|X_i) = \sigma^2$
- 오차항의 분산이 일정해야 함 <=> 이분산성이 없어야 함
- 회귀 분석 전 검증 불가
- *잔차의 도표화*
#### **가정5. 오차항은 자기상관되어 있지 않다**
$Cov(\varepsilon_i, \varepsilon_j|X_i) =0$
- 오차항의 공분산은 항상 0이어야 함
- 오차항의 공분산이 0이 아닐 때 => 자기상관이 있다고 함
- *Durbin-Watson 검정(분석후)*
#### **가정6(선택). 정규성**
$\varepsilon_i \sim N(0, \sigma^2)$
- 오차항이 정규분포를 따른다는 가정
- 가정6은 위배되어도 다중선형회귀분석에 큰 영향을 미치지 X
- *Shapiro-Wilk 검증, Q-Q plot*

## 3. 회귀분석 평가방법

### 3.1 시각화
- 회귀선과 데이터 값을 그래프 위에 표현하여 비교
- 객관적인 비교는 어려움
### 3.2 통계지표
`results.summary()`를 통해 확인 가능

#### 3.2.1 모델의 유의성 검정
**F-Statistic, Prob(F-statistic)**<BR>

$H_0$: 모든 회귀계수가 0이다. <BR>
$H_1$: 적어도 하나의 회귀계수는 0이 아니다 <=> 회귀모델의 유의미하다
- **전체 모델**이 유의미한지 검정
- F-Statistic 값이 클수록, 모델이 통계적으로 유의미함
- Prob(F-Statistic) < 0.05 ==> $H_0$ 기각($H_1$ 채택)

**T-Statistic**<BR>

$H_0$: 해당 변수의 회귀계수가 0이다. <BR>
$H_1$: 해당 변수의 회귀계수는 0이 아니다 <=> 해당 변수는 종속변수에 유의미한 영향을 준다
- **각 독립 변수**가 유의미한지 검정
- p-value(P>|t|) < 0.05 ==> $H_0$ 기각($H_1$ 채택)

### 3.2.2 모델의 성능평가
**결정계수(R-squared, $R^2$)**<BR>
- 데이터의 평균을 예측값을 사용할 때보다, 모델을 활용한 예측값이 얼마나 더 정확한지 나타냄
- $R_2 = SSR/SST = 1 - SSE/SST$
- 1에 가까울 수록, 모델이 데이터를 잘 설명한다고 판단 가능
- 0에 가까울 수록, 모델이 데이터를 전혀 설명하지 못한다고 판단 가능

**조정된 결정계수(Adjusted R-squared, Adjusted $R^2$)**<BR>
- 해당 독립변수가 유의미한지와 상관없이 독립변수의 개수가 증가하면, $R^2$도 자연스럽게 증가<BR>
 ==> 변수의 개수에 따라 패널티를 부여하는 Adjusted $R^2$ 활용

**AIC, BIC(SC)**<BR>
- 값이 낮을수록 좋다고 평가
- AIC: BIC에 비해 복잡성에 대한 패널티가 작음
- BIC(SC): 데이터 양에 따라 AIC보다 더 강한 패널티 부여


# 비선형 회귀

## 1. 다항식 회귀모델
- 형태: $Y=a+bX+cX^2+dX^3+\cdot\cdot\cdot$
- 독립변수에 거듭제곱 항이 추가되어 비선형적 특성을 모델링
- *곡선을 그리는 데이터 패턴일 때*
- *시간에 따라 변화하는 속도가 다를 때 (EX. 성장률, 감소율)*

## 2. 지수 회귀모델
- 형태: $Y = ae^{bX}$
- 양변에 로그를 취하면, $\ln Y$와 $X$의 선형회귀 적용 가능 (로그취했을 때: $\ln Y = \ln a + bX$)
- *시간에 따라 값이 지수적으로 증가하거나 감소할 때 (EX. 기술발전, 투자 수익률 증가)*

## 3. 로그 회귀모델
- 형태: $Y=a+b\log(X)$
- 독립 변수에 로그함수를 적용한 후, 선형회귀를 적용
- 데이터가 초기에 빠르게 증가하고 증가율이 점차 줄어드는 패턴일 때
- *초기 빠른 증가 후 점진적인 감소를 보일 때 (EX. 인구성장, 감염병의 확산 등)*

## 4. 스플라인 회귀
- 데이터를 구간별로 나누고 각 구간마다 적절한 선형/비선형 함수를 적용
- 형태: $Y = \begin{cases} a_1 + b_1X & \text{if } X < c_1 \\a_2 + b_2X & \text{if } c_1 \leq X < c_2 \\\cdots \\a_n + b_nX & \text{if } X \geq c_{n-1}\end{cases}$
- 구간의 경계에서 **연속성 유지**에 유의
- *구간마다 패턴이 다르게 나타날 때 (EX. 계절에 따라 판매량이 변화하는 소매 데이터)*