# **선형회귀**
## 다중선형회귀의 수식적 이해
$y_i = \beta_0+\beta_1X_{1i}+\beta_2X_{2i}+...\beta_kX_{ki}+\varepsilon_i$


: 관심 있는 y에 대한 여러 **설명변수들의 가중평균**

## 다중선형회귀의 기본가정
선형회귀를 사용하기 위해서는 다음의 **가정**이 필요하다.
1. **선형성(Linearity)**


   $E(y|X) = \beta_1+\beta_2X_2+...+\beta_nX_n$

   종속변수와 설명변수가 **선형적 관계**

   검증방법: scattor plot <br /> <br />

2. **독립성(Independence)**

   $X_i, X_j \ is \ linearly\ independent \ for\ all \ i,j$

   각각의 설명변수가 **선형독립적**. 아닌 경우를 **다중공선성**이라고 한다.

   검증방법:VIF 지수, 상관계수<br /> <br />

3. **오차항의 평균은 0이다(0에 가까워야 한다)**

   $E(\varepsilon_i|X_i) = 0$

   **오차항**: 실제 값과 예측 값 사이의 차이

   검증방법:np.mean(residuals)<br /> <br />

4. **등분산성(Homoscedasticity)**

   $Var(\varepsilon_i|X_i) = \sigma^2$

   오차항의 **분산이 일정**(등분산성)


   오차항의 분산이 일정하지 않은 **이분산성**의 경우, 전체 데이터에 대해 일정하지 않은 정확도를 보임

   검증방법:잔차의 도표화<br /> <br />

5. **오차항은 자기상관되어 있지 않다(non-autocorrelation)**

   $Cov(\varepsilon_i, \varepsilon_j|X_i) =0$

   오차항의 **공분산**(Cov)은 항상 0


   **자기상관**: 공분산이 0이 아닌 경우. 이 경우 모델이 이전 데이터의 패턴을 학습하여 반복적인 오류를 만듦

   검증방법:Durbin-Watson 검정(분석 후)<br /> <br />

6. **정규성(normality) (선택)**

   $\varepsilon_i \sim N(0, \sigma^2)$

   오차항이 **정규분포**를 따름 
   검증방법:Shapiro-Wilk 검증, Q-Q plot<br /> <br />
   
**회귀분석 전** 검증 가능: 선형성, 독립성(다중공선성), 오차항 자기상관X(간접적)

## 회귀분석 평가방법
회귀선을 데이터와 함께 **시각화** 또는 **통계지표** 이용

### 통계지표
### 모델의 유의성 검정
 1. **F-statistic, Prob(F-statistic)**: 회귀 모델이 유의미한지 검정
    
    귀무가설 $H_0$: **모든 회귀 계수가 0**이다.
    
    F-statistic의 값이 클수록 모델이 통계적으로 유의미, Prob(F-statistic)< 0.05보다 작다면, 귀무가설을 기각<br /> <br />
    
 2. **T-statistic**: 특정 독립 변수가 유의미한지 검정

    귀무가설 $H_0$: **해당 변수**의 회귀 계수가 0이다

    p-value(P>|t|)가 0.05보다 작은 경우 유의미<br /> <br />


### 모델의 성능 평가
1. **결정 계수 (R-squared, R^2)**: 총 편차와 회귀선으로 설명되는 편차의 비율
   
   $R^2=\frac{SSR}{SST}=1-(\frac{SSE}{SST})$

   1과 가까울수록 모델이 데이터를 잘 설명

   $R^2$는 독립 변수의 개수가 증가하면 증가할수록 자연스레 증가한다<br /> <br />
   
2. **조정된 결정 계수 (Adjusted R-squared, Adjusted R^2)**: 변수의 개수 증가에 덜 민감하도록 조정한 지표
   
   $\overline{R}^2 = \frac{SSR}{SST}\frac{n-1}{n-k}=1-(\frac{SSE/(n-k)}{SST/(n-1)})$<br /> <br />

   
   
3. **AIC, BIC(SC)**

   
   정보기준(information criteria), 값이 낮을수록 좋음<br /> <br />


# **비선형회귀**

## 다항식 회귀모델
$Y=a+bX+cX^2+dX^3+\cdot\cdot\cdot$

사용방법: 선형모델을 확장 후 사용

적합한 상황

- 시간에 따라 **변화하는 속도가 다른** 경우
- 관계가 **곡선**을 그리는 데이터 패턴의 경우<br /> <br />

## 지수 회귀모델
$Y = ae^{bX}$

사용방법: **종속변수 Y에 로그**를 취한 후 선형회귀 사용, 예측값에 지수함수를 적용하여 원래 형태로 변형

적합한 상황 
- 시간에 따라 **지수적으로 증가하거나 감소**하는 경우
- 기술 발전, 투자 수익률 증가 등<br /> <br />

## 로그 회귀모델
$Y=a+b\log(X)$

사용방법: 독립변수 **X에 로그함수 적용** 후 선형회귀 사용

적합한 상황
- 데이터가 초기에 빠르게 증가하고 점차 **증가율이 줄어드는** 패턴
- 인구 성장, 감염병의 확산 등<br /> <br />
  
## 스플라인 회귀
데이터를 **구간별로** 나누고 각 구간에서 다른 선형 또는 비선형 함수를 적용하여 예측

사용방법: 각 구간별 회귀모델 적용, 구간 경계에서의 **연속성**

적합한 상황: 데이터 패턴이 구간마다 다른 경우, 계절별 판매량 등<br /> <br />

# 회귀 분석 프로세스 (Remind)

**사전 검증 → 모델 생성 및 모델 fit → 모델 평가 → 모델 성능 개선**
