# 일반 회귀 모델과 시계열 모델
## 1. 기본 개념 비교

### 회귀 모델 (Regression Model)
- **목적**: 독립 변수(X)와 종속 변수(Y) 간 관계 추정  
- **데이터 구조**: 시간 순서 무관 (데이터 셔플 가능)
- **가정**: 오차항의 독립성(iid), 선형성, 등분산성
  - iid(Independent and Identically Distributed): 
    - 독립적이고 동일한 분포
    - 독립성: 각 오차항은 서로 독립적이어야 하며, 이전 오차항이 이후 오차항에 영향을 주지 않아야 한다.
      - 예: 시간 의존성이 없는 데이터.
    - 동일한 분포: 모든 오차항은 동일한 확률 분포를 따라야 한다.
      - 예: 평균이 0이고 분산이 일정한 정규분포.
    - 선형성 (Linearity): 
      - 독립 변수(X)와 종속 변수(Y) 간의 관계가 선형적이야 한다.
      - $ [Y = \beta_0 + \beta_1X + \epsilon] $ 형태
      - 독립 변수의 변화가 종속 변수에 일정한 비율로 영향을 미쳐야 한다.
    - 등분산성 (Homoscedasticity):
      - 오차항(실제값과 추론값의 차이)의 분산이 독립 변수의 값에 관계없이 일정해야 한다.
      - 모든 관측치에서 오차항의 변동폭이 동일해야 한다.
- **예시**: 주택 가격 예측((시간 흐름이 아닌) 면적, 위치 등을 X로 활용)
### 시계열 모델 (Time Series Model)
- **목적**: 시간 축을 기반으로 한 미래 값 예측  
- **데이터 구조**: 시간 순서 필수 (쇼핑 데이터의 월별 판매 추이)
- 시계열 데이터는 회귀모델의 가정에 들어맞지 않는 경우가 있다. 
  - 오차항이 시간에 따라 자기상관(Autocorrelation)을 가지는 경우. => iid 위반 => 자기상관 제거(예: ARIMA, 잔차 분석)
  - 독립 변수와 종속 변수 간의 관계가 비선형적일 수 있음. => 선형성 위반 => 비선형 변환(로그, 다항식), 비선형 모델 
  - 독립 변수의 값이 커질수록 오차항의 분산이 증가하거나 감소하는 경우(이질분산, Heteroscedasticity). => 등분산성 위반 => 가중 회귀, 변수 변환
- **가정**: 자기상관(Autocorrelation), 추세(Trend), 계절성(Seasonality)
  - 자기상관(Autocorrelation): 
    - 시계열 데이터에서 자기 자신과의 상관관계를 측정하는 개념
    - 수학적으로, 자기상관은 시차(lag) $k$에 대해 다음과 같이 정의: $[ \rho_k = \frac{\text{Cov}(Y_t, Y_{t-k})}{\sigma^2} ]$
      - $\rho_k$: 시차 $k$에서의 자기상관 계수
      - $\text{Cov}(Y_t, Y_{t-k})$: 시점 $t$와 $t-k$ 간의 공분산
      - $\sigma^2$: 데이터의 분산
- **예시**: 일별 전력 수요 예측
---

## 3. 시간 의존성 해석 차이

### 데이터 구조적 차이
| 구분          | 회귀 모델                          | 시계열 모델                     |
|---------------|-----------------------------------|--------------------------------|
| **데이터 순서** | 무의미 (셔플 가능)            | 필수 (순차적 의존성 존재) |
| **변수 역할**  | X: 외부 요인, Y: 예측 대상    | X: 과거 Y 값, 시간 자체  |

### 모델링 접근법
- **회귀 모델**:  
  - 수식: $ Y_t = \beta_0 + \beta_1X_{1,t} + \epsilon_t $
  - 외부 변수(X)의 **동시적 영향** 반영 (예: 광고 비용 증가 → 당월 매상 증가)
    > **동시적 영향**: 
    > - **독립 변수(X)**가 **종속 변수(Y)**에 동시에 영향을 미치는 관계.
    > - 독립 변수의 변화가 시간 지연 없이 바로 종속 변수에 영향을 준다는 가정
    > - **지연 효과(Lag Effect)**가 없다고 가정
- **시계열 모델**:  
  - 수식: $ Y_t = \alpha + \phi_1Y_{t-1} + \theta_1\epsilon_{t-1} + \epsilon_t $ (ARIMA 예시)
  - **과거 관측값($Y_{t-1}$)**이 미래에 미치는 영향 모델링
  - 시계열 모델은 **지연 효과(Lag Effect)**가 있음. 즉, 과거의 독립 변수(또는 종속 변수)가 미래의 종속 변수에 영향을 미칠 수 있음(예: 광고 비용 증가 → 몇 주 후 매상 증가)
---


## 4. 적용 시 고려사항
1. **데이터 특성 분석**:  
   - 추세/계절성 존재 시 → 시계열 모델 필수
2. **예측 목표**:  
   - 인과 관계 해석 필요 → 회귀 모델
   - 단순 미래 값 예측 → 시계열 모델
3. **하이브리드 접근**:  
   - Prophet, LSTM with Covariates

---
