## 1. 선형회귀

### 1-0) 전체적인 회귀 분석 프로세스
**회귀 분석 프로세스:**  
사전 검증 → 모델 생성 및 모델 fit → 모델 평가 → 모델 성능 개선

1. **사전 검증**
   - 데이터 탐색 및 전처리 (결측치, 이상치 처리)
   - 회귀 분석의 기본 가정 6가지 검토

2. **모델 생성 및 모델 fit**
   - 회귀 모델 생성, 모델 설정, 모델 학습
   - 모델의 유의성 검정 (F-검정, T-검정)

3. **모델 성능 평가**
   - R-squared
   - 회귀 분석 후 검증 가능한 가설 검토

4. **모델 성능 개선**
   - 필요 없는 변수 제거
   - 비선형 모델 활용

---

### 1-1) 다중선형회귀의 수식적 이해

\[ y_i = \beta_0+\beta_1X_{1i}+\beta_2X_{2i}+...+\beta_kX_{ki}+\varepsilon_i \]

- 선형회귀식은 종속변수 \(y\) 에 대한 설명변수(feature)의 **가중평균**
- 설명변수에 가중치를 곱해 더함으로써 \(y\) 를 얼마나 잘 설명하는지 나타냄

---

### 1-2) 다중선형회귀의 기본가정

| 기본 가정 | 회귀 분석 전 검증 가능 | 회귀 분석 후 검증 가능 | 검증 방법 |
|-----------|----------------------|----------------------|------------|
| 선형성 (Linearity) | ✅ | ✅ | Scatter plot |
| 독립성 (다중공선성) | ✅ | ✅ | VIF 지수, 상관계수 |
| 오차항 평균이 0 | ❌ | ✅ | np.mean(residuals) |
| 등분산성 (Homoscedasticity) | ❌ | ✅ | 잔차의 도표화 |
| 오차항 자기상관 없음 | ✅ (간접적 검증) | ✅ | Durbin-Watson 검정 |
| 정규성 (Normality) | ❌ | ✅ | Shapiro-Wilk 검정, Q-Q plot |

---

### 1-3) 회귀분석 평가방법

#### **모델의 유의성 검정**
- **F-statistic, Prob(F-statistic)**
  - 귀무가설 \(H_0\): 모든 회귀 계수가 0이다
  - 대립가설 \(H_1\): 적어도 하나의 회귀 계수는 0이 아니다
  - Prob(F-statistic) 값이 0.05보다 작으면 귀무가설 기각 → 모델이 유의미함

- **T-statistic** (각 독립 변수가 종속 변수에 유의미한 영향을 미치는지 검정)
  - P>|t| 값이 0.05보다 작으면 해당 독립 변수는 유의미함

#### **모델의 성능 평가**
- **결정 계수 (R-squared, \( R^2 \))**
  - 모델이 데이터를 얼마나 잘 설명하는지 나타냄 (0과 1 사이의 값)
  - 1에 가까울수록 모델이 데이터를 잘 설명
- **조정된 결정 계수 (Adjusted \( R^2 \))**
  - 독립 변수 개수 증가에 따른 조정 반영
- **AIC, BIC**
  - 정보기준 (information criteria)
  - 값이 낮을수록 좋은 모델
  - AIC: Akaike Information Criterion (BIC보다 복잡성 패널티 작음)
  - BIC: Bayesian Information Criterion (SC, Schwarz Criterion, 더 엄격한 기준 적용)


## 2.비선형 회귀

### 2-1) 다항식 회귀 (Polynomial Regression)
- 선형 모델 \( Y = a + bX \) 확장 → \( Y = a + bX + cX^2 + dX^3 + ... \)
- 곡선 형태의 데이터 패턴을 모델링

**장점**: 선형 모델보다 더 정확한 회귀선을 그림
**단점**: 다항식 차수가 많으면 overfitting 가능 (릿지, 라쏘 규제 활용)

**적합한 상황**:
- 곡선적 패턴을 보이는 데이터
- 성장률, 감소율 변화가 시간에 따라 다를 때

### 2-2) 지수 회귀 (Exponential Regression)
- 지수 함수 형태: \( Y = ae^{bX} \)
- 로그 변환 후 선형 회귀 적용: \( \ln Y = \ln a + bX \)

**적합한 상황**:
- 시간이 지남에 따라 값이 지수적으로 증가/감소하는 경우 (기술 발전, 투자 수익률 등)

### 2-3) 로그 회귀 (Log Regression)
- 로그 함수 형태: \( Y = a + b\log(X) \)
- 독립 변수(X)에 로그 변환 후 선형 회귀 적용

**적합한 상황**:
- 초기에 급증 후 점차 증가율이 둔화하는 패턴 (인구 성장, 감염병 확산 등)

### 2-4) 스플라인 회귀 (Spline Regression)
- 데이터를 여러 구간으로 나누어 각 구간에 다른 회귀 모델 적용
- 구간별 회귀 모델을 연결하여 연속성을 유지

**적합한 상황**:
- 여러 구간에서 패턴이 다르게 나타나는 데이터 (계절별 판매량 변화 등)
