# 회귀 심화

## 0-1) 회귀란?

### 학습 유형
- **지도학습**: 정답(목표값)이 있는 데이터로 학습
  - 입력 데이터와 정답 간의 관계를 학습
- **비지도학습**: 정답 없이 데이터의 패턴이나 구조 탐색

### 정의
- 연속적인 데이터에서 변수들 간의 함수적 관계를 찾아내는 통계적 방법
- 데이터의 패턴을 수학적 모델로 표현

### 회귀 종류
- **선형회귀**: 변수 간 선형 관계 모델링
  - 단순선형회귀: 1개 독립변수
  - 다중선형회귀: 2개 이상 독립변수
- **비선형회귀**: 선형 관계가 아닌 복잡한 관계 모델링
- **로지스틱회귀**: 분류 문제에 사용되는 특수한 회귀
- **릿지/라쏘회귀**: 과적합 방지를 위한 정규화 회귀
- **다항회귀**: 다항식을 이용한 곡선 형태의 관계 모델링

### 활용 목적
- 데이터 요약 및 압축
- 미래 값 예측
- 시계열 데이터 분석
- 변수 간 인과관계 발견

### 평가지표
- **MSE(Mean Squared Error)**: 평균 제곱 오차
- **MAE(Mean Absolute Error)**: 평균 절대 오차
- **R-square**: 모델의 설명력
- **Adjusted R-square**: 변수 수 조정된 설명력
- **AIC/BIC**: 모델 복잡성 페널티 고려 지표

## 0-2) 단순/다중선형회귀분석

### 단순선형회귀분석 (Simple Linear Regression)
- **특징**: 하나의 독립변수로 종속변수 예측
- 가장 기본적인 회귀 모델
- $Y = \beta_0 + \beta_1X + \epsilon$

### 다중선형회귀분석 (Multiple Linear Regression)
- **특징**: 두 개 이상의 독립변수로 종속변수 예측
- 복잡한 현상 모델링에 유용
- $Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_kX_k + \epsilon$

### 공통점
- 변수의 개수만 다를 뿐, 기본 원리는 동일
- 선형관계를 가정한 통계적 모델링 방법

## 0-3) 최소 제곱법 (Least Squares Method)

### 정의
- **OLS(Ordinary Least Square)**: 회귀분석의 대표적인 추정 방법
- 실제 값과 예측값 사이의 오차(잔차) 제곱의 합을 최소화

### 핵심 원리
- 잔차(Residual): 실제 값 - 예측값
- 잔차 제곱의 합(RSS)을 최소화하는 회귀선 찾기
- 오차를 최소화하여 가장 적합한 모델 도출

## 1. 선형회귀

### 1-0) 회귀 분석 프로세스

1. 사전 검증 
   - 데이터 탐색: 분포, 특성 파악
   - 전처리: 결측치, 이상치 처리
   - 기본 가정 검토: 선형성, 독립성 등

2. 모델 생성 및 학습
   - 변수 선택 및 모델 구조화
   - 모델 훈련
   - 통계적 유의성 검정
     - F-검정: 전체 모델 유의성
     - T-검정: 개별 변수 유의성

3. 모델 성능 평가
   - R-squared로 설명력 측정
   - 가설 검증
   - 예측 정확도 평가

4. 모델 개선
   - 불필요한 변수 제거
   - 비선형 모델 탐색
   - 규제 기법 적용

### 1-1) 다중선형회귀의 수식적 이해

#### 변수 의미
- $y_i$: 종속변수 (예측 대상)
- $X_{1i}, X_{2i}, ... , X_{ki}$: 독립변수 (예측 인자)
- $\beta_0$: 절편 (모든 독립변수 0일 때 종속변수 값)
- $\beta_1, \beta_2, ..., \beta_k$: 회귀계수 (각 변수의 영향력)
- $\epsilon_i$: 오차항 (모델이 설명하지 못하는 부분)

### 1-2) 다중선형회귀의 기본가정

1. **선형성**
   - 종속변수와 독립변수 간 직선적 관계
   - 비선형 관계는 변환 필요

2. **독립성**
   - 독립변수들 간 강한 상관관계 없음
   - **다중공선성** 확인 중요
     - VIF(Variance Inflation Factor) 등으로 진단

3. **오차항 평균 0**
   - **백색 잡음(White Noise)** 특성
   - 랜덤하고 예측 불가능한 오차

4. **등분산성**
   - 오차의 분산이 일정
   - 이분산성 존재 시 모델 신뢰성 저하

5. **비자기상관**
   - 연속된 오차들 간 상관관계 없음
   - 특히 시계열 데이터에서 중요

6. **정규성** (선택적)
   - 오차항의 정규분포
   - 엄격하지 않으나 바람직한 특성

### 1-3) 회귀분석 평가방법

#### 시각화 기법
- 산점도
- 잔차 플롯
- 회귀선과 데이터 분포 비교

#### 통계적 평가지표
1. **R-squared**
   - 모델의 설명력 (0-1 사이)
   - 1에 가까울수록 좋은 모델

2. **Adjusted R-squared**
   - 변수 수 증가에 따른 패널티 반영
   - 과적합 방지

3. **AIC/BIC**
   - 모델 복잡성 고려 지표
   - 값이 작을수록 좋은 모델

## 2. 비선형 회귀

### 1. 개요
비선형 회귀는 데이터의 분포가 선형적이지 않을 때 사용하는 회귀 기법으로, 데이터 간의 비선형적 패턴을 모델링하는 방법

### 2. 비선형 회귀 모델 유형

#### 2-1. 다항식 회귀 모델 (Polynomial Regression)
- **기본 형태**: $Y = a + bX + cX^2 + dX^3 + \cdots$
- **특징**: 
  - 선형 모델에 거듭제곱 항을 추가하여 곡선적 특성 모델링
  - 비선형적 데이터 패턴에 유용

##### 장단점
- **장점**: 선형 모델보다 데이터에 더 잘 적합
- **단점**: 과도한 특성 사용 시 과적합(Overfitting) 위험

#### 2-2. 지수 회귀 모델 (Exponential Regression)
- **기본 형태**: $Y = ae^{bX}$
- **접근 방법**:
  1. 양변에 로그 취하기: $\ln Y = \ln a + bX$
  2. 로그 변환된 데이터에 선형 회귀 적용
  3. 예측값에 지수함수 적용하여 원래 스케일로 복원

##### 적합한 상황
- 시간에 따라 지수적으로 증가/감소하는 데이터
- 기술 발전, 투자 수익률 등

#### 2-3. 로그 회귀 모델 (Logarithmic Regression)
- **기본 형태**: $Y = a + b\log(X)$
- **접근 방법**:
  1. 독립변수 X에 로그 함수 적용
  2. 선형 회귀 모델 학습
  3. 예측값을 그대로 사용

##### 적합한 상황
- 초기에 빠르게 증가하다 점차 증가율이 줄어드는 패턴
- 인구 성장, 감염병 확산 등

#### 2-4. 스플라인 회귀 (Spline Regression)
- **기본 개념**: 데이터를 구간별로 나누고 각 구간에 다른 회귀 모델 적용
- **수식**: 구간별로 다른 선형/비선형 함수 사용
- **특징**: 구간 경계에서의 연속성 유지

##### 적합한 상황
- 데이터 패턴이 여러 구간에서 서로 다르게 나타날 때
- 계절에 따른 판매량 변화 분석 등