# 1. 선형회귀 

## 1. 전체적인 회귀 분석 프로세스

1. 사전 검증
   - 데이터 탐색 + 전처리
   - 회귀 분석 기본 가정 6가지 검토
2. 모델 생성 및 모델 fit
    - 회귀 모델 생성, 설정, 학습
    - 유의성 검정
         - F검정, T검정
3. 모델 성능 평가
   - R-squared
   - 회귀 분석 후 검증 가능한 가설 검토
4. 모델 성능 개선
   - 필요 없는 변수 제거
   - 비선형 모델 활용

## 2. 다중선형회귀의 수식적 이해

y = ∑ (wi * xi) = (w^T) * x
- 반응변수 y에 대한 설명변수의 가중평균
- 설명변수에 가중치를 곱해 더함으로써 y를 얼마나 잘 설명하는지 나타냄 (회귀계수가 클수록 더 잘 설명)

## 3. 다중선형회귀의 기본 가정 

- 다음의 가정을 만족하지 않으면, 분석 결과의 신뢰성 하락 + 심한 경우 분석 불가능 

1. 선형성 (Linearity)
- 반응변수와 설명변수 간 관계가 선형적 

2. 독립성 (Independence)
- 각각의 설명변수가 선형독립적이어야 함
- 선형독립적이지 않은 경우 다중공선성(multi-collinearity)이 있다

3. 오차항의 평균은 0 (0에 가까워야 한다)
- 오차항: 실제 값과 예측 값의 차이
- 백색 잡음(white noise)
    - 오차항의 다른 이름
    - 특정 패턴 없이 랜덤하게 변하는 신호
    - 랜덤 신호이기 때문에, 평균적으로 어느 방향에 치우치지 않아야 함
    - 만약 오차항의 평균이 3이이라면, 회귀 모델이 항상 실제값보다 3 크게/작게 예측한다는 문제 발생 (데이터의 패턴 분석 오류)

4. 등분산성 (Homoscedasticity)
- 오차항의 분산이 일정해야 한다
- 오차항의 분산이 일정하지 않은 경우, 이분산성(heteroscedasticity) 존재
  - 횡단면 자료에서 많이 나타남
  - 전체 데이터에 대한 예측이 구간 별로 차이가 날 수 있음
- 등분산성 확인 방법
  1. 잔차의 도표화
  2. 검정 (Brown-Forsythe, Breusch-Pagan)

5. 오차항은 자기상관되어 있지 않다 (Non-Autocorrelation)
   - 오차항의 공분산은 항상 0이어야 한다
   - 오차항의 공분산이 0이 아닌 경우, 자기상관(Autocorrelation)이 있다고 함
     - 자기상관: 한 변수의 현재 값이 과거 값과 상관관계를 가지는 현상
     - 특히 시계열 자료 (ex. 주가)
     - 모델이 데이터를 랜덤하게 예측하는 것이 아닌, 이전 데이터 패턴을 학습해 반복적 오류 가능성 있음
    - 자기상관 확인 방법
      1. 더빈-왓슨 검정
      2. ACF, PACK 함수
6. 정규성 (Normality)
   - 오차항이 정규분포를 따른다
   - 선택적인 가정 (위배되어도 다중선형회귀분석의 결과에 큰 영향을 주지는 않음)
   - 정규성 확인 방법
     1. 샤피로-윌크 검정
     2. 자퀴-베라 검정
     3. QQ plot

+ 회귀 분석 전에 검증 가능한 가정 3가지
  - 선형성, 독립성, 오차항의 자기상관(간접적)
  - 위의 가정을 포함한 모든 가정은 회귀 분석 후에 검증 가능

## 4. 회귀분석 평가 방법

1. 시각화
   - 회귀선이 데이터를 잘 요약하는지 확인
   - 하지만, 시각적 비교에는 한계가 있음
2. 통계지표
   1. 모델의 유의성 검정
      1. F-statistics (F-검정)
         - 검정 대상: 전체 모델
         - 목적: 회귀 모델이 유의미한지 검정
         - 귀무가설(H0): 모든 회귀 계수가 0이다
         - 대립가설(H1): 적어도 하나의 회귀 계수는 0이 아니다
         - 해석
           - P값이 0.05 미만이면 회귀 모델 유의미
           - F값이 크면 클수록, 모델이 통계적으로 유의미
      2. T-statistics (T-검정)
         - 검정 대상: 개별 변수
         - 목적: 특정 설명 변수가 유의미한지
         - 귀무가설(H0): 해당 변수의 회귀 계수가 0이다
         - 대립가설(H1): 해당 변수의 회귀 계수는 0이 아니다
         - 해석:
           - P값이 0.05 미만이면, 해당 변수 유의미
    2. 모델의 성능 평가 
       1. R-square (결정계수, R^2)
          - 회귀분석 결과를 평가하는 가장 대표적 지표
          - 회귀 분석에서 모델이 설명하는 데이터의 총 변동(평균과의 차이) 중에서 설명된 비율
          - 데이터의 평균을 예측값을 사용할 때보다, 보델을 사용할 때 얼마나 더 정확한 예측인지
          - (예측치 - 평균치) / (실제치 - 평균치) = 1- (실제치 - 예측치) / (실제치 - 평균치)
          - 0과 1 사이의 값
            - 1에 가까울 수록 모델이 데이터를 잘 설명한다고 볼 수 있음
            - 0에 가까울 수록 모델이 데이터를 잘 설명하지 못 한다고 볼 수 있음
          - 조정된 결정 계수 (Adjusted R-squared, Adjusted R^2)
              - R^2는 설명 변수의 개수가 증가할수록 자연스럽게 증가
                - 데이터와 큰 관련성이 없는 변수를 추가해도 R-Square 값이 높아짐
              - 변수의 개수 증가에 덜 민감하도록 조정한 지표
              - (예측치 - 평균치)*(n-1) / (실제치 - 평균치)*(n-k)\
                 = 1- ((실제치 - 예측치)/(n-k) / (실제치 - 평균치)/(n-1))
                - n: 샘플(데이터)의 수 / k: 설명 변수의 수
                - 변수 개수(k)가 증가하면 전체 R-square 값은 낮아짐
                - 이렇게 식에 (n-1/n-k)를 곱한 것을, 변수의 개수(k)에 따른 penalty를 부여했다고 표현함
          2. AIC, BIC(SC)
             - 두 지표 모두 정보기준 (Information Criteria)
             - 값이 낮을수록 좋다고 평가함
             1. AIC (Akaike Information Criterion)
                - BIC에 비해 복잡성에 대한 패널티가 비교적 작음
             2. BIC(Bayesian Information Criterion ,SC:Schwarz Criterion)
                - AIC보다 엄격한 기준
                - 데이터의 양(n)에 따라 더 강한 패널티 부과

# 2. 비선형 회귀

## 1. 다항식 회귀모델 (Polynominal Regression Model)

- 형태: Y=a + bx + cx^2 +dx^3
- 독립변수에 거듭제곱 항 추가
- 데이터의 곡선적(비선형적) 특성 모델링
- 사용방법
  1. 기존 선형 모델 Y=a+bx에 대해 cx^2, dx^3 등을 포함해 모델 확장
  2. 확장한 상태에서 선형 회귀 적용
- 장점
  - 선형 모델에 비해 회귀선을 잘 fit하도록 그릴 수 있음
- 단점
  - 너무 많은 피처를 이용하면 과적합 위험 (방지를 위해 릿지, 라쏘 규제 이용 가능)
- 적합한 상황
  - 변수 간 관계 패턴이 직선이 아닌 곡선일 때
  - 성장률, 감소율 등 시간에 따라 변화하는 속도가 다른 경우

## 2. 지수 회귀모델 (Exponential Model)

- 종속 변수가 지수적으로 변화하는 관계 모델링
- 형태: Y=a*e^(b*x)
  - 양 변에 로그를 취하면 -> ln Y = ln a + bX
  - 선형 회귀 식과 유사한 형태로 변환 가능
- 사용 방법:
  1. 반응변수 Y에 로그함수 적용
  2. 로그 변환된  Y와 기존 설명변수 X에 대해 선형 회귀 적용
     - 모델이 ln Y와 X의 선형 관계 학습
   3. Y값 예측 시, 모델이 예측한 Y값에 지수함수(e^x)를 적용해 로그 변환하기 전 Y로 변환
- 적합한 상황:
  - 값이 시간에 따라 지수적으로 증가 or 감소
  - 기술 발전, 투자 수익률 증가 등

## 3. 로그 회귀모델 (Log Regression Model)

- 설명 변수와 반응 변수 간 관계가 로그 함수를 통해 더 잘 표현될 때 사용 가능
- 형태: Y = a + blog(X)
  - Y=a+bx 선형식에서 X 자리에 log(X)가 들어간 것
  - 독립 변수 X에 로그 연산을 취한 후, 나머지는 선형 회귀와 동일
- 사용 방법
  1. 독립 변수 X에 로그함수 적용
  2. 선형 회귀 적용
  3. Y 값에 대한 별도 처리 없이 그대로 활용 가능
- 적합한 상황
  - 데이터가 초기에 빠르게 증가하고 점차 증가율이 줄어드는 패턴을 보일 때
  - 인구 성장, 감염병 확산 등

## 4. 스플라인 회귀 (Spline Regression)

- 데이터를 구간 별로 나누고 각 구간에서 다른 선형/비선형 함수를 적용해 예측하는 방식
- 사용 방법
  1. 전체 데이터 범위를 여러 구간으로 나누기
  2. 각 구간별로 별도의 회귀 모델 적용 (선형/다항 등)
  - 구간 경계에서의 연속성을 유지하는 것이 중요
 - 적합한 상황:
   - 데이터 패턴이 여러 구간에서 서로 다르게 나타날 때 유용
   - 계절에 따라 판매량이 변화하는 소매 데이터 분석 등