# 목표
#### 1. 다중선형회귀의 기본가정을 알고 검정할 수 있다.
#### 2. 비선형 모델과 선형 모델을 종합적으로 이해할 수 있다.
#### 3. 모델 실습을 통해 회귀 모델링을 경험한다.
---

# Review: 회귀
## 0-1. 회귀란?
### 정의
* 연속적인 데이터에서 패턴(함수 관계)을 찾아내는 통계적 방법
### 종류
* 선형회귀
* 비선형회귀
* 로지스틱회귀
* 릿지회귀
* 라쏘회귀
* 다항회귀
### 활용
* 데이터 요약 및 예측
* 시계열 모델링
* 변수 간 인과관계 발견 등
### 평가 지표
* MSE
* MAE
* R-squared
* Adjusted R-Squared
* AIC
* BC(SC)
> 회귀는 데이터분석의 유용한 통계적 **도구**이자, ML/DL 이해의 **밑바탕**!!

## 0-2. 단순/다중선형회귀분석
### 단순선형회귀분석(Simple Linear Regression)
* 하나의 독립변수만 존재
### 다중선형회귀분석(Multiple Linear Regression)
* 독립변수가 2개 이상

## 0-3. 최적의 회귀선 찾기: 최소제곱법(Least Squares Method), 최소자승법(Ordinary Least Square)
* 보통 **OLS**라고 함
* `잔차` = 회귀선($\hat{y}$)(예측값) - 관측된 데이터값($y$)
* `잔차의 제곱의 합`을 최소화하는 회귀선을 찾는 방법!
---

# 1. 선형회귀
## 1-0. 전체적인 회귀 분석 프로세스
### 1️⃣ 사전 검증
* 데이터 탐색 및 전처리
    * 결측치(NaN) 처리
    * 이상치(Outlier) 처리
* 회귀 분석의 기본 가정 6가지 검토
### 2️⃣ 모델 생성 및 모델 fit
* 회귀 모델 생성, 모델 설정, 모델 학습
* 모델의 유의성 검정
    * F-검정, T-검정
### 3️⃣ 모델 성능 평가
* R-squared
* 회귀 분석 후 검증 가능한 가설 검토
### 4️⃣ 모델 성능 개선
* 필요 없는 변수 제거
* 비선형 모델 활용

## 1-1. 다중선형회귀의 수식적 이해
> $y_i = \beta_0+\beta_1X_{1i}+\beta_2X_{2i}+...+\beta_kX_{ki}+\varepsilon_i $
> * **변수 설명**
>   * $y_i$: i번째 종속변수 (우리가 관심 있는 값)
>   * $X_{1i}, X_{2i},..., X_{ki}$: $y_i$에 대한 여러 개의 설명변수(독립변수)
>   * $\beta_0$: 절편. 설명변수($X$)가 모두 0일 때의 y의 값
>   * $\beta_1, \beta_2, ..., \beta_k$: 설명변수에 의한 회귀 계수 (각 변수 X의 영향력)
>   * $\epsilon_i$: 오차항

여기서 상수항($\beta_0$)과 오차항($\epsilon_i$)을 제외하면, 밑의 식처럼 쓸 수 있음.
> $y=w_0x_0+w_1x_1+\cdot\cdot\cdot+w_mx_m=\sum_{i=0}^mw_ix_i=w^Tx$
* 결국 **선형회귀식**은 
    * 종속변수 y에 대한 설명변수(or feature)의 **가중평균**이라고 할 수 있음.
    * 설명변수에 가중치를 곱해 더함으로써 y를 얼마나 잘 설명하는지를 나타냄.
* 그러나 선형회귀를 모든 상황에 쓸 수 있는 것은 아님.
    * 선형 회귀를 사용하기 위해서는 다음의 가정이 필요함! (분석 결과의 신뢰성, 분석 가능을 위한 가정)

## 1-2. 다중선형회귀의 기본가정
### 1️⃣ 가정1: 선형성(linearity)
>> $E(y|X) = \beta_1+\beta_2X_2+...+\beta_nX_n$
> * 종속변수와 설명변수 간의 관계가 **선형적**이어야 한다. (위의 형태를 따라야 함)
* 기본 가정 중 당연한 가정(아무래도.. 다중'선형'회귀니까..)!

### 2️⃣ 가정2: 독립성(independence)
>> $X_i, X_j \ is \ linearly\ independent \ for\ all \ i,j$
> * 각각의 설명변수가 서로 **선형독립적**이어야 한다.
* 선형독립적이지 않은 경우, **다중공선성(multi-collinearity)** 가 있다고 함.
* **다중공선성**: 독립변수들이 서로 강한 상관관계를 가져서, 어떤 변수가 종속 변수에 가장 큰 영향을 주는지를 알 수 없는 상태
    * 다중공선성이 있는지 알아보는 방법
        * 상관계수 구하기
        * VIF 구하기
    * 다중공선성 대처 방법
        * 변수 제거
        * 규제 선형 모델
        * PCA

### 3️⃣ 가정3: 오차항의 평균은 0이다 (0에 가까워야 한다)
>> $E(\varepsilon_i|X_i) = 0$
* **오차항($\epsilon$)**: 실제 값과 예측 값 사이의 차이
    * 다른 말로 white noise(백색 잡음)이라고도 함
    * 가정3은 백색 잡음의 성질을 만족하기 위해 필요한 가정 중 하나임
        * **백색 잡음(white noise)**: 특정 패턴 없이 랜덤하게 변하는 신호
            * 랜덤한 신호 = 평균적으로 어느 방향에 치우치지 않음 = 평균이 0
        
### 4️⃣ 가정4: 등분산성(Homoscedasticity)
>> $Var(\varepsilon_i|X_i) = \sigma^2$
> * 오차항($\epsilon$)의 분산($\sigma^2$)이 일정해야 한다.
* **이분산성(heteroscedasticity)**: 오차항의 분산이 일정하지 않은 경우
    * 특히 **횡단면 자료**(어느 한 시점에 관찰된 여러 변수들의 관측치)에서 많이 나타남.
    * 이 경우, 회귀 분석의 결과가 정확하지 않을 수 있음. (OLS 추정치의 분산이 inefficient)
        * 등분산성 가정을 만족하지 않으면, <br>
            모델의 예측이 **일부 구간**에서는 **매우 정확**하지만,
            **일부 구간**에서는 오차가 매우 커질 수 있음.
* 등분산성 알아보는 방법
    1. 잔차의 도표화
    2. 검정 (Brown-Forsythe, Breusch-Pagan)
    
### 5️⃣ 가정5: 오차항은 자기상관되어 있지 않다(non-autocorrelation)
>> $Cov(\varepsilon_i, \varepsilon_j|X_i) =0$
> 오차항의 **공분산(Cov)** 은 항상 0이어야 한다.
* **공분산**: 두 변수 간의 **상관된 정보**를 나타내는 지표. <br>
   즉, 두 변수가 **어떻게 함께 변하는지**를 측정하는 값.
   * `Cov(X,Y)`에 대해,
       * `Cov(X,Y)>0`: X가 증가하면 Y도 증가하는 관계(양의 상관관계)
       * `Cov(X,Y)<0`: X가 증가하면 Y는 감소하는 관계(음의 상관관계)
       * `Cov(X,Y)=0`: X와 Y는 독립적인 관계
* **자기상관(Autocorrelation)**: 오차항의 공분산이 0이 아닌 경우.
    * 한 변수의 **현재 값이 과거 값과 상관관계**를 가지는 현상.
    * 특히 **시계열 자료**에서 많이 나타남.
    * 모델이 데이터를 랜덤하게 예측하는 것이 아니라, <br>
        **이전 데이터의 패턴을 학습하여 반복적인 오류**를 만들어 낼 가능성이 높음.
    * 자기상관 알아보는 방법
        1. 더빈-왓슨 검정(Durbin-Watson Test)
        2. ACF, PACF 함수 찍어보기
       
### 6️⃣ 가정6(선택): 정규성(normality)
>> $\varepsilon_i \sim N(0, \sigma^2)$
> 오차항이 정규분포를 따른다.
* 가정6은 위배되어도 다중선형회귀분석의 결과에 큰 영향을 주지 않음.

* **오차항이 정규분포를 따라야 하는 이유?**
    * 애초에 가정이 정규분포임
        * 회귀계수들의 신뢰구간, p-value 계산에 사용되는 공식
    * 오차항이 정규성을 만족한다는 가정을 따르지 않으면, <br>
        p-value가 잘못 계산될 수 있어서 <br>
        결과 해석의 신뢰성이 떨어짐.

* **정규성 알아보는 방법**
    1. 샤피로-윌크 검정(Shapiro-Wilk-Test)
    2. 자퀴-베라 검정(Jarque-Bera Test, DB)
    3. Q-Q plot 찍어보기

### 🤔 이러한 가정 6가지는 모두 회귀분석 전에 검증해야 하는 걸까??
> ### No! 회귀분석 **후**에 검증 가능한 가정들도 있음.

### 👀 회귀분석 전 vs. 회귀분석 후: 검증해야 할 가정 정리
|기본 가정|회귀 분석 전에 검증 가능?|회귀 분석 후에 검증 가능?|검증 방법|
|:---|:-----:|:-----:|:-----:|
|선형성|✅|✅|scattor plot 찍어보기|
|독립성 (다중공선성)|✅|✅|VIF 지수, 상관계수|
|오차항 평균이 0이다|❌|✅|np.mean(residuals)|
|등분산성|❌|✅|잔차의 도표화|
|오차항 자기상관 없다|✅<br>(회귀 분석 전에는 간접적으로 검증 가능, 분석 후에 최종 검증)|✅|Durbin-Watson 검정(분석 후)|
|정규성|❌|✅|Shapiro-Wilk 검증, Q-Q plot|


## 1-3. 회귀분석 평가방법
> 회귀분석의 결과가 얼마나 유효한지 평가하고 싶다면? <br>
>   * **회귀선**을 데이터와 함께 **시각화**하거나, <br>
>   * **통계지표**를 이용하면 됨!
### 🎨 시각화
<figure class="half">
    <a href="link"><img src="./img/img1.png" width="49%"></a>
    <a href="link"><img src="./img/img2.png" width="49%"></a>
</figure><br>

* 회귀선이 데이터 전반을 잘 요약하고 있음.
* 하지만 둘 중 어느 회귀선이 해당 데이터를 더 잘 요약하는지 객관적으로 비교하기는 어려움.
* 두 집단 차이의 정도를 객관적으로 비교하기 위해서 **검정**을 했듯이, <br>
    이 경우에도 **통계지표**를 활용하는 것이 좋음. <br>

### 📊 통계지표
<img src="./img/img4.jpg">

#### 🤨 모델의 유의성 검정: Prob(F-statistic), T-statistic)
##### ☑️ F-검정, T-검정 비교
검정 종류|검정 대상|목적|해석 기준
:---:|:---:|:---:|:-----:
F-검정|전체 모델|회귀 모델이 유의미한지 검정|p < 0.05이면 회귀 모델이 유의미하다
T-검정|개별 변수|특정 독립 변수가 유의미한지 검정|p < 0.05이면 해당 변수가 유의미하다
##### ☑️ F-검정: F-Statistic, Prob(F-statistic)
* **F-statistic**은 **회귀 모델이 유의미한지** 검정하는 지표<br>
    (종속변수 y와 전체 독립변수 X 간의 관계가 통계적으로 유의미한지)
* 귀무가설 $H_0$: 모든 회귀 계수가 0이다 (독립 변수들이 종속 변수들과 관계가 없다)
* 대립가설 $H_1$: 적어도 하나의 회귀 계수는 0이 아니다 (독립 변수 중 하나 이상이 종속 변수에 영향을 준다)
* **수치 해석**
    * F-Statistic의 값이 클수록 모델이 통계적으로 유의미하다는 것을 의미함.
    * Prob(F-statistic)은 F-statistic의 p-value로, <br>
        Prob가 0.05보다 작다면, 귀무가설을 기각할 수 있음. <br>
        (= 적어도 하나의 독립 변수가 종속 변수와 유의미한 관계를 갖고 있다)
        (=회귀 모델이 유의미하다)
##### ☑️ T-검정: T-statistic
* **T-statistic**은 각 **독립 변수가 종속 변수 y에 유의미한 영향을 미치는지** 판단하는 지표 <br>
* 귀무가설 $H_0$: 해당 변수의 회귀 계수가 0이다 (이 변수는 종속 변수에 영향을 미치지 않는다)
* 대립가설 $H_1$: 적어도 하나의 회귀 계수는 0이 아니다 (이 변수는 종속 변수에 유의미한 영향을 준다)
* p-value(P>|t|)를 기준으로 가설 검정을 수행함. (아래는 예시)
    * **CRIM, ZN, INDUS, DIS, B, LSTAT**: <br> p-value가 모두 0.05보다 작으므로(각각 0.004, 0.000, 0.000, 0.000, 0.038, 0.000) 각 변수가 종속 변수(MEDV)에 유의미한 영향을 미친다.
    * **AGE, RAD**: <br> p-value가 모두 0.05보다 크므로 (각 0.185, 0.122) 각 변수가 종속 변수(MEDV)에 유의미한 영향을 미치지 않는다.
#### ⭐️ 모델의 성능 평가: R-squared, Adjusted R-squared, AIC, BIC
##### ☑️ 결정 계수 (R-squared, $R^2$)
* 회귀 분석에서 모델이 설명하는 데이터의 총 변동(평균과의 차이) 중에서 설명된 비율을 나타냄.
    * 데이터의 평균을 예측값으로 사용할 때보다,<br>
        모델을 예측값으로 사용할 때 얼마나 더 정확한 예측인지 나타냄.
* 변수 설명
    * $\bar{Y}$: 평균
    * $\hat{Y}$: 예측 값
    * $Y$: 실제 값
* 위 그림에서는 노란색선으로 표시된 전체 데이터가 평균임
* 초록색 선: SST
* 보라색 선: SSR
* 빨간색 선: SSE
> $R^2 = \dfrac{SSR}{SST} = 1 - \dfrac{SSE}{SST}$
* 모델이 데이터를 **얼마나 잘 설명하는지**를 측정하는 지표
    * 0과 1 사이의 값으로 나타남
* 1에 가까울수록 SSR과 SST의 값이 비슷해지고, SSE는 0에 가까워짐
    * 모델이 데이터를 잘 설명함
* 0이면, 데이터들의 평균을 구한 것과 모델로 예측한 것이 동일한 것
    * 모델이 데이터를 전혀 설명하지 못함
    
##### ☑️ 조정된 결정 계수 (Adjusted R-squared)
> R-square 값이 높으면 높을수록 데이터를 잘 설명한다. 그럼 R-square의 값이 높기만 하면 무조건 좋은 걸까?
* $R^2$는 독립 변수의 개수가 증가하면 증가할수록 자연스럽게 증가함. <br>
    ➡️ 데이터와 큰 관련성이 없는 변수를 추가해도 $R^2$은 높아짐.
* **Adjusted $R^2$**: 변수의 개수 증가에 덜 민감하도록 조정한 지표
    > $\bar{R}^2=\dfrac{SSR}{SST}\dfrac{n-1}{n-k}=1-(\dfrac{SSE/(n-k)}{SST/(n-1)})$
* **변수 설명**
    * $n$: 샘플 수(데이터 개수)
    * $k$: 독립 변수의 개수
* 변수의 개수($k$)가 증가하면 전체 값은 감소하게 됨. <br>
    즉, 변수 개수에 따른 설명력 추가 부분을 상쇄하는 효과를 낼 수 있음. <br><br>
* $\dfrac{SSE}{n-k}$ VS. $\dfrac{SST}{n-1}$
    * 변수를 추가했을 때, **SSE**(회귀선에 의해 설명되지 않는 편차)**가 충분히 감소**하면, $\dfrac{SSE}{n-k}$가 작아져서 $R^2$**이 증가**한다.
    * 변수를 추가했을 때, **SSE**(회귀선에 의해 설명되지 않는 편차)**가 거의 그대로**라면(데이터와 관련성이 없는 변수를 추가하면), $\dfrac{SSE}{n-k}$에서 SSE는 동일하고 n-k만 감소하므로 $\dfrac{SSE/(n-k)}{SST/(n-1)}$에서 **분자 값이 커진다.** 따라서 **Adjusted $R^2$은 작아진다.** (1에서 더 큰 값을 빼니까)
    * 이렇게 식에 $\dfrac{n-1}{n-k}$**을 곱한 것**을 **변수의 개수(k)에 따른 penalty를 부여했다**고 표현함.

##### ☑️ AIC, BIC(SC)
* AIC와 BIC 두 지표 모두 정보기준(information criteria)이라고도 불림
* 값이 **낮을수록** 좋다고 평가함
* AIC = Akaike Information Criterion
    * BIC에 비해 복잡성에 대한 패널티가 비교적 작음.
* BIC = Bayesian Information Criterion, SC = Schwarz Criterion
    * AIC보다 더 엄격한 기준
    * 데이터의 양(n)에 따라 더 강한 패널티를 부과함.

---

# 2. 비선형회귀
<img src="./img/img6.jpg">

> 위처럼 **데이터셋의 분포가 선형적이지 않은 경우**는 어떤 회귀를 사용해야 할까? <br>
> ➡️ **선형적이지 않은 식을 작성**하면 됨!


## 2-1. 다항식 회귀모델(Polynomial regression model)
<img src = "./img/img7.png">

* 기존의 선형 회귀: $Y=a+bX$
* 다항식 회귀 모델: $Y=a+bX+cX^2+dX^3+...$ 의 형태로, <br>
    독립 변수에 **거듭제곱 항**을 추가하여 데이터의 **곡선적(비선형적) 특성을 모델링**함.
### ☑️ 사용 방법
1. 기존의 선형 모델 $Y=a+bX$에 대해 $cX^2, dX^3$ 등을 포함하여 모델을 확장
2. 확장한 상태에 선형 회귀를 적용
### ☑️ 코드
```python
# 1️⃣단계. 기존의 변수들을 다항식으로 만드는 코드
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, include_bias=False)
X_poly = poly.fit_transform(X)


# 2️⃣단계. 그 다음에 statsmodel이나 sklearn의 선형회귀 클래스를 똑같이 이용함
# 2-1. statsmodels의 sm을 활용하는 방법
import statsmodels.api as sm

X_poly = sm.add_constant(X_poly)
model = sm.OLS(Y, X_poly).fit()
Y_pred = model.predict(X_poly)

# 2-2. sklearn의 LinearRegression 활용하는 방법
from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_poly, Y)
Y_pred = model.predict(X_poly)

```
#### (참고) `statsmodel의 SM.OLS`와 `sklearn의 LinearRegression`의 비교
<img src="./img/img13.png">
<img src="./img/img14.png">
    

### ☑️ 다항식 회귀모델의 장단점
* **장점**: 선형 모델에 비해 회귀선을 잘 fit하도록 그릴 수 있음.
* **단점**: 너무 많은 feature를 이용하면 결과가 overfitting될 수 있음. <br>
    (overfitting을 방지하기 위해 릿지 규제, 라쏘 규제를 이용할 수 있음.)
    
### ☑️ 다항식 회귀모델이 적합한 상황
    * 관계가 직선적이지 않고 **곡선을 그리는 데이터 패턴**에서 유용함.
    * **성장률, 감소율** 등이 시간에 따라 변화하는 속도가 다른 경우

## 2-2. 지수 회귀모델(Exponential model)
<img src="./img/img8.png">

* 지수 회귀모델은 **종속 변수가 지수적으로 변화하는 관계를 모델링 할 때** 사용할 수 있음.

### ☑️ 사용 방법
1. 지수함수 형태의 데이터는 $Y=ae^{bX}$의 수식을 따름.
2. 이때, 종속변수 Y에 로그함수를 적용하기. <br>
    $Y=ae^{bX}$의 양변에 로그를 취하면 <br>
    $\ln Y = \ln a + bX$가 됨. <br>
    여기서 $\ln Y$를 $Y'$으로, $\ln a$를 $a'$으로 본다면 $Y'=a'+bX$가 됨.
3. ➡️ 지수 모델은 **종속 변수 Y에 로그**를 취한 후, **선형 회귀를 적용**하면 됨!
    <br> 이렇게 계산된 $Y'$은 $\ln Y$이므로 기존의 데이터($Y$)와 형태가 달라짐.
4. ➡️ 따라서 **원래의 데이터 형태로 복구하기 위해 예측 값에 지수함수($e^x$)를 적용**하여 로그 변환하기 전 $Y$로 변형

### ☑️ 코드
```python
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

# 지수함수 형태의 임의의 데이터 생성 
np.random.seed(42)
X = np.linspace(1, 10, 20).reshape(-1, 1)
Y = 2 * np.exp(0.8 * X).flatten() + np.random.normal(0, 10, X.shape[0]) 

# 종속변수 Y에 자연 로그 변환
log_Y = np.log(Y) # log_Y: 로그 변환된 Y

# 회귀 모델 학습 (log(Y) = a + bX)
X_const = sm.add_constant(X)  
model = sm.OLS(log_Y, X_const).fit()

# 예측값 변환 (exp를 적용해 원래 스케일로 변환)
log_Y_pred = model.predict(X_const)
Y_pred = np.exp(log_Y_pred) # exp(지수 함수) 적용해서 로그 변환 되기 전의 Y로

# 데이터 시각화
plt.scatter(X, Y, label="Actual Data", color="blue")
plt.plot(X, Y_pred, label="Exponential Fit", color="red")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.title("Exponential Regression")
plt.show()
```
<img src="./img/img9.png">

* 파란 점: 실제 데이터
* 빨간 곡선: 모델이 예측한 회귀선

### ☑️ 지수 회귀모델이 적합한 상황
* 값이 시간에 따라 **지수적으로 증가하거나 감소**하는 경우 적함
* 기술 발전, 투자 수익률 증가 등


## 2-3. 로그 회귀모델(Log regression model)
<img src="./img/img10.png">

* 로그 회귀모델은 종속 변수와 독립 변수 간의 관계가 로그 함수를 통해 더 잘 표현될 때 사용할 수 있음.

### ☑️ 사용 방법
* 로그함수 형태의 데이터는 $Y=a+b\log (X)$의 수식을 따름. <br>
    이는 $Y=a+bX$의 선형식에서 $X$의 자리에 $\log (X)$가 들어간 것임.
1. 독립 변수 $X$에 로그 함수를 적용
2. 선형 회귀를 적용
* ➡️ 이렇게 예측된 값은 $Y$이므로 **예측값에 별도의 처리를 하지 않고 그대로** 사용할 수 있음. <br>
    (지수 회귀모델에서는 예측된 값이 $Y'$이었기 때문에 $Y'$에 지수함수 연산을 수행했었음)

### ☑️ 코드
```python
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

# 로그함수 형태의 임의의 데이터 생성 
np.random.seed(42)
X = np.linspace(1, 10, 20).reshape(-1, 1)
Y = 5 + 3 * np.log(X).flatten() + np.random.normal(0, 0.5, X.shape[0]) 

# 독립 변수 X에 자연 로그 변환
log_X = np.log(X)

# 회귀 모델 학습 (Y = a + b * log(X))
log_X_const = sm.add_constant(log_X) 
model = sm.OLS(Y, log_X_const).fit()

# 예측값 계산
Y_pred = model.predict(log_X_const)

# 데이터 시각화
plt.scatter(X, Y, label="Actual Data", color="blue")
plt.plot(X, Y_pred, label="Logarithmic Fit", color="red")
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Logarithmic Regression")
plt.show()
```
<img src="./img/img11.png">

* 파란 점: 실제 데이터
* 빨간 곡선: 모델이 예측한 회귀선

### ☑️ 로그 회귀 모델이 적합한 상황
* 데이터가 **초기에 빠르게 증가**하고 **점차 증가율이 줄어드는 패턴**을 보일 때 효과적
* 인구 성장, 감염병 확산 등

## 2-4. 스플라인 회귀(Spline Regression)
<img src="./img/img12.png">


* Spline이란, 매듭점 사이를 충분히 매끄럽게 연결해주는 함수임.
* 스플라인 회귀는 데이터를 구간별로 나누고, 각 구간에서 서로 다른 선형 또는 비선형 함수를 적용하여 예측하는 방식임.

### ☑️ 사용 방법
* 전체 데이터 범위를 여러 구간으로 나누고, 각 구간에 대해 회귀 모델(선형 또는 다항 등)을 적용
* 구간 경계에서의 **연속성을 유지**하는 것이 중요함
> $Y = \begin{cases} a_1 + b_1X & \text{if } X < c_1 \\a_2 + b_2X & \text{if } c_1 \leq X < c_2 \\\cdots \\a_n + b_nX & \text{if } X \geq c_{n-1}\end{cases}$

### ☑️ 코드
```python
# 스플라인 회귀 모델에 대한 간략한 버전의 코드입니다. 
# 전체 구간에 대해 한 종류의 회귀 모델만 사용 가능합니다 (선형 또는 다항)
# 첫 번째 구간에는 선형 모델을 사용, 두 번째 구간에는 다항 모델을 사용하는 것처럼
# 구간별로 다른 모델을 사용하기 위해서는 반복문을 활용한 코드를 사용해야 합니다. 

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from patsy import dmatrix
import statsmodels.api as sm

# 랜덤 데이터 생성
np.random.seed(42)
X = np.linspace(0, 10, 100)
Y = np.sin(X) + np.random.normal(0, 0.2, size=X.shape)

# X의 데이터에 스플라인 함수를 적용하여 새로운 데이터 X_spline을 만들고, 
# 이 새로운 데이터로 선형 회귀를 진행하는 방식

X_spline = dmatrix("bs(X, df=5, degree=3, include_intercept=False)", 
{"X": X}, return_type='dataframe')
# X: 데이터
# df: 나눌 구간의 수+1 (df=5라면 4개의구간으로 구분합니다)
# degree: 사용할 회귀 모델의 차수 (degree=1이면 선형회귀, degree=2면 2차 다항 회귀)
# include_intercept=False: 절편 제거(필요하면 True로)
# return_type='dataframe': dataframe 형식으로 반환합니다.

model_spline = sm.OLS(Y, X_spline).fit()
Y_pred_spline = model_spline.predict(X_spline)

# 시각화
plt.scatter(X, Y, label="Actual Data", color="blue", alpha=0.5)
plt.plot(X, Y_pred_spline, label="Cubic Spline Regression", color="red")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.title("Cubic Spline Regression Fit")
plt.show()
```
<img src="./img/img15.png">

### ☑️ 스플라인 회귀 분석이 적합한 상황
* 데이터 패턴이 **여러 구간에서 서로 다르게** 나타날 때 유용
* 계절에 따라 판매량이 변화하는 소매 데이터 분석 등