# 규제 선형 모델 Regularization

25.07.22 (화) 11주 49일차


# Regularization

![규제선형모델1](images\규제선형모델1.png)

규제는 과적합 모델(Overfitting Model)을 일반화된 모델(Generalization)로 변환하여 모델이 학습 데이터에 지나치게 맞춰지는 것을 방지하고, 새로운 데이터에도 잘 작동하도록 도와준다.  규제는 모델의 복잡도를 제한하여 더 안정적이고 일반화된 모델을 만들며, 이는 예측 성능을 향상시키는 데 중요한 역할을 한다. 

- 선형 모델의 비용함수는 RSS, 즉 실제 값과 예측값의 차이를 최소화하는 것을 고려한 방식이다.  이 경우 학습 데이터에 지나치게 맞추게 되어 회귀 계수가 쉽게 커지고, 변동성이 오히려 커져서 테스트 데이터 세트에서는 예측 성능이 저하되기 쉬운 과적합이 우려되었다.
- 하지만 **손실 함수만 최소화**하면, 훈련 데이터에 과도하게 적합하는 **과적합(overfitting)** 이 발생할 수 있음.
- 방지를 위해 **정규화(regularization)** 를 도입하여 **계수(가중치)의 크기에 제약(penalty)** 을 부여함.
- 이 제약 항에 **알파(𝛼)** 를 곱해서 손실 함수와의 균형을 조절함.

총 Cost=Loss+α⋅Penalty $= \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \alpha \sum_{j=1}^{p} w_j^2$

규제는 크게 L2 방식과 L1 방식으로 나눈다.  ****

**L2 규제를 적용한 릿지 회귀, L1 규제를 적용한 라쏘 회귀,  두 가지 규제를 합한 것이 엘라스틱넷**이다.


# Ridge  & Lasso

**Ridge와 Lasso**는 기존 다중 선형 회귀 모델의 손실 함수에 계수 크기에 대한 **페널티를 더한 함수**를 사용하여 모델을 학습한다.

![Ridge&Lasso](images\Ridge&Lasso.png)

## Ridge(L2 규제) 회귀

![Ridge(L2규제)회귀](images\Ridge(L2규제)회귀.png)

이런  비용함수를 사용하는 회귀 함수를 **릿지 회귀Ridge Regression** 또는 능형 회귀라고 한다.   

알파는 사용자가 정의한 하이퍼파라미터로 모델을 얼마나 규제할지 그 정도를 조절하는 일을 한다. 만일 알파가 0의 값을 가지면 두번째 항 전체가 0이 되므로 원래 비용함수와 동일할 것이다.  반대로 알파가 매우 큰 값을 가지면 모든 파라미터가 거의 0에 가까워 져서 결국 데이터의 평균을 지나는 수평선이 될 것이다.(과소적합)  **하지만 릿지 회귀의 경우 회귀 계수를 0으로 만들지는 않는다.**

![Ridge(L2규제)회귀2](images\Ridge(L2규제)회귀2.png)

**규제가 강해질수록 (α 증가)** → 예측 오차/RSS 증가 (덜 민감하게 됨) →  **일부 입력 변수의 계수가 0에 가까워져서 사실상 모델이 사용하는 입력변수의 수가 줄어드는 효과**

릿지 회귀는 전체 계수의 크기를 최대한 작게(분산을 줄임) 만드는 동시에 회귀모델의 성능을 올리게 된다. 

입력변수가 완전히 제거되진 않지만, **영향력이 매우 작아져 사실상 '무시'되는 수준**으로 감소한다.
 
그래서 Ridge의 훈련 데이터는 전체적으로 선형 회귀의 점수보다 낮으나 **데이터가 충분히 많으면 규제항은 덜 중요해져서 릿지 회귀와 선형 회귀의 성능은 같아지게 된다**.  그래서 벌칙 penalty 라고 부르기도 한다.

![Ridge(L2규제)회귀3](images\Ridge(L2규제)회귀3.png)

<aside>
💡

**1) 현재 데이터를 조금 덜 훌륭하게 설명하는 모델을 얻게 되더라도**, 

**2) 미래 데이터에 대한 예측 성능이 조금 더 좋은 모델**을 만든다.

</aside>

In [1]:
from sklearn.linear_model import Ridge

# 3. 릿지 회귀
ridge = Ridge(alpha=1.0)  # alpha는 규제 강도
ridge.fit(X_train, y_train)
pred_ridge = ridge.predict(X_test)

print("\n[릿지 회귀]")
print("MSE:", mean_squared_error(y_test, pred_ridge))
print("R2:", r2_score(y_test, pred_ridge))


NameError: name 'X_train' is not defined

# 규제 회귀모델 (Regularization Regression Model)

In [None]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet


In [None]:
# 데이터 생성 (Ridge 회귀 실습용)
import numpy as np
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 예시 데이터 생성
X, y = make_regression(n_samples=100, n_features=10, noise=10, random_state=42)

# train/test 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print("✅ 데이터 준비 완료!")
print(f"X shape: {X.shape}")
print(f"학습 데이터: {X_train.shape}")  
print(f"테스트 데이터: {X_test.shape}")

In [None]:
# Ridge 회귀 실행
ridge = Ridge(alpha=1.0)  # alpha는 규제 강도
ridge.fit(X_train, y_train)
pred_ridge = ridge.predict(X_test)

print("🔍 [릿지 회귀 결과]")
print("MSE:", mean_squared_error(y_test, pred_ridge))
print("R²:", r2_score(y_test, pred_ridge))

In [30]:
from sklearn.model_selection import train_test_split
# Ridge 모델을 만들기 전에 이 코드를 추가해주세요!

# --- 데이터 분리 코드 ---
# 가지고 있는 전체 데이터(X)와 전체 정답(y)을 넣습니다.
# test_size=0.2는 전체 데이터 중 20%를 테스트용으로 사용하겠다는 의미입니다.
# random_state는 코드를 다시 실행해도 항상 똑같은 방식으로 데이터를 나누기 위해 설정하는 값입니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# --- 이제 원래 코드를 실행하면 정상적으로 작동합니다 ---
# 3. 릿지 회귀
ridge = Ridge(alpha=1.0) # alpha는 규제 강도
ridge.fit(X_train, y_train) # 이제 X_train이 존재하므로 에러가 발생하지 않습니다.
pred_ridge = ridge.predict(X_test)

print("\n[릿지 회귀]")
print("MSE:", mean_squared_error(y_test, pred_ridge))
print("R2:", r2_score(y_test, pred_ridge))


[릿지 회귀]
MSE: 127.60013070944176
R2: 0.9978774507478436


In [31]:
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
pred_ridge = ridge.predict(X_test)

mse = mean_squared_error(y_test, pred_ridge)
r2  = r2_score(y_test, pred_ridge)
mse, r2

(127.60013070944176, 0.9978774507478436)

In [32]:
다항 회귀 모델
15.5, 0.78

SyntaxError: invalid syntax (1467610003.py, line 1)

In [33]:
from sklearn.linear_model import RidgeCV, LassoCV
alphas = [0.001, 0.01, 0.1, 1, 10, 100]
ridge_cv = RidgeCV(alphas=alphas, cv=5)


In [34]:
ridge_cv.fit(X_train, y_train)
ridge_preds = ridge_cv.predict(X_test)

In [35]:

ridge_mse = mean_squared_error(y_test, ridge_preds)
ridge_r2 = r2_score(y_test, ridge_preds)
print(f'ridge cv mse: {ridge_mse:4f}, r2 : {ridge_r2:4f}')

ridge cv mse: 102.793230, r2 : 0.998290


In [None]:
ridge_cv.alpha_

## Lasso(L1 규제) 회귀

L1  규제는 w의 절대 값에 패널티를 부여하는 방식이다.  

- 라쏘 회귀는 전체 입력변수 계수 중 일부를 0으로 만들어 입력 변수를 선택하게 한다.
- 일반적으로는 Ridge를 선택하지만, 특성이 굉장히 많고 그 중 일부만 중요한 특성인 경우 또한 일부 특성만으로 분석하기 쉬운 모델을 원할 경우 선택하는 것이 라쏘 회귀이다.
- Feature Engineering의 **특성 추출(축소)**와 유사한 기능이라고 생각할 수 있다.

![Lasso1](images\Lasso1.png)

![Lasso2](images\Lasso2.png)


- **가중치 𝝏의 값이 커질수록 규제는 강해지며 모델은 일반화된다.**
![Lasso3](images\Lasso3.png)


In [2]:
from sklearn.linear_model import Lasso
# 4. 라쏘 회귀

lasso = Lasso(alpha=0.1)  # alpha 값 작으면 규제 약해짐
lasso.fit(X_train, y_train)
pred_lasso = lasso.predict(X_test)

print("\n[라쏘 회귀]")
print("MSE:", mean_squared_error(y_test, pred_lasso))
print("R2:", r2_score(y_test, pred_lasso))

NameError: name 'X_train' is not defined

## 리지와 라쏘의 비교

![ridgeVSlasso](images\ridgeVSlasso.png)

- Ridge 회귀 계수들이 0을 중심으로 분포하며, 알파값이 커질수록 계수들이 0에 더 가까워지는 경향
- Lasso 회귀는 일부 계수들이 정확히 0이 되는 것을 확인할 수 있다.  알파값이 커질수록 더 많은 계수들이 0이 되어 변수 선택 효과를 낸다.

## Lasso alpha=0.1

## LassoCV


## 엘라스틱 넷 회귀

엘라스틱 넷 Elastic Net 회귀는 L2 규제와 L1 규제를 결합한 회귀이다.  

- Lasso(L1): 변수 선택(특정 계수를 0으로 만들어 모델을 간결하게 만듦)에 강함.그러나, 다중공선성이 높은 데이터(독립 변수 간 상관관계가 높은 경우)에서는 불안정할 수 있음.
- Ridge(L2): 다중공선성이 높은 데이터에서 안정적이지만, 모든 계수를 0에 가깝게 줄일 뿐 0으로 만들지는 않음.

**Elastic Net**은 L1과 L2 규제를 동시에 사용하여 **Lasso의 희소성(sparsity)**과 **Ridge의 안정성(stability)**을 모두 얻는 것을 목표로 한다.

![엘라스틱넷회귀](images\엘라스틱넷회귀.png)

- α:  전체 규제의 강도.
- ρ: L1과 L2의 가중치를 조절 (0이면 Ridge, 1이면 Lasso).



In [4]:
# 5. 엘라스틱넷 회귀
model_enet = ElasticNet(alpha=0.1, l1_ratio=0.5)  # l1_ratio=0.5: L1과 L2의 비중 50:50
model_enet.fit(X_train, y_train)
pred_enet = model_enet.predict(X_test)

print("\n[엘라스틱넷 회귀]")
print("MSE:", mean_squared_error(y_test, pred_enet))
print("R2:", r2_score(y_test, pred_enet))


NameError: name 'ElasticNet' is not defined