In [None]:
# --------------------
#  라이브러리 및 데이터 준비
# --------------------
import numpy as np
import pandas as pd
from sklearn.linear_model import Lasso # Lasso 회귀 모델
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 예시 데이터 생성 (특성 10개, 샘플 50개)
rng = np.random.RandomState(42)
X = rng.rand(50, 10) * 10
# 타겟값 생성: Feature0과 Feature5만 영향 (나머지는 불필요)
y = 3 * X[:, 0] - 2 * X[:, 5] + 1 + rng.randn(50) * 5 

# 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

print("--- 학습 데이터 크기 ---")
print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")

In [None]:
# --------------------
#  2단계: 데이터 스케일링 (표준화)
# --------------------
scaler = StandardScaler()
# 학습 데이터에 fit 후 transform
X_train_scaled = scaler.fit_transform(X_train)
# 테스트 데이터는 fit 없이 transform만
X_test_scaled = scaler.transform(X_test)

print("\n--- 2단계: 스케일링 완료 ---")

In [None]:
# --------------------
#  3단계: Lasso 모델 학습 및 계수 확인
# --------------------
# alpha=1.0: 규제 강도 (λ) 설정. 값이 클수록 많은 계수가 0이 됨.
lasso_model = Lasso(alpha=1.0, random_state=42) 

# 모델 학습
lasso_model.fit(X_train_scaled, y_train)

# 학습된 회귀 계수 (가중치) 확인
coefficients = lasso_model.coef_

print("\n--- 3단계: 학습된 회귀 계수 (β) ---")
# Lasso는 불필요한 특성(Feature)의 계수를 0으로 만들어서 특성 선택 효과를 가집니다.
# (출력에서 0이 많이 나타나는지 확인)
print(coefficients)

In [None]:
# --------------------
#  4단계: 예측 및 성능 평가
# --------------------
from sklearn.metrics import mean_squared_error

# 예측 수행
y_pred = lasso_model.predict(X_test_scaled)

# 성능 평가 (MSE 사용)
mse = mean_squared_error(y_test, y_pred)

print(f"\n--- 4단계: 모델 성능 평가 ---")
print(f"테스트 데이터 MSE (평균 제곱 오차): {mse:.4f}")