# Project: 데이터분석전문가(ADP) 실기시험
#### Summary: 회귀분석 관련 코드 정리

In [13]:
import warnings
warnings.filterwarnings(action='ignore')

## 회귀분석 기본 프로세스
1. 데이터 분할
2. 모델 적용 & GridSearchCV를 통한 파라미터 최적화
3. 결정계수 및 RMSE 구하기

In [24]:
import pandas as pd
import numpy as np
import mglearn

# 데이터 불러오기
X, y = mglearn.datasets.load_extended_boston()

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.metrics import mean_squared_error

# 데이터 7:3 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)


# 선형회귀(Linear regression)
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred = lr.predict(X_test)

# print(f"선형회귀 변수별 계수: {lr.coef_}")
print(f"선형회귀 결정계수: {lr.score(X_test, y_test)}")
print(f"선형회귀 RMSE: {np.sqrt(mean_squared_error(y_test, y_pred))}")
print("-" * 130)


# Ridge 회귀(Ridge regression):
# 파라미터 search-space (예) alpha값 0부터 1까지 0.1 단위로
params = {
    'alpha' : np.arange(0, 1.1, 0.1)
}

ridge = GridSearchCV(Ridge(random_state=42), params)
ridge.fit(X_train, y_train)
alpha = ridge.best_params_

print(f"Ridge 최적 alpha: {alpha}")

# 최적 alpha 값으로 학습한 모델
ridge = ridge.best_estimator_
y_pred = ridge.predict(X_test)

# print(f"Ridge 변수별 계수: {ridge.coef_}")
print(f"Ridge 결정계수: {ridge.score(X_test, y_test)}")
print(f"Ridge RMSE: {np.sqrt(mean_squared_error(y_test, y_pred))}")
print("-" * 130)


# Lasso 회귀(Lasso Regression)
# 파라미터 search-space (예) alpha값 0부터 1까지 0.1 단위로
params = {
    'alpha' : np.arange(0, 1.1, 0.1)
}

lasso = GridSearchCV(Lasso(random_state=42), params)
lasso.fit(X_train, y_train)
alpha = lasso.best_params_

print(f"Lasso 최적 alpha: {alpha}")

# 최적 alpha 값으로 학습한 모델
lasso = lasso.best_estimator_
y_pred = lasso.predict(X_test)

# print(f"Lasso 변수별 계수: {lasso.coef_}")
print(f"Lasso 결정계수: {lasso.score(X_test, y_test)}")
print(f"Lasso RMSE: {np.sqrt(mean_squared_error(y_test, y_pred))}")

선형회귀 결정계수: 0.6610321968877293
선형회귀 RMSE: 5.025688043217024
----------------------------------------------------------------------------------------------------------------------------------
Ridge 최적 alpha: {'alpha': 0.1}
Ridge 결정계수: 0.8355846906162807
Ridge RMSE: 3.5001562337886427
----------------------------------------------------------------------------------------------------------------------------------
Lasso 최적 alpha: {'alpha': 0.0}
Lasso 결정계수: 0.6591444264036643
Lasso RMSE: 5.039663077054247
