In [8]:
import numpy as np
import pandas as pd
from sklearn.linear_model import ElasticNet
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import GridSearchCV

# 데이터 로드
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

X = data
y = target

# 데이터 표준화
scaler = StandardScaler()
X = scaler.fit_transform(X)

# ElasticNet 모델 정의
elasticnet = ElasticNet()

# 탐색할 매개변수 그리드 설정
param_grid = {
    'alpha': [0.001, 0.01, 0.1, 1, 10],
    'l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]
}

# GridSearchCV 객체 생성
grid_search = GridSearchCV(elasticnet, param_grid, scoring='neg_mean_squared_error', cv=5)
grid_search.fit(X, y)

# 최적의 매개변수 출력
print("최적의 매개변수:", grid_search.best_params_)

# 최적의 모델 얻기
best_elasticnet = grid_search.best_estimator_

# 최적의 모델로 예측 수행
y_pred = best_elasticnet.predict(X)

# 평가 지표 계산
mse = mean_squared_error(y, y_pred)
print("최적 모델의 평균제곱오차(MSE):", mse)
print("최적 모델의 회귀 계수:", best_elasticnet.coef_)
print(f"첫 번째 값에 대한 예측값은 {y_pred[0]:.3}, 실제값은 {y[0]:.3}")

최적의 매개변수: {'alpha': 0.1, 'l1_ratio': 0.1}
최적 모델의 평균제곱오차(MSE): 22.62183113267264
최적 모델의 회귀 계수: [-0.714  0.703 -0.288  0.733 -1.268  2.827 -0.106 -2.186  1.137 -0.833 -1.81   0.813 -3.306]
첫 번째 값에 대한 예측값은 30.3, 실제값은 24.0


In [18]:
import numpy as np
import pandas as pd
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV

# 데이터 로드
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
save = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :]])
df = pd.DataFrame(save)
df.to_csv('boston.csv',index=False)
X = data
y = target

# 데이터 표준화
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Ridge 모델 정의
ridge = Ridge()

# 탐색할 매개변수 그리드 설정
param_grid = {
    'alpha': [0.001, 0.01, 0.1, 1,10]
}

# GridSearchCV 객체 생성
grid_search = GridSearchCV(ridge, param_grid, scoring='neg_mean_squared_error', cv=5)
grid_search.fit(X, y)

# 최적의 매개변수 출력
print("최적의 매개변수:", grid_search.best_params_)

# 최적의 모델 얻기
best_ridge = grid_search.best_estimator_

# 최적의 모델로 예측 수행
y_pred = best_ridge.predict(X)

# 평가 지표 계산
mse = mean_squared_error(y, y_pred)
print("최적 모델의 평균제곱오차(MSE):", mse)
print("최적 모델의 회귀 계수:", best_ridge.coef_)
print(f"첫 번째 값에 대한 예측값은 {y_pred[0]:.3}, 실제값은 {y[0]:.3}")

최적의 매개변수: {'alpha': 10}
최적 모델의 평균제곱오차(MSE): 21.96759118773844
최적 모델의 회귀 계수: [-0.859  0.955 -0.041  0.708 -1.813  2.742 -0.032 -2.857  2.098 -1.565 -1.988  0.845 -3.624]
첫 번째 값에 대한 예측값은 30.2, 실제값은 24.0


In [17]:
import numpy as np
import pandas as pd
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV

# 데이터 로드
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

X = data
y = target

# 데이터 표준화
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Ridge 모델 정의
lasso = Lasso()

# 탐색할 매개변수 그리드 설정
param_grid = {
    'alpha': [0.001, 0.01, 0.1, 1,10]
}

# GridSearchCV 객체 생성
grid_search = GridSearchCV(lasso, param_grid, scoring='neg_mean_squared_error', cv=5)
grid_search.fit(X, y)

# 최적의 매개변수 출력
print("최적의 매개변수:", grid_search.best_params_)

# 최적의 모델 얻기
best_lasso = grid_search.best_estimator_

# 최적의 모델로 예측 수행
y_pred = best_lasso.predict(X)

# 평가 지표 계산
mse = mean_squared_error(y, y_pred)
print("최적 모델의 평균제곱오차(MSE):", mse)
print("최적 모델의 회귀 계수:", best_lasso.coef_)
print(f"첫 번째 값에 대한 예측값은 {y_pred[0]:.3}, 실제값은 {y[0]:.3}")

최적의 매개변수: {'alpha': 0.1}
최적 모델의 평균제곱오차(MSE): 22.34506512886424
최적 모델의 회귀 계수: [-0.632  0.708 -0.     0.658 -1.574  2.826 -0.    -2.422  1.196 -0.846 -1.922  0.762 -3.726]
첫 번째 값에 대한 예측값은 30.4, 실제값은 24.0
