In [33]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, KFold
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

In [34]:
# data = pd.read_csv('./naver_pen_data.csv').drop('Unnamed: 0', axis=1)
data = pd.read_csv('./naver_shoes_data.csv').drop('Unnamed: 0', axis=1)

In [35]:
data

Unnamed: 0,가격,구매건수,리뷰 건수,찜 건수,개당 원가
0,37800,3700,1769,1723,11380.0
1,69000,857,423,768,14500.0
2,29000,1173,289,785,10500.0
3,38900,1934,1067,1208,11490.0
4,44900,1888,1039,1798,12090.0
...,...,...,...,...,...
254,40900,5,23,12,11690.0
255,12500,5,1,1,7500.0
256,41900,2,3,5,11790.0
257,18000,32,19,38,9400.0


In [36]:
# 피쳐와 타겟 데이터 분할
X = data.drop('가격', axis=1) # 피쳐데이터
y = data['가격'] # 타겟 데이터

In [37]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [38]:
# 다중 회귀 모델 생성 및 학습
model = LinearRegression()
model.fit(X_train, y_train)

In [39]:
# 테스트 데이터에 대한 예측 수행
y_pred = model.predict(X_test)

In [40]:
# 평균 제곱 오차 계산 (모델의 성능 평가)
mse = mean_squared_error(y_test,y_pred)
print('Mean Squared Error:', mse)

Mean Squared Error: 23439005.1793687


In [41]:
import numpy as np
rmse = np.sqrt(mse)
print(f'평균 오차: {round(rmse):,}원')

평균 오차: 4,841원


In [42]:
from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print('R-squared:', round(r2,4))

R-squared: 0.9881


In [43]:
# k-fold 교차 검증 및 그리드 서치로 최적의 하이퍼파라미터 탐색

param_grid = {'fit_intercept':[True,False], 'copy_X':[True,False]}
kfold_cv=KFold(n_splits=5) # k-fold 교차 검증 설정

In [44]:
grid_search=GridSearchCV(LinearRegression(), param_grid, cv=kfold_cv) # 그리드 서치 객체 생성

In [45]:
grid_search.fit(X,y)

In [46]:
best_params = grid_search.best_params_
print('Best Parameters:', best_params)
print('Best Score:', grid_search.best_score_)

Best Parameters: {'copy_X': True, 'fit_intercept': True}
Best Score: 0.9944421994463084


In [47]:
best_model = LinearRegression(**best_params)
best_model.fit(X, y)

In [49]:
# 새로운 데이터 생성
new_data = pd.DataFrame({
    '구매건수': [20000],
    '리뷰 건수': [10000],
    '찜 건수': [1500],
    '개당 원가': [11100]
})

# 모델에 새로운 데이터 넣어서 예측 수행
predicted_price = best_model.predict(new_data)

print(f"예측 가격: {round(predicted_price[0]):,}원")

예측 가격: 34,544원
