In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler, PolynomialFeatures
from sklearn.linear_model import Ridge
from sklearn.pipeline import Pipeline
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# 데이터셋 불러오기
data = pd.read_csv('machine_data.csv')

# 데이터 구조 확인
print(data.info())
print(data.describe())

# 결측치 확인 및 처리
data.replace('nas', np.nan, inplace=True)
data.dropna(inplace=True)

# 비수치 데이터를 One-Hot Encoding으로 변환
data = pd.get_dummies(data)

# 데이터 시각화
sns.pairplot(data)
plt.show()

# 특징과 타겟 변수 분리
X = data.drop('PRP', axis=1)
y = data['PRP']

# 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 파이프라인 정의
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('poly', PolynomialFeatures()),
    ('ridge', Ridge())
])

# 하이퍼파라미터 그리드 설정
param_grid = {
    'poly__degree': [1, 2, 3],
    'ridge__alpha': [0.1, 1.0, 10.0]
}

# 그리드 서치 수행
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)

# 최적 하이퍼파라미터 출력
print('최적 하이퍼파라미터:', grid_search.best_params_)

# 교차 검증 점수
cv_scores = cross_val_score(grid_search.best_estimator_, X_train, y_train, cv=5, scoring='r2')
print('교차 검증 R^2 점수:', cv_scores)
print('평균 교차 검증 R^2 점수:', np.mean(cv_scores))

# 학습 데이터 예측
y_train_pred = grid_search.best_estimator_.predict(X_train)
train_mse = mean_squared_error(y_train, y_train_pred)
train_mae = mean_absolute_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)

# 테스트 데이터 예측
y_test_pred = grid_search.best_estimator_.predict(X_test)
test_mse = mean_squared_error(y_test, y_test_pred)
test_mae = mean_absolute_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)

print('학습 데이터 MSE:', train_mse)
print('학습 데이터 MAE:', train_mae)
print('학습 데이터 R^2:', train_r2)
print('테스트 데이터 MSE:', test_mse)
print('테스트 데이터 MAE:', test_mae)
print('테스트 데이터 R^2:', test_r2)

# 개선된 파이프라인 정의
pipeline = Pipeline([
    ('scaler', StandardScaler()),
    ('poly', PolynomialFeatures()),
    ('ridge', Ridge())
])

# 확장된 하이퍼파라미터 그리드 설정
param_grid = {
    'poly__degree': [1, 2, 3, 4],
    'ridge__alpha': [0.01, 0.1, 1.0, 10.0, 100.0]
}

# 그리드 서치 수행
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='r2')
grid_search.fit(X_train, y_train)

# 최적 하이퍼파라미터 출력
print('최적 하이퍼파라미터:', grid_search.best_params_)

# 개선된 모델 테스트 데이터 예측
y_test_pred_poly = grid_search.best_estimator_.predict(X_test)
test_r2_poly = r2_score(y_test, y_test_pred_poly)

print('개선된 모델 테스트 데이터 R^2:', test_r2_poly)

# 성능 지표 저장
results = pd.DataFrame({
    'Model': ['Baseline', 'Improved'],
    'Train MSE': [train_mse, train_mse],
    'Train MAE': [train_mae, train_mae],
    'Train R^2': [train_r2, train_r2],
    'Test MSE': [test_mse, test_mse],
    'Test MAE': [test_mae, test_mae],
    'Test R^2': [test_r2, test_r2]
})

# 바 차트로 시각화
results.set_index('Model').plot(kind='bar', figsize=(10, 6))
plt.title('Model Performance Comparison')
plt.ylabel('Score')
plt.xticks(rotation=0)
plt.show()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 209 entries, 0 to 208
Data columns (total 9 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   VendorName  209 non-null    object
 1   ModelName   209 non-null    object
 2   MYCT        209 non-null    int64 
 3   MMIN        209 non-null    int64 
 4   MMAX        209 non-null    int64 
 5   CACH        209 non-null    int64 
 6   CHMIN       209 non-null    int64 
 7   CHMAX       209 non-null    int64 
 8   PRP         209 non-null    int64 
dtypes: int64(7), object(2)
memory usage: 14.8+ KB
None
              MYCT          MMIN          MMAX        CACH       CHMIN  \
count   209.000000    209.000000    209.000000  209.000000  209.000000   
mean    203.822967   2867.980861  11796.153110   25.205742    4.698565   
std     260.262926   3878.742758  11726.564377   40.628722    6.816274   
min      17.000000     64.000000     64.000000    0.000000    0.000000   
25%      50.000000    768.0000