In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Ridge

# 데이터셋 불러오기
data = pd.read_csv('machine_data.csv')

# 데이터 구조 확인
print(data.info())
print(data.describe())

# 결측치 확인
print(data.isnull().sum())

# 데이터 시각화
sns.pairplot(data)
plt.show()

# 데이터 전처리
data.replace('nas', np.nan, inplace=True)

# 결측치 확인 및 처리
print(data.isnull().sum())

# 결측치가 있는 행 제거
data.dropna(inplace=True)

# 문자열 데이터를 숫자로 변환 (One-Hot Encoding)
data = pd.get_dummies(data)

# 전처리된 데이터 확인
print(data.info())
print(data.describe())

# 특징과 타겟 변수 분리
X = data.drop('PRP', axis=1)
y = data['PRP']

# 훈련 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 선형 회귀 모델 훈련
model = LinearRegression()
model.fit(X_train_scaled, y_train)

# 교차 검증
cv_scores = cross_val_score(model, X_train_scaled, y_train, cv=5, scoring='r2')
print('교차 검증 R^2 점수:', cv_scores)
print('평균 교차 검증 R^2 점수:', np.mean(cv_scores))

# 학습 데이터 예측
y_train_pred = model.predict(X_train_scaled)
train_mse = mean_squared_error(y_train, y_train_pred)
train_mae = mean_absolute_error(y_train, y_train_pred)
train_r2 = r2_score(y_train, y_train_pred)

# 테스트 데이터 예측
y_test_pred = model.predict(X_test_scaled)
test_mse = mean_squared_error(y_test, y_test_pred)
test_mae = mean_absolute_error(y_test, y_test_pred)
test_r2 = r2_score(y_test, y_test_pred)

print('학습 데이터 MSE:', train_mse)
print('학습 데이터 MAE:', train_mae)
print('학습 데이터 R^2:', train_r2)
print('테스트 데이터 MSE:', test_mse)
print('테스트 데이터 MAE:', test_mae)
print('테스트 데이터 R^2:', test_r2)

# 다항 회귀와 릿지 회귀를 사용한 모델 개선
pipeline = make_pipeline(PolynomialFeatures(degree=2), Ridge(alpha=1.0))
pipeline.fit(X_train_scaled, y_train)

# 테스트 데이터 예측
y_test_pred_poly = pipeline.predict(X_test_scaled)
test_r2_poly = r2_score(y_test, y_test_pred_poly)

print('개선된 모델 테스트 데이터 R^2:', test_r2_poly)
