In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score, mean_squared_error

data = pd.read_csv("final.csv")

# 'date' 열을 날짜 형식으로 변환
data['date'] = pd.to_datetime(data['date'])

# 독립 변수와 종속 변수 분리
X = data.drop(['samsung_closeprice', 'date'], axis=1)
y = data['samsung_closeprice']

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 데이터 스케일링
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
y_train_scaled = scaler.fit_transform(y_train.values.reshape(-1, 1))
y_test_scaled = scaler.transform(y_test.values.reshape(-1,1))

# 선형 회귀 모델 초기화 및 훈련
linear_model = LinearRegression()
linear_model.fit(X_train_scaled, y_train_scaled)

# 테스트 데이터에 대한 예측
y_pred = linear_model.predict(X_test_scaled)

# 모델 성능 평가
r2 = r2_score(y_test_scaled, y_pred)
mse = mean_squared_error(y_test_scaled, y_pred)

# 결과 출력
print(f"R² score: {r2}")
print(f"Mean Squared Error: {mse}")

R² score: 0.892296234314488
Mean Squared Error: 0.10698340863889418
