In [1]:
import pandas as pd
import matplotlib.pyplot as plt

# 로컬 파일 시스템에 저장된 파일을 불러옵니다.
df = pd.read_csv("./data/Processed_sunspot_dataset_with_missing_values.csv")

# Timestamp 컬럼을 datetime 형식으로 변환합니다.
df['Timestamp'] = pd.to_datetime(df['Timestamp'])

# 선형 보간법을 사용해 결측값을 채워 새로운 컬럼에 저장합니다.
df['Filled_Values'] = df['Values'].interpolate(method='linear')

# 원래 결측값 위치를 표시하기 위한 인덱스 추출
missing = df[df['Values'].isna()]

# 시각화: 보간된 데이터를 선으로, 결측값(보간된 값)을 빨간 점으로 표시합니다.
plt.figure(figsize=(14, 7))
plt.plot(df['Timestamp'], df['Filled_Values'], label='Interpolated Sunspot Values', color='blue')
plt.scatter(missing['Timestamp'], missing['Filled_Values'], color='red', label='Missing Data (Interpolated)', zorder=5)
plt.title("Sunspot Data Visualization")
plt.xlabel("Date")
plt.ylabel("Sunspot Values")
plt.legend()
plt.grid(True)
plt.show()


FileNotFoundError: [Errno 2] No such file or directory: './data/Processed_sunspot_dataset_with_missing_values.csv'

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import pmdarima as pm
from sklearn.metrics import mean_squared_error
import numpy as np
import time

# 로컬 파일 읽기 및 데이터 전처리
df = pd.read_csv("Processed_sunspot_dataset_with_missing_values.csv")
df['Timestamp'] = pd.to_datetime(df['Timestamp'])
df.set_index('Timestamp', inplace=True)
df['Filled_Values'] = df['Values'].interpolate(method='linear')

# 데이터 확인 (시각화)
plt.figure(figsize=(12, 6))
plt.plot(df.index, df['Filled_Values'], label='Interpolated Sunspot Values', color='blue')
plt.title("Sunspot Data with Interpolated Missing Values")
plt.xlabel("Date")
plt.ylabel("Sunspot Number")
plt.legend()
plt.show()

# 학습/테스트 데이터 분리 (예: 마지막 10%를 테스트 세트로 사용)
split_index = int(len(df) * 0.9)
train = df['Filled_Values'].iloc[:split_index]
test = df['Filled_Values'].iloc[split_index:]

# auto_arima를 이용한 최적 ARIMA 모형 파라미터 검색 및 실행 시간 측정
start_time = time.time()
model = pm.auto_arima(train, seasonal=False, stepwise=True, suppress_warnings=True)
optimal_order = model.order
auto_arima_time = time.time() - start_time

# 테스트 구간에 대해 예측 수행
forecast = model.predict(n_periods=len(test))
rmse = np.sqrt(mean_squared_error(test, forecast))

print("최적 ARIMA order:", optimal_order)
print("예측 RMSE: {:.2f}".format(rmse))
print("실행 시간 (auto_arima 탐색): {:.2f}초".format(auto_arima_time))


ModuleNotFoundError: No module named 'pmdarima'