In [3]:
# 전체 코드: RandomForest로 최고기온/최저기온 예측 후 일교차 계산 (2026년 가을 기준)

import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
import numpy as np

# 1. 데이터 불러오기 및 전처리
file_path = "./weather_data_all.csv"
df = pd.read_csv(file_path)
df["일시"] = pd.to_datetime(df["일시"])
df["month"] = df["일시"].dt.month
df["day"] = df["일시"].dt.day
df["dayofyear"] = df["일시"].dt.dayofyear

# 2. 사용할 특성 및 타겟
features = ["month", "day", "dayofyear", "평균기온(°C)", "평균 지면온도(°C)"]
target_cols = ["최고기온(°C)", "최저기온(°C)"]
df_model = df[["지점명", "일시"] + features + target_cols].dropna()

# 3. 예측 대상 날짜 (2026년 가을)
future_dates = pd.date_range(start="2026-09-01", end="2026-11-30")
future_df = pd.DataFrame({"일시": future_dates})
future_df["month"] = future_df["일시"].dt.month
future_df["day"] = future_df["일시"].dt.day
future_df["dayofyear"] = future_df["일시"].dt.dayofyear

# 4. 지점별 모델 학습 및 예측
results = []

for station in df_model["지점명"].unique():
    station_df = df_model[df_model["지점명"] == station].copy()
    
    # 평균 입력값 생성
    avg_temp = station_df["평균기온(°C)"].mean()
    avg_ground = station_df["평균 지면온도(°C)"].mean()

    future_station = future_df.copy()
    future_station["지점명"] = station
    future_station["평균기온(°C)"] = avg_temp
    future_station["평균 지면온도(°C)"] = avg_ground

    # 입력값 및 결측치 처리
    X = station_df[features]
    imputer = SimpleImputer(strategy="mean")
    X_imputed = imputer.fit_transform(X)

    # 최고기온 예측
    model_max = RandomForestRegressor(n_estimators=100, random_state=42)
    model_max.fit(X_imputed, station_df["최고기온(°C)"])
    X_future = imputer.transform(future_station[features])
    future_station["예측 최고기온(°C)"] = model_max.predict(X_future)

    # 최저기온 예측
    model_min = RandomForestRegressor(n_estimators=100, random_state=42)
    model_min.fit(X_imputed, station_df["최저기온(°C)"])
    future_station["예측 최저기온(°C)"] = model_min.predict(X_future)

    # 일교차 계산
    future_station["예측 일교차(°C)"] = (
        future_station["예측 최고기온(°C)"] - future_station["예측 최저기온(°C)"]
    )
    future_station["일교차10도이상"] = (future_station["예측 일교차(°C)"] >= 10).astype(int)

    results.append(future_station)

# 5. 결과 통합 및 요약
forecast_gap_df = pd.concat(results, ignore_index=True)
gap_summary = forecast_gap_df.groupby("지점명")["일교차10도이상"].sum().reset_index()
gap_summary.columns = ["지점명", "일교차10도 이상 예측일 수"]

# 6. 시각화 및 결과 출력
import ace_tools as tools; tools.display_dataframe_to_user(name="2026년 가을 일교차 예측 결과 (최고/최저기온 기반)", dataframe=forecast_gap_df)

gap_summary


NameError: name 'df_actual' is not defined