In [16]:
import pandas as pd
import numpy as np # numpy 추가

df = pd.read_csv("/Users/jeonhyeonmin/Desktop/my/개인/개인/Project/ISF/ISF/TimeGAN/merged_data.csv")

columns_to_drop = ["일시", "강수량(mm)", "3시간신적설(cm)", "운형(운형약어)",
                   "최저운고(100m )", "시정(10m)", "지면상태(지면상태코드)",
                   "현상번호(국내식)", "datetime"]
existing_columns_to_drop = [col for col in columns_to_drop if col in df.columns]
df.drop(columns=existing_columns_to_drop, inplace=True)

columns_to_fill_zero = [
    '일조(hr)',
    '일사(MJ/m2)',
    '적설(cm)',
    '전운량(10분위)',
    '중하층운량(10분위)'
]

print("--- 0으로 결측치 채우기 ---")
filled_count_zero = 0
for col in columns_to_fill_zero:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')
        original_nan_count = df[col].isnull().sum()
        if original_nan_count > 0:
            df[col] = df[col].fillna(0)
            filled_count_zero += original_nan_count
            print(f"컬럼 '{col}': 결측치 {original_nan_count}개를 0으로 채웠습니다.")
        else:
            print(f"컬럼 '{col}': 결측치가 없습니다.")
    else:
        print(f"주의: 컬럼 '{col}'이(가) 파일에 존재하지 않습니다.")

print(f"\n총 {filled_count_zero}개의 결측치를 0으로 채웠습니다.\n")



columns_to_interpolate = [
    '기온(°C)',
    '풍속(m/s)',
    '풍향(16방위)', # 풍향은 순환적 특성 고려 시 다른 방법이 더 좋을 수 있으나, 일단 선형 보간 적용
    '습도(%)',
    '증기압(hPa)',
    '이슬점온도(°C)',
    '현지기압(hPa)',
    '해면기압(hPa)',
    '지면온도(°C)',
    '5cm 지중온도(°C)',
    '10cm 지중온도(°C)',
    '20cm 지중온도(°C)',
    '30cm 지중온도(°C)'
]

print("--- 선형 보간법으로 결측치 채우기 ---")
filled_count_interp = 0
for col in columns_to_interpolate:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors='coerce')
        original_nan_count = df[col].isnull().sum()
        if original_nan_count > 0:
            
            df[col] = df[col].interpolate(method='linear', limit_direction='both')
            remaining_nan = df[col].isnull().sum()
            if remaining_nan > 0:
                 print(f"컬럼 '{col}': {remaining_nan} -> 0")
                 df[col] = df[col].fillna(0)

            filled_this_col = original_nan_count - remaining_nan
            filled_count_interp += filled_this_col
            print(f"컬럼 '{col}': 결측치 {filled_this_col}개를 선형 보간법으로 채웠습니다.")
        else:
             print(f"컬럼 '{col}': 결측치가 없습니다.")
    else:
        print(f"주의: 컬럼 '{col}' isn't exist.")

print(f"\n총 {filled_count_interp}개의 결측치 -> value with interpolation.\n")


# 최종 결측치 확인
print("--- 최종 결측치 확인 ---")
print(df.isnull().sum())

# 처리된 데이터프레임 확인 (선택 사항)
# print(df.head())

# 필요하다면 처리된 데이터프레임 저장
df.to_csv('merged_data_processed.csv', index=False, encoding='utf-8')
# print("\n처리된 데이터를 'merged_data_processed.csv'로 저장했습니다.")

  df = pd.read_csv("/Users/jeonhyeonmin/Desktop/my/개인/개인/Project/ISF/ISF/TimeGAN/merged_data.csv")


--- 0으로 결측치 채우기 ---
컬럼 '일조(hr)': 결측치 43325개를 0으로 채웠습니다.
컬럼 '일사(MJ/m2)': 결측치 43514개를 0으로 채웠습니다.
컬럼 '적설(cm)': 결측치 92035개를 0으로 채웠습니다.
컬럼 '전운량(10분위)': 결측치 10806개를 0으로 채웠습니다.
컬럼 '중하층운량(10분위)': 결측치 7141개를 0으로 채웠습니다.

총 196821개의 결측치를 0으로 채웠습니다.

--- 선형 보간법으로 결측치 채우기 ---
컬럼 '기온(°C)': 결측치 6개를 선형 보간법으로 채웠습니다.
컬럼 '풍속(m/s)': 결측치 55개를 선형 보간법으로 채웠습니다.
컬럼 '풍향(16방위)': 결측치 55개를 선형 보간법으로 채웠습니다.
컬럼 '습도(%)': 결측치 21개를 선형 보간법으로 채웠습니다.
컬럼 '증기압(hPa)': 결측치 14개를 선형 보간법으로 채웠습니다.
컬럼 '이슬점온도(°C)': 결측치 19개를 선형 보간법으로 채웠습니다.
컬럼 '현지기압(hPa)': 결측치 20개를 선형 보간법으로 채웠습니다.
컬럼 '해면기압(hPa)': 결측치 17개를 선형 보간법으로 채웠습니다.
컬럼 '지면온도(°C)': 결측치 69개를 선형 보간법으로 채웠습니다.
컬럼 '5cm 지중온도(°C)': 결측치 74개를 선형 보간법으로 채웠습니다.
컬럼 '10cm 지중온도(°C)': 결측치 69개를 선형 보간법으로 채웠습니다.
컬럼 '20cm 지중온도(°C)': 결측치 89개를 선형 보간법으로 채웠습니다.
컬럼 '30cm 지중온도(°C)': 결측치 159개를 선형 보간법으로 채웠습니다.

총 667개의 결측치 -> value with interpolation.

--- 최종 결측치 확인 ---
date                0
time                0
solar generation    0
지점                  0
기온(°C)              0
풍속(m/s)             0
풍향(16방위