In [1]:
import pandas as pd

df = pd.read_csv("yeobo.csv")

df["강수여부"] = df["일강수량(mm)"].apply(lambda x: 1 if pd.notna(x) and x > 0 else 0)

mean_cloud_with_rain = df.loc[df["강수여부"] == 1, "평균 전운량(1/10)"].mean()
mean_cloud_without_rain = df.loc[df["강수여부"] == 0, "평균 전운량(1/10)"].mean()

def fill_cloud(row):
    if pd.isna(row["평균 전운량(1/10)"]):
        return mean_cloud_with_rain if row["강수여부"] == 1 else mean_cloud_without_rain
    else:
        return row["평균 전운량(1/10)"]

df["평균 전운량(1/10)"] = df.apply(fill_cloud, axis=1)

df.to_csv("yeobo_processed.csv", index=False)


In [3]:
df = pd.read_csv("yeobo_processed.csv")
print(df['강수여부'])

0        1
1        0
2        0
3        0
4        1
        ..
14607    0
14608    1
14609    0
14610    0
14611    0
Name: 강수여부, Length: 14612, dtype: int64


In [7]:
import pandas as pd

# 1. 파일 불러오기
df = pd.read_csv("yeobo.csv")

# 2. 날짜 타입으로 변환 및 정렬
df["일시"] = pd.to_datetime(df["일시"])
df = df.sort_values("일시")
df.set_index("일시", inplace=True)

# 3. 강수여부 생성
df["강수여부"] = df["일강수량(mm)"].apply(lambda x: 1 if pd.notna(x) and x > 0 else 0)

# 4. 평균 전운량 결측치 채우기
mean_cloud_with_rain = df.loc[df["강수여부"] == 1, "평균 전운량(1/10)"].mean()
mean_cloud_without_rain = df.loc[df["강수여부"] == 0, "평균 전운량(1/10)"].mean()

df["평균 전운량(1/10)"] = df.apply(
    lambda row: mean_cloud_with_rain if pd.isna(row["평균 전운량(1/10)"]) and row["강수여부"] == 1
    else mean_cloud_without_rain if pd.isna(row["평균 전운량(1/10)"]) else row["평균 전운량(1/10)"],
    axis=1
)

# 5. 풍속 및 상대습도 결측 보완
# interpolate (시간 기준, limit=1)
for col in ["평균 풍속(m/s)", "평균 상대습도(%)"]:
    df[col] = df[col].interpolate(method="time", limit=1)

# 평균 풍속 보완 (월/일 기준 과거 평균)
df["월"] = df.index.month
df["일"] = df.index.day

for col in ["평균 풍속(m/s)"]:
    daily_avg = df.groupby(["월", "일"])[col].transform("mean")
    df[col] = df[col].fillna(daily_avg)

# 상대습도 보완 (전체 평균값)
for col in ["평균 상대습도(%)"]:
    df[col] = df[col].fillna(df[col].mean())

# 6. 정리 후 저장
df.drop(columns=["월", "일"], inplace=True)
df.reset_index(inplace=True)
df.to_csv("yeobo_processed.csv", index=False)


In [26]:
df = pd.read_csv("yeobo_processed.csv")
df.isna().sum()

일시                      0
지점                      0
지점명                     0
평균기온(°C)                7
일강수량(mm)             8034
평균 풍속(m/s)              0
평균 이슬점온도(°C)            7
평균 상대습도(%)              0
평균 증기압(hPa)             7
평균 현지기압(hPa)            8
평균 해면기압(hPa)            8
합계 일조시간(hr)            29
합계 일사량(MJ/m2)        7038
일 최심신적설(cm)         14525
일 최심적설(cm)          14515
합계 3시간 신적설(cm)      14525
평균 전운량(1/10)            0
평균 중하층운량(1/10)       3855
평균 지면온도(°C)            29
평균 5cm 지중온도(°C)     10973
평균 10cm 지중온도(°C)    10974
평균 20cm 지중온도(°C)    10980
평균 30cm 지중온도(°C)    10964
합계 대형증발량(mm)         7811
합계 소형증발량(mm)         7586
9-9강수(mm)           11216
안개 계속시간(hr)         14385
강수여부                    0
dtype: int64

In [30]:
df = pd.read_csv("yeobo.csv")
print(df.isna().sum())

지점                      0
지점명                     0
일시                      0
평균기온(°C)                7
일강수량(mm)             8034
평균 풍속(m/s)             44
평균 이슬점온도(°C)            7
평균 상대습도(%)              6
평균 증기압(hPa)             7
평균 현지기압(hPa)            8
평균 해면기압(hPa)            8
합계 일조시간(hr)            29
합계 일사량(MJ/m2)        7038
일 최심신적설(cm)         14525
일 최심적설(cm)          14515
합계 3시간 신적설(cm)      14525
평균 전운량(1/10)         3550
평균 중하층운량(1/10)       3855
평균 지면온도(°C)            29
평균 5cm 지중온도(°C)     10973
평균 10cm 지중온도(°C)    10974
평균 20cm 지중온도(°C)    10980
평균 30cm 지중온도(°C)    10964
합계 대형증발량(mm)         7811
합계 소형증발량(mm)         7586
9-9강수(mm)           11216
안개 계속시간(hr)         14385
dtype: int64


In [None]:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

# 결측치 0으로 처리할 열
fill_zero_columns = ['일강수량(mm)', '일 최심신적설(cm)']

# 결측치를 0으로 채우기
for col in fill_zero_columns:
    null_count = df[col].isnull().sum()
    df[col] = df[col].fillna(0)
    print(f"[{col}] 결측치 {null_count}개를 0으로 채움.")

# 나머지 예측 대상 열 리스트
target_columns = [
    '평균기온(°C)', '최저기온(°C)', '최고기온(°C)',
    '평균 풍속(m/s)', '최대 순간 풍속(m/s)',
    '평균 상대습도(%)', '최소 상대습도(%)',
    '평균 전운량(1/10)','평균 지면온도(°C)'

]

# 예측에 사용할 피처들 (target 제외하고 숫자형)
def get_feature_columns(df, target):
    numeric_cols = df.select_dtypes(include=np.number).columns.tolist()
    return [col for col in numeric_cols if col != target and df[col].isnull().sum() == 0]

# 결측치를 RandomForest로 예측해서 채우기
def fill_missing_with_rf(df, target):
    features = get_feature_columns(df, target)
    if len(features) < 2:
        print(f"[{target}] 예측 가능한 feature가 부족함.")
        return df

    known = df[df[target].notnull()]
    unknown = df[df[target].isnull()]

    if len(unknown) == 0:
        print(f"[{target}] 결측치 없음.")
        return df

    X = known[features]
    y = known[target]
    X_missing = unknown[features]

    model = RandomForestRegressor(n_estimators=100, random_state=42)
    model.fit(X, y)
    y_pred = model.predict(X_missing)

    df.loc[df[target].isnull(), target] = y_pred
    print(f"[{target}] 결측치 {len(y_pred)}개 채움.")
    return df

# 나머지 대상 열에 대해 반복 적용
for target in target_columns:
    df = fill_missing_with_rf(df, target)

# 결과 저장
df.to_csv("weather_all_data_filled.csv", index=False, encoding="utf-8-sig")
print("✅ 모든 결측치 채우기 완료 및 저장됨")
