In [None]:
# pip install pandas

In [1]:
import pandas as pd
import glob

In [11]:
# 파일 경로 패턴을 사용해 일별 데이터 파일 목록을 가져옵니다.
day_files = glob.glob(r'C:\hanchon\data\raw\weather\SURFACE_ASOS_108_DAY_*.csv')

# 파일들을 순회하며 읽어와서 리스트에 담습니다.
df_day_list = [pd.read_csv(f, encoding='cp949') for f in day_files]

# 리스트에 담긴 데이터프레임들을 하나로 합칩니다.
df_day = pd.concat(df_day_list, ignore_index=True)

print("2023-2024 일별 데이터 모양:", df_day.shape)
df_day.head()

2023-2024 일별 데이터 모양: (731, 59)


Unnamed: 0,지점,일시,평균기온(°C),최저기온(°C),최저기온 시각(hhmi),최고기온(°C),최고기온 시각(hhmi),강수 계속시간(hr),10분 최다 강수량(mm),10분 최다강수량 시각(hhmi),...,평균 30cm 지중온도(°C),0.5m 지중온도(°C),1.0m 지중온도(°C),1.5m 지중온도(°C),3.0m 지중온도(°C),5.0m 지중온도(°C),합계 대형증발량(mm),합계 소형증발량(mm),9-9강수(mm),안개 계속시간(hr)
0,108,2023-01-01,-0.2,-4.3,2350,3.8,1343,,,,...,0.6,2.8,6.3,10.1,15.9,18.0,1.6,2.3,,
1,108,2023-01-02,-4.5,-7.4,804,-0.4,1525,,,,...,0.6,2.7,6.2,9.9,15.8,17.9,1.3,1.9,,
2,108,2023-01-03,-5.0,-9.0,551,0.6,1555,,,,...,0.5,2.6,6.1,9.8,15.7,17.9,1.3,1.9,,
3,108,2023-01-04,-1.8,-5.7,229,3.3,1510,,,,...,0.3,2.5,6.0,9.7,15.6,17.9,1.5,2.1,,
4,108,2023-01-05,-1.6,-5.6,749,3.6,1536,,,,...,0.2,2.4,5.9,9.5,15.5,17.8,0.9,1.2,,


In [12]:
# 2025년 분 단위 데이터 파일 목록을 가져옵니다.
min_files_2025 = glob.glob(r'C:\hanchon\data\raw\weather\2025\SURFACE_ASOS_108_MI_*.csv')

# 파일들을 순회하며 읽어와서 리스트에 담습니다.
df_min_list = [pd.read_csv(f, encoding='cp949') for f in min_files_2025]

# 리스트에 담긴 데이터프레임들을 하나로 합칩니다.
df_min_2025 = pd.concat(df_min_list, ignore_index=True)

print("2025년 분별 데이터 모양:", df_min_2025.shape)
df_min_2025.head()

2025년 분별 데이터 모양: (387466, 11)


Unnamed: 0,지점,일시,기온(°C),누적강수량(mm),풍향(deg),풍속(m/s),현지기압(hPa),해면기압(hPa),습도(%),일사(MJ/m^2),일조(Sec)
0,108,2025-01-01 00:01,-1.2,0.0,255.3,0.6,1011.6,1022.5,59.6,0.0,0.0
1,108,2025-01-01 00:02,-1.2,0.0,262.9,0.7,1011.6,1022.5,59.8,0.0,0.0
2,108,2025-01-01 00:03,-1.2,0.0,271.9,0.5,1011.6,1022.5,59.5,0.0,0.0
3,108,2025-01-01 00:04,-1.2,0.0,265.8,0.6,1011.6,1022.5,59.8,0.0,0.0
4,108,2025-01-01 00:05,-1.2,0.0,283.5,0.7,1011.6,1022.5,59.8,0.0,0.0


In [15]:
# 1. '일시' 컬럼을 날짜/시간 타입으로 변환합니다.
df_min_2025['일시'] = pd.to_datetime(df_min_2025['일시'])

# 2. 날짜(date)를 기준으로 그룹화하여 일별 통계 계산
df_day_2025 = df_min_2025.groupby(df_min_2025['일시'].dt.date).agg(
    평균기온=('기온(°C)', 'mean'),
    최저기온=('기온(°C)', 'min'),
    최고기온=('기온(°C)', 'max'),
    일강수량=('누적강수량(mm)', 'max'),
    평균상대습도=('습도(%)', 'mean')
).reset_index()

print("2025년 일별 가공 데이터 모양:", df_day_2025.shape)
df_day_2025.head()

2025년 일별 가공 데이터 모양: (273, 6)


Unnamed: 0,일시,평균기온,최저기온,최고기온,일강수량,평균상대습도
0,2025-01-01,2.45483,-2.5,8.9,0.0,63.266366
1,2025-01-02,0.770556,-2.9,6.0,0.0,49.768681
2,2025-01-03,-1.113968,-5.1,3.2,0.0,50.643641
3,2025-01-04,-0.250833,-5.4,5.7,0.0,49.364653
4,2025-01-05,0.945069,-0.7,2.5,6.7,82.998056


In [None]:
# 1. 컬럼명을 통일성 있게 영어로 변경
df_day.rename(columns={
    '일시': 'date',
    '평균기온(°C)': 'temp_avg',
    '최저기온(°C)': 'temp_min',
    '최고기온(°C)': 'temp_max',
    '9-9강수(mm)': 'precipitation_sum',
}, inplace=True)

#    df_day_2025의 컬럼명도 이전 단계(agg)에서 생성된 이름에 맞게 수정
df_day_2025.rename(columns={
    '일시': 'date',
    '평균기온': 'temp_avg',
    '최저기온': 'temp_min',          # <-- agg에서 생성된 컬럼명에 맞춤
    '최고기온': 'temp_max',          # <-- agg에서 생성된 컬럼명에 맞춤
    '일강수량': 'precipitation_sum',
}, inplace=True)


# 2. 필요한 컬럼만 선택 (최저/최고 기온 추가)
#    temp_min과 temp_max를 리스트에 추가하여 정보 손실을 막습니다.
common_cols = ['date', 'temp_avg', 'temp_min', 'temp_max', 'precipitation_sum', ] 

df_day = df_day[common_cols]
df_day_2025 = df_day_2025[common_cols]

# 3. 2023-2024 데이터와 2025 데이터를 위아래로 합칩니다.
df_weather_final = pd.concat([df_day, df_day_2025], ignore_index=True)

# 4. 날짜 순으로 정렬하고 결측치를 처리합니다. (강수량 0으로 채우기 등)
df_weather_final['date'] = pd.to_datetime(df_weather_final['date'])
df_weather_final.sort_values(by='date', inplace=True)

#    강수량이 0인 날은 NaN(결측치)으로 되어 있는 경우가 많으므로 0으로 채워줍니다.
df_weather_final['precipitation_sum'].fillna(0, inplace=True)

# 다른 컬럼의 결측치도 확인하고 처리합니다. (기온은 선형 보간법으로 채우기)
cols_to_fill = ['temp_avg', 'temp_min', 'temp_max']
df_weather_final[cols_to_fill] = df_weather_final[cols_to_fill].interpolate(method='linear')

# 10월 1일 데이터 필터링
df_weather_final = df_weather_final[df_weather_final['date'] <= '2025-09-30']

print("--- 최종 날씨 데이터 정보 ---")
print("모양:", df_weather_final.shape)
df_weather_final.info()
print("\n--- 상위 5개 데이터 ---")
print(df_weather_final.head())
print("\n--- 하위 5개 데이터 ---")
print(df_weather_final.tail())

--- 최종 날씨 데이터 정보 ---
모양: (1003, 5)
<class 'pandas.core.frame.DataFrame'>
Index: 1003 entries, 0 to 1002
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   date               1003 non-null   datetime64[ns]
 1   temp_avg           1003 non-null   float64       
 2   temp_min           1003 non-null   float64       
 3   temp_max           1003 non-null   float64       
 4   precipitation_sum  1003 non-null   float64       
dtypes: datetime64[ns](1), float64(4)
memory usage: 47.0 KB

--- 상위 5개 데이터 ---
        date  temp_avg  temp_min  temp_max  precipitation_sum
0 2023-01-01      -0.2      -4.3       3.8                0.0
1 2023-01-02      -4.5      -7.4      -0.4                0.0
2 2023-01-03      -5.0      -9.0       0.6                0.0
3 2023-01-04      -1.8      -5.7       3.3                0.0
4 2023-01-05      -1.6      -5.6       3.6                0.0

--- 하위 5개 데이터 ---
         

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_weather_final['precipitation_sum'].fillna(0, inplace=True)


In [19]:
# 최종 데이터프레임 df_weather_final

# 저장할 파일 경로와 이름 지정
output_path = r'C:\hanchon\data\processed\weather_processed_20230101-20250930.csv'

# CSV 파일로 저장 (index=False는 불필요한 인덱스 컬럼이 저장되지 않게 함)
df_weather_final.to_csv(output_path, index=False)

print(f"데이터 저장 완료, 저장장 경로: {output_path}")

데이터 저장 완료, 저장장 경로: C:\hanchon\data\processed\weather_processed_20230101-20250930.csv
