In [11]:
import pandas as pd
import numpy as np

# 한국 장마 기간 일반적으로 6월 중순부터 7월 말까지이므로,
# 6월 15일~7월 31일 데이터를 필터링

"""
지점            int64
지점명          object
일시           object
일강수량(mm)    float64
dtype: object
"""
# 시도명 매핑 딕셔너리
sido_map = {
    '서울': '서울특별시', '부산': '부산광역시', '대구': '대구광역시',
    '광주': '광주광역시', '울산': '울산광역시', '인천': '인천광역시',
    '대전': '대전광역시',
    
    # 도 단위 및 기타 지역 매핑
    '북춘천': '강원도', '북강릉': '강원도', '울릉도': '경상북도',
    '안동': '경상북도', '포항': '경상북도', '창원': '경상남도',
    '수원': '경기도', '청주': '충청북도', '전주': '전라북도',
    '목포': '전라남도', '여수': '전라남도', '흑산도': '전라남도',
    '홍성': '충청남도', '백령도': '인천광역시', '서귀포': '제주도',
    '제주': '제주도',
    
    # 기타 추가
    '속초': '강원도', '철원': '강원도', '동두천': '경기도', '파주': '경기도',
    '대관령': '강원도', '춘천': '강원도', '강릉': '강원도', '동해': '강원도',
    '원주': '강원도', '영월': '강원도', '충주': '충청북도', '서산': '충청남도',
    '울진': '경상북도', '추풍령': '경상북도', '상주': '경상북도',
    '군산': '전라북도', '통영': '경상남도', '완도': '전라남도', '고창': '전라북도',
    '순천': '전라남도', '진도(첨찰산)': '전라남도', '서청주': '충청북도',
    '고산': '제주도', '성산': '제주도', '진주': '경상남도',
    '강화': '인천광역시', '양평': '경기도', '이천': '경기도',
    '인제': '강원도', '홍천': '강원도', '태백': '강원도', '정선군': '강원도',
    '제천': '충청북도', '보은': '충청북도', '천안': '충청남도',
    '보령': '충청남도', '부여': '충청남도', '금산': '충청남도',
    '세종': '세종특별자치시', '부안': '전라북도', '임실': '전라북도',
    '정읍': '전라북도', '남원': '전라북도', '장수': '전라북도',
    '고창군': '전라북도', '영광군': '전라남도', '김해시': '경상남도',
    '순창군': '전라북도', '북창원': '경상남도', '양산시': '경상남도',
    '보성군': '전라남도', '강진군': '전라남도', '장흥': '전라남도',
    '해남': '전라남도', '고흥': '전라남도', '의령군': '경상남도',
    '함양군': '경상남도', '광양시': '전라남도', '진도군': '전라남도',
    '봉화': '경상북도', '영주': '경상북도', '문경': '경상북도',
    '청송군': '경상북도', '영덕': '경상북도', '의성': '경상북도',
    '구미': '경상북도', '영천': '경상북도', '경주시': '경상북도',
    '거창': '경상남도', '합천': '경상남도', '밀양': '경상남도',
    '산청': '경상남도', '거제': '경상남도', '남해': '경상남도',
    '북부산': '부산광역시'
}


# 1. 데이터 로드
file_path = './data/시도별 일 강수량.csv'
df_precipitation = pd.read_csv(file_path, encoding='cp949')


# 2. NaN 값 확인
print(f'전체 컬럼 NaN 개수:\n {df_precipitation.isnull().sum()}') # NaN 없음

df_precipitation

전체 컬럼 NaN 개수:
 지점          0
지점명         0
일시          0
일강수량(mm)    0
dtype: int64


Unnamed: 0,지점,지점명,일시,일강수량(mm)
0,90,속초,2018-01-08,1.1
1,90,속초,2018-01-09,0.4
2,90,속초,2018-01-22,2.4
3,90,속초,2018-02-23,0.0
4,90,속초,2018-02-24,5.4
...,...,...,...,...
92015,296,북부산,2024-11-27,0.0
92016,296,북부산,2024-11-29,0.0
92017,296,북부산,2024-12-01,0.0
92018,296,북부산,2024-12-21,0.0


In [13]:
# 3. 날짜 형식 변환(Object -> Datetime) + year 컬럼 추가

df_precipitation['일시'] = pd.to_datetime(df_precipitation['일시'], format='%Y-%m-%d')
df_precipitation['year'] = df_precipitation['일시'].dt.year

df_precipitation

Unnamed: 0,지점,지점명,일시,일강수량(mm),year
0,90,속초,2018-01-08,1.1,2018
1,90,속초,2018-01-09,0.4,2018
2,90,속초,2018-01-22,2.4,2018
3,90,속초,2018-02-23,0.0,2018
4,90,속초,2018-02-24,5.4,2018
...,...,...,...,...,...
92015,296,북부산,2024-11-27,0.0,2024
92016,296,북부산,2024-11-29,0.0,2024
92017,296,북부산,2024-12-01,0.0,2024
92018,296,북부산,2024-12-21,0.0,2024


In [None]:
 # 세종특별자치지 2018년 강수량 정보 없음 확인

df_precipitation[(df_precipitation['지점명']=='세종') & (df_precipitation['year']==2018)]

Unnamed: 0,지점,지점명,일시,일강수량(mm),year


In [15]:
# 4. 시도명 매핑

df_precipitation['시도명'] = df_precipitation['지점명'].map(sido_map)
print(f'시도명 NaN 개수: {df_precipitation["시도명"].isna().sum()}')
# 매핑 안 된 지역 확인
na_mask = df_precipitation['시도명'].isna()
print(f'Mapping 안 된 지역 확인: {df_precipitation[na_mask]["지점명"].unique()}')
df_precipitation.drop('지점명', axis=1, inplace=True)

시도명 NaN 개수: 0
Mapping 안 된 지역 확인: []


In [None]:
# 5. 장마 기간 데이터 필터링 후 (연, 시도명)으로 평균 집계 - # 6월 15일~7월 31일 데이터를 필터링
start_date = pd.to_datetime('2000-06-15')
end_date = pd.to_datetime('2000-07-31')
df_precipitation_jangma = df_precipitation[
    df_precipitation['일시'].apply( lambda x: start_date <= x.replace(year=2000) <= end_date )
]

jangma_avg = df_precipitation_jangma.groupby(['year', '시도명'], as_index=False)['일강수량(mm)'].mean().round(3)
jangma_avg.rename(columns={'일강수량(mm)': '장마_평균_일강수량(mm)'}, inplace=True)
jangma_avg

Unnamed: 0,year,시도명,장마_평균_일강수량(mm)
0,2018,강원도,18.202
1,2018,경기도,22.344
2,2018,경상남도,20.051
3,2018,경상북도,15.718
4,2018,광주광역시,23.046
...,...,...,...
113,2024,전라남도,18.198
114,2024,전라북도,17.883
115,2024,제주도,18.379
116,2024,충청남도,23.948


In [22]:
# 세종시 2018년 데이터 가장 가까운 대전시로 대체

sejong_2018 = {
    'year': 2018,
    '시도명': '세종특별자치시',
    '장마_평균_일강수량(mm)': jangma_avg[
        (jangma_avg['year']==2018) & (jangma_avg['시도명']=='대전광역시')
    ]['장마_평균_일강수량(mm)'].values[0]
}

jangma_avg = pd.concat([jangma_avg, pd.DataFrame([sejong_2018])], ignore_index=True)
jangma_avg = jangma_avg.sort_values(['year', '시도명']).reset_index(drop=True)
jangma_avg

Unnamed: 0,year,시도명,장마_평균_일강수량(mm)
0,2018,강원도,18.202
1,2018,경기도,22.344
2,2018,경상남도,20.051
3,2018,경상북도,15.718
4,2018,광주광역시,23.046
...,...,...,...
114,2024,전라남도,18.198
115,2024,전라북도,17.883
116,2024,제주도,18.379
117,2024,충청남도,23.948


In [24]:
# 6. 결과 저장
output_path = './data/시도별_장마_평균_일강수량.csv'
jangma_avg.to_csv(output_path, index=False, encoding='utf-8')