### 데이터 수집

* 기상자료개방포털 
    * https://data.kma.go.kr 
    * 회원가입/로그인 필요<br>

>* 기상자료개방포털 > 데이터 > 기상관측 > 지상 > 종관기상관측(ASOS) 
>    * https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36 
>    * [ 자료형태 ] 일자료 
>    * [ 지점 ] 전체 
>    * [ 자료 ] 기온>최저,최고,평균 
>    * [ 기간 ] 10년단위로 나누어 다운로드


In [1]:
import pandas as pd

### 기상 데이터프레임 생성

* 여러 데이터파일을 연결하여 하나의 데이터프레임 생성
* 데이터 파일 리스트 생성
    * `import glob`
    * `glob.glob(파일경로규칙)`

In [33]:
# ---------------------------
# 데이터 파일 리스트 생성
# ---------------------------

import glob

# data/폴더에서 '기상데이터'가 파일명에 포함된 모든 csv 파일
# 파일명 앞에는 한글자 이상의 다른 글자가 포함되어야 함

files = glob.glob("data/기상데이터/*기상데이터.csv")
files

['data/기상데이터\\1907-1909 기상데이터.csv',
 'data/기상데이터\\1910-1919 기상데이터.csv',
 'data/기상데이터\\1920-1929 기상데이터.csv',
 'data/기상데이터\\1930-1939 기상데이터.csv',
 'data/기상데이터\\1940-1949 기상데이터.csv',
 'data/기상데이터\\1950-1959 기상데이터.csv',
 'data/기상데이터\\1960-1969 기상데이터.csv',
 'data/기상데이터\\1970-1979 기상데이터.csv',
 'data/기상데이터\\1980-1989 기상데이터.csv',
 'data/기상데이터\\1990-1999 기상데이터.csv',
 'data/기상데이터\\2000-2009 기상데이터.csv',
 'data/기상데이터\\2010-2019 기상데이터.csv',
 'data/기상데이터\\2020- 기상데이터.csv']

In [34]:
# ---------------------------
# 데이터프레임 리스트 생성
# ---------------------------

df_list = []
for file in files:
    df_list.append(pd.read_csv(file, encoding='cp949', parse_dates=['일시']))

In [35]:
# ---------------------------
# 데이터프레임 리스트의 길이 확인
# ---------------------------

print('len:', len(df_list))

# ---------------------------
# 데이터프레임 리스트의 개별 데이터프레임 확인
# ---------------------------
df_list[0].head()

len: 13


Unnamed: 0,지점,지점명,일시,평균기온(°C),최저기온(°C),최고기온(°C),1시간 최다강수량(mm),일강수량(mm)
0,108,서울,1907-10-01,13.5,7.9,20.7,,
1,108,서울,1907-10-02,16.2,7.9,22.0,,0.2
2,108,서울,1907-10-03,16.2,13.1,21.3,,2.4
3,108,서울,1907-10-04,16.5,11.2,22.0,,
4,108,서울,1907-10-05,17.6,10.9,25.4,,


In [36]:
# ---------------------------
# 데이터프레임 연결
#   df_all
# ---------------------------

df_all = pd.concat(df_list ,ignore_index=True)

In [37]:
# ---------------------------
# 연결한 데이터프레임 shape 확인
# ---------------------------

print('shape:', df_all.shape)

# ---------------------------
# 연결한 데이터프레임 head, tail 확인
# ---------------------------

print('head>>>')
display(df_all.head())

print('tail>>>')
display(df_all.tail())

shape: (1756512, 8)
head>>>


Unnamed: 0,지점,지점명,일시,평균기온(°C),최저기온(°C),최고기온(°C),1시간 최다강수량(mm),일강수량(mm)
0,108,서울,1907-10-01,13.5,7.9,20.7,,
1,108,서울,1907-10-02,16.2,7.9,22.0,,0.2
2,108,서울,1907-10-03,16.2,13.1,21.3,,2.4
3,108,서울,1907-10-04,16.5,11.2,22.0,,
4,108,서울,1907-10-05,17.6,10.9,25.4,,


tail>>>


Unnamed: 0,지점,지점명,일시,평균기온(°C),최저기온(°C),최고기온(°C),1시간 최다강수량(mm),일강수량(mm)
1756507,296,북부산,2025-03-27,16.9,14.8,19.2,,0.5
1756508,296,북부산,2025-03-28,12.1,8.0,16.5,,0.5
1756509,296,북부산,2025-03-29,7.7,1.6,12.7,,
1756510,296,북부산,2025-03-30,5.3,1.4,11.0,,
1756511,296,북부산,2025-03-31,6.5,-1.5,13.8,,


In [38]:
# ---------------------------
# info()
# ---------------------------

df_all.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1756512 entries, 0 to 1756511
Data columns (total 8 columns):
 #   Column         Dtype         
---  ------         -----         
 0   지점             int64         
 1   지점명            object        
 2   일시             datetime64[ns]
 3   평균기온(°C)       float64       
 4   최저기온(°C)       float64       
 5   최고기온(°C)       float64       
 6   1시간 최다강수량(mm)  float64       
 7   일강수량(mm)       float64       
dtypes: datetime64[ns](1), float64(5), int64(1), object(1)
memory usage: 107.2+ MB


In [39]:
# ---------------------------
# 결측치 확인
# ---------------------------

df_all.isnull().sum()

지점                     0
지점명                    0
일시                     0
평균기온(°C)            4364
최저기온(°C)            2167
최고기온(°C)            2114
1시간 최다강수량(mm)    1346282
일강수량(mm)         1098472
dtype: int64

In [40]:
# ---------------------------
# 연도, 월 컬럼 추가
# ---------------------------

df_all['연도'] = df_all['일시'].dt.year
df_all['월'] = df_all['일시'].dt.month
df_all.sample(5)

Unnamed: 0,지점,지점명,일시,평균기온(°C),최저기온(°C),최고기온(°C),1시간 최다강수량(mm),일강수량(mm),연도,월
635812,271,봉화,1988-03-20,2.0,-4.7,9.5,,,1988,3
1660101,192,진주,2020-07-21,25.2,22.0,29.6,7.1,8.3,2020,7
1017634,133,대전,2003-02-12,-3.3,-6.9,1.8,,,2003,2
337112,187,성산,1973-03-21,7.9,4.6,11.7,,,1973,3
1661476,192,진주,2024-04-28,18.5,10.8,27.0,,,2024,4


### 지점정보 데이터프레임 생성
* 지점, 지점명, 데이터수, 시작년도, 끝년도

In [62]:
# --------------------
# 지점별 데이터 수
# --------------------
df_location_cnt = df_all.groupby(['지점','지점명']).size().to_frame()
df_location_cnt.columns = ['데이터수']
df_location_cnt

Unnamed: 0_level_0,Unnamed: 1_level_0,데이터수
지점,지점명,Unnamed: 2_level_1
90,속초,20910
93,북춘천,3104
95,철원,13605
98,동두천,9952
99,파주,8490
...,...,...
288,밀양,19082
289,산청,19093
294,거제,19098
295,남해,19101


In [63]:
# -------------------------
# 지점별 시작년도, 끝년도
# -------------------------

df_location_year = df_all.groupby(['지점','지점명'])['연도'].agg(['min', 'max'])
df_location_year.columns = ['시작년도', '끝년도']
df_location_year


Unnamed: 0_level_0,Unnamed: 1_level_0,시작년도,끝년도
지점,지점명,Unnamed: 2_level_1,Unnamed: 3_level_1
90,속초,1968,2025
93,북춘천,2016,2025
95,철원,1988,2025
98,동두천,1998,2025
99,파주,2002,2025
...,...,...,...
288,밀양,1973,2025
289,산청,1972,2025
294,거제,1972,2025
295,남해,1972,2025


In [68]:
# -------------------------
# 지점별 데이터 수, 시작년도, 끝년도 concat
# -------------------------

df_location = pd.concat([df_location_cnt, df_location_year], axis=1).reset_index()
df_location

Unnamed: 0,지점,지점명,데이터수,시작년도,끝년도
0,90,속초,20910,1968,2025
1,93,북춘천,3104,2016,2025
2,95,철원,13605,1988,2025
3,98,동두천,9952,1998,2025
4,99,파주,8490,2002,2025
...,...,...,...,...,...
100,288,밀양,19082,1973,2025
101,289,산청,19093,1972,2025
102,294,거제,19098,1972,2025
103,295,남해,19101,1972,2025


### 데이터프레임을 파일로 다운로드

#### 기상데이터

In [None]:
# --------------------
# 파일로 다운로드
# --------------------

file_path = 'data/기상데이터/기상데이터_전체.csv'
df_all.to_csv(file_path, index=False)


# --------------------
# 파일을 다시 열어서 확인
# --------------------
pd.read_csv(file_path)

Unnamed: 0,지점,지점명,일시,평균기온(°C),최저기온(°C),최고기온(°C),1시간 최다강수량(mm),일강수량(mm),연도,월
0,108,서울,1907-10-01,13.5,7.9,20.7,,,1907,10
1,108,서울,1907-10-02,16.2,7.9,22.0,,0.2,1907,10
2,108,서울,1907-10-03,16.2,13.1,21.3,,2.4,1907,10
3,108,서울,1907-10-04,16.5,11.2,22.0,,,1907,10
4,108,서울,1907-10-05,17.6,10.9,25.4,,,1907,10
...,...,...,...,...,...,...,...,...,...,...
1756507,296,북부산,2025-03-27,16.9,14.8,19.2,,0.5,2025,3
1756508,296,북부산,2025-03-28,12.1,8.0,16.5,,0.5,2025,3
1756509,296,북부산,2025-03-29,7.7,1.6,12.7,,,2025,3
1756510,296,북부산,2025-03-30,5.3,1.4,11.0,,,2025,3


#### 지점정보

In [None]:
# --------------------
# 파일로 다운로드
# --------------------
file_path = 'data/기상데이터/기상데이터_지점정보.csv'
df_location.to_csv(file_path, index=False)


# --------------------
# 파일을 다시 열어서 확인
# --------------------
pd.read_csv(file_path)

Unnamed: 0,지점,지점명,데이터수,시작년도,끝년도
0,90,속초,20910,1968,2025
1,93,북춘천,3104,2016,2025
2,95,철원,13605,1988,2025
3,98,동두천,9952,1998,2025
4,99,파주,8490,2002,2025
...,...,...,...,...,...
100,288,밀양,19082,1973,2025
101,289,산청,19093,1972,2025
102,294,거제,19098,1972,2025
103,295,남해,19101,1972,2025
