In [3]:
# 필수 사용 라이브러리
from urllib.parse import urlencode, quote_plus # 크롤링 요청을 위한 라이브러리
import pandas as pd # 데이터 프레임화를 위한 라이브러리
import requests # 크롤링한 데이터를 결과물로 가져오기 위한 라이브러리
import json # json 파일 관리를 위한 라이브러리

# 기상청 오픈 api: [지상(종관, ASOS) 일자료](https://data.kma.go.kr/api/selectApiDetail.do)

In [4]:
# 기상청에서 ASOS 2018년 - 2020년 일 자료 데이터 크롤링 

# 데이터 추출 목록 : 년도
years = ['2018', '2019', '2020']

# 데이터 추출 목록 : 1년의 날짜 수, 페이지에 넣어주기 위한 데이터, 년도 데이터랑 매칭해야 한다. 2021년은 7월 11일까지의 데이터가 있으므로 192일을 가져온다.
pages = ['365', '365', '366']

# 데이터 추출 목록 : 경상남도, 경상북도 데이터 추출 지점 목록
sites = ['156', '159', '133', '108', '112', '119', '143', '155']

# 데이터 추출 목록 : 경상남도, 경상북도 데이터 추출 지점 목록의 csv 제목 파일을 위한 인덱스
sites_index = ['광주', '부산', '대전', '서울', '인천', '수원', '대구', '창원']

# for 문 돌리기 위해 미리 길이 환산
year_length = len(years)
site_length = len(sites)

# for 문 돌리기 위해 미리 길이 환산
year_length = len(years)
site_length = len(sites)

# 크롤링을 위한 URL
url = 'http://apis.data.go.kr/1360000/AsosDalyInfoService/getWthrDataList' # 크롤링용 페이지 주소 링크 삽입

# 크롤링 과정
for year in range(year_length):
  for site in range(site_length):
    queryParams = '?' + urlencode({
      quote_plus('ServiceKey') : 'CAIBVqzvwcT56GH1ji8TrqWaQ6UTQ5NQFbigaXcQSMBZzMwerbOq437GPuVl0vfoc7+7F6MaoS2B0WOxZp2HXg==', # Decoder 인증키 삽입
      quote_plus('pageNo') : '1', # 한 페이지 결과 수
      quote_plus('numOfRows') : pages[year], # 페이지 번호, MAX = 999
      quote_plus('dataType') : 'JSON', # 응답 자료 형식 XML or JSON
      quote_plus('dataCd') : 'ASOS', # 자료 분류 코드
      quote_plus('dateCd') : 'DAY', # 날짜 분류 코드
      quote_plus('startDt') : years[year] + '0101', # 조회 기간 시작일
      quote_plus('endDt') : years[year] + '1231', # 조회 기간 종료일
      quote_plus('stnIds') : sites[site] # 종관 기상 관측 지점 번호
    })

    # 파일 데이터 프레임화
    result = requests.get(url + queryParams)
    js = json.loads(result.content)
    data = pd.DataFrame(js['response']['body']['items']['item']) # 데이터프레임 인덱스

    # 본인 드라이브에 csv파일 저장하기
    data.to_csv("data/asos_raw/ASOS_DAY_" + years[year] + "_" + sites_index[site] + ".csv", index=False, encoding='utf-8-sig')

In [5]:
# 기상청에서 ASOS 일 자료 데이터 크롤링 

# 데이터 추출 목록 : 2021년도
years = ['2021']

# 데이터 추출 목록 : 1년의 날짜 수, 페이지에 넣어주기 위한 데이터, 년도 데이터랑 매칭해야 한다. 2021년은 7월 11일까지의 데이터가 있으므로 192일을 가져온다.
pages = ['192']

# 데이터 추출 목록 : 경상남도, 경상북도 데이터 추출 지점 목록
sites = ['156', '159', '133', '108', '112', '119', '143', '155']

# 데이터 추출 목록 : 경상남도, 경상북도 데이터 추출 지점 목록의 csv 제목 파일을 위한 인덱스
sites_index = ['광주', '부산', '대전', '서울', '인천', '수원', '대구', '창원']

# for 문 돌리기 위해 미리 길이 환산
year_length = len(years)
site_length = len(sites)

# for 문 돌리기 위해 미리 길이 환산
year_length = len(years)
site_length = len(sites)

# 크롤링을 위한 URL
url = 'http://apis.data.go.kr/1360000/AsosDalyInfoService/getWthrDataList' # 크롤링용 페이지 주소 링크 삽입

# 크롤링 과정
for year in range(year_length):
  for site in range(site_length):
    queryParams = '?' + urlencode({
      quote_plus('ServiceKey') : 'CAIBVqzvwcT56GH1ji8TrqWaQ6UTQ5NQFbigaXcQSMBZzMwerbOq437GPuVl0vfoc7+7F6MaoS2B0WOxZp2HXg==', # Decoder 인증키 삽입
      quote_plus('pageNo') : '1', # 한 페이지 결과 수
      quote_plus('numOfRows') : pages[year], # 페이지 번호, MAX = 999
      quote_plus('dataType') : 'JSON', # 응답 자료 형식 XML or JSON
      quote_plus('dataCd') : 'ASOS', # 자료 분류 코드
      quote_plus('dateCd') : 'DAY', # 날짜 분류 코드
      quote_plus('startDt') : years[year] + '0101', # 조회 기간 시작일
      quote_plus('endDt') : years[year] + '0711', # 조회 기간 종료일
      quote_plus('stnIds') : sites[site] # 종관 기상 관측 지점 번호
    })

    # 파일 데이터 프레임화
    result = requests.get(url + queryParams)
    js = json.loads(result.content)
    data = pd.DataFrame(js['response']['body']['items']['item']) # 데이터프레임 인덱스

    # 본인 드라이브에 csv파일 저장하기
    data.to_csv("data/asos_raw/ASOS_DAY_" + years[year] + "_" + sites_index[site] + ".csv", index=False, encoding='utf-8-sig')

# ASOS 날씨 데이터 병합 코드

In [7]:
# 필수 라이브러리
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import csv
import glob
import sys
import os

In [8]:
# 연도별 지역별로 csv 병합

input_path = "data/asos_raw/"

# 연도별 CSV 병합시키는 함수
def combine(year):
  # ASOS_DAY_로 시작하는 연도별 모든 지역 csv 파일
  all_files = glob.glob(os.path.join(input_path,'ASOS_DAY_' + year + '_*'))
  
  all_data_frames = []
  # 각 파일 별 데이터프레임을 all_data_frames에 저장
  for file in all_files:
    data_frame = pd.read_csv(file, index_col=None)
    all_data_frames.append(data_frame)
  # concat을 이용해 세로로 결합
  data_frame_concat = pd.concat(all_data_frames, axis=0, ignore_index=True)
  # CSV output 저장 
  data_frame_concat.to_csv("data/ASOS_all_" + year + ".csv", index=False, encoding='utf-8-sig')

In [9]:
# 2018부터 2021년까지 각각 combine
for i in range(2018, 2022):
  combine(str(i))

In [10]:
# 연도별 csv를 합쳐서 단일 파일의 2018년부터 21년까지의 ASOS csv 생성

all_files = glob.glob(os.path.join("data/",'ASOS_all_*'))

merged_asos = []
for file in all_files:
  data_frame = pd.read_csv(file, index_col=None)
  merged_asos.append(data_frame)
merged_asos_concat = pd.concat(merged_asos, axis=0, ignore_index=True)
merged_asos_concat.to_csv("data/ASOS_merged.csv", index=False, encoding='utf-8-sig')

In [11]:
asos_df = pd.read_csv("data/ASOS_merged.csv")
asos_df

Unnamed: 0,stnId,stnNm,tm,avgTa,minTa,minTaHrmt,maxTa,maxTaHrmt,mi10MaxRn,mi10MaxRnHrmt,...,avgM05Te,avgM10Te,avgM15Te,avgM30Te,avgM50Te,sumLrgEv,sumSmlEv,n99Rn,iscs,sumFogDur
0,156,광주,2018-01-01,2.3,-1.0,603,7.1,1431,,,...,,,,,,1.5,2.1,,,
1,156,광주,2018-01-02,2.2,-2.9,628,8.4,1539,,,...,,,,,,1.1,1.5,,{박무}0404-{박무}{강도0}0600-{박무}{강도0}0900-1032. {연무...,
2,156,광주,2018-01-03,0.2,-2.5,750,3.8,1413,,,...,,,,,,1.5,2.1,,,
3,156,광주,2018-01-04,-0.6,-2.3,539,2.1,1426,,,...,,,,,,0.8,1.1,,,
4,156,광주,2018-01-05,1.4,-1.2,511,5.2,1505,,,...,,,,,,1.2,1.7,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10299,155,창원,2021-07-07,24.0,21.7,1928,27.9,1023,10.0,1355.0,...,,,,,,1.0,1.4,,-{비}-0007. {비}0528-0530. {비}0557-{비}{강도0}0600-...,0.98
10300,155,창원,2021-07-08,24.5,22.0,1,28.7,1041,12.0,1828.0,...,,,,,,1.7,2.4,,{비}0030-0109. {박무}0039-0052. {박무}0102-{박무}{강도1...,0.22
10301,155,창원,2021-07-09,25.0,22.4,16,28.9,1523,5.0,128.0,...,,,,,,2.5,3.6,,-{소나기}-{소나기}0050-0151. -{안개}-{시정(미만)}{1km}{안개}...,0.13
10302,155,창원,2021-07-10,26.1,23.3,326,29.5,1258,0.0,,...,,,,,,3.8,5.4,,-{박무}-{박무}{강도0}0300-{박무}{강도1}0600-{박무}{강도0}090...,


In [12]:
asos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10304 entries, 0 to 10303
Data columns (total 62 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   stnId           10304 non-null  int64  
 1   stnNm           10304 non-null  object 
 2   tm              10304 non-null  object 
 3   avgTa           10304 non-null  float64
 4   minTa           10304 non-null  float64
 5   minTaHrmt       10304 non-null  int64  
 6   maxTa           10304 non-null  float64
 7   maxTaHrmt       10304 non-null  int64  
 8   mi10MaxRn       2522 non-null   float64
 9   mi10MaxRnHrmt   1667 non-null   float64
 10  hr1MaxRn        2522 non-null   float64
 11  hr1MaxRnHrmt    1747 non-null   float64
 12  sumRnDur        3829 non-null   float64
 13  sumRn           3837 non-null   float64
 14  maxInsWs        10300 non-null  float64
 15  maxInsWsWd      10300 non-null  float64
 16  maxInsWsHrmt    10300 non-null  float64
 17  maxWs           10303 non-null 

In [13]:
asos_df.columns

Index(['stnId', 'stnNm', 'tm', 'avgTa', 'minTa', 'minTaHrmt', 'maxTa',
       'maxTaHrmt', 'mi10MaxRn', 'mi10MaxRnHrmt', 'hr1MaxRn', 'hr1MaxRnHrmt',
       'sumRnDur', 'sumRn', 'maxInsWs', 'maxInsWsWd', 'maxInsWsHrmt', 'maxWs',
       'maxWsWd', 'maxWsHrmt', 'avgWs', 'hr24SumRws', 'maxWd', 'avgTd',
       'minRhm', 'minRhmHrmt', 'avgRhm', 'avgPv', 'avgPa', 'maxPs',
       'maxPsHrmt', 'minPs', 'minPsHrmt', 'avgPs', 'ssDur', 'sumSsHr',
       'hr1MaxIcsrHrmt', 'hr1MaxIcsr', 'sumGsr', 'ddMefs', 'ddMefsHrmt',
       'ddMes', 'ddMesHrmt', 'sumDpthFhsc', 'avgTca', 'avgLmac', 'avgTs',
       'minTg', 'avgCm5Te', 'avgCm10Te', 'avgCm20Te', 'avgCm30Te', 'avgM05Te',
       'avgM10Te', 'avgM15Te', 'avgM30Te', 'avgM50Te', 'sumLrgEv', 'sumSmlEv',
       'n99Rn', 'iscs', 'sumFogDur'],
      dtype='object')

In [14]:
asos_df = asos_df[['stnNm', 'tm', 'avgTa', 'minTa','maxTa','avgWs','maxWd', 'avgRhm', 'avgPv', 'avgPa', 'avgTs']]
asos_df.columns = ["지역명","날짜","평균기온","최저기온","최고기온","평균풍속","최다풍향","평균상대습도","평균증기압","평균현지기압","평균지면온도"]

In [15]:
asos_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10304 entries, 0 to 10303
Data columns (total 11 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   지역명     10304 non-null  object 
 1   날짜      10304 non-null  object 
 2   평균기온    10304 non-null  float64
 3   최저기온    10304 non-null  float64
 4   최고기온    10304 non-null  float64
 5   평균풍속    10298 non-null  float64
 6   최다풍향    10300 non-null  float64
 7   평균상대습도  10303 non-null  float64
 8   평균증기압   10303 non-null  float64
 9   평균현지기압  10302 non-null  float64
 10  평균지면온도  10302 non-null  float64
dtypes: float64(9), object(2)
memory usage: 885.6+ KB


In [17]:
# 날씨 데이터 타입 변환 후 weather.csv 라는 이름으로 저장
asos_df.to_csv("data/weather.csv", index=False, encoding='utf-8-sig')