<a href="https://colab.research.google.com/github/kim-kidong/hello-world/blob/master/4_2_Open_API_ipynb%EC%9D%98_%EC%82%AC%EB%B3%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data Collection

---

지금까지는 데이터를 쓸 때 `local` 에 있는 파일만 사용했다.  
간편하게 사용할 수 있지만 모든 데이터를 `local` 컴퓨터에 들고 올 수는 없다.  
`DB` 에서 조회하거나 `web` 에서 데이터를 수집할 때 사용할 수 있는 방법에 대해 알아보자.  

그리고 그 데이터를 정제하여 분석하기 용이한 형태로 변경해 보자!

## HTTP ?

HyperText Transfer Protocol

원격에 있는 서버와 통신하기 위한 프로토콜  
`client` 가 `요청(request)`하면  
`server` 가 `응답(response)`하는 구조를 가진다.  
`web` 에서 자료를 가져올 때 `HTTP` 를 사용하여 `client-server`간 통신을 한다.  
자료의 주소는 `url` 로 표시되며 `request parameter` 에 요청하고자 하는 정보의 조건을 명시할 수 있다.   

- https://ko.wikipedia.org/wiki/HTTP

## REST?

Representational state transfer

`web(http)` 에서 자료주소를 지정하기 위한 소프트웨어 아키텍쳐의 사실상(de facto) 표준이다.  

`HTTP` 에서는 자료의 주소를 지정하기 위해 `url` 을 사용하는데  
이 자료의 주소를 명확하고 효과적으로 나타내기 위한 방법론이다.  

이러한 주소체계를 따르는 application 을 `RESTful` 하다고 말하기도 한다.

- https://ko.wikipedia.org/wiki/REST

## JSON ?

JavaScript Object Notation

`HTTP` 를 사용하여 `web` 에서 자료를 주고 받을 때 그 자료를 표현하는 방법 중 하나이다.  
`key-value` 로 이루어져 있으며 `python` 의 `dict`와 매우 유사하다.  
`python` 에서는 `json` library 를 활용하여 손쉽게 이용가능하다.  

- https://ko.wikipedia.org/wiki/JSON

`json` 라이브러리를 이용해서 `json` 문자열을 python `dict` 로 불러오는 예제입니다.

In [1]:
json_data = """
    {
        "name": "hong",
        "age": 25
    }
"""

dict = {"name" : "hong", "age" : 25}

`json` 라이브러리의 `loads` 함수를 이용해서  
문자열로된 `json_data` 를 python `dict` 로 손쉽게 변경할 수 있습니다.

In [2]:
import json

d = json.loads(json_data)

In [3]:
json_data

'\n    {\n        "name": "hong",\n        "age": 25\n    }\n'

In [None]:
d

{'age': 25, 'name': 'hong'}

타입이 `dict` 인 것을 확인할 수 있습니다.

In [None]:
type(d)

dict

`dict`에서 `[<키이름>]` 을 하면 해당 key 의 값을 들고 올 수 있습니다.

In [None]:
d["name"]

'hong'

## XML ?

eXtensible Markup Language

`JSON` 과 마찬가지로 `HTTP` 를 사용하여 `web` 에서 자료를 주고 받을 때 그 자료를 표현하는 방법 중 하나입니다.  
`<`, `>` 와 같은 화살괄호로 이루어져 있으며 괄호를 기준으로 데이터 구분을 합니다.  
예를 들면 `<태그이름>값</태그이름>` 와 같으며  
여는 괄호(`<>`)와 닫는 괄호(`</>`) 그리고 태그 안에 값이 있습니다.

- https://ko.wikipedia.org/wiki/XML

`BeautifulSoup` 라이브러리를 이용해서 `XML` 데이터를 python 객체로 들고오는 예제입니다.

In [None]:
xml_data = """
    <header>
        <resultCode>00</resultCode>
        <resultMsg>NORMAL SERVICE.</resultMsg>
    </header>
"""

`BeautifulSoup` 라이브러리를 이용해서 문자열로된 `xml_data` 를 손쉽게 python 객체로 불러들여올 수 있습니다.

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(xml_data)

In [None]:
type(soup)

bs4.BeautifulSoup

`prettify()` 함수를 이용하면 불러온 데이터를 사람이 보기 좋은 형태로 만들어 줍니다.

In [None]:
print(soup.prettify())

<html>
 <body>
  <header>
   <resultcode>
    00
   </resultcode>
   <resultmsg>
    NORMAL SERVICE.
   </resultmsg>
  </header>
 </body>
</html>


`find` 함수를 이용하면 특정 태그 이름을 기준으로 선택할 수 있습니다.

In [None]:
soup.find("resultmsg")

<resultmsg>NORMAL SERVICE.</resultmsg>

선택된 태그의 값을 얻고 싶을 때는 `.text` 속성을 사용할 수 있습니다.

In [None]:
soup.find("resultmsg").text

'NORMAL SERVICE.'

## How to use OpenAPI ?

- 원하는 데이터를 검색
- 검색결과 확인
- 데이터 다운로드 또는 활용 신청
- https://data.go.kr/ugs/selectPublicDataUseGuideView.do#publicData_search_02

## Data we will use

일별 기온 데이터를 사용하기 위해서 `지상(종관, ASOS) 일자료 조회서비스` 를 활용한다.

- 종관기상관측 장비로 관측한 일 기상자료를 조회하는 서비스
- https://data.go.kr/tcs/dss/selectApiDataDetailView.do?publicDataPk=15059093

서버와 HTTP 통신하기 위해 `requests` 모듈을 사용한다.  

In [None]:
import requests

공공데이터포털에서 제공하는 요청주소를 url 로 설정한다.

In [None]:
url = "http://openapi.molit.go.kr:8081/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc/getRTMSDataSvcAptTrade"

공공데이터포털에서 발급해준 키를 아래에 복사 붙여넣기 해준다.  
※ 마이페이지 - 지상(종관, ASOS) 일자료 조회서비스 안에 들어가면 `일반 인증키(Decoding)` 를 확인할 수 있다.

In [None]:
key = "K6YTnbKOI7d62HgZdSylG9YgbsTi3Z4JcBb48fH4mJ2T5TGLi3JcPM0EzkaJJd7hqBFQMiJVm5ilNJrPbMjCQg=="

기타 요청에 필요한 정보를 담을 `request parameter` 를 python `dict` 형식으로 작성한다.

In [None]:
params = {
    "ServiceKey": key,
    "LAWD_CD" : "11110",
    "DEAL_YMD" : "201501"
}

In [None]:
!echo 123.141.115.52 openapi.molit.go.kr >> /etc/hosts
!cat /etc/hosts

127.0.0.1	localhost
::1	localhost ip6-localhost ip6-loopback
fe00::0	ip6-localnet
ff00::0	ip6-mcastprefix
ff02::1	ip6-allnodes
ff02::2	ip6-allrouters
172.28.0.2	cdf95665768a
123.141.115.52 openapi.molit.go.kr
123.141.115.52 openapi.molit.go.kr
123.141.115.52 openapi.molit.go.kr


`requests` 모듈로 request parameter(`params`) 를 담아 `http get` 요청을 한 후 결과값을 response 변수에 할당한다.

In [None]:
response = requests.get(url, params)

`reuqests.get()` 함수로 만들어진 URL 도 확인할 수 있다.

In [None]:
response.request.url

'http://openapi.molit.go.kr:8081/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc/getRTMSDataSvcAptTrade?ServiceKey=K6YTnbKOI7d62HgZdSylG9YgbsTi3Z4JcBb48fH4mJ2T5TGLi3JcPM0EzkaJJd7hqBFQMiJVm5ilNJrPbMjCQg%3D%3D&LAWD_CD=11110&DEAL_YMD=201501'

response 객체의 `text` 속성을 이용해서 `http response` 텍스트를 확인해본다.  
요청할 때 `dataType` 을 `JSON` 으로 설정해서 결과값이 `json` 형식인 것으로 확인된다.

In [None]:
print(response.text)

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><response><header><resultCode>00</resultCode><resultMsg>NORMAL SERVICE.</resultMsg></header><body><items><item><거래금액>   100,000</거래금액><거래유형> </거래유형><건축년도>2008</건축년도><년>2015</년><법정동> 사직동</법정동><아파트>광화문스페이스본(101동~105동)</아파트><월>1</월><일>7</일><전용면적>151.81</전용면적><중개사소재지> </중개사소재지><지번>9</지번><지역코드>11110</지역코드><층>9</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item><item><거래금액>    73,000</거래금액><거래유형> </거래유형><건축년도>2008</건축년도><년>2015</년><법정동> 사직동</법정동><아파트>광화문스페이스본(101동~105동)</아파트><월>1</월><일>27</일><전용면적>94.51</전용면적><중개사소재지> </중개사소재지><지번>9</지번><지역코드>11110</지역코드><층>9</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item><item><거래금액>   100,500</거래금액><거래유형> </거래유형><건축년도>2008</건축년도><년>2015</년><법정동> 사직동</법정동><아파트>광화문스페이스본(106동)</아파트><월>1</월><일>29</일><전용면적>150.4</전용면적><중개사소재지> </중개사소재지><지번>9-1</지번><지역코드>11110</지역코드><층>4</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item><item><거래금액>   110,000</거래금액><거래유형> </거래유형><건축년도>2008</건축년도><년>2015</년><법정동> 사직동</법정동><아파트>광화문스페이스본(101동~

json 형식의 데이터를 사람이 보기 좋은 형태로 만들어 주는 웹사이트들을 이용해서 간단히 데이터 구조를 파악할 수 있습니다.

- https://jsonformatter.curiousconcept.com/
- https://codebeautify.org/jsonviewer

`json` 형식의 `text` 데이터를 `dict` 로 `parsing` 하기 위해 `json()` 메서드를 사용한다.

In [None]:
response_json = response.json()

JSONDecodeError: ignored

In [None]:
print(type(response_json))

NameError: ignored

In [None]:
response_json["response"]["header"]

NameError: ignored

In [None]:
response_json["response"]["body"]["items"]["item"]

[{'avgCm10Te': '-0.7',
  'avgCm20Te': '0.1',
  'avgCm30Te': '1.4',
  'avgCm5Te': '-0.6',
  'avgLmac': '3.5',
  'avgM05Te': '2.9',
  'avgM10Te': '6.8',
  'avgM15Te': '9.7',
  'avgM30Te': '15.9',
  'avgM50Te': '17.5',
  'avgPa': '1014.9',
  'avgPs': '1026.0',
  'avgPv': '2.9',
  'avgRhm': '64.0',
  'avgTa': '-4.2',
  'avgTca': '3.9',
  'avgTd': '-10.2',
  'avgTs': '-3.4',
  'avgWs': '2.0',
  'ddMefs': '',
  'ddMefsHrmt': '',
  'ddMes': '',
  'ddMesHrmt': '',
  'hr1MaxIcsr': '1.74',
  'hr1MaxIcsrHrmt': '1100',
  'hr1MaxRn': '',
  'hr1MaxRnHrmt': '',
  'hr24SumRws': '1723',
  'iscs': '',
  'maxInsWs': '7.7',
  'maxInsWsHrmt': '1530',
  'maxInsWsWd': '270',
  'maxPs': '1028.1',
  'maxPsHrmt': '249',
  'maxTa': '1.6',
  'maxTaHrmt': '1447',
  'maxWd': '270',
  'maxWs': '4.1',
  'maxWsHrmt': '1532',
  'maxWsWd': '270',
  'mi10MaxRn': '',
  'mi10MaxRnHrmt': '',
  'minPs': '1023.9',
  'minPsHrmt': '1354',
  'minRhm': '50',
  'minRhmHrmt': '1140',
  'minTa': '-9.8',
  'minTaHrmt': '511',
  'minT

In [None]:
data = []  # 수집한 데이터를 저장할 list 변수

page_no = 1  # 처음 페이지 번호
start_date = "20201026"  # 수집을 시작할 날짜
end_date = "20210215"  # 수집을 종료할 날짜
station_id = "108"  # 기상관측 장소 ID (서울 : 108)

# 모든 데이터를 들고올 때까지 반복합니다.
while True:
    # 요청에 필요한 Request Parameter 를 정의한 dict 입니다.
    params = {
        "ServiceKey": key,
        "pageNo": page_no,
        "dataType": "JSON",
        "dataCd": "ASOS",
        "dateCd": "DAY",
        "startDt": "20201026",
        "endDt": "20210215",
        "stnIds": "108",
    }

    # 지정된 url 과 request parameter 를 이용해 GET 요청합니다.
    response = requests.get(url, params)
    # 결과값으로 반환된 데이터를 json() 함수를 이용하여 dict 형식으로 불러옵니다.
    response_json = response.json()
    
    # 만약 데이터의 결과코드(resultCode)가 "03"이면 데이터가 없는 것이므로 반복문을 종료합니다.
    if response_json["response"]["header"]["resultCode"] == "03":
        break

    # 결과데이터의 item 값을 모두 불러와서 data 에 extend(이어붙이기)합니다.
    # python list append vs extend
    items = response_json["response"]["body"]["items"]["item"]
    data.extend(items)
    
    # 한 번의 요청이 완료되면 다음 페이지를 요청합니다.
    page_no = page_no + 1

In [None]:
print(data[0].items())

dict_items([('stnId', '108'), ('stnNm', '서울'), ('tm', '2020-10-26'), ('avgTa', '12.9'), ('minTa', '8.0'), ('minTaHrmt', '618'), ('maxTa', '19.0'), ('maxTaHrmt', '1354'), ('mi10MaxRn', ''), ('mi10MaxRnHrmt', ''), ('hr1MaxRn', ''), ('hr1MaxRnHrmt', ''), ('sumRnDur', ''), ('sumRn', ''), ('maxInsWs', '6.7'), ('maxInsWsWd', '290'), ('maxInsWsHrmt', '1409'), ('maxWs', '4.4'), ('maxWsWd', '320'), ('maxWsHrmt', '1417'), ('avgWs', '1.6'), ('hr24SumRws', '1406'), ('maxWd', '20'), ('avgTd', '7.4'), ('minRhm', '42'), ('minRhmHrmt', '1408'), ('avgRhm', '71.6'), ('avgPv', '10.3'), ('avgPa', '1009.8'), ('maxPs', '1021.8'), ('maxPsHrmt', '849'), ('minPs', '1018.3'), ('minPsHrmt', '1533'), ('avgPs', '1020.1'), ('ssDur', '10.8'), ('sumSsHr', '9.2'), ('hr1MaxIcsrHrmt', '1200'), ('hr1MaxIcsr', '2.16'), ('sumGsr', '13.69'), ('ddMefs', ''), ('ddMefsHrmt', ''), ('ddMes', ''), ('ddMesHrmt', ''), ('sumDpthFhsc', ''), ('avgTca', '1.6'), ('avgLmac', '0.1'), ('avgTs', '11.9'), ('minTg', '3.2'), ('avgCm5Te', '13.8

정상적으로 들고온 것을 확인할 수 있다.

In [None]:
for key, value in list(data[0].items())[:15]:
    print(key, ":", value)
print("...")

stnId : 108
stnNm : 서울
tm : 2020-10-26
avgTa : 12.9
minTa : 8.0
minTaHrmt : 618
maxTa : 19.0
maxTaHrmt : 1354
mi10MaxRn : 
mi10MaxRnHrmt : 
hr1MaxRn : 
hr1MaxRnHrmt : 
sumRnDur : 
sumRn : 
maxInsWs : 6.7
...


# Data Preprocessing

이제 `data` 를 `pandas` 에서 다뤄보자

In [None]:
import pandas as pd

위에서 들고온 `data` 를 `DataFrame` 으로 변환시킨다.

In [None]:
df = pd.DataFrame(data)

In [None]:
df.head()

Unnamed: 0,stnId,stnNm,tm,avgTa,minTa,minTaHrmt,maxTa,maxTaHrmt,mi10MaxRn,mi10MaxRnHrmt,hr1MaxRn,hr1MaxRnHrmt,sumRnDur,sumRn,maxInsWs,maxInsWsWd,maxInsWsHrmt,maxWs,maxWsWd,maxWsHrmt,avgWs,hr24SumRws,maxWd,avgTd,minRhm,minRhmHrmt,avgRhm,avgPv,avgPa,maxPs,maxPsHrmt,minPs,minPsHrmt,avgPs,ssDur,sumSsHr,hr1MaxIcsrHrmt,hr1MaxIcsr,sumGsr,ddMefs,ddMefsHrmt,ddMes,ddMesHrmt,sumDpthFhsc,avgTca,avgLmac,avgTs,minTg,avgCm5Te,avgCm10Te,avgCm20Te,avgCm30Te,avgM05Te,avgM10Te,avgM15Te,avgM30Te,avgM50Te,sumLrgEv,sumSmlEv,n99Rn,iscs,sumFogDur
0,108,서울,2020-10-26,12.9,8.0,618,19.0,1354,,,,,,,6.7,290,1409,4.4,320,1417,1.6,1406,20,7.4,42,1408,71.6,10.3,1009.8,1021.8,849,1018.3,1533,1020.1,10.8,9.2,1200,2.16,13.69,,,,,,1.6,0.1,11.9,3.2,13.8,13.5,14.0,14.9,15.8,18.6,20.2,20.8,18.5,2.2,3.2,,,
1,108,서울,2020-10-27,14.0,9.0,653,19.4,1431,,,,,,,5.7,290,1411,3.4,320,1516,1.8,1573,270,9.0,39,1456,74.1,11.6,1010.9,1022.4,2238,1020.0,1629,1021.2,10.8,8.3,1200,2.04,12.23,,,,,,1.1,1.1,13.2,6.0,14.4,14.1,14.5,15.2,15.9,18.4,20.0,20.8,18.5,2.1,3.1,,{박무}0115-{박무}{강도0}0300-{박무}{강도0}0600-{박무}{강도0}...,
2,108,서울,2020-10-28,13.8,8.6,2359,18.2,1442,,,,,,,9.1,320,1449,4.8,270,1507,2.5,2196,270,2.8,23,1619,52.1,8.2,1012.6,1025.1,2236,1021.1,1414,1022.8,10.8,9.2,1200,2.54,15.27,,,,,,3.8,0.9,13.8,2.1,15.3,15.0,15.2,15.8,16.2,18.3,19.9,20.7,18.5,3.6,5.1,,-{박무}-{박무}{강도0}0300-{박무}{강도1}0600-0820.,
3,108,서울,2020-10-29,10.8,5.5,703,16.1,1328,,,,,,,7.2,340,112,4.5,320,104,2.0,1694,270,-2.6,24,1535,40.3,5.1,1013.7,1026.2,825,1022.3,1705,1024.1,10.7,9.0,1200,2.39,13.77,,,,,,3.1,0.0,11.5,-1.5,13.0,13.1,14.1,15.2,16.2,18.2,19.7,20.7,18.5,2.9,4.2,,,
4,108,서울,2020-10-30,11.9,5.8,731,19.6,1512,,,,,,,5.6,110,1053,3.2,90,1101,1.5,1284,50,-0.8,22,1517,42.9,5.8,1015.2,1027.2,2313,1023.7,45,1025.5,10.7,9.7,1200,2.31,14.62,,,,,,0.4,0.0,11.2,1.6,12.9,12.8,13.7,14.7,15.7,18.1,19.6,20.6,18.5,3.1,4.4,,,


`DataFrame` 의 `shape` `(행, 열)` 을 확인한다.

In [None]:
df.shape

(113, 62)

어떤 컬럼들이 있는지 확인해보자

In [None]:
df.columns

Index(['stnId', 'stnNm', 'tm', 'avgTa', 'minTa', 'minTaHrmt', 'maxTa',
       'maxTaHrmt', 'mi10MaxRn', 'mi10MaxRnHrmt', 'hr1MaxRn', 'hr1MaxRnHrmt',
       'sumRnDur', 'sumRn', 'maxInsWs', 'maxInsWsWd', 'maxInsWsHrmt', 'maxWs',
       'maxWsWd', 'maxWsHrmt', 'avgWs', 'hr24SumRws', 'maxWd', 'avgTd',
       'minRhm', 'minRhmHrmt', 'avgRhm', 'avgPv', 'avgPa', 'maxPs',
       'maxPsHrmt', 'minPs', 'minPsHrmt', 'avgPs', 'ssDur', 'sumSsHr',
       'hr1MaxIcsrHrmt', 'hr1MaxIcsr', 'sumGsr', 'ddMefs', 'ddMefsHrmt',
       'ddMes', 'ddMesHrmt', 'sumDpthFhsc', 'avgTca', 'avgLmac', 'avgTs',
       'minTg', 'avgCm5Te', 'avgCm10Te', 'avgCm20Te', 'avgCm30Te', 'avgM05Te',
       'avgM10Te', 'avgM15Te', 'avgM30Te', 'avgM50Te', 'sumLrgEv', 'sumSmlEv',
       'n99Rn', 'iscs', 'sumFogDur'],
      dtype='object')

필요한 컬럼만 선택하고 나머지 컬럼은 삭제해보자  
이번 실습에서는 아래에 나열된 컬럼만 사용한다.  

 - `일시(tm)`
 - `평균기온(avgTa)`
 - `최저기온(minTa)`
 - `최저기온시각(minTaHrmt)`
 - `최고기온(maxTa)`
 - `최대기온시각(maxTaHrmt)`
 - `일강수량(sumRn)`

In [None]:
columns = ["tm", "avgTa", "minTa", "minTaHrmt", "maxTa", "maxTaHrmt", "sumRn"]

df = df[["tm", "avgTa", "minTa", "minTaHrmt", "maxTa", "maxTaHrmt", "sumRn"]]

In [None]:
df.head()

Unnamed: 0,tm,avgTa,minTa,minTaHrmt,maxTa,maxTaHrmt,sumRn
0,2020-10-26,12.9,8.0,618,19.0,1354,
1,2020-10-27,14.0,9.0,653,19.4,1431,
2,2020-10-28,13.8,8.6,2359,18.2,1442,
3,2020-10-29,10.8,5.5,703,16.1,1328,
4,2020-10-30,11.9,5.8,731,19.6,1512,


`rename` 메서드를 사용해서 컬럼명을 더 알아보기쉽게 바꿔보자.

In [None]:
column_names = {
    "tm": "day",
    "avgTa": "average_temp",
    "minTa": "min_temp",
    "minTaHrmt": "min_temp_timestamp",
    "maxTa": "max_temp",
    "maxTaHrmt": "max_temp_timestamp",
    "sumRn": "rainfall",
}

df = df.rename(columns=column_names)

In [None]:
df.head(3)

Unnamed: 0,day,average_temp,min_temp,min_temp_timestamp,max_temp,max_temp_timestamp,rainfall
0,2020-10-26,12.9,8.0,618,19.0,1354,
1,2020-10-27,14.0,9.0,653,19.4,1431,
2,2020-10-28,13.8,8.6,2359,18.2,1442,


`info()` 메서드로 확인한 현재 `df` 의 컬럼 상태는 아래와 같다.  
  
- 객체의 `type` 이 `DataFrame` 이다.
- `Index` 는 `RangeIndex` 를 사용하며, 113개, 0~112의 값을 가진다.
- 총 7 개의 `columns` 가 있다.
- `day`, `average_temp`, `...` 등의 컬럼이 있으며 모두 113개 `non-null` 컬럼이다.
- `dtype` 은 모두 `object` 이다.
- 현재 사용하고 있는 memory 는 6.3+ KB 이다.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 113 entries, 0 to 112
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   day                 113 non-null    object
 1   average_temp        113 non-null    object
 2   min_temp            113 non-null    object
 3   min_temp_timestamp  113 non-null    object
 4   max_temp            113 non-null    object
 5   max_temp_timestamp  113 non-null    object
 6   rainfall            113 non-null    object
dtypes: object(7)
memory usage: 6.3+ KB


`empty string("")` 의 갯수를 확인해보자

In [None]:
(df == "").sum()

day                    0
average_temp           0
min_temp               0
min_temp_timestamp     0
max_temp               0
max_temp_timestamp     0
rainfall              74
dtype: int64

 `empty string` 은 `pandas` 에서 다루기 어려우므로 `NaN` 형태로 변환한다.  

1. `NaN` 관련 메서드는 많이 제공 되지만 (`isna` 등) `empty string` 은 직접 찾아서 처리해줘야 하기 때문이다.  
2. `empty string` 을 포함한 `rainfall` 컬럼은 `강수량` 을 가지는 열이다.  
해당 열 `dtype` 으로는 `float`(실수) 타입이 올바를 것인데  
`float` 자료형에서 `null` 값을 나타내는 가장 좋은 표현방법은 `NaN` 이다.
3. `empty string` 을 포함한 열은 `dtype` 을 `float` 로 변경할 수 없다.


In [None]:
import numpy as np

df["rainfall"] = df["rainfall"].replace("", np.nan)

`rainfall` 컬럼의 `""` 값이 `np.NaN` 값으로 정상적으로 변경된 것을 알 수 있다.

In [None]:
df.head()

Unnamed: 0,day,average_temp,min_temp,min_temp_timestamp,max_temp,max_temp_timestamp,rainfall
0,2020-10-26,12.9,8.0,618,19.0,1354,
1,2020-10-27,14.0,9.0,653,19.4,1431,
2,2020-10-28,13.8,8.6,2359,18.2,1442,
3,2020-10-29,10.8,5.5,703,16.1,1328,
4,2020-10-30,11.9,5.8,731,19.6,1512,


In [None]:
df.isna().sum()

day                    0
average_temp           0
min_temp               0
min_temp_timestamp     0
max_temp               0
max_temp_timestamp     0
rainfall              74
dtype: int64

`.astype()` 메서드를 사용해서 각 컬럼에 맞는 `dtype` 으로 변경해준다.

 - `day` : `Timestamp`
 - `average_temp` : `float`
 - `min_temp` : `float`
 - `min_temp_timestamp` : `Timestamp`
 - `max_temp` : `float`
 - `max_temp_timestamp` : `Timestamp`
 - `rainfall` : `float`

In [None]:
df.dtypes

day                   object
average_temp          object
min_temp              object
min_temp_timestamp    object
max_temp              object
max_temp_timestamp    object
rainfall              object
dtype: object

우선 `float` 타입을 가질 컬럼들의 `dtype` 을 변경해준다.

In [None]:
float_type_columns = [
    "average_temp",
    "min_temp",
    "max_temp",
    "rainfall",
]

df[float_type_columns] = df[float_type_columns].astype(float)

In [None]:
df.dtypes

day                    object
average_temp          float64
min_temp              float64
min_temp_timestamp     object
max_temp              float64
max_temp_timestamp     object
rainfall              float64
dtype: object

`Timestamp` 타입을 가질 컬럼들의 `dtype` 을 변경해준다.

같은 `Timestamp` 컬럼이라도 기존 양식(`format`)에 따라 따로 적용해줘야한다.  

- `day` : `%Y-%m-%d` (ex. 20190101)
- `min_temp_timestamp` : `%H%M` (ex. 0648)
- `max_temp_timestamp` : `%H%M` (ex. 0648)  

date time format: https://docs.python.org/ko/3/library/datetime.html#strftime-and-strptime-format-codes

`day` 열을 `%Y-%m-%d` 형식에 맞게 `Timestamp` `dtype` 으로 변경한다.

In [None]:
df.head(3)

Unnamed: 0,day,average_temp,min_temp,min_temp_timestamp,max_temp,max_temp_timestamp,rainfall
0,2020-10-26,12.9,8.0,618,19.0,1354,
1,2020-10-27,14.0,9.0,653,19.4,1431,
2,2020-10-28,13.8,8.6,2359,18.2,1442,


In [None]:
df["day"] = pd.to_datetime(df["day"], format="%Y-%m-%d")

print(df["day"])

0     2020-10-26
1     2020-10-27
2     2020-10-28
3     2020-10-29
4     2020-10-30
         ...    
108   2021-02-11
109   2021-02-12
110   2021-02-13
111   2021-02-14
112   2021-02-15
Name: day, Length: 113, dtype: datetime64[ns]


`*_timestamp` 열의 `dtype` 을 `Timestamp` 형식으로 변경시켜보자

In [None]:
df["min_temp_timestamp"] = df["min_temp_timestamp"].str.pad(4, side="left", fillchar="0")
df["max_temp_timestamp"] = df["max_temp_timestamp"].str.pad(4, side="left", fillchar="0")

In [None]:
df.head()

Unnamed: 0,day,average_temp,min_temp,min_temp_timestamp,max_temp,max_temp_timestamp,rainfall
0,2020-10-26,12.9,8.0,618,19.0,1354,
1,2020-10-27,14.0,9.0,653,19.4,1431,
2,2020-10-28,13.8,8.6,2359,18.2,1442,
3,2020-10-29,10.8,5.5,703,16.1,1328,
4,2020-10-30,11.9,5.8,731,19.6,1512,


`timestamp` 의 앞의 두글자는 `hour` 를 나타낸다.

In [None]:
df["min_temp_timestamp"].str[:2]

0      06
1      06
2      23
3      07
4      07
       ..
108    06
109    07
110    07
111    07
112    23
Name: min_temp_timestamp, Length: 113, dtype: object

`timestamp` 의 뒤의 두글자는 `minute` 을 나타낸다.

In [None]:
df["min_temp_timestamp"].str[2:]

0      18
1      53
2      59
3      03
4      31
       ..
108    15
109    22
110    58
111    03
112    39
Name: min_temp_timestamp, Length: 113, dtype: object

`timestamp` 에서 각각 시간정보(`hour`, `minute`)를 뽑아내서 `int` 형으로 변환한 다음  
시간을 표현하기위한 자료형인 `pd.Timedelta` 형식으로 변경해준다.

In [None]:
min_hour = pd.to_timedelta(df["min_temp_timestamp"].str[:2].astype(int), unit="h")

print(min_hour)

0     0 days 06:00:00
1     0 days 06:00:00
2     0 days 23:00:00
3     0 days 07:00:00
4     0 days 07:00:00
            ...      
108   0 days 06:00:00
109   0 days 07:00:00
110   0 days 07:00:00
111   0 days 07:00:00
112   0 days 23:00:00
Name: min_temp_timestamp, Length: 113, dtype: timedelta64[ns]


In [None]:
min_minute = pd.to_timedelta(df["min_temp_timestamp"].str[2:].astype(int), unit="m")

print(min_minute)

0     0 days 00:18:00
1     0 days 00:53:00
2     0 days 00:59:00
3     0 days 00:03:00
4     0 days 00:31:00
            ...      
108   0 days 00:15:00
109   0 days 00:22:00
110   0 days 00:58:00
111   0 days 00:03:00
112   0 days 00:39:00
Name: min_temp_timestamp, Length: 113, dtype: timedelta64[ns]


`day`, `hour` 과 `minute` 정보를 모두 합쳐서 온전한 `Timestamp` 열로 변환한다.

In [None]:
df["min_temp_timestamp"] = df["day"] + min_hour + min_minute

print(df["min_temp_timestamp"])

0     2020-10-26 06:18:00
1     2020-10-27 06:53:00
2     2020-10-28 23:59:00
3     2020-10-29 07:03:00
4     2020-10-30 07:31:00
              ...        
108   2021-02-11 06:15:00
109   2021-02-12 07:22:00
110   2021-02-13 07:58:00
111   2021-02-14 07:03:00
112   2021-02-15 23:39:00
Name: min_temp_timestamp, Length: 113, dtype: datetime64[ns]


In [None]:
df.dtypes

day                   datetime64[ns]
average_temp                 float64
min_temp                     float64
min_temp_timestamp    datetime64[ns]
max_temp                     float64
max_temp_timestamp            object
rainfall                     float64
dtype: object

마찬가지로 `max_temp_timestamp` 도 `Timestamp` `dtype` 으로 변경해준다.


In [None]:
df["max_temp_timestamp"] = (
    df["day"]
    + pd.to_timedelta(df["max_temp_timestamp"].str[:2].astype(int), unit="h")
    + pd.to_timedelta(df["max_temp_timestamp"].str[2:].astype(int), unit="m")
)

In [None]:
df.head()

Unnamed: 0,day,average_temp,min_temp,min_temp_timestamp,max_temp,max_temp_timestamp,rainfall
0,2020-10-26,12.9,8.0,2020-10-26 06:18:00,19.0,2020-10-26 13:54:00,
1,2020-10-27,14.0,9.0,2020-10-27 06:53:00,19.4,2020-10-27 14:31:00,
2,2020-10-28,13.8,8.6,2020-10-28 23:59:00,18.2,2020-10-28 14:42:00,
3,2020-10-29,10.8,5.5,2020-10-29 07:03:00,16.1,2020-10-29 13:28:00,
4,2020-10-30,11.9,5.8,2020-10-30 07:31:00,19.6,2020-10-30 15:12:00,


이렇게 모든 열의 `dtype` 이 올바르게 지정되었다.  
올바른 `dtype` 을 가졌기 때문에 이후에 분석에 있어서 매우 용이할 것 이다.  

예를 들면 `min_temp_timestamp` 에 하루씩 빼주는 연산을 하려면  
`str` 타입일때는 매우 힘들지만 `Timestamp` 타입일 때는 아래와 같이 매우 간편하게 할 수 있다.  
```python
df["min_temp_timestamp"] - pd.Timedelta(1, unit="d")
```  
  
컬럼별로 올바른 데이터타입(`dtype`) 을 지정해주는 것은 기본이다!

마지막으로 `rainfall` 컬럼에 `NaN` 데이터를 `0` 으로 치환해보자

In [None]:
df["rainfall"] = df["rainfall"].fillna(0)

In [None]:
df.head()

Unnamed: 0,day,average_temp,min_temp,min_temp_timestamp,max_temp,max_temp_timestamp,rainfall
0,2020-10-26,12.9,8.0,2020-10-26 06:18:00,19.0,2020-10-26 13:54:00,0.0
1,2020-10-27,14.0,9.0,2020-10-27 06:53:00,19.4,2020-10-27 14:31:00,0.0
2,2020-10-28,13.8,8.6,2020-10-28 23:59:00,18.2,2020-10-28 14:42:00,0.0
3,2020-10-29,10.8,5.5,2020-10-29 07:03:00,16.1,2020-10-29 13:28:00,0.0
4,2020-10-30,11.9,5.8,2020-10-30 07:31:00,19.6,2020-10-30 15:12:00,0.0


전처리가 끝난 데이터를 `csv` 파일 형식으로 저장하자!

In [None]:
df.to_csv("preprocessing.csv")

# XML Data Collection & Processing

`BeautifulSoup` 라이브러리를 활용하여 `XML` 데이터를 받고 전처리합니다.

## Data we will use

대한민국 공휴일 데이터를 사용하기 위해서 `한국천문연구원_특일 정보` 를 활용합니다.

- 국경일정보, 공휴일정보, 기념일정보, 24절기정보, 잡절정보를 조회하는 서비스
- https://www.data.go.kr/data/15012690/openapi.do

서버와 통신하기 위해 `requests` 모듈을 임포트하고  
`XML` 데이터를 다루기 위해 `BeautifulSoup` 라이브러리도 임포트합니다.

In [None]:
import requests
from bs4 import BeautifulSoup

공휴일 정보 조회를 하는 URL 을 지정합니다.

In [None]:
url = "http://apis.data.go.kr/B090041/openapi/service/SpcdeInfoService/getRestDeInfo"

공공 데이터 포털에서 제공한 key 를 지정합니다.

In [None]:
key = "K6YTnbKOI7d62HgZdSylG9YgbsTi3Z4JcBb48fH4mJ2T5TGLi3JcPM0EzkaJJd7hqBFQMiJVm5ilNJrPbMjCQg=="

오픈 API 요청시 필요한 Request Parameter 를 지정해줍니다.

In [None]:
params = {
    "ServiceKey": key,
    "solYear": "2021",  # YYYY 형식
    "solMonth": "05",   # MM 형식
}

`requests` 모듈의 `get` 메서드로 지정한 url 과 parameter 들로 요청합니다.

In [None]:
response = requests.get(url, params)

response 객체의 text 속성을 확인해서 제대로 데이터가 들고와졌는지 확인합니다.

In [None]:
response.text

'<?xml version="1.0" encoding="UTF-8" standalone="yes"?><response><header><resultCode>00</resultCode><resultMsg>NORMAL SERVICE.</resultMsg></header><body><items><item><dateKind>01</dateKind><dateName>어린이날</dateName><isHoliday>Y</isHoliday><locdate>20210505</locdate><seq>1</seq></item><item><dateKind>01</dateKind><dateName>부처님오신날</dateName><isHoliday>Y</isHoliday><locdate>20210519</locdate><seq>1</seq></item></items><numOfRows>10</numOfRows><pageNo>1</pageNo><totalCount>2</totalCount></body></response>'

문자열(`str`)형식의 데이터에서 필요한 부분만 추출하는 것을 쉽지 않기 때문에  
`BeautifulSoup` 라이브러리를 활용하여 필요한 값만 추출합니다.

In [None]:
soup = BeautifulSoup(response.text)

XML 형식의 데이터를 사람이 보기 좋은 형태로 만들어 주는 웹사이트들을 이용해서 간단히 데이터 구조를 파악할 수 있습니다.

- https://jsonformatter.org/xml-viewer

`find` 메서드를 이용해서 특정 태그를 찾습니다.

In [None]:
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [None]:
soup.find("item")

<item><datekind>01</datekind><datename>어린이날</datename><isholiday>Y</isholiday><locdate>20210505</locdate><seq>1</seq></item>

찾은 태그의 하위 태그를 선택할 때에는 `.<태그명>` 을 이용할 수 있습니다.  
아래는 `item` 태그를 먼저 찾은 후, `datename` 이라는 하위 태그를 선택한 코드입니다.

In [None]:
soup.find("item").datename.text

'어린이날'

태그를 선택하고 `.text` 속성을 확인하면 태그 안 값을 추출할 수 있습니다.

들고온 XML 데이터에서 모든 공휴일명(`datename`) 과 날짜(`locdate`) 를 추출하려면 `item` 태그를 모두 들고와야합니다.  
`find_all` 함수를 통해 특정 태그이름을 가진 모든 데이터를 `list` 형식으로 가져올 수 있습니다.

In [None]:
soup.find_all("item")

[<item><datekind>01</datekind><datename>어린이날</datename><isholiday>Y</isholiday><locdate>20210505</locdate><seq>1</seq></item>,
 <item><datekind>01</datekind><datename>부처님오신날</datename><isholiday>Y</isholiday><locdate>20210519</locdate><seq>1</seq></item>]

In [None]:
soup.find_all("item")[1].datename.text

'부처님오신날'

찾은 item 들을 `for each` 문으로 모두 순회하며 데이터를 들고 올 수 있습니다.

In [None]:
items = soup.find_all("item")

for item in items:
    print(item.datename.text, " : ", item.locdate.text)


어린이날  :  20210505
부처님오신날  :  20210519


이런 식으로 필요한 연도(`solYear`), 월(`solMonth`)를 Request Parameter 로 넘겨줘서 값을 들고 오면 되겠습니다.  
예를 들어 2021년의 모든 공휴일 데이터가 필요하다면

`solYear` 은 `"2021"` 이 되고  

In [None]:
solYear = "2021"

`solMonth` 는 `"01"`, `"02"`, `...`, `"12"` 가 될 것 입니다.

In [None]:
solMonths = ["01", "02", "03", "04", "05", "06", "07", "08", "09", "10", "11", "12"]

이 파라미터들을 반복해서 요청해서 모든 데이터를 들고올 수 있습니다.

In [None]:
# 결과값을 담을 list 변수입니다.
result = []

# solMonths 를 for each 문으로 순회하며 각 월의 데이터를 요청합니다.
for solMonth in solMonths:
    
    # 요청에 필요한 Request parameter 를 지정합니다.
    params = {
        "ServiceKey": key,
        "solYear": solYear,
        "solMonth": solMonth,
    }
    # requests.get 함수를 통해서 지정한 url 과 parameter 들을 포함해 요청합니다.
    response = requests.get(url, params)
    
    # 요청한 데이터를 BeautifulSoup 라이브러리로 python 객체화 시킵니다.
    soup = BeautifulSoup(response.text)
    
    # find_all 메서드를 사용해서 데이터에 있는 모든 item 태그들을 items 라는 변수에 할당합니다.
    items = soup.find_all("item")
    
    # item 태그들을 for each 문으로 순회하며
    # 공휴일명(item.datename.text), 날짜(item.locdate.text) 를 결과값에 더해줍니다.
    for item in items:
        # 결과값에 더하기 전 data 라는 dict 로 만들어 더해줍니다.
        data = {
            "명칭": item.datename.text,
            "날짜": item.locdate.text
        }
        result.append(data)

위 반복문을 실행하면 `result` 변수에 모든 공휴일 정보가 들어가게 됩니다.

In [None]:
result[0].items()

dict_items([('명칭', '1월1일'), ('날짜', '20210101')])

`result` 변수를 `DataFrame` 에 전달하면 `pandas` 에서도 사용할 수 있게 됩니다.

In [None]:
df = pd.DataFrame(result)

In [None]:
df

Unnamed: 0,명칭,날짜
0,1월1일,20210101
1,설날,20210211
2,설날,20210212
3,설날,20210213
4,삼일절,20210301
5,어린이날,20210505
6,부처님오신날,20210519
7,현충일,20210606
8,광복절,20210815
9,대체공휴일,20210816


`date` 열을 `pd.to_datetime` 함수를 이용해 `datetime` 형식으로 변경해줍니다.

In [None]:
df["날짜"] = pd.to_datetime(df["날짜"])

In [None]:
df

Unnamed: 0,명칭,날짜
0,1월1일,2021-01-01
1,설날,2021-02-11
2,설날,2021-02-12
3,설날,2021-02-13
4,삼일절,2021-03-01
5,어린이날,2021-05-05
6,부처님오신날,2021-05-19
7,현충일,2021-06-06
8,광복절,2021-08-15
9,대체공휴일,2021-08-16


In [None]:
df.dtypes

명칭            object
날짜    datetime64[ns]
dtype: object

공휴일 정보를 `holiday.csv` 파일에 저장합니다.

In [None]:
df.to_csv("holiday.csv", encoding="euc-kr")