<p style="font-family:verdana;font-size:200%;text-align:center;">Open API : APT Price Example</p>

- 공공데이터포털에서 제공되는 데이터를 쉽게 수집하기 위하여 오픈 API를 이용합니다.
- 국토교통부 아파트매매 실거래가 데이터를 수집하는 예제를 실행합니다.

## 작업경로 설정

In [1]:
# 관련 라이브러리를 호출합니다.
import os

In [2]:
# 현재 작업경로를 확인합니다.
os.getcwd()

'C:\\Users\\kim0m\\side_project\\PythonRPA-main\\code'

In [3]:
# data 폴더로 작업경로를 변경합니다.
os.chdir(path = '../data')

In [4]:
# 작업경로에 포함된 폴더명과 파일명을 출력합니다.
os.listdir()

['APT_List_Seoul_2020.xlsx',
 'APT_Price_Seoul_2020.xlsx',
 'Area_Code.xlsx',
 'covid_20210415.xlsx',
 'daum_news_20210415.xlsx',
 'Market_Index_20210415.xlsx',
 'Market_Index_Form.xlsx',
 'Naver_APT_Detail.xlsx',
 'Open_API_Key.txt',
 'test.txt']

## HTTP 요청 실행

In [5]:
# 관련 라이브러리를 호출합니다.
import requests

In [6]:
# 요청 URL의 성분을 문자열로 각각 생성합니다.
# [참고] URL이 길면 host, path 및 operation을 나눠서 생성하고, + 기호로 결합하는 방식이 좋습니다.
host = 'http://openapi.molit.go.kr:8081'
path = '/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc'
oper = '/getRTMSDataSvcAptTrade'

In [7]:
# Query String의 파라미터 값을 설정합니다.
# 오퍼레이션의 예제로 설정합니다. : 서울특별시 종로구, 2015년 12월 매매
areaCd = '11110'
ymonth = '201512'

In [8]:
# 공공데이터포털 API Key가 포함된 텍스트 파일을 읽습니다.
apiKey = open(file = 'Open_API_Key.txt', mode = 'r').read()

In [9]:
# Query String을 딕셔너리로 생성합니다.
query = {'LAWD_CD': areaCd, 'DEAL_YMD': ymonth, 'serviceKey': apiKey}

In [10]:
# HTTP 요청을 실행합니다.
res = requests.get(url = host + path + oper, params = query)

## HTTP 응답 확인

In [11]:
# HTTP 응답 상태코드를 확인합니다.
res.status_code

200

In [12]:
# HTTP 응답 헤더를 확인합니다.
# [참고] Content-Type이 'xml'입니다.
res.headers

{'Date': 'Fri, 16 Apr 2021 00:26:44 GMT', 'Content-Type': 'application/xml', 'Set-Cookie': 'ROUTEID=.HTTP1; path=/', 'Keep-Alive': 'timeout=10, max=100', 'Connection': 'Keep-Alive', 'Transfer-Encoding': 'chunked'}

In [13]:
# HTTP 요청 URL만 확인합니다.
res.url

'http://openapi.molit.go.kr:8081/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc/getRTMSDataSvcAptTrade?LAWD_CD=11110&DEAL_YMD=201512&serviceKey=8xs1pW1WQ%2BpcNaJrwQHlAL5TCkRqfuAlNyrCCHfxaLmhGE4S2SiLnovx%2FO0Dj31Yx7clSXmHu6335QQLmkWn2A%3D%3D'

In [14]:
# HTTP 응답 Body를 출력합니다.
# [참고] Query String이 조립되는 과정에서 퍼센트(더블) 인코딩 문제 발생합니다. 
# [참고] 퍼센트 인코딩 문제는 웹 서버로 전달되는 문자열 '%'가 '%25'로 바뀌는 현상입니다.
res.text

'<?xml version="1.0" encoding="UTF-8" standalone="yes"?><response><header><resultCode>00</resultCode><resultMsg>NORMAL SERVICE.</resultMsg></header><body><items><item><거래금액>    82,500</거래금액><건축년도>2008</건축년도><년>2015</년><법정동> 사직동</법정동><아파트>광화문풍림스페이스본(101동~105동)</아파트><월>12</월><일>10</일><전용면적>94.51</전용면적><지번>9</지번><지역코드>11110</지역코드><층>11</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item><item><거래금액>    60,000</거래금액><건축년도>1981</건축년도><년>2015</년><법정동> 당주동</법정동><아파트>롯데미도파광화문빌딩</아파트><월>12</월><일>22</일><전용면적>149.95</전용면적><지번>145</지번><지역코드>11110</지역코드><층>8</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item><item><거래금액>   130,000</거래금액><건축년도>2004</건축년도><년>2015</년><법정동> 내수동</법정동><아파트>킹스매너</아파트><월>12</월><일>8</일><전용면적>194.43</전용면적><지번>110-15</지번><지역코드>11110</지역코드><층>6</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item><item><거래금액>   105,000</거래금액><건축년도>2004</건축년도><년>2015</년><법정동> 내수동</법정동><아파트>경희궁의아침2단지</아파트><월>12</월><일>14</일><전용면적>124.17</전용면적><지번>71</지번><지역코드>11110</지역코드><층>8</층><해제사유발생일> </해제사유발생일><해제여부> </해제여부></item>

## 필요한 데이터 수집

- Open API로 데이터를 내려받으면 XML 또는 JSON 형태의 데이터를 다루어야 합니다.
- 두 가지 방법을 모두 소개해드리지만, JSON 형태가 다루기 훨씬 편리합니다.

### XML Parsing

In [15]:
# 관련 라이브러리를 호출합니다.
from xml.etree import ElementTree

In [16]:
# str 자료형을 xml.etree.ElementTree.Element 자료형으로 변환합니다.
tree = ElementTree.fromstring(text = res.text)

In [17]:
# tree의 클래스를 확인합니다.
type(tree)

xml.etree.ElementTree.Element

In [18]:
# tree에서 거래 데이터를 포함하고 있는 부모 노드로 items에 할당합니다.
# [참고] tree의 클래스는 _elementtree._element_iterator입니다.
items = tree.iter(tag = 'item')

In [19]:
# XML에서 필요한 노드만 선택한 결과를 저장할 빈 리스트를 생성합니다.
dat1 = list()

In [20]:
# 필요한 노드에서 텍스트를 추출하여 딕셔너리로 생성하고 리스트 원소로 추가합니다.
for item in items:
    row = dict()
    row['거래금액'] = item.find('거래금액').text
    row['건축년도'] = item.find('건축년도').text
    dat1.append(row)

In [21]:
# 최종 결과의 일부만 출력합니다.
dat1[0:5]

[{'거래금액': '    82,500', '건축년도': '2008'},
 {'거래금액': '    60,000', '건축년도': '1981'},
 {'거래금액': '   130,000', '건축년도': '2004'},
 {'거래금액': '   105,000', '건축년도': '2004'},
 {'거래금액': '   120,000', '건축년도': '2003'}]

### JSON(dict) 자료형 변환

In [22]:
# 관련 라이브러리를 설치합니다.
# !pip install xmltodict

In [23]:
# 관련 라이브러리를 호출합니다.
import xmltodict

In [24]:
# str 자료형을 collections.OrderedDict 자료형으로 변환합니다.
dat2 = xmltodict.parse(xml_input = res.text)

In [25]:
# dat2의 클래스를 확인합니다.
type(dat2)

collections.OrderedDict

In [32]:
dat2

OrderedDict([('response',
              OrderedDict([('header',
                            OrderedDict([('resultCode', '00'),
                                         ('resultMsg', 'NORMAL SERVICE.')])),
                           ('body',
                            OrderedDict([('items',
                                          OrderedDict([('item',
                                                        [OrderedDict([('거래금액',
                                                                       '82,500'),
                                                                      ('건축년도',
                                                                       '2008'),
                                                                      ('년',
                                                                       '2015'),
                                                                      ('법정동',
                                                                       '사직동'),
           

In [26]:
# 딕셔너리를 인덱싱하듯이 key를 연결하면 리스트로 반환됩니다.
dat2['response']['body']['items']['item']

[OrderedDict([('거래금액', '82,500'),
              ('건축년도', '2008'),
              ('년', '2015'),
              ('법정동', '사직동'),
              ('아파트', '광화문풍림스페이스본(101동~105동)'),
              ('월', '12'),
              ('일', '10'),
              ('전용면적', '94.51'),
              ('지번', '9'),
              ('지역코드', '11110'),
              ('층', '11'),
              ('해제사유발생일', None),
              ('해제여부', None)]),
 OrderedDict([('거래금액', '60,000'),
              ('건축년도', '1981'),
              ('년', '2015'),
              ('법정동', '당주동'),
              ('아파트', '롯데미도파광화문빌딩'),
              ('월', '12'),
              ('일', '22'),
              ('전용면적', '149.95'),
              ('지번', '145'),
              ('지역코드', '11110'),
              ('층', '8'),
              ('해제사유발생일', None),
              ('해제여부', None)]),
 OrderedDict([('거래금액', '130,000'),
              ('건축년도', '2004'),
              ('년', '2015'),
              ('법정동', '내수동'),
              ('아파트', '킹스매너'),
              ('월', '12'),
 

### JSON을 DataFrame으로 저장

In [27]:
# 관련 라이브러리를 호출합니다.
import pandas as pd

In [28]:
# dat1을 데이터프레임으로 변환합니다.
apt1 = pd.DataFrame(data = dat1)

In [29]:
# 처음 다섯 행만 출력합니다.
apt1.head()

Unnamed: 0,거래금액,건축년도
0,82500,2008
1,60000,1981
2,130000,2004
3,105000,2004
4,120000,2003


In [30]:
# dat2를 데이터프레임으로 변환합니다.
apt2 = pd.DataFrame(data = dat2['response']['body']['items']['item'])

In [31]:
# 처음 다섯 행만 출력합니다.
apt2.head()

Unnamed: 0,거래금액,건축년도,년,법정동,아파트,월,일,전용면적,지번,지역코드,층,해제사유발생일,해제여부
0,82500,2008,2015,사직동,광화문풍림스페이스본(101동~105동),12,10,94.51,9,11110,11,,
1,60000,1981,2015,당주동,롯데미도파광화문빌딩,12,22,149.95,145,11110,8,,
2,130000,2004,2015,내수동,킹스매너,12,8,194.43,110-15,11110,6,,
3,105000,2004,2015,내수동,경희궁의아침2단지,12,14,124.17,71,11110,8,,
4,120000,2003,2015,내수동,경희궁 파크팰리스,12,24,146.33,95,11110,4,,


<p style="font-family:verdana;font-size:200%;text-align:center;">End of Document</p>