## 공공데이터: 아파트 실거래가

- 공공데이터포털에서 제공되는 데이터를 쉽게 수집하기 위하여 오픈 API를 이용합니다.
- 국토교통부 아파트매매 실거래가 데이터를 수집하는 예제를 실행합니다.

### 관련 라이브러리 호출

In [None]:
# 관련 라이브러리를 호출합니다.
import requests
import xmltodict
import pandas as pd
import os

### HTTP 요청 실행

In [None]:
# 공공데이터 포털 오픈 API 인증키를 설정합니다.
apiKey = '공공데이터포털 일반 인증키(Decoding) 붙여넣기'

In [None]:
# 요청 URL을 설정합니다.
url = 'http://openapi.molit.go.kr:8081'
path = '/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc'
oper = '/getRTMSDataSvcAptTrade'

In [None]:
# 쿼리 문자열을 딕셔너리로 설정합니다.
query = {
    'LAWD_CD': '11680', 
    'DEAL_YMD': '202112', 
    'serviceKey': apiKey
}

In [None]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url + path + oper, params = query)

### HTTP 응답 확인

In [None]:
# HTTP 응답 상태코드를 확인합니다.
res.status_code

In [None]:
# HTTP 응답 헤더에서 Content-Type을 확인합니다.
res.headers['content-type']

In [None]:
# HTTP 응답 바디 문자열의 일부를 출력합니다.
res.text[:1000]

### XML 데이터 전처리

- Open API는 XML 또는 JSON 형태로 제공합니다.
- 이번 예제에서는 XML로 받은 응답 텍스트를 데이터프레임으로 변환하는 방법을 소개합니다.

In [None]:
# HTTP 응답 바디 문자열을 딕셔너리로 변환하여 data에 할당합니다.
data = xmltodict.parse(xml_input = res.text)

In [None]:
# data의 클래스를 확인합니다.
type(data)

In [None]:
# data를 출력합니다.
data

In [None]:
# data의 key를 연결하여 수집할 데이터(딕셔너리)를 출력합니다.
data['response']['body']['items']['item']

In [None]:
# 수집할 데이터(딕셔너리)로 데이터프레임을 생성합니다.
apt = pd.DataFrame(data = data['response']['body']['items']['item'])

In [None]:
# apt의 정보를 확인합니다.
apt.info()

In [None]:
# apt의 처음 5행을 출력합니다.
apt.head()

### xlsx 파일로 저장

In [None]:
# data 폴더로 작업 경로를 변경합니다.
os.chdir(path = '../data')

In [None]:
# xlsx 파일명을 설정합니다.
today = pd.Timestamp.today().strftime('%Y%m%d')
fileName = f'DATAGOKR_APT_Price_{today}.xlsx'

In [None]:
# xlsx 파일로 저장합니다.
apt.to_excel(excel_writer = fileName, index = None)

## End of Document