<p style="font-family:verdana;font-size:200%;text-align:center;">Real Estate Crawling</p>

- 우리나라 대형 포탈 부동산 사이트에 등록된 매물 데이터를 수집합니다.
- HTTP 요청을 할 때, 요청 헤더를 추가하는 방법을 소개합니다.

## HTTP 요청 URL 찾는 법

- 네이버 부동산에 접속합니다. https://land.naver.com/
- 검색창에서 아파트단지명을 입력합니다. '아이파크삼성'
- 검색결과에서 찾는 아파트단지를 선택합니다.
- 매물 리스트가 보이면 크롬 개발자도구를 엽니다.
- 크롬 개발자도구가 열린 상태에서 새로고침합니다.
- Network > XHR 탭에서 매물 리스트가 포함된 객체를 찾습니다.
 - **12826?realEstateType**으로 시작하는 객체입니다.
 - Preview에 **articleList**에 매물 리스트 포함되어 있습니다.
 - Headers에 요청 URL과 Query String 등이 포함되어 있습니다.

## HTTP 요청 실행

In [None]:
# 관련 라이브러리를 호출합니다.
import requests

In [None]:
# 요청 URL을 설정합니다.
url = 'https://new.land.naver.com/api/articles/complex/12826'

In [None]:
# Query String을 딕셔너리로 생성합니다.
# [참고] 모든 파라미터를 포함할 필요 없지만, 필수 파라미터는 포함되어야 합니다.
# 따라서 처음에는 모든 파라미터를 포함했다가 하나씩 빼는 방식으로 제외합니다.
query = {
    'realEstateType': 'APT',
    'tradeType': '',
    'tag': '::::::::',
    'rentPriceMin': '0',
    'rentPriceMax': '900000000',
    'priceMin': '0',
    'priceMax': '900000000',
    'areaMin': '0',
    'areaMax': '900000000',
    'oldBuildYears': '',
    'recentlyBuildYears': '',
    'minHouseHoldCount': '',
    'maxHouseHoldCount': '',
    'showArticle': 'false',
    'sameAddressGroup': 'false',
    'minMaintenanceCost': '',
    'maxMaintenanceCost': '',
    'priceType': 'RETAIL',
    'directions': '',
    'page': '1',
    'complexNo': '12826',
    'buildingNos': '',
    'areaNos': '',
    'type': 'list',
    'order': 'rank'
}

In [None]:
# 요청 헤더에 authorization 및 user-agent를 설정합니다.
# [참고] 요청 헤더는 Network Headers에서 확인할 수 있습니다.
auth = ''
myua = ''
headers = {'authorization': auth, 'User-agent': myua}

In [None]:
# HTTP 요청을 실행합니다.
res = requests.get(url = url, params = query, headers = headers)

## HTTP 응답 확인

In [None]:
# HTTP 응답 상태코드를 확인합니다.
res.status_code

In [None]:
# HTTP 응답 헤더를 확인합니다.
# [참고] Content-Type이 json입니다.
res.headers

In [None]:
# HTTP 요청 URL만 확인합니다.
res.url

In [None]:
# HTTP 응답 Body를 문자열(str)로 출력합니다.
res.text

## 필요한 데이터 수집

In [None]:
# 관련 라이브러리를 호출합니다.
import json

In [None]:
# 문자열을 JSON 자료형으로 변환
data = json.loads(s = res.text)

In [None]:
# data를 출력합니다.
# [참고] 'articleList'의 value는 리스트입니다.
# 리스트의 원소는 딕셔너리이고, 매물 리스트 한 건에 해당합니다.
data

## 데이터프레임으로 저장

In [None]:
# 관련 라이브러리를 호출합니다.
import pandas as pd

In [None]:
# 반복되는 부분(딕셔너리 자료형)만 데이터프레임으로 변환합니다.
df = pd.DataFrame(data = data['articleList'])

In [None]:
# 처음 다섯 행만 출력합니다.
df.head()

In [None]:
# 데이터프레임의 정보를 확인합니다.
df.info()

In [None]:
# 필요한 컬럼만 남겨서 출력합니다.
df.loc[:, ['buildingName', 'dealOrWarrantPrc', 'direction', 'floorInfo', 'tradeTypeName', 'rentPrc']]

<p style="font-family:verdana;font-size:200%;text-align:center;">End of Document</p>