# 2. XML 파일 읽기

## 2.1 XML (Extensible Markup Language)

- 특정 목적에 따라 데이터를 태그로 감싸서 마크업하는 범용적인 포맷
- 마크업 언어는 태그 등을 이용하여 데이터의 구조를 기술하는 언어의 한 가지
- 가장 친숙한 마크업 언어 -> HTML
- XML은 HTML과 마찬가지로 데이터를 계층 구조로 표현

<br>

## 2.2 XML 기본 구조

```xml
<태그 속성="속성값">내용
```

- 태그와 속성은 특정 목적에 따라 임의로 이름을 정해서 사용
- 다른 요소와 그룹으로 묶을 수도 있음

<br>

## 2.3 XML 포멧 데이터 읽고, 파싱하기

- XML 포멧 데이터는 `BeautifulSoup`으로 HTML과 동일하게 읽고, 파싱할 수 있음
- 이외에도 XML을 다루기 위해 `ElementTree` 라이브러리를 활용할 수 있다.

- `html.parser` 파서 이외에 XML 파싱을 위해 `lxml` 파서를 사용할 수 있다.
- 파서별 차이점 : [https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#differences-between-parsers)

<br>

## 2.4 연습문제: XML 파싱

- 다음과 같이 출력 : 도시별 가장 시간대가 빠른 때의 기상 예측

```
---------
서울: 구름조금
인천: 구름조금
---------
```

In [1]:
from bs4 import BeautifulSoup
import requests
import datetime
import json

info_url = 'http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=109'

response = requests.get(info_url)
soup = BeautifulSoup(response.content, 'lxml')

locations = soup.find_all('location')

for location in locations:
    city = location.find('city').text
    wf = location.find('wf').text
    print(city, " : ", wf)

서울  :  흐리고 비
인천  :  흐리고 비
수원  :  흐리고 비
파주  :  흐리고 비
이천  :  흐리고 비
평택  :  흐리고 비
백령도  :  흐리고 비
과천  :  흐리고 비
광명  :  흐리고 비
강화  :  흐리고 비
김포  :  흐리고 비
시흥  :  흐리고 비
안산  :  흐리고 비
부천  :  흐리고 비
의정부  :  흐리고 비
고양  :  흐리고 비
양주  :  흐리고 비
동두천  :  흐리고 비
연천  :  흐리고 비
포천  :  흐리고 비
가평  :  흐리고 비
구리  :  흐리고 비
남양주  :  흐리고 비
양평  :  흐리고 비
하남  :  흐리고 비
안양  :  흐리고 비
오산  :  흐리고 비
화성  :  흐리고 비
성남  :  흐리고 비
의왕  :  흐리고 비
군포  :  흐리고 비
안성  :  흐리고 비
용인  :  흐리고 비
광주  :  흐리고 비
여주  :  흐리고 비


<br>

## 2.5 과제 1

- 전국 날씨 예측 데이터 도시별, 일자(오전, 오후)별 pandas DataFrame 만들고 출력
- 사용 데이터 : [http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108](http://www.kma.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108)

In [2]:
from bs4 import BeautifulSoup
import requests
import datetime
import pandas as pd

info_url = "http://www.weather.go.kr/weather/forecast/mid-term-rss3.jsp?stnId=108"
response = requests.get(info_url)
soup = BeautifulSoup(response.content, 'lxml')

city_list = []
date_list = []
time_list = []
weather_list = []

locations = soup.find_all('location')

for location in locations:
    city = location.find('city').text
    dates = location.find_all('tmef')
    weathers = location.find_all('wf')
    
    for date, weather in zip(dates, weathers):
        # city
        city_list.append(city)
        
        # date, time
        date_dt = datetime.datetime.strptime(date.text, "%Y-%m-%d %H:%M")
        date_str = date_dt.strftime("%Y-%m-%d")
        time_str = date_dt.strftime("%H")
        
        date_list.append(date_str)
        time_list.append("AM" if time_str == "00" else "PM")
        
        # weather
        weather_list.append(weather.text)
        
df = pd.DataFrame({"City": city_list, "Date": date_list, "Time": time_list, "Weather": weather_list})        

In [3]:
df

Unnamed: 0,City,Date,Time,Weather
0,서울,2020-05-10,AM,흐리고 비
1,서울,2020-05-10,PM,맑음
2,서울,2020-05-11,AM,맑음
3,서울,2020-05-11,PM,맑음
4,서울,2020-05-12,AM,맑음
...,...,...,...,...
528,서귀포,2020-05-14,AM,구름많음
529,서귀포,2020-05-14,PM,흐리고 비
530,서귀포,2020-05-15,AM,흐림
531,서귀포,2020-05-16,AM,흐림


<br>

## 2.6 과제 2

- 아파트매매 실거래자료 데이터 읽기
- [해당 링크](https://www.data.go.kr/dataset/3050988/openapi.do)에서 아파트매매 실거래 자료 API 권한 신청
- 다음 지역/계약월 XML 데이터를 수신받아서 pandas DataFrame으로 만들어서 출력
  - 지역 : 서울특별시 양천구
  - 계약월 : 2017
- pandas DataFrame 컬럼명
  - 거래금액
  - 년
  - 법정동
  - 아파트
  - 월
  - 일
  - 전용면적
  - 지번
  - 지역코드
  - 층

### 2.6.1 크롤링 방법 1 : `requests` 이용

In [4]:
import requests

url = 'http://openapi.molit.go.kr:8081/OpenAPI_ToolInstallPackage/service/rest/RTMSOBJSvc/getRTMSDataSvcAptTrade'
LAWD_CD = '11110'
DEAL_YMD = "201512"
SERVICE_KEY = ""

params = {
    "LAWD_CD": LAWD_CD,
    "DEAL_YMD": DEAL_YMD,
    "ServiceKey": SERVICE_KEY
}

response = requests.get(url, headers=params)
print(response.text)

<?xml version="1.0" encoding="UTF-8" standalone="yes"?><response><header><resultCode>99</resultCode><resultMsg>SERVICE KEY IS NOT REGISTERED ERROR.</resultMsg></header></response>


<br>

### 2.6.2 크롤링 방법 2 : `PublicDataReader` 이용

In [9]:
!pip install PublicDataReader

Collecting PublicDataReader
  Downloading PublicDataReader-0.1.1-py3-none-any.whl (40 kB)
[K     |████████████████████████████████| 40 kB 455 kB/s eta 0:00:01
[?25hInstalling collected packages: PublicDataReader
Successfully installed PublicDataReader-0.1.1


In [10]:
import PublicDataReader as pdr
print(pdr.__version__)


>>> PublicDataReader Version : 0.1.1

- Author : Wooil Jeong
- E-mail : wooil@kakao.com
- Github : https://github.com/WooilJeong/PublicDataReader
- Blog : https://wooiljeong.github.io



In [11]:
SERVICE_KEY = ""

AptTrade = pdr.AptTradeReader(SERVICE_KEY)

>>> 서비스키 미등록 오류입니다.
