In [2]:
import pandas as pd
import numpy as np

In [3]:
# 6.1.5 XML과 HTML: 웹 스크래핑

In [4]:
# 파이썬에는 lxml, Beautiful Soup(뷰티풀 수프), 그리고 html5lib 같은 HTML과 XML 형식의 데이터를 읽고 쓸 수 있는 라이브러리가 매우 많다.

In [5]:
# 그중에서도 lxml은 가장 빠르게 동작하고 깨진 HTML과 XML 파일도 잘 처리해준다.

In [6]:
# pandas에는 read_html이라는 내장 함수가 있다. 

In [7]:
# 이는 lxml이나 Beautiful Soup 같은 라이브러리를 사용해서 자동으로 HTML 파일을 파싱하여 DataFrame으로 변환해준다.

In [8]:
# 사용법을 알아보기 위해 미연방예금보험공사(FDIC)에서 부도은행을 보여주는 HTML을 다운로드하자.
# link : http://www.fdic.gov/bank/individual/failed/banklist.html

In [9]:
# 우선 read_html을 사용하기 위해서는 아래 라이브러리들을 설치해야 한다.

In [10]:
# conda를 사용하지 않는다면 pip install lxml을 입력해도 설치가 가능하다.

In [11]:
# pandas.read_html 함수에는 다양한 욥션이 있는데 기본적으로 <table> 태그 안에 있는 모든 표 형식의 데이터 파싱을 시도한다.

In [12]:
# 결과는 DataFrame 객체의 리스트에 저장된다.

In [13]:
tables = pd.read_html("examples/fdic_failed_bank_list.html")

In [14]:
len(tables)

1

In [15]:
failures = tables[0]

In [16]:
failures.head()

Unnamed: 0,Bank NameBank,CityCity,StateSt,CertCert,Acquiring InstitutionAI,Closing DateClosing,FundFund
0,Almena State Bank,Almena,KS,15426,Equity Bank,"October 23, 2020",10538
1,First City Bank of Florida,Fort Walton Beach,FL,16748,"United Fidelity Bank, fsb","October 16, 2020",10537
2,The First State Bank,Barboursville,WV,14361,"MVB Bank, Inc.","April 3, 2020",10536
3,Ericson State Bank,Ericson,NE,18265,Farmers and Merchants Bank,"February 14, 2020",10535
4,City National Bank of New Jersey,Newark,NJ,21111,Industrial Bank,"November 1, 2019",10534


In [17]:
# failures에는 컬럼이 많으므로 pandas는 \문자로 줄을 구분해서 보여준다.

In [18]:
# 나중에 더 살펴보겠지만 지금부터 데이터 정제와 연도별 부도은행 수 계산 등의 분석을 시작할 수 있다.

In [19]:
# close_timestamps = pd.to_datetime(failures["Closing Date"]) - Keyerror 발생

In [20]:
# close_timestamps.dt.year.value_counts()

In [21]:
# lxml.objectify를 이용해서 파싱하기

In [22]:
# XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다.

In [23]:
# 앞에서는 HTML에서 데이터를 파싱하기 위해 내부적으로 lxml 또는 Beautiful Soup을 사용하는 pandas.read_html 함수를 살펴봤다.

In [24]:
# XML과 HTML은 구조적으로 유사하지만 XML이 좀 더 범용적이다. 여기서는 lxml을 이용해서 XML 형식에서 데이터를 파싱하는 방법을 살펴보겠다.

In [25]:
# 뉴욕 MTA는 버스와 전철 운영에 관한 여러 가지 데이터를 공개하고 있다. 그 중에서 우리가 살펴볼 것은 여러 XML 파일로 제공되는 실적 자료다.

In [26]:
# 전철과 버스 운영은 매월 다음과 비슷한 내용의 각기 다른 파일로 제공된다.

In [27]:
# lxml.objectify를 이용해서 파일을 파싱한 후 getroot 함수를 이용해서 XML 파일의 루트 노드에 대한 참조를 얻어오자.

In [30]:
# from lxml import objectify

# path = "Performance_MNR.xml"
# parsed = objectify.parse(open(path))
# root = parsed.getroot()

In [35]:
# root.INDICATOR를 이용해서 모든 <INDICATOR> XML 엘리먼트를 끄집어낼 수 있다.

In [36]:
# 각각의 항목에 대해 몇몇 태그는 제외하고 태그 이름(YTD_ACTUAL 같은)을 키값으로 하는 사전을 만들어낼 수 있다. 

In [37]:
# data = []

# skip_fields = ["PARENT_SEQ", "INDICATOR_SEQ",
#                "DESIRED_CHANGE", "DECIMAL_PLACES"]

# for elt in root.INDICATOR:
#   elt_data = {}
#   for child in elt.getchildren():
#      if child.tag in skip_fields:
#          continue
#      el_data[child.tag] = child.pyval
#   data.append(el_data)

In [39]:
# perf = pd.DataFrame(data)

In [40]:
# perf.head()

In [41]:
# XML 데이터를 얻으려면 지금 본 예제보다 훨씬 더 복잡한 과정을 거쳐야 한다. 

In [42]:
# 각각의 대크 또한 메타데이터를 가지고 있을 수 있다. 유효한 XML 형식인 HTML의 <a> 태그를 생각하면 된다.

In [43]:
# from io import StringIO
# tag = "<a href="http://www.google.com">Google</a>"
# root = objectify.parse(StringIO(tag)).getroot()

In [44]:
# 이제 태그나 링크 이름에서 어떤 필드(href 같은)라도 접근이 가능하다.

In [45]:
# root

In [46]:
# root.get("href")

In [47]:
# root.text