## pandas를 이용한 데이터 접근
### 입출력을 진행하는 방법
1. 텍스트 파일 이용하는 방법 
2. 데이터베이스 이용하는 방법
3. 웹 API를 이용하여 네트워크를 통해 불러오는 방법

### 주로 사용하는  파싱 함수 read_csv와 read_table
* 두 함수 모두 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다.
* 이 외에도 다양한 함수들이 있으며, 책 237~238쪽을 참고한다.
<pre>
<b>read_csv</b>
* 데이터 구분자는 쉼표(,)를 기본으로 한다.
</pre>
<pre>
<b>read_table</b>
* 데이터 구분자는 탭('\t') 기본으로 한다.
</pre>
- - - -
<pre>
* 이 함수들은 텍스트 데이터들을 <b>DataFrame</b>으로 읽어오기 위한 함수이다.
* <b>색인, 자료형 추론과 데이터 변환, 날짜 분석, 반복, 정제되지 않은 데이터 처리</b>에 대한 옵션을 취한다.
* 데이터가 정형화되어있지 않으므로 이런 데이터를 불러오는 함수들은 개발이 계속됨에 따라 복잡도가 급속도로 증가
  * 따라서 pandas 온라인 문서를 참고하여 적절한 자료와 예제를 살펴보며 활용하는 법을 익혀둘 것
</pre>

## MARK: 텍스트 파일에서 데이터 읽고 쓰기

In [1]:
import pandas as pd
import numpy as np

In [2]:
# pandas.read_csv같은 함수들은 데이터 형식에 자료형이 포함되어 있지 않아 타입 추론을 수행
# HDF5나 Feather, msgpack의 경우에는 데이터 형식에 자료형이 포함되어 있음
!cat examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [3]:
# ex1.csv 파일은 쉼표로 구분되어 있기 때문에 read_csv를 사용해서 DataFrame으로 읽어올 수 있다
df = pd.read_csv('examples/ex1.csv')

In [4]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [5]:
# read_table에 구분자를 쉼표로 지정해서 읽어올 수 있다
pd.read_table('examples/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
# 모든 파일에 컬럼 이름이 있는 건 아님
!cat examples/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [7]:
# header에 인자를 None으로 설정하면 컬럼 이름 설정 없이 호출 가능 (pandas가 자동으로 이름 설정)
pd.read_csv('examples/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
# 동일한 방법으로 위에서 살펴봤던 ex1파일도 수행해보면 다음과 같은 결과를 얻을 수 있음
pd.read_csv('examples/ex1.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [9]:
# 컬럼 이름을 직접 지정하고자 한다면 names 옵션을 이용한다
pd.read_csv('examples/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
# message 컬럼을 "색인"으로 하는 DataFrame을 반환하려면
# index_col 인자에 4번째 컬럼 또는 'message'이름을 가진 컬럼을 지정해서 색인으로 만들 수 있다
# -> 즉, 하나의 열을 인덱스로서 사용 (그 열의 컬럼이름은 다시 인덱스 이름이 됨)
names = ['a', 'b', 'c', 'd', 'message']

In [11]:
pd.read_csv('examples/ex2.csv', names=names, index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [12]:
pd.read_csv('examples/ex2.csv', names=names, index_col=4)

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [13]:
pd.read_csv('examples/ex2.csv', names=names, index_col='b')

Unnamed: 0_level_0,a,c,d,message
b,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2,1,3,4,hello
6,5,7,8,world
10,9,11,12,foo


In [14]:
# 계층적 색인 지정을 원한다면 컬럼 번호나 이름의 리스트를 넘기면 됨
!cat examples/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [15]:
parsed = pd.read_csv('examples/csv_mindex.csv', index_col=['key1', 'key2'])

In [16]:
parsed # 오..오오..

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [17]:
# 고정된 구분자 없이 공백이나 다른 패턴으로 필드를 구분해놓은 경우
list(open('examples/ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

In [18]:
# 직접 파일을 수정해도 되지만, 이 파일은 공백 문자로 구분되어 있으므로 정규 표현식 \s+를 사용해서 처리
result = pd.read_table('examples/ex3.txt', sep='\s+')

In [19]:
# 첫 번째 행이 다른 행보다 컬럼이 하나 적기 때문에 read_table은 첫 번째 컬럼(행)이 DataFrame의 색인일 것이라고 추론
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


* 파서 함수는 파일 형식에서 발생할 수 있는 다양한 예외를 잘 처리할 수 있도록 추가 인자를 가지고 있음
* 예를 들어 <b>skiprows</b>를 이용해서 특정 로우를 건너뛸 수 있다

In [20]:
# 아래 파일에서 1,3,4번 로우를 건너뛰어보자!
!cat examples/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [21]:
pd.read_csv('examples/ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 누락된 값 처리
* 이는 파일을 읽는 과정에서 자주 발생하는 일이자 중요한 문제!
* 보통 텍스트 파일에서 누락된 값은 표기되지 않거나(비어있는 문자열) 구분하기 쉬운 특수한 문자로 표기됨!
* pandas는 기본적으로 NA나 NULL처럼 흔히 통용되는 문자를 비어 있는 값으로 사용

In [22]:
!cat examples/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [23]:
result = pd.read_csv('examples/ex5.csv')

In [24]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [25]:
# 해당 값이 NULL값인지 판단하는 함수 isnull()
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [26]:
# na_value 옵션은 리스트나 문자열 집합을 받아 누락된 값을 처리
result = pd.read_csv('examples/ex5.csv', na_values=['NULL'])

In [27]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [28]:
result = pd.read_csv('examples/ex5.csv', na_values=[4])

In [29]:
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,,
1,two,5,6,,8.0,world
2,three,9,10,11.0,12.0,foo


In [30]:
# 컬럼마다 다른 NA문자를 사전값으로 넘겨 처리할 수 있음
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}

In [31]:
pd.read_csv('examples/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 파일의 일부분 혹은 여러 파일 중 몇 개의 파일만 읽어서 확인하는 경우

In [32]:
# 최대 10개의 데이터만 출력
pd.options.display.max_rows =  10

In [33]:
result = pd.read_csv('examples/ex6.csv')

In [34]:
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [35]:
# 처음 몇 줄만 읽고 싶다면 nrows 옵션 주기
pd.read_csv('examples/ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [36]:
# 파일을 여러 조각으로 나누어 읽고 싶다면 chunksize 옵션 주기
chunker = pd.read_csv('examples/ex6.csv', chunksize=1000)

In [37]:
chunker

<pandas.io.parsers.TextFileReader at 0x11dabd8d0>

In [38]:
# ex6.csv 파일을 순회하면서 'key' 로우에 있는 값을 세어보기
tot = pd.Series([])

  


In [39]:
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

In [40]:
tot = tot.sort_values(ascending=False)

In [41]:
tot[:10]

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

In [42]:
tot

E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
     ...  
5    157.0
2    152.0
0    151.0
9    150.0
1    146.0
Length: 36, dtype: float64

In [43]:
# 내보내는 것 또한 구분자로 구분하여 파일을 생성할 수 있다
data = pd.read_csv('examples/ex5.csv')

In [44]:
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [45]:
# DataFrame의 to_csv(): 데이터를 쉼표로 구분된 형식으로 파일 생성
data.to_csv('examples/out.csv')

In [46]:
!cat examples/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [47]:
# 다른 구분자 또한 가능 (실제 파일 기록 없이 콘솔에서 확인하기 위해 sys 모듈 필요- sys.stdout에 결과 기록)
import sys
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [48]:
# 누락된 값은 비어 있는 문자열로 나타남, 이것 역시 원하는 값으로 지정.
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [49]:
data.to_csv(sys.stdout, na_rep='NULL', sep=':')

:something:a:b:c:d:message
0:one:1:2:3.0:4:NULL
1:two:5:6:NULL:8:world
2:three:9:10:11.0:12:foo


In [50]:
# 다른 옵션을 명시하지 않으면 로우와 컬럼 이름이 기록
# 로우와 컬럼 이름을 포함하지 않으려면 index, header 옵션 지정
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [51]:
# 컬럼의 일부만 기록할 수 있으며, 순서를 직접 지정할 수 있음.
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [52]:
# Series에도 to_csv 메서드가 존재
dates = pd.date_range('1/1/2000', periods=7)

In [53]:
ts = pd.Series(np.arange(7), index=dates)

In [54]:
ts.to_csv('examples/tseries.csv')

In [55]:
!cat examples/tseries.csv # 엥 실행결과에 ,0은 뭐지 컬럼?

,0
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


### 구분자 형식 다루기
* read_table 함수가 데이터를 불러오는 것을 실패하게끔 만드는 잘못된 라인이 포함되어 있는 데이터 존재
* 작은 csv 파일을 불러오는 과정으로 기본적인 도구 사용법 익히기

In [56]:
!cat examples/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


In [57]:
# 구분자가 한 글자인 파일은 파이썬 내장 csv 모듈을 이용해서 처리할 수 있음
# 열려진 파일을 csv.reader()에 넘기면 됨
import csv

In [58]:
f = open('examples/ex7.csv')

In [59]:
reader = csv.reader(f)

In [60]:
# 파일을 읽듯 reader를 순회하면 둘러싸고 있는 큰따옴표가 제거된 튜플을 얻을 수 있음 (튜플? 리스트 아닌가?)
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [66]:
# 리스트 맞네 ~!~~!~!
type(line)

list

In [87]:
# 원하는 형태로 데이터 넣기1: 파일을 읽어 줄 단위 리스트로 저장
with open('examples/ex7.csv') as f:
    lines = list(csv.reader(f))

In [68]:
header, values = lines[0], lines[1:]

In [69]:
header

['a', 'b', 'c']

In [70]:
values

[['1', '2', '3'], ['1', '2', '3']]

In [71]:
# zip(*values)를 이용해서 데이터 컬럼 사전 만들기
# zip(): 사전 표기법과 로우를 컬럼으로 전치해주는 함수
data_dict = {h: v for h, v in zip(header, zip(*values))}

In [72]:
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [88]:
# CSV 파일은 다양한 형태로 존재
# 다양한 구분자, 문자열 둘러싸는 방법, 개행 문자 등은 csv.Dialect를 상속받아 새로운 클래스 정의 후 해결 가능
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

In [89]:
reader = csv.reader(f, dialect=my_dialect)

TypeError: argument 1 must be an iterator

In [79]:
f

<_io.TextIOWrapper name='examples/ex7.csv' mode='r' encoding='UTF-8'>

In [82]:
reader = csv.reader(f, delimiter='|')

TypeError: argument 1 must be an iterator

In [83]:
# csv처럼 구분자로 구분된 파일을 기록하려면 csv.writer를 이용하면 됨
# csv.writer는 이미 열린, 쓰기가 가능한 파일 객체를 받아서 csv.reader와 동일한 옵션으로 파일 기록
with open('mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))    

### JSON 데이터
* JSON은 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나
* csv같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식
* 널값(null)과 다른 몇 가지 미묘한 차이를 제외하면 파이썬 코드와 거의 유사
<pre>JSON
 * 기본 자료형: 객체(사전), 배열(리스트), 문자열, 숫자, 불리언, 그리고 널
 * 객체의 키는 반드시 문자열!
</pre>
* JSON 데이터를 읽고 쓸 수 있는 파이썬 라이브러리가 몇 가지 있는데 여기서 파이썬 표준 라이브러리인 json 사용
* JSON 문자열을 파이썬 형태로 변환하기 위해서는 json.loads 사용

In [104]:
obj = """
{"name": "Wes",
 "Places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

In [105]:
obj

'\n{"name": "Wes",\n "Places_lived": ["United States", "Spain", "Germany"],\n "pet": null,\n "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},\n              {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]\n}\n'

In [91]:
import json

In [106]:
result = json.loads(obj)

In [108]:
result

{'name': 'Wes',
 'Places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [107]:
asjson = json.dumps(result)

In [109]:
# JSON 객체나 객체의 리스트를 DataFrame이나 다른 자료구조로 변환해서 분석할 지는 각자의 몫!
# JSON 객체의 리스트를 사전을 담고 있는 리스트로 변환하여 DataFrame 생성자로 넘겨 데이터 필드 선택 가능
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])

In [110]:
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [111]:
!cat examples/example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [112]:
# 별도의 옵션이 없는 경우 pandas.read_json은 JSON 배열에 담긴 각 객체를 테이블의 로우로 간주
data = pd.read_json('examples/example.json')

In [113]:
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [114]:
# pandas의 데이터를 JSON으로 저장하는 방법: Series나 DataFrame의 to_json 함수 이용
print(data.to_json())

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


In [115]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]


### XML과 HTML: 웹 스크래핑
* 파이썬에는 lxml, Beautiful Soup, html5lib 같은 HTML과 XML 형식의 데이터를 읽고 쓸 수 있는 라이브러리가 많음
* 그 중에서도 lxml은 가장 빠르게 동작, 깨진 HTML과 XML 파일도 잘 처리함
<pre> <b>pandas의 read_html 내장 함수</b>
 * lxml이나 Beautiful Soup 같은 라이브러리를 사용해서 자동으로 HTML 파일을 파싱하여 DataFrame으로 변환
 * 미연방예금보험공사에서 부도은행을 보여주는 HTML을 이용하여 실습을 진행해보자
</pre>
* 요약: HTML에서 데이터를 파싱하기 위해 내부적으로 lxml 또는 Beautiful Soup을 사용하는 pandas.read_html을 살펴봄

In [116]:
# pandas.read_html 함수에는 다양한 함수 존재
# 기본적으로 <table> 태그 안에 있는 모든 표 형식의 데이터 파싱 시도
# 결과는 DataFrame 객체 리스트에 저장
tables = pd.read_html('examples/fdic_failed_bank_list.html')

In [117]:
len(tables)

1

In [119]:
failues = tables[0]

In [121]:
# failues 내에는 컬럼이 많으므로 pandas는 \문자로 줄을 구분해서 보여줌 (그런데 화면 축소해봐도 그냥 표 형식으로 보여주넹)
failues.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [122]:
# 데이터 정제나 연도별 부도은행 수 계산 등의 분석을 시작할 수 있음
close_timestamps = pd.to_datetime(failues['Closing Date'])

In [123]:
close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
       ... 
2004      4
2001      4
2007      3
2003      3
2000      2
Name: Closing Date, Length: 15, dtype: int64

### XML이란,
* 계층적 구조와 메타데이터를 포하하는 중첩된 구조를 지원하는 유명한 데이터 형식
* XML과 HTML은 구조적으로 유사하지만 XML이 좀 더 범용적
* 여기서는 lxml을 통해 XML 형식에서 데이터를 파싱하는 방법을 살펴봄
* 뉴욕 MTA 에서 제공하는 자료를 활용하여 분석 예제를 실습해보자!

In [124]:
from lxml import objectify

In [127]:
path = 'examples/mta_perf/Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [133]:
# root.INDICATOR를 이용해서 모든 <INDICATOR> XML 엘리먼트를 끄집어낼 수 있다.
# 각각의 항목에 대해 몇몇 태그는 제외하고 태그 이름을 키값으로 하는 사전을 만들어낼 수 있다
data = []
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ', 'DESIRED_CHANGE', 'DECIMAL_PLACES']

In [129]:
for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [134]:
# 위 사전 리스트를 DataFrame으로 변환
perf = pd.DataFrame(data)

In [135]:
# 실행결과 다름: 위에서 data에 append 해 줬는데 왜 빈 DataFrame? 위 코드를 수행 안 해야 하나?
data

[]

In [136]:
perf.head()

In [137]:
from io import StringIO
tag = '<a href="http://www.google.com">Google</a>'
root = objectify.parse(StringIO(tag)).getroot()

In [138]:
# 이제 태그나 링크 이름에서 어떤 필드(href와 같은)라도 접근 가능
root

<Element a at 0x11fd815a0>

In [139]:
root.get('href')

'http://www.google.com'

In [140]:
root.text

'Google'

## MARK: 이진 데이터 형식
* 데이터를 효율적으로 저장하는 가장 손쉬운 방법: 파이썬에 기본으로 내장되어 있는 pickle 직렬화 사용 -> 데이터를 이진 형식으로 저장
* Pandas 객체는 모두 pickle을 이용하여 데이터를 저장하는 to_pickle 메서드를 가지고 있음

In [141]:
frame = pd.read_csv('examples/ex1.csv')

In [142]:
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [143]:
frame.to_pickle('examples/frame_pickle')

In [144]:
pd.read_pickle('examples/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### pickle
* 오래 보관할 필요 없는 데이터일 경우 추천
* 안정적으로 데이터를 저장하는 것을 보장하기 어려움
  * 라이브러리 버전이 올라갔을 때 다시 읽어오지 못할 가능성이 존재하기 때문

### pandas 지원 바이너리 포맷: HDF5, Message-Pack
* 다양한 파일 형식이 실제 분석 작업에 얼마나 더 적절한지 직접 살펴볼 것
<pre> Bcolz
 : Blocs 압축 알고리즘에 기반한 압축이 가능한 컬럼지향 바이너리 포맷
</pre>
<pre> Feather
 : R 커뮤니티의 해들리 위컴과 저자(웨스 맥키니)가 함께 설계한 컬럼 지향 파일 형식
 : 아파치 에로우의 메모리 포맷 사용
</pre>

### HDF5
* Hierarchical Data Format의 약자로 계층적 데이터 형식이라는 뜻
* 대량의 과학 계산용 배열 데이터를 저장하기 위해 고안된 파일 포맷
* C 라이브러리로도 존재
* 자바, 줄리아, 매트랩, 파이썬 같은 다양한 언어에서도 사용할 수 있는 인터페이스 제공
<pre> 특징
 * 각각의 HDF5 파일은 여러 개의 데이터셋을 저장하고 부가 정보를 기록할 수 있음
 * 다양한 압축 기술을 사용해서 온더플라이(실시간) 압축을 지원
 * 반복되는 패턴을 가진 데이터를 좀 더 효과적으로 저장
 * 메모리에 모두 적재할 수 없는 큰 데이터를 아주 큰 배열에서 필요한 작은 부분들만 효과적으로 읽고 쓸 수 있는 선택
</pre>
* PyTables나 h5py 라이브러리를 이용하여 직접 HDF5 파일에 접근하는 것도 가능
* 하지만 pandas는 Series나 DataFrame 객체로 간단히 저장할 수 있는 고수준의 인터페이스 제공
* HDFStore 클래스는 사전처럼 작동하며 세밀한 요구사항도 잘 처리함

In [145]:
frame = pd.DataFrame({'a': np.random.randn(100)})

In [148]:
store = pd.HDFStore('mydata.h5')

In [149]:
store['obj1'] = frame

In [150]:
store['obj1_col'] = frame['a']

In [151]:
# 책이랑 실행 결과가 다르넹 ;-; obj1, obj1_col 얘네 왜 안 보여주니,,
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [152]:
# HDF5 파일에 포함된 객체는 파이썬 사전과 유사한 형식으로 사용 가능
store['obj1']

Unnamed: 0,a
0,-1.368615
1,-0.081137
2,1.515150
3,1.834070
4,1.487793
...,...
95,-1.695363
96,0.487169
97,-1.016358
98,-1.371219


In [153]:
# put은 명시적인 store['obj2']=frame 메서드지만 저장 스키마를 지정하는 등의 옵션을 제공
store.put('obj2', frame, format='table')

In [154]:
store.select('obj2', where=['index >= 10 and index <= 15'])

Unnamed: 0,a
10,-0.331114
11,-0.777168
12,1.294321
13,-2.137434
14,-1.088772
15,-0.641938


In [155]:
store.close()

In [156]:
# pandas.read_hdf 함수는 이런 기능들을 축약해서 사용 가능
frame.to_hdf('mydata.h5', 'obj3', format='table')

In [157]:
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

Unnamed: 0,a
0,-1.368615
1,-0.081137
2,1.51515
3,1.83407
4,1.487793


### TIP!
* 원격 서버에 저장된 데이터를 처리해야 한다면 아파치 파케이(Parguet) 같은 분산 저장소를 고려하여 설계된 다른 바이너리 형식을 사용하는 편이 나을 수 있음
* 로컬 스토리지에서 엄청난 양의 데이터를 다뤄야 하다면 PyTable와 h5py를 살펴보고 목적에 맞는지 알아볼 것
* 대부분의 데이터 분석 문제는 CPU보다는 IO 성능에 의존적
  * HDF5 같은 도구를 사용하면 애플리케이션의 성능을 어마어마하게 향상시킬 수 있음
<pre> <b>HDF5</b>
 : 데이터베이스가 아님
 : 한 번만 기록하고 자주 여러 번 읽어야 하는 데이터에 최적화
 : 아무 때나 데이터를 파일에 추가할 수 있으나, 만약 여러 곳에서 동시에 파일을 추가하면 깨질 가능성이 존재
</pre>

### 마이크로소프트 엑셀 파일에서 데이터 읽어오기
* pandas.read_excel() 함수를 사용하여 마이크로소프트 엑셀 2003 이후 버전 데이터를 읽어올 수 있음
* 내부적으로 이들 도구는 XLS 파일과 XLSX 파일을 읽기 위해 각각 xlrd와 openpyxl 패키지를 이용
* ExcelFile 클래스를 사용하려면 xls나 xlsx 파일의 경로를 지정하여 객체 생성

In [160]:
xlsx = pd.ExcelFile('examples/ex1.xlsx')

In [161]:
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [162]:
# 한 파일에서 여러 시트를 읽어오려면 ExcelFile을 생성하면 빠르지만 간단하게 pandas.read_excel에 파일 이름만 넘겨도 됨
frame = pd.read_excel('examples/ex1.xlsx', 'Sheet1')

In [163]:
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [164]:
# pandas 데이터를 엑셀 파일로 저장하고 싶다면 ExcelWrite를 생성해서 데이터를 기록
# pandas 객체의 to_excel 메서드로 넘기기
writer = pd.ExcelWriter('examples/ex2.xlsx')

In [165]:
frame.to_excel(writer, 'Sheet1')

In [166]:
writer.save()

In [167]:
# ExcelWriter을 이용하지 않고 to_excel 메서드에 파일 경로만 넘겨도 되다
frame.to_excel('examples/ex2.xlsx')

## MARK: 웹 API와 함께 사용하기
* 데이터 피드를 JSON이나 여타 다른 형식으로 얻을 수 있는 공개 API를 제공하는 웹사이트가 많음
* 파이썬으로 이 API를 사용하는 방법은 다양한데 내가 추천하는 가장 손쉬운 방법은 requests 패키지를 이용하느 것
* pandas 깃허브에서 최근 30개의 이슈를 가져오려면 requests 라이브러리를 이용해서 다음과 같은 GET HTTP 요청 생성

In [170]:
import requests

In [171]:
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'

In [172]:
resp = requests.get(url)

In [173]:
resp

<Response [200]>

In [174]:
# 응답 객체의 json 메서드는 JSON의 내용을 파이썬 사전 형태로 반환한 객체를 반환
data = resp.json()

In [175]:
data[0]['title']

'BUG: A change between Python version 3.6.0 and 3.6.1 causes an apply lambda function with selective column processing to check every column'

In [176]:
# data의 각 항목은 깃허브 이슈 페이지(댓글 제외)에서 찾을 수 있는 모든 데이터를 담고 있다
data

[{'url': 'https://api.github.com/repos/pandas-dev/pandas/issues/35433',
  'repository_url': 'https://api.github.com/repos/pandas-dev/pandas',
  'labels_url': 'https://api.github.com/repos/pandas-dev/pandas/issues/35433/labels{/name}',
  'comments_url': 'https://api.github.com/repos/pandas-dev/pandas/issues/35433/comments',
  'events_url': 'https://api.github.com/repos/pandas-dev/pandas/issues/35433/events',
  'html_url': 'https://github.com/pandas-dev/pandas/issues/35433',
  'id': 666853042,
  'node_id': 'MDU6SXNzdWU2NjY4NTMwNDI=',
  'number': 35433,
  'title': 'BUG: A change between Python version 3.6.0 and 3.6.1 causes an apply lambda function with selective column processing to check every column',
  'user': {'login': 'DeeeeLAN',
   'id': 12877032,
   'node_id': 'MDQ6VXNlcjEyODc3MDMy',
   'avatar_url': 'https://avatars0.githubusercontent.com/u/12877032?v=4',
   'gravatar_id': '',
   'url': 'https://api.github.com/users/DeeeeLAN',
   'html_url': 'https://github.com/DeeeeLAN',
   'fol

In [177]:
# 이 data를 바로 DataFrame으로 생성하고 관심이 있는 필드만 따로 추출 가능
issues = pd.DataFrame(data, columns=['number', 'title', 'labels', 'state'])

In [178]:
# 수고를 더하면 평범한 웹 API를 위한 고수준의 인터페이스를 만들어 DataFrame에 저장하고 쉽게 분석작업 수행 가능
issues

Unnamed: 0,number,title,labels,state
0,35433,BUG: A change between Python version 3.6.0 and...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
1,35432,CLN/PERF: move RangeIndex._cached_data to Rang...,[],open
2,35431,BUG: index_col in read_csv ignores dtype,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
3,35429,BUG: NA does not propagate through mask and wh...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
4,35428,BUG: Inconsistent date parsing of to_datetime,[],open
...,...,...,...,...
25,35406,BUG: Creating a Series from a Series results i...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
26,35405,DOC: Add compose ecosystem docs,[],open
27,35403,ENH: Please provide `register_groupBy_accessor`,"[{'id': 76812, 'node_id': 'MDU6TGFiZWw3NjgxMg=...",open
28,35401,use a try block in _expand_user instead of a t...,[],open


## MAKR: 데이터베이스와 함께 사용
* 비즈니스 관점에서 대부분의 데이터는 SQL 기반의 관계형 데이터베이스를 많이 사용
* 다른 종류의 대안 데이터베이스들도 인기를 끌고 있음
* 데이터베이스는 보통 애플리케이션에 필요한 성능이나 데이터 무결성 그리고 확장성에 맞춰 선택하는 것이 일반적
* SQL에서 데이터를 읽어 와서 DataFrame에 저장하는 것은 꽤 직관적
  * pandas에 이 과정을 간결하게 해주는 함수 몇 가지 존재, 예) sqlite3 드라이버를 사용하여 SQLite 데이터베이스 이용 가능

In [179]:
import sqlite3

In [180]:
query = """
CREATE TABLE test
(a VARCHAR(20), b varchar(20), c REAL, d INTEGER);
"""

In [181]:
con = sqlite3.connect('mydata.sqlite')

In [183]:
con.execute(query)

<sqlite3.Cursor at 0x123ee62d0>

In [184]:
con.commit()

In [185]:
# 데이터 입력
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]

In [186]:
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

In [187]:
con.executemany(stmt, data)

<sqlite3.Cursor at 0x123ee6ab0>

In [188]:
con.commit()

In [189]:
# 대부분의 파이썬 SQL 드라이버(PyODBC, psycopg2, MySQLdb, pymssql 등)는 테이블에 대해 select 쿼리를 수행하면 튜플 리스트 반환
cursor = con.execute('select * from test')

In [190]:
rows = cursor.fetchall()

In [191]:
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [192]:
# 반환된 튜플 리스트를 DataFrame 생성자에 바로 전달해도 되지만, 컬럼 이름 지정 시 더 편하다!
# cursor의 description 속성 활용
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [193]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


* 데이터베이스에 쿼리를 보낼 때 더 편리하게 하기 위한 방법: 파이썬 SQL 툴킷인 SQLAlchemy 프로젝트 활용
<pre> <b>SQLAlchemy(SQL 알케미) </b>
 : SQL 데이터베이스 간의 일반적인 차이점을 추상화하여 제공
 : pandas는 read_sql 함수를 제공하여 SQLAlchemy의 일반적인 연결을 이용해 쉽게 데이터를 읽을 수 있게 한다
</pre>

In [195]:
# SQLAlchemy를 사용하여 같은 SQLite 데이터베이스에 접속하고 앞서 만든 테이블에서 데이터를 읽어오는 예
import sqlalchemy as sqla

In [196]:
db = sqla.create_engine('sqlite:///mydata.sqlite')

In [197]:
pd.read_sql('select * from test', db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
