# Ch. 6 Data Loading, Storage, and File Formats

## 1. 텍스트 파일 이용하는 방법

- pandas는 표 형식의 자료를 DataFrame 객체로 읽어오는 몇 가지 기능을 제공

| 함수 | 설명 |
| :------------ | :----------- |
| read_csv | 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉽표(,)를 기본으로 한다. |
| read_table | 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')을 기본으로 한다. |
| read_fwf | 고정폭 칼럼 형식에서 데이터를 읽어온다(구분자가 없는 데이터). |
| read_clipboard | 클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 긁어올 때 유용하다. |

In [585]:
from __future__ import division
from numpy.random import randn
import numpy as np
import os
import matplotlib.pyplot as plt
from pandas import Series, DataFrame
import pandas as pd

- ex01.csv 파일을 읽어오기

In [586]:
#urllib를 이용하여 파일을 읽어온 경우
import urllib
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv'))
#해당 URL주소의 파일을 리스트로 만들어 주는 파이썬 기본 내장함수

['a,b,c,d,message\n', '1,2,3,4,hello\n', '5,6,7,8,world\n', '9,10,11,12,foo']

In [587]:
#read_csv만을 이용하여 DataFrame으로 읽어 올 수 있다.
df = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [588]:
#read_table을 이용하여 쉼표를 구분자로 지정하여 읽어 올 수 있다.
pd.read_table('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- ex02.csv 파일 읽어오기

In [589]:
#ex2.csv 파일은 다음과 같은 내용이 들어 있다.
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv'))

['1,2,3,4,hello\n', '5,6,7,8,world\n', '9,10,11,12,foo']

In [590]:
#pandas가 자동으로 칼럼을 생성하도록 하는 옵션, 다양하게 지정도 가능
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [591]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- meassage 칼럼을 색인으로하는 DataFrame을 반환하려면 index_col 인자를 이용하여 색인으로 생성이 가능

In [592]:
names = ['a','b','c','d','message']

In [593]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', names=names, index_col='message')
#message를 index로 하여 출력

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


- csv_mindex.csv 파일 읽어오기
- 계층적 색인을 지정하고 싶은경우, 칼럼 번호나 이름의 리스트를 넘기면 된다.

In [594]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/csv_mindex.csv'))

['key1,key2,value1,value2\n',
 'one,a,1,2\n',
 'one,b,3,4\n',
 'one,c,5,6\n',
 'one,d,7,8\n',
 'two,a,9,10\n',
 'two,b,11,12\n',
 'two,c,13,14\n',
 'two,d,15,16\n']

In [595]:
parsed = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/csv_mindex.csv', index_col=['key1', 'key2'])
parsed    #key1, key2를 이용하여 계층적 색인이 가능하도록 하였다.

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


- ex03.csv파일 불러오기

In [596]:
a = list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex3.txt'))
print type(a)
print a

<type 'list'>
['            A         B         C\n', 'aaa -0.264438 -1.026059 -0.619500\n', 'bbb  0.927272  0.302904 -0.032399\n', 'ccc -0.264273 -0.386314 -0.217601\n', 'ddd -0.871858 -0.348382  1.100491\n']


- 여러개의 공백문자로 필드가 구분되어 있으므로 정규표현식 \s+을 사용하여 처리

In [597]:
result = pd.read_table('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


- ex04.csv 파일 불러오기
- ex04파일 처럼 필요없는 열이 포함된 파일인 경우, skiprow를 이용해 해당 열을 건너 뛰고 출력 한다.

In [598]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex4.csv'))

['# hey!\n',
 'a,b,c,d,message\n',
 '# just wanted to make things more difficult for you\n',
 '# who reads CSV files with computers, anyway?\n',
 '1,2,3,4,hello\n',
 '5,6,7,8,world\n',
 '9,10,11,12,foo']

In [599]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- ex05.csv 파일 불러오기

In [600]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv'))

['something,a,b,c,d,message\n',
 'one,1,2,3,4,NA\n',
 'two,5,6,,8,world\n',
 'three,9,10,11,12,foo']

In [601]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv')
result   #해당 파일을 read_csv 함수를 이용하여 DataFrame으로 출력

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [602]:
pd.isnull(result)   #null값이 들어간 값에 대해서만 True가 출력

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


- na_values 옵션은 리스트나 문자열 집합을 받아서 누락된 값을 처리한다.

In [603]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv', na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- 열마다 다른 NA 문자를 사전 값으로 넘겨 처리할 수도 있다.

In [604]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}   #각 칼럼의 다른 문자를 사전값으로 처리

In [605]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv', na_values=sentinels)
#message에서 foo와 NA를 something에서 two를 null로 인식 하도록

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


### 1) 텍스트 파일 조금씩 읽어오기

- 매우 큰 파일을 처리할 때 인자를 제대로 주었는지 알아보기 위해 파일의 일부분만 읽어보거나 여러 파일중에서 몇 개의 파일만 읽어서 확인하고 싶은 경우

In [606]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.817480,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U
7,-0.913135,1.530624,-0.572657,0.477252,K
8,0.358480,-0.497572,-0.367016,0.507702,S
9,-1.740877,-1.160417,-1.637830,2.172201,G


In [607]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv', nrows=5)
#nrows 옵션을 주어 첫 몇줄만 읽어오도록

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


- 파일을 여러 조각에 나누어서 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.

In [608]:
from pandas import Series, DataFrame

In [609]:
chunker = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x114e26dd0>

In [610]:
chunker = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv', chunksize=1000)

#chunker의 DataFrame에서 key칼람의 값들을 count하여 tot 시리즈에 저장하도록, 비어있는 경우 0으로 값을 채운다.
tot = Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)
    
tot = tot.order(ascending=False)

In [611]:
tot[:10]   #처음부터 10개까지만

E    368
X    364
L    346
O    343
Q    340
M    338
J    337
F    335
K    334
H    330
dtype: float64

### 2) 데이터를 텍스트 형식으로 기록하기

In [612]:
data = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- DataFrame의 to_csv 메서드를 이용하여 쉼표로 구분된 형식으로 데이터를 파일로 쓸 수 있다.

In [613]:
data.to_csv('ch06/out.csv')

In [614]:
!cat ch06/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- 다른 문자로도 구분이 가능

In [615]:
import sys

In [616]:
data.to_csv(sys.stdout, sep='|')   #콘솔에서 확인할 수 있도록 실제 파일로 기록하지 않고 sys.stdout에 결과를 기록하도록 했다.

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [617]:
data.to_csv(sys.stdout, na_rep='NULL')   #누락된 값은 비어있는 문자열로 나타내도록 한다.

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


- 다른 옵션이 명시되지 않으면 로우나 칼럼의 이름도 함께 기록, 로우와 칼럼의 이름을 포함하지 않으려면 다음과 같이 사용

In [618]:
data.to_csv(sys.stdout, index=False, header=False)    #칼럼과 로우가 안보이는것을 볼 수 있다.

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [619]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])   #칼럼의 일부분만 기록할 수도 있고, 순서를 직접 지정할 수도 있다.

a,b,c
1,2,3.0
5,6,
9,10,11.0


- Series에도 to_csv메서드가 있다.

In [620]:
dates = pd.date_range('1/1/2000', periods=7)   #date_range메서드를 이용하여 시간을 기록하는 tseries를 생성
ts = Series(np.arange(7), index=dates)         #인덱스를 날짜로 하고 0~6까지의 수가 들어간 ts시리즈를 생성   
ts.to_csv('ch06/tseries.csv')

In [621]:
!cat ch06/tseries.csv

2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


- 헤더를 없애고 첫 번째 칼럼을 색인으로 하면 read_csv 메서드로 Series 객체를 얻을 수 있다.
- from_csv 메서드가 좀 더 편리하고 간단하게 문제를 해결해 준다.

In [622]:
Series.from_csv('ch06/tseries.csv', parse_dates=True)   #parse_dates?

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
dtype: int64

### 3) 수동으로 구분 형식 처리하기

- 대부분의 데이터는 read_table 같은 함수를 이요해서 읽어 올 수 있다.
- 간혹 수동으로 처리해야 하는 경우도 발생

In [623]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex7.csv'))

['"a","b","c"\n', '"1","2","3"\n', '"1","2","3","4"\n']

- 구분자가 한 글자인 파일은 파있너 내장 csv 모듈을 이용해서 처리할 수 있는데, 열려진 파일 객체를 csv.reader 함수에 넘기기만 하면 된다.

In [624]:
import csv
f = urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex7.csv')

reader = csv.reader(f)

In [625]:
type(reader)

_csv.reader

In [626]:
for line in reader:
    print line        #reader의 각 라인별로 읽어오기

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']


In [627]:
lines = list(csv.reader(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex7.csv')))

In [628]:
header, values = lines[0], lines[1:]   #해당 파일을 reader 메서드로 읽어오고, lines 리스트에 각 줄을 저장, 첫번째는 header 나머지 줄은 값

In [629]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [630]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

In [631]:
with open('ch06/mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))

In [632]:
!cat ch06/mydata.csv

one;two;three
1;2;3
4;5;6
7;8;9


### 4) JSON 데이터

In [633]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"},
              {"name": "Katie", "age": 33, "pet": "Cisco"}]
}
"""

- JSON은 널 값과 다른 몇 가지 사소한 주의사항을 제외하면 파있너 코드와 거의 유사
- 기본 자료형 객체(사전), 배열(리스트), 문자열, 숫자, 불리언 그리고 널
- 객체의 키는 반드시 문자열이어야 한다.
- JSON 문자열을 파이썬 형태로 변환하기 위해서는 json.loads를 사용

In [634]:
import json

In [635]:
result = json.loads(obj)   #json.loads를 사용하여 obj의 json형태의 파일을 파이썬 형태로 변환하는 함수
result

{u'name': u'Wes',
 u'pet': None,
 u'places_lived': [u'United States', u'Spain', u'Germany'],
 u'siblings': [{u'age': 25, u'name': u'Scott', u'pet': u'Zuko'},
  {u'age': 33, u'name': u'Katie', u'pet': u'Cisco'}]}

- json.dumps는 파이썬 객체를 JSON 형태로 변환

In [636]:
asjson = json.dumps(result)
asjson

'{"pet": null, "siblings": [{"pet": "Zuko", "age": 25, "name": "Scott"}, {"pet": "Cisco", "age": 33, "name": "Katie"}], "name": "Wes", "places_lived": ["United States", "Spain", "Germany"]}'

- JSON객체의 리스트를 DataFrame 생성자로 넘기고 필드를 선택할 수 있다.

In [637]:
#파이썬 형태로 변환한 result에서 siblings 부분의 내용을 DataFrame으로 생성
siblings = DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,25
1,Katie,33


### 5) <font color=#ff0000>XML과 HTML: 웹 내용 긁어오기</font>

- 먼저 HTML을 위한 lxml.html의 사용법을 살펴보고 그 다음 lxml.objectify를 이용해서 XML을 처리하는 방법을 알아본다.
- 데이터를 가져올 URL을 확인하고 urllib2모듈을 사용해서 연 다음 lxml을 이용해서 다음과 같이 파싱

In [638]:
from lxml.html import parse
from urllib2 import urlopen

parsed = parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+Options'))   #APPLE Inc.의 주식 정보를  parsing하여 가져온다.

doc = parsed.getroot()
print parsed
print doc

<lxml.etree._ElementTree object at 0x114e18518>
<Element html at 0x112d28050>


- doc 객체에는 모든 HTML태그가 추출되어 있는데, 어떻게 동작하는지 간단히 살펴보기 위하여 HTML 문서에서 외부 연결 URL을 모두 찾아보기로 하자
- 외부 연결 URL은 a 태그로 지정되어 있다. HTML 문서 최상위에 findall 메서드에 XPath(문서 질의 언어)를 넘겨서 해당 엘리먼트를 가져옴

In [639]:
links = doc.findall('.//a')
links[15:20]

[<Element a at 0x1103d7578>,
 <Element a at 0x1103d74c8>,
 <Element a at 0x1103d72b8>,
 <Element a at 0x1103d7470>,
 <Element a at 0x1103d7050>]

- 이 객체는 HTML 엘리먼트를 표현하는 객체일 뿐이므로 URL과 링크 이름을 가져오려면 각 엘리먼트에 대해 get 메서드를 호출하여 URL을 얻음
- text_content 메서드를 사용해서 링크이름을 가져옴

In [640]:
lnk = links[28]
lnk

<Element a at 0x113359f18>

In [641]:
lnk.get('href')

'https://autos.yahoo.com/'

In [642]:
lnk.text_content()

'Autos'

In [643]:
urls = [lnk.get('href') for lnk in doc.findall('.//a')]    #외부 URL이 담겨져 있는 a 태그에서의 href에 해당하는 url 값들을 urls 저장
urls[-10:]

['/q/op?s=AAPL&strike=142.00',
 '/q?s=AAPL150807P00142000',
 '/q/op?s=AAPL&strike=143.00',
 '/q?s=AAPL150807P00143000',
 '/q/op?s=AAPL&strike=145.00',
 '/q?s=AAPL150807P00145000',
 '/q/op?s=AAPL&strike=150.00',
 '/q?s=AAPL150807P00150000',
 '/q/op?s=AAPL&strike=155.00',
 '/q?s=AAPL150807P00155000']

- 이제 찾고자 하는 table은 하니씩 확인해 볼 수 밖에 없다.
- table마다 id 속성을 줘서 이 작업을 쉽게 할 수 있는데, 콜 데이터와 풋 데이터가 각각의 table에 들어가 있는 것을 찾아냄

In [644]:
tables = doc.findall('.//table')   #table 태그가 있는 값들을 tables에 저장,
calls = tables[1]
puts = tables[2]

In [645]:
rows = calls.findall('.//tr')   #calls에서 tr태그가 가지고 있는 값들을 저장

In [646]:
def _unpack(row, kind='td'):
    elts = row.findall('.//%s' % kind)
    return [val.text_content() for val in elts]

In [647]:
_unpack(rows[0], kind='th')

[u'\n                \n                     Strike\n                    \n                        \ue004\n                        \ue002\n                    \n                \n                \u2235 Filter\n            ',
 'Contract Name',
 u'\n                \n                    Last\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            ',
 u'\n                \n                    Bid\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            ',
 u'\n                \n                    Ask\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            ',
 u'\n                \n                    Change\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            '

In [648]:
_unpack(rows[1], kind='td')

[u'\n                        \n                            \n                            \u2715\n                            [modify]\n                        \n                    ']

- 지금까지의 살펴본 데이터를 모두 합쳐 DataFrame으로 변환
- 숫자 데이터의 경우 적절하게 문자열 형식으로 저장되어 있으므로 변환이 필요
- pandas의 TextParser 클래스가 있어 자동 형 변환을 적절히 수행이 가능

In [649]:
from pandas.io.parsers import TextParser

def parse_options_data(table):
    rows = table.findall('.//tr')
    header = _unpack(rows[0], kind='th')
    data = [_unpack(r) for r in rows[1:]]
    return TextParser(data, names=header).get_chunk()

In [650]:
call_data = parse_options_data(calls)

In [651]:
put_data = parse_options_data(puts)

In [652]:
call_data[:10]

Unnamed: 0,Strike      ∵ Filter,Contract Name,Last    ,Bid    ,Ask    ,Change    ,%Change    ,Volume    ,Open Interest    ,Implied Volatility    
0,\n \n ...,,,,,,,,,
1,\n 80.00\n,\n AAPL150807C00080000\n,35.75,0.0,0.0,0.0,\n \n 0.00%\n ...,12.0,0.0,\n 0.00%\n
2,\n 90.00\n,\n AAPL150807C00090000\n,25.6,0.0,0.0,0.0,\n \n 0.00%\n ...,453.0,0.0,\n 0.00%\n
3,\n 95.00\n,\n AAPL150807C00095000\n,20.7,0.0,0.0,0.0,\n \n 0.00%\n ...,319.0,0.0,\n 0.00%\n
4,\n 100.00\n,\n AAPL150807C00100000\n,15.4,0.0,0.0,0.0,\n \n 0.00%\n ...,769.0,0.0,\n 0.00%\n
5,\n 105.00\n,\n AAPL150807C00105000\n,10.8,0.0,0.0,0.0,\n \n 0.00%\n ...,1106.0,0.0,\n 0.00%\n
6,\n 107.00\n,\n AAPL150807C00107000\n,8.85,0.0,0.0,0.0,\n \n 0.00%\n ...,1290.0,0.0,\n 0.00%\n
7,\n 108.00\n,\n AAPL150807C00108000\n,7.42,0.0,0.0,0.0,\n \n 0.00%\n ...,2012.0,0.0,\n 0.00%\n
8,\n 109.00\n,\n AAPL150807C00109000\n,6.55,0.0,0.0,0.0,\n \n 0.00%\n ...,1686.0,0.0,\n 0.00%\n
9,\n 110.00\n,\n AAPL150807C00110000\n,5.35,0.0,0.0,0.0,\n \n 0.00%\n ...,9155.0,0.0,\n 0.00%\n


### lxml.objectify 이용해 XML 파싱하기

- 뉴욕 MTA는 버스와 전철 운영에 관한 여러가지 데이터를 공개
- 해당 데이터를 받아 lxml.objectify를 이용하여 XML을 파싱

In [653]:
%cd MTA_Performance_Datall
!head -21 Performance_MNRR.xml   #해당 폴더로 이동후, head에 관한 21줄을 출력

/Users/hyunkyo/HK-PyDA/MTA_Performance_Datall
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<PERFORMANCE>
 <INDICATOR>
 <INDICATOR_SEQ>28345</INDICATOR_SEQ>
 <PARENT_SEQ>55526</PARENT_SEQ>
 <AGENCY_NAME>Metro-North Railroad</AGENCY_NAME>
 <INDICATOR_NAME>Hudson Line - OTP</INDICATOR_NAME>
 <DESCRIPTION>Percent of commuter trains that arrive at their destinations within 5 minutes and 59 seconds of the scheduled time.</DESCRIPTION>
 <CATEGORY>Service Indicators</CATEGORY>
 <FREQUENCY>M</FREQUENCY>
 <DESIRED_CHANGE>U</DESIRED_CHANGE>
 <INDICATOR_UNIT>%</INDICATOR_UNIT>
 <DECIMAL_PLACES>1</DECIMAL_PLACES>
 <YEAR>
  <PERIOD_YEAR>2008</PERIOD_YEAR>
    <MONTH>
     <PERIOD_MONTH>1</PERIOD_MONTH>
      <MONTHLYVALUES>
       <YTD_TARGET>98.00</YTD_TARGET>
       <YTD_ACTUAL>99.30</YTD_ACTUAL>
       <MONTHLY_TARGET>98.00</MONTHLY_TARGET>


In [654]:
#해당 데이터를 lxml.objectify를 이용하여 파싱
from lxml import objectify

path = 'Performance_MNRR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()   #현재 객체의 root를 얻어 root에 저장

In [655]:
data = []   #해당 데이터를 저장할 리스트를 생성

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']   #스킵 할 필드의 리스트를 생성

#파싱되어진 파일이 저장된 root에 INDICATOR을 각 줄마다 elt에 리스트로 저장, 스킷해도 되는 필드의 경우 지나치고
#스킵할 것이 아닌 경우에는 해당 값을 data리스트에 추가 시킨다.
for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():   
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.values
    data.append(el_data)

In [656]:
perf = DataFrame(data)
perf

Unnamed: 0,AGENCY_NAME,CATEGORY,DESCRIPTION,FREQUENCY,INDICATOR_NAME,INDICATOR_UNIT,YEAR
0,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
1,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
2,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
3,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
4,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
5,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
6,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
7,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
8,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...
9,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Stri...,<built-in method values of lxml.objectify.Obje...


In [657]:
root

<Element PERFORMANCE at 0x114e18368>

In [658]:
root.get('href')

In [659]:
root.text

- href가 들어간 url의 주소와 해당 텍스트를 출력하려고 했으나 해당 파싱된 파일 안에는 외부 url이 없었으므로, 추가하는 코드를 넣어보자

In [660]:
from StringIO import StringIO
tag = '<a href="http://www.google.com">Google</a>'

root = objectify.parse(StringIO(tag)).getroot()   #root권한으로 해당 태그를 root에 추가

- 해당 내용이 추가되면 다음의 내용이 추가로 나오는것을 알 수 있다.

In [661]:
root

<Element a at 0x113f679e0>

In [662]:
root.get('href')

'http://www.google.com'

In [663]:
root.text

'Google'

## 2. 이진 데이터 형식

- pandas의 객체는 모두 pickle을 이용해서 데이터를 저장하는 save메서드를 가지고 있다.

In [664]:
frame = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [665]:
%cd ..
frame.to_pickle('ch06/frame_pickle.csv')

/Users/hyunkyo/HK-PyDA


In [666]:
!cat ch06/frame_pickle.csv

�cpandas.core.frame
DataFrame
q)�qcpandas.core.internals
BlockManager
q)�q(]q(cpandas.core.index
_new_Index
qcpandas.core.index
Index
q}q(Udataq	cnumpy.core.multiarray
_reconstruct
q
cnumpy
ndarray
qK �Ub�Rq(KK�cnumpy
dtype
qUO8K K�Rq(KU|NNNJ����J����K?tb�]q(UaUbUcUdUmessageqetbUnameqNu�Rqhcpandas.core.index
Int64Index
q}q(h	h
hK �Ub�Rq(KK�hUi8K K�Rq(KU<NNNJ����J����K tb�U                      tbhNu�Rqe]q(h
hK �Ub�Rq(KKK�h�U`              	                     
                                                 tbh
hK �Ub�Rq(KKK�h�]q(UhelloqUworldqUfooqetbe]q(hh}q (h	h
hK �Ub�Rq!(KK�h�]q"(UaUbUcUdetbhNu�Rq#hh}q$(h	h
hK �Ub�Rq%(KK�h�]q&hatbhNu�Rq'e}q(U0.14.1q)}q*(Uaxesq+hUblocksq,]q-(}q.(Umgr_locsq/c__builtin__
slice
q0K KK�Rq1Uvaluesq2hu}q3(h/h0KKK�Rq4h2hueustbb.

### 1) HDF5 형식 사용하기

- HDF5는 계층적 데이터 형식 이라는 뜻이다.
- 내부적으로 파일 시스템 같은 노드 구조를 가지는데, 여러 개의 데이터셋을 저장하고 부가 정보를 기록할 수 있도록 해준다
- 다양한 압축기술을 이용하여 실시간으로 압축을 지원하며 반복하는 패턴을 가진 데이터를 좀 더 효과적으로 저장 할 수 있다
- HDFStore을 사용하기 위해서는 HDF5 library와 pytable library를 Canopy를 통해 설치해야한다.

In [667]:
#pandas는 PyTables를 이용한 HDFStore라는 가벼운 사전 클래스를 통해 pandas 객체를 저장한다.
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5
/obj1                frame        (shape->[3,5])
/obj1_col            series       (shape->[3])  

In [668]:
store['obj1']

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### 3) 마이크로소프트 엑셀 파일에서 데이터 읽어오기

- pandas는 ExcelFile 클래스를 통해서 엑셀 파일을 읽어올 수 있다.
- 내부적으로 ExcelFile 클래스는 xlrd, openpyxl 패키지를 이용하므로 사용하기전에 두 패키지를 먼저 설치해야 한다.

In [669]:
xls_file = pd.ExcelFile('ch06/data.xlsx')
xls_file

<pandas.io.excel.ExcelFile at 0x1117b0ed0>

In [670]:
table = xls_file.parse('Sheet1')   #pandas를 통해 읽어온 파일을 DataFrame으로 읽어 올 수 있다.
table

Unnamed: 0,one,two,three
0,1,2,3
1,4,5,6
2,7,8,9


## 3. HTML, 웹 API와 함께 사용하기

- 파이썬으로 API를 사용하는 방법은 다양하며 추천하는 가장 쉬운 방법은 requests패키지를 이용하는 것이다.

In [671]:
import requests
url = 'https://api.github.com/repos/pydata/pandas/milestones/28/labels'
resp = requests.get(url)
resp

<Response [200]>

- Response 객체의 text 속성은 GET 질의에 대한 내요을 담고 있다.
- 많은 API는 JSON 문자열을 반환하는데, 이 문자열은 파이썬 객체로 담아야 한다.

In [672]:
data = json.loads(resp.text)
data

[{u'color': u'e10c02',
  u'name': u'Bug',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Bug'},
 {u'color': u'4E9A06',
  u'name': u'Enhancement',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Enhancement'},
 {u'color': u'FCE94F',
  u'name': u'Refactor',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Refactor'},
 {u'color': u'75507B',
  u'name': u'Build',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Build'},
 {u'color': u'3465A4',
  u'name': u'Docs',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Docs'},
 {u'color': u'729FCF',
  u'name': u'Groupby',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Groupby'},
 {u'color': u'06909A',
  u'name': u'Data IO',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Data%20IO'},
 {u'color': u'8AE234',
  u'name': u'Visualization',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Visualization'},
 {u'color': u'0b02e1',
  u'name': u'Indexi

In [673]:
issue_labels = DataFrame(data)   #해당 데이터를 다음과 같이 DataFrame으로 생성
issue_labels

Unnamed: 0,color,name,url
0,e10c02,Bug,https://api.github.com/repos/pydata/pandas/lab...
1,4E9A06,Enhancement,https://api.github.com/repos/pydata/pandas/lab...
2,FCE94F,Refactor,https://api.github.com/repos/pydata/pandas/lab...
3,75507B,Build,https://api.github.com/repos/pydata/pandas/lab...
4,3465A4,Docs,https://api.github.com/repos/pydata/pandas/lab...
5,729FCF,Groupby,https://api.github.com/repos/pydata/pandas/lab...
6,06909A,Data IO,https://api.github.com/repos/pydata/pandas/lab...
7,8AE234,Visualization,https://api.github.com/repos/pydata/pandas/lab...
8,0b02e1,Indexing,https://api.github.com/repos/pydata/pandas/lab...
9,d7e102,Missing-data,https://api.github.com/repos/pydata/pandas/lab...


In [683]:
issue_labels.ix[7]   #인덱스 8번째의 정보

color                                               8AE234
name                                         Visualization
url      https://api.github.com/repos/pydata/pandas/lab...
Name: 7, dtype: object

## 4. 데이터베이스와 함께 사용하기

- SQL에서 데이터를 읽어와서 DataFrame에 저장하는 방법은 꽤 직관적이며, pandas에는 이 과정을 간결하게 해주는 함수가 몇가지 존재
- 한 예로 파이썬의 sqlite3 드라이버를 사용해서 SQLite 데이터베이스를 이용할 수 있다.

In [675]:
import sqlite3   #sqlite3데이터 베이스에 다음의 test라는 테이블을 생성

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""

con = sqlite3.connect(':memory:')   #데이터베이스 연결 객체 생성
con.execute(query)
con.commit()

In [676]:
data = [('Atlanta', 'Georgia', 1.25, 6),       #해당 테이블에 넣을 자료를 리스트로 생성
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"   #해당 자료가 들어갈 insert할 구문

con.executemany(stmt, data)
con.commit()

In [677]:
cursor = con.execute('select * from test')   #해당 테이블의 자료를 볼 수 있도록 rows리스트에 저장하여 출력
rows = cursor.fetchall()
rows

[(u'Atlanta', u'Georgia', 1.25, 6),
 (u'Tallahassee', u'Florida', 2.6, 3),
 (u'Sacramento', u'California', 1.7, 5)]

In [678]:
cursor.description   #description 속성을 이용하여 칼럼의 이름을 지정

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [679]:
DataFrame(rows, columns=zip(*cursor.description)[0])   #rows와 각 해당 칼럼의 이름을 지정하여 DataFrame에 저장하여 출력

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


- pandas.io.sql 모듈의 read_frame 함수를 이용하면 위의 작업을 쉽게 해결할 수 있다.

In [680]:
import pandas.io.sql as sql
sql.read_sql('select * from test', con)   #select쿼리문과 데이터베이스 연결 객체(con)만 넘기면 된다.

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


### 1) MongoDB에 데이터 저장하고 불러오기

- MongoDB 서버를 로컬에 설치하고 공식 드라이버인 pymongo를 사용해서 기본 포트 번호로 연결

In [681]:
import pymongo

In [682]:
con = pymongo.Connection('localhost', port=27017)

ConnectionFailure: [Errno 61] Connection refused