## Data loading, storage, and file formats

In [1]:
from __future__ import division
from numpy.random import randn
import numpy as np
import os
import matplotlib.pyplot as plt

In [2]:
np.random.seed(12345)
plt.rc('figure', figsize=(10, 6))

In [3]:
from pandas import Series, DataFrame
import pandas as pd
np.set_printoptions(precision=4)

In [4]:
%pwd

u'C:\\Users\\S525'

In [5]:
#urllib를 이용하여 파일을 읽어온 경우
import urllib
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv'))
#해당 URL주소의 파일을 리스트로 만들어 주는 파이썬 기본 내장함수

['a,b,c,d,message\n', '1,2,3,4,hello\n', '5,6,7,8,world\n', '9,10,11,12,foo']

## Reading and Writing Data in Text Format

In [176]:
!cat ch06/ex1.csv

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [7]:
df = pd.read_csv('ch06/ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
#read_table을 이용하여 쉼표를 구분자로 지정하여 읽어 올 수 있다.
pd.read_table('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv', sep=',')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- read_table = 쉼표를 구분자로 지정하여 읽어온다. 
- read_csv = dataframe 읽어온다.

In [9]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv'))

['1,2,3,4,hello\n', '5,6,7,8,world\n', '9,10,11,12,foo']

In [10]:
#pandas가 자동으로 칼럼을 생성하도록 하는 옵션, 다양하게 지정도 가능
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [12]:
names = ['a','b','c','d','message']

In [13]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', names=names, index_col='message')
#message를 index로 하여 출력

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [16]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex2.csv', names=names, index_col='a')
#a를 index로 하여 출력  (1,5,9가 index의 name으로 쓰임)

Unnamed: 0_level_0,b,c,d,message
a,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [17]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/csv_mindex.csv'))

['key1,key2,value1,value2\n',
 'one,a,1,2\n',
 'one,b,3,4\n',
 'one,c,5,6\n',
 'one,d,7,8\n',
 'two,a,9,10\n',
 'two,b,11,12\n',
 'two,c,13,14\n',
 'two,d,15,16\n']

In [18]:
parsed = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/csv_mindex.csv', index_col=['key1', 'key2'])
parsed    #key1, key2를 이용하여 계층적 색인이 가능하도록 하였다.

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [19]:
a = list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex3.txt'))
print type(a)
print a

<type 'list'>
['            A         B         C\n', 'aaa -0.264438 -1.026059 -0.619500\n', 'bbb  0.927272  0.302904 -0.032399\n', 'ccc -0.264273 -0.386314 -0.217601\n', 'ddd -0.871858 -0.348382  1.100491\n']


-----------


- a 는 list , 내용에 공백이 많음 -> \s+ 을 사용하여 처리
- \s는 space character

In [23]:
result = pd.read_table('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex3.txt', sep='\s*')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [24]:
result = pd.read_table('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex3.txt', sep='\f')
result

Unnamed: 0,A B C
0,aaa -0.264438 -1.026059 -0.619500
1,bbb 0.927272 0.302904 -0.032399
2,ccc -0.264273 -0.386314 -0.217601
3,ddd -0.871858 -0.348382 1.100491


In [29]:
result = pd.read_table('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex3.txt', sep=' ')
result

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9,...,B,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,C
0,aaa,-0.264438,-1.026059,-0.6195,,,,,,,...,,,,,,,,,,
1,bbb,,0.927272,,0.302904,-0.032399,,,,,...,,,,,,,,,,
2,ccc,-0.264273,-0.386314,-0.217601,,,,,,,...,,,,,,,,,,
3,ddd,-0.871858,-0.348382,,1.100491,,,,,,...,,,,,,,,,,


-------------
- skiprows를 사용해서 필요없는 열 처리하기


In [30]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex4.csv'))

['# hey!\n',
 'a,b,c,d,message\n',
 '# just wanted to make things more difficult for you\n',
 '# who reads CSV files with computers, anyway?\n',
 '1,2,3,4,hello\n',
 '5,6,7,8,world\n',
 '9,10,11,12,foo']

In [31]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex4.csv', skiprows=[0,2,3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [32]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv'))

['something,a,b,c,d,message\n',
 'one,1,2,3,4,NA\n',
 'two,5,6,,8,world\n',
 'three,9,10,11,12,foo']

- ex5.csv 파일에 보면 NA나 '' 과 같은 null값이 포함되어 있다.

In [33]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv')
result   #해당 파일을 read_csv 함수를 이용하여 DataFrame으로 출력

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [34]:
pd.isnull(result)   #null값이 들어간 값에 대해서만 True가 출력

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


- na_values 는 문자열이나 리스트를 받아서 누락된 값 처리

In [43]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv', na_values=['null'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- na_values['4'] 하면 4값이 null로 인식된다.

In [45]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv', na_values=['4'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,,
1,two,5,6,,8.0,world
2,three,9,10,11.0,12.0,foo


In [46]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,True,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [48]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}   #각 칼럼의 다른 문자를 사전값으로 처리

In [49]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv', na_values=sentinels)
#message에서 foo와 NA를 something에서 two를 null로 인식 하도록

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


In [50]:
result = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.817480,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U
7,-0.913135,1.530624,-0.572657,0.477252,K
8,0.358480,-0.497572,-0.367016,0.507702,S
9,-1.740877,-1.160417,-1.637830,2.172201,G


In [51]:
pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv', nrows=5)
#nrows 옵션을 주어 첫 몇줄만 읽어오도록

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [52]:
from pandas import Series, DataFrame

In [54]:
chunker = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv', 
                      chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x3d24be0>

-  chunksize 에 row 수를 주면 된다.

In [55]:
result.shape

(10000, 5)

In [56]:
result.index.size

10000

In [57]:
print len(result)

10000


In [62]:
chunker = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex6.csv', chunksize=1000)

In [63]:
chunker

<pandas.io.parsers.TextFileReader at 0xa769be0>

In [65]:
for a in chunker:
    print a

          one       two     three      four key
0    0.467976 -0.038649 -0.295344 -1.824726   L
1   -0.358893  1.404453  0.704965 -0.200638   B
2   -0.501840  0.659254 -0.421691 -0.057688   G
3    0.204886  1.074134  1.388361 -0.982404   R
4    0.354628 -0.133116  0.283763 -0.837063   Q
5    1.817480  0.742273  0.419395 -2.251035   Q
6   -0.776764  0.935518 -0.332872 -1.875641   U
7   -0.913135  1.530624 -0.572657  0.477252   K
8    0.358480 -0.497572 -0.367016  0.507702   S
9   -1.740877 -1.160417 -1.637830  2.172201   G
10   0.240564 -0.328249  1.252155  1.072796   8
11   0.764018  1.165476 -0.639544  1.495258   R
12   0.571035 -0.310537  0.582437 -0.298765   1
13   2.317658  0.430710 -1.334216  0.199679   P
14   1.547771 -1.119753 -2.277634  0.329586   J
15  -1.310608  0.401719 -1.000987  1.156708   E
16  -0.088496  0.634712  0.153324  0.415335   B
17  -0.018663 -0.247487 -1.446522  0.750938   A
18  -0.070127 -1.579097  0.120892  0.671432   F
19  -0.194678 -0.492039  2.359605  0.319

In [59]:
#chunker의 DataFrame에서 key칼람의 값들을 count하여 tot 시리즈에 저장하도록, 비어있는 경우 0으로 값을 채운다.
tot = Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)
    
tot = tot.order(ascending=False)

In [66]:
tot[:10]   #처음부터 10개까지만

E    368
X    364
L    346
O    343
Q    340
M    338
J    337
F    335
K    334
H    330
dtype: float64

### 2) data를 텍스트형식으로 기록하기

In [67]:
data = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [68]:
data.to_csv('ch06/out.csv')

In [70]:
!cat ch06/out.csv

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


- 다른 문자로도 구분이 가능

In [71]:
import sys

In [73]:
data.to_csv(sys.stdout, sep='|')   
#콘솔에서 확인할 수 있도록 실제 파일로 기록하지 않고 sys.stdout에 결과를 기록하도록 했다.

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [74]:
data.to_csv(sys.stdout, na_rep='NULL')   
#누락된 값은 비어있는 문자열로 나타내도록 한다.

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [76]:
data.to_csv(sys.stdout, index=False, header=False)    
#칼럼과 로우가 안보이는것을 볼 수 있다.

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [78]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])   
#칼럼의 일부분만 기록할 수도 있고, 순서를 직접 지정할 수도 있다.

a,b,c
1,2,3.0
5,6,
9,10,11.0


- series에도 to_csv 메소드가 있다.

In [79]:
dates = pd.date_range('1/1/2000', periods=7)   #date_range메서드를 이용하여 시간을 기록하는 tseries를 생성
ts = Series(np.arange(7), index=dates)         #인덱스를 날짜로 하고 0~6까지의 수가 들어간 ts시리즈를 생성   
ts.to_csv('ch06/tseries.csv')

In [81]:
Series.from_csv('ch06/tseries.csv', parse_dates=True)   #parse_dates?
# parse_dates=False면 YYYY-MM-DD 형식을 안지키고 그냥 출력된다.

2000-01-01    0
2000-01-02    1
2000-01-03    2
2000-01-04    3
2000-01-05    4
2000-01-06    5
2000-01-07    6
dtype: int64

- 헤더를 없애고 첫번째 칼럼을 색인으로 하면 read_csv메서드로 series 객체를 얻을수있다.
- from_csv 메서드가 더 편리하고 간단하게 문제해결 해준다.

----------------

In [85]:
a = Series.from_csv('ch06/tseries.csv', parse_dates=False)
a.index[0]

'2000-01-01'

### 3) 수동으로 구분 형식 처리하기

In [87]:
list(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex7.csv'))

['"a","b","c"\n', '"1","2","3"\n', '"1","2","3","4"\n']

In [93]:
import csv
f = urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex7.csv')

reader = csv.reader(f)
type(f)

instance

In [89]:
reader

<_csv.reader at 0xa710b28>

In [90]:
type(reader)

_csv.reader

In [91]:
for line in reader:
    print line        
#reader의 각 라인별로 읽어오기

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']


- 굳이 reader를 쓰는 이유는 file

In [92]:
lines = list(csv.reader(urllib.urlopen('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex7.csv')))

In [96]:
header, values = lines[0], lines[1:]   
#해당 파일을 reader 메서드로 읽어오고, 
#lines 리스트에 각 줄을 저장, 첫번째는 header 나머지 줄은 값

In [110]:
a = [1,2,3]
b = [4,5,6,7]
zip(a,b)

[(1, 4), (2, 5), (3, 6)]

In [111]:
a = [1,2,3]
b = [4,5,6,7]
c = [8,9]
zip(a,b,c)

[(1, 4, 8), (2, 5, 9)]

In [108]:
print values
print zip(*values)

[['1', '2', '3'], ['1', '2', '3', '4']]
[('1', '1'), ('2', '2'), ('3', '3')]


In [97]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

--------
- CSV파일은 다양한 형태로 존재할 수 있다.
- 다양한 구분자, 개행문자 같은 것을 csc.dialect로 상속받아 새로운 클래스 정의해서 사용 가능
- 클래스 정의 안하고 csv.reader에 키워드 인자로 각 csv파일의 특징을 지정해서 전달해도 된다.

In [117]:
class my_dialect(csv.Dialect):  #csv.Dialect를 상속받음
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL
    #attribute overloading

In [116]:
csv.Dialect?

In [99]:
with open('ch06/mydata.csv', 'w') as f:
    writer = csv.writer(f, dialect=my_dialect)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))

In [113]:
!cat ch06/mydata.csv

'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.



one;two;three

1;2;3

4;5;6

7;8;9


### 4) JSON 데이터

In [101]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"},
              {"name": "Katie", "age": 33, "pet": "Cisco"}]
}
"""

In [102]:
import json

In [103]:
result = json.loads(obj)   #json.loads를 사용하여 obj의 json형태의 파일을 파이썬 형태로 변환하는 함수
result

{u'name': u'Wes',
 u'pet': None,
 u'places_lived': [u'United States', u'Spain', u'Germany'],
 u'siblings': [{u'age': 25, u'name': u'Scott', u'pet': u'Zuko'},
  {u'age': 33, u'name': u'Katie', u'pet': u'Cisco'}]}

In [120]:
type(result)

dict

- json과 dict 문법이 거의 유사하다.

In [131]:
asjson = json.dumps(result)  #json으로
asjson

'{"pet": null, "siblings": [{"pet": "Zuko", "age": 25, "name": "Scott"}, {"pet": "Cisco", "age": 33, "name": "Katie"}], "name": "Wes", "places_lived": ["United States", "Spain", "Germany"]}'

In [121]:
type(asjson)

str

In [132]:
#파이썬 형태로 변환한 result에서 siblings 부분의 내용을 DataFrame으로 생성하고
#필드를 선택할 수 있다.
siblings = DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,25
1,Katie,33


In [133]:
type(siblings)

pandas.core.frame.DataFrame

In [134]:
result['siblings'][0]['age']

25

-------------

### 5) XML과 HTML : 웹 내용 긁어오기

- 먼저 html을 위한 lxml.html의 사용법을 살펴보고 그 다음 lxml.objectity를 이용해서 xml을 처리하는 방법을 알아본다.
- canopy - package management - lxml 검색 - lxml 3.4.4-1 설치 (free)

In [135]:
from lxml.html import parse
from urllib2 import urlopen


In [146]:
parsed = parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+Options'))   
#APPLE Inc.의 주식 정보를  parsing하여 가져온다.

doc = parsed.getroot()
print parsed  #트리형태
print doc     #html
print doc.getchildren()

<lxml.etree._ElementTree object at 0x000000000BE87F48>
<Element html at 0xbb6df98>
[<Element head at 0xbb6da98>, <Element body at 0xbb7f318>]


- html문서에서 외부 연결 url을 모두 찾아보자
- findall 메서드에 XPath(문서 질의 언어)를 넘겨 해당 엘리먼트를 가져온다.

In [138]:
links = doc.findall('.//a')
links[15:20]

[<Element a at 0xbb66598>,
 <Element a at 0xbb665e8>,
 <Element a at 0xbb66638>,
 <Element a at 0xbb66688>,
 <Element a at 0xbb666d8>]

In [153]:
links = doc.findall('./head/a')   #head 안에 있는 a를 찾아라
links[:]

[]

In [140]:
lnk = links[28]
lnk

<Element a at 0xbb669a8>

In [141]:
lnk.get('href')

'https://autos.yahoo.com/'

In [142]:
lnk.text_content()

'Autos'

In [144]:
urls = [lnk.get('href') for lnk in doc.findall('.//a')]    
#외부 URL이 담겨져 있는 a 태그에서의 href에 해당하는 url 값들을 urls 저장

urls[-10:]

['/q/op?s=AAPL&strike=142.00',
 '/q?s=AAPL150807P00142000',
 '/q/op?s=AAPL&strike=143.00',
 '/q?s=AAPL150807P00143000',
 '/q/op?s=AAPL&strike=145.00',
 '/q?s=AAPL150807P00145000',
 '/q/op?s=AAPL&strike=150.00',
 '/q?s=AAPL150807P00150000',
 '/q/op?s=AAPL&strike=155.00',
 '/q?s=AAPL150807P00155000']

- 이제 찾고자 하는 table은 하나씩 확인할 수 밖에 없다.
- table마다 id속성을 줘서 이 작업을 쉽게 할 수 있는데, 콜 데이터와 풋데이터가 각각 table에 들어가있는것을 찾아낸다.

In [145]:
tables = doc.findall('.//table')   #table 태그가 있는 값들을 tables에 저장,
calls = tables[1]
puts = tables[2]

In [147]:
rows = calls.findall('.//tr')   #calls에서 tr태그가 가지고 있는 값들을 저장

In [157]:
def _unpack(row, kind='td'):
    elts = row.findall('.//%s' % kind)
    return [val.text_content() for val in elts]

In [158]:
_unpack(rows[0], kind='th')

[u'\n                \n                     Strike\n                    \n                        \ue004\n                        \ue002\n                    \n                \n                \u2235 Filter\n            ',
 'Contract Name',
 u'\n                \n                    Last\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            ',
 u'\n                \n                    Bid\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            ',
 u'\n                \n                    Ask\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            ',
 u'\n                \n                    Change\n                    \n                        \ue004\n                        \ue002\n                    \n                \n            '

In [159]:
_unpack(rows[1], kind='th')

[]

- 지금까지 살펴본 데이터를 모두 합쳐 dataFrame으롤 변환

In [164]:
from pandas.io.parsers import TextParser   #숫자데이터를 문자형식으로 변환

def parse_options_data(table):
    rows = table.findall('.//tr')
    header = _unpack(rows[0], kind='th')
    data = [_unpack(r) for r in rows[1:]]
    return TextParser(data, names=header).get_chunk()

In [168]:
print calls
for a in calls:
    print a

<Element table at 0xbb6dbd8>
<Element caption at 0xc3fbe08>
<Element thead at 0xc3fbea8>
<Element tbody at 0xc3fbef8>


In [167]:
puts

<Element table at 0xbb6dd68>

In [161]:
call_data = parse_options_data(calls)

In [162]:
put_data = parse_options_data(puts)

In [163]:
call_data[:10]

Unnamed: 0,Strike      ∵ Filter,Contract Name,Last    ,Bid    ,Ask    ,Change    ,%Change    ,Volume    ,Open Interest    ,Implied Volatility    
0,\n \n ...,,,,,,,,,
1,\n 80.00\n,\n AAPL150807C00080000\n,35.75,0.0,0.0,0.0,\n \n 0.00%\n ...,12.0,0.0,\n 0.00%\n
2,\n 90.00\n,\n AAPL150807C00090000\n,25.3,0.0,0.0,0.0,\n \n 0.00%\n ...,82.0,0.0,\n 0.00%\n
3,\n 95.00\n,\n AAPL150807C00095000\n,20.7,0.0,0.0,0.0,\n \n 0.00%\n ...,319.0,0.0,\n 0.00%\n
4,\n 100.00\n,\n AAPL150807C00100000\n,15.05,0.0,0.0,0.0,\n \n 0.00%\n ...,54.0,0.0,\n 0.00%\n
5,\n 105.00\n,\n AAPL150807C00105000\n,10.2,0.0,0.0,0.0,\n \n 0.00%\n ...,115.0,0.0,\n 0.00%\n
6,\n 107.00\n,\n AAPL150807C00107000\n,8.25,0.0,0.0,0.0,\n \n 0.00%\n ...,116.0,0.0,\n 0.00%\n
7,\n 108.00\n,\n AAPL150807C00108000\n,6.75,0.0,0.0,0.0,\n \n 0.00%\n ...,38.0,0.0,\n 0.00%\n
8,\n 109.00\n,\n AAPL150807C00109000\n,6.1,0.0,0.0,0.0,\n \n 0.00%\n ...,95.0,0.0,\n 0.00%\n
9,\n 110.00\n,\n AAPL150807C00110000\n,5.32,0.0,0.0,0.0,\n \n 0.00%\n ...,693.0,0.0,\n 0.00%\n


--------------------


## <여기부터 안됨>

### lxml.objectify 이용

In [173]:
%pwd

u'C:\\Users\\S525'

In [174]:
%cd MTA_Performance_Datall
!head -21 Performance_MNRR.xml   #해당 폴더로 이동후, head에 관한 21줄을 출력

[Error 2] : u'MTA_Performance_Datall'
C:\Users\S525


UnicodeEncodeError: 'ascii' codec can't encode characters in position 33-34: ordinal not in range(128)

- 뉴욕 MTA는 버스와 전철운영에 관한 여러가지 데이터를 공개
- 해당 데이터를 받아 html.objectify를 이용

In [169]:
#해당 데이터를 lxml.objectify를 이용하여 파싱
from lxml import objectify

path = 'Performance_MNRR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()   #현재 객체의 root를 얻어 root에 저장

IOError: [Errno 2] No such file or directory: 'Performance_MNRR.xml'

In [172]:
perf = DataFrame(data)
perf

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [177]:
root

NameError: name 'root' is not defined

In [178]:
root.get('href')

NameError: name 'root' is not defined

In [179]:
root.text

NameError: name 'root' is not defined

In [180]:
from StringIO import StringIO
tag = '<a href="http://www.google.com">Google</a>'

root = objectify.parse(StringIO(tag)).getroot()   
#root권한으로 해당 태그를 root에 추가

In [181]:
root

<Element a at 0xc40a748>

In [182]:
root.get('href')

'http://www.google.com'

In [183]:
root.text

'Google'

## 2. 이진 데이터

In [184]:
frame = pd.read_csv('https://raw.githubusercontent.com/pydata/pydata-book/master/ch06/ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [185]:
%pwd

u'C:\\Users\\S525'

In [210]:
%cd  C:\Users\S525\ch06
frame.to_pickle('frame_pickle.csv')

C:\Users\S525\ch06


In [215]:
a = csv.reader('frame_pickle.csv')

In [216]:
print a
print type(a)

<_csv.reader object at 0x000000000C7773A8>
<type '_csv.reader'>


In [187]:
#pandas는 PyTables를 이용한 HDFStore라는 가벼운 사전 클래스를 통해 pandas 객체를 저장한다.
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
store

ImportError: HDFStore requires PyTables, "No module named tables" problem importing

In [188]:
store['obj1']

UsageError: Unknown variable '['obj1']'

In [189]:
xls_file = pd.ExcelFile('ch06/data.xlsx')
xls_file

ImportError: No module named xlrd

In [190]:
table = xls_file.parse('Sheet1')   #pandas를 통해 읽어온 파일을 DataFrame으로 읽어 올 수 있다.
table

NameError: name 'xls_file' is not defined

## 3. HTML, 웹 API와 함께 사용하기

- 파이썬으로 API를 사용하는 방법 중 가장 쉬운 방법이 requests 패키지 이용

In [191]:
import requests
url = 'https://api.github.com/repos/pydata/pandas/milestones/28/labels'
resp = requests.get(url)
resp

<Response [200]>

- Response 객체의 text 속성은 get 질의에 대한 내용을 담고있다.
- 많은 API JSON 문자열을 반환하는데, 이 문자열은 파이썬 객체로 담아야한다.

In [192]:
data = json.loads(resp.text)
data

[{u'color': u'e10c02',
  u'name': u'Bug',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Bug'},
 {u'color': u'4E9A06',
  u'name': u'Enhancement',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Enhancement'},
 {u'color': u'FCE94F',
  u'name': u'Refactor',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Refactor'},
 {u'color': u'75507B',
  u'name': u'Build',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Build'},
 {u'color': u'3465A4',
  u'name': u'Docs',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Docs'},
 {u'color': u'729FCF',
  u'name': u'Groupby',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Groupby'},
 {u'color': u'06909A',
  u'name': u'Data IO',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Data%20IO'},
 {u'color': u'8AE234',
  u'name': u'Visualization',
  u'url': u'https://api.github.com/repos/pydata/pandas/labels/Visualization'},
 {u'color': u'0b02e1',
  u'name': u'Indexi

In [193]:
issue_labels = DataFrame(data)   #해당 데이터를 다음과 같이 DataFrame으로 생성
issue_labels

Unnamed: 0,color,name,url
0,e10c02,Bug,https://api.github.com/repos/pydata/pandas/lab...
1,4E9A06,Enhancement,https://api.github.com/repos/pydata/pandas/lab...
2,FCE94F,Refactor,https://api.github.com/repos/pydata/pandas/lab...
3,75507B,Build,https://api.github.com/repos/pydata/pandas/lab...
4,3465A4,Docs,https://api.github.com/repos/pydata/pandas/lab...
5,729FCF,Groupby,https://api.github.com/repos/pydata/pandas/lab...
6,06909A,Data IO,https://api.github.com/repos/pydata/pandas/lab...
7,8AE234,Visualization,https://api.github.com/repos/pydata/pandas/lab...
8,0b02e1,Indexing,https://api.github.com/repos/pydata/pandas/lab...
9,d7e102,Missing-data,https://api.github.com/repos/pydata/pandas/lab...


In [217]:
lala = DataFrame(issue_labels.ix[7])   #인덱스 8번째의 정보
lala

Unnamed: 0,7
color,8AE234
name,Visualization
url,https://api.github.com/repos/pydata/pandas/lab...


## 4. 데이터베이스와 함께 사용하기

- SQL에서 데이터를 읽어..

In [195]:
import sqlite3   #sqlite3데이터 베이스에 다음의 test라는 테이블을 생성

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""

con = sqlite3.connect(':memory:')   #데이터베이스 연결 객체 생성
con.execute(query)
con.commit()

In [196]:
data = [('Atlanta', 'Georgia', 1.25, 6),       #해당 테이블에 넣을 자료를 리스트로 생성
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"   #해당 자료가 들어갈 insert할 구문

con.executemany(stmt, data)
con.commit()

In [197]:
cursor = con.execute('select * from test')   #해당 테이블의 자료를 볼 수 있도록 rows리스트에 저장하여 출력
rows = cursor.fetchall()
rows

[(u'Atlanta', u'Georgia', 1.25, 6),
 (u'Tallahassee', u'Florida', 2.6, 3),
 (u'Sacramento', u'California', 1.7, 5)]

In [198]:
cursor.description   #description 속성을 이용하여 칼럼의 이름을 지정

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [200]:
DataFrame(rows, columns=zip(*cursor.description)[0])   
#rows와 각 해당 칼럼의 이름을 지정하여 DataFrame에 저장하여 출력

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


- 데이터프레임으로 불러들이는

In [202]:
import pandas.io.sql as sql
sql.read_sql('select * from test', con)   
#select쿼리문과 데이터베이스 연결 객체(con)만 넘기면 된다.

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


### 1) MongoDB에 데이터 저장하고 불러오기

- MongoDB 서버를 로컬에 설치하고 공식 드라이버인 pymongo를 이용해서 기본 포트 번호로 연결
- mongoDB 설치해야한다.

In [203]:
import pymongo

ImportError: No module named pymongo

In [204]:
con = pymongo.Connection('localhost', port=27017)

NameError: name 'pymongo' is not defined