# 6. 데이터 로딩, 저장, 파일 형식

### 입∙출력 방법

- 텍스트 파일 이용하는 방법
- 데이터베이스 이용하는 방법
- 웹 API 이용해서 네트워크를 통해 불러오는 방법

## 6.1 텍스트 파일 이용하는 방법

#### 파이썬의 장점

- 단순한 문법
- 직관적인 자료 구조
- 튜플에 데이터를 저장하고 읽어내는 편리한 기능

#### pandas 파일 파싱 함수

함수 | 설명
--- | ---
read_csv | 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.
read_table | 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')을 기본으로 한다.
read_fwf | 고정폭 칼럼 형식에서 데이터를 읽어온다(구분자가 없는 데이터)
read_clipboard | 클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 긁어올 때 유용하다.

#### pandas 파일 파싱 함수 옵션

- **색인**: 반환하는 DataFrame에서 하나 이상의 칼럼을 색인으로 지정할 수 있다. 파일이나 사용자로부터 칼럼의 이름을 받거나 아무것도 받지 않을 수 있다.
- **자료형 추론과 데이터 변환**: 사용자 정의 값 변환과 비어있는 값을 위한 사용자 리스트를 포함한다.
- **날짜 분석**: 여러 칼럼에 걸쳐 있는 날짜와 시간 정보를 하나의 칼럼에 조합해서 결과에 반영한다.
- **반복**: 여러 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.
- **정제되지 않는 데이터 처리**: 로우나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 일을 처리해준다.

#### 자료형 추론은 매우 중요

- 어떤 칼럼이 숫자인지 불리언인지 지정해줄 필요가 없다

In [1]:
from pandas import DataFrame, Series 
import pandas as pd 

In [2]:
df = pd.read_csv('data/ex1.csv') 
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
!cat data/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [3]:
pd.read_csv('data/ex1.csv', header=None)  # 자동으로 컬럼명을 만든다

Unnamed: 0,0,1,2,3,4
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [4]:
# 원래 있던 Column명 무시하고 내가 원하는 Column명 설정
pd.read_csv('data/ex1.csv', names=[5,6,7,8,9])

Unnamed: 0,5,6,7,8,9
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [5]:
pd.read_csv('data/ex1.csv', names=['a1', 'b1', 'c1', 'd1', 'message1']) 

Unnamed: 0,a1,b1,c1,d1,message1
0,a,b,c,d,message
1,1,2,3,4,hello
2,5,6,7,8,world
3,9,10,11,12,foo


In [6]:
df 

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
type(df)

pandas.core.frame.DataFrame

In [8]:
pd.read_table('data/ex1.csv', sep=',')
# 결과는 같다

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [9]:
# 컬럼 message를 index 컬럼으로 사용
pd.read_csv('data/ex1.csv', index_col='message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [10]:
parsed = pd.read_csv('data/csv_mindex.csv')
parsed

Unnamed: 0,key1,key2,value1,value2
0,one,a,1,2
1,one,b,3,4
2,one,c,5,6
3,one,d,7,8
4,two,a,9,10
5,two,b,11,12
6,two,c,13,14
7,two,d,15,16


#### 계층적 색인을 지정

In [11]:
parsed = pd.read_csv('data/csv_mindex.csv', index_col=['key1', 'key2']) 
#컬럼 key1과 key2를 index의 컬럼으로 사용

In [12]:
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


#### 고정된 구분자가 없다면 read_table의 구분자로 정규표현식을 사용하면 된다.

- [파이썬 – 정규식표현식(Regular Expression) 모듈](http://devanix.tistory.com/296)
- [번역 파이썬 정규표현식](http://codeflow.co.kr/question/1061/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%A0%95%EA%B7%9C-%ED%91%9C%ED%98%84%EC%8B%9D/)
- [tutorial point](http://www.tutorialspoint.com/python/python_reg_expressions.htm)
- [파이썬 - 정규표현식 모듈](http://devanix.tistory.com/296)

In [13]:
!cat data/ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


In [14]:
list(open('data/ex3.txt')) #리스트형식으로 txt파일 읽기

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

#### 직접 파일을 고쳐도 되지만 이 파일은 여러 개의 공백문자로 필드가 구분되어 있으므로 이를 표현할 수 있는 정규표현식 \s+를 사용해서 처리

In [15]:
result = pd.read_table('data/ex3.txt', sep='\s+') 

In [16]:
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


#### 이 경우, 첫번째 로우는 다른 로우보다 칼럼이 하나 적기 때문에 read_table은 첫 번째 칼럼이 DataFrame의 색인이 되어야 한다고 추론

-------

### read_table과 read_csv의 차이점은??

- read_csv: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.
- read_table: 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('\t')를 기본으로 한다.

#### 그러니 둘 다 사용을 해도 되지만 왠만하면 read_csv 같은 경우는 csv 파일만 사용을 하고 나머지 특별한 경우를 read_table로 활용

--------

### [IO Tools(Text, CSV, HDF5, ⋯) example](http://pandas.pydata.org/pandas-docs/stable/io.html)

- 파서 함수는 파일 형식에서 발생할 수 있는 매우 다양한 예외를 잘 처리할 수 있도록 많은 추가 인자를 가지고 있다.
- skiprows를 이용해서 첫번째, 세번째, 네번째 행을 건너뛸 수 있음

In [17]:
pd.read_csv('data/ex4.csv')

Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,# hey!
a,b,c,d,message
# just wanted to make things more difficult for you,,,,
# who reads CSV files with computers,anyway?,,,
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [18]:
pd.read_csv('data/ex4.csv', skiprows=[0:5])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- **누락된 값을 잘 처리하는 일**은 파일을 읽는 과정에서 **자주 발생**하는 일이고 **중요한 문제**
- 누락된 값은 표기하지 않거나(비어있는 문자열) 구분하기 쉬운 특수한 문자로 표기

In [15]:
result = pd.read_csv('data/ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [17]:
pd.notnull(result) # NaN값인지를 확인하고 맞으면 True를 아니면 False를 반환한다

Unnamed: 0,something,a,b,c,d,message
0,True,True,True,True,True,False
1,True,True,True,False,True,True
2,True,True,True,True,True,True


In [21]:
na_example = ["world",12, "one"]

In [22]:
result = pd.read_csv('data/ex5.csv', na_values=na_example) 
#na_values를 미리 지정할 수 있다
result

Unnamed: 0,something,a,b,c,d,message
0,,1,2,3.0,4.0,
1,two,5,6,,8.0,
2,three,9,10,11.0,,foo


#### 열마다 다른 NA 문자를 사전 값으로 넘겨 처리 가능

In [23]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']} 
# 해당 열마다 다른 NaN 리스트를 지정할 수도 있다

In [24]:
pd.read_csv('data/ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


#### read_csv / read_table 함수 인자

인자 | 설명
--- | ---
path | 파일 시스템에서의 위치, URL, 파일 객체를 나타내는 문자열
sep or delimiter | 필드를 구분하기 위해 사용할 연속된 문자나 정규표현식
header | 칼럼의 이름으로 사용할 로우의 번호, 기본 값은 0(첫 로우)이며 헤더가 없으면 None으로 지정할 수 있다.
index_col | 색인으로 사용할 칼럼 번호나 이름, 계층적 색인을 지정할 경우 리스트를 넘길 수 있다.
names | 컬럼 이름으로 사용할 리스트. header = None과 함께 사용한다.
skiprows | 파일의 시작부터 무시할 로우의 개수 또는 무시할 로우 번호가 담긴 리스트
na_values | NA 값으로 처리할 값들의 나열
comment | 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열
parse_dates | 날짜를 datetime으로 변환할지의 여부. 기본값은 False이며, True일 경우 모든 칼럼에 다 적용된다. 리스트를 넘기면 변환할 칼럼을 지정할 수 있는데, [1, 2, 3]을 넘기면 각각의 칼럼을 datetime으로 변환하고, [[1, 3]]을 넘기면 1, 3번 칼럼을 조합해서 하나의 datetime으로 변환한다.
keep_date_col | 여러 칼럼을 datetime으로 변환했을 경우 원래 칼럼을 남겨둘지의 여부. 기본값은 False
converters | 변환 시 칼럼에 적용할 함수를 지정한다. 예를 들어 {'foo': f}는 'foo'칼럼에 f 함수를 적용한다. 전달하는 사전의 키 값은 칼럼 이름이나 번호가 될 수 있다.
dayfirst | 모호한 날짜 형식일 경우 국제 형식으로 간주한다(7/6/2012는 2012년 6월 7일로 간주한다). 기본값은 False
date_parser | 날짜 변환 시 사용할 함수
nrows | 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을 것인지 지정한다.
iterator | 파일을 조금씩 읽을 때 사용하도록 TextParser 객체를 반환하도록 한다. 기본값은 False
chunksize | TextParser 객체에서 사용할, 한 번에 읽을 파일의 크기
skip_footer | 무시할 파일의 마지막 줄 수
verbose | 파싱 결과에 대한 정보를 출력한다. 숫자가 아닌 값들이 들어있는 칼럼이면서 누락된 값이 있다면 줄 번호를 출력한다. 기본값은 False
encoding | 유니코드 인코딩 종류를 지정한다. UTF-8로 인코딩된 텍스트일 경우 'utf-8'로 지정한다.
squeeze | 로우가 하나뿐이라면 Series 객체를 반환한다. 기본값은 False
thousands | 숫자를 천 단위로 끊을 때 사용할 ', '나 '.' 같은 구분자

### 6.1.1 텍스트 파일 조금씩 읽어오기

In [28]:
result = pd.read_csv('data/ex6.csv')

In [29]:
print(result.shape)
result.head(10)

(10000, 5)


Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.81748,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U
7,-0.913135,1.530624,-0.572657,0.477252,K
8,0.35848,-0.497572,-0.367016,0.507702,S
9,-1.740877,-1.160417,-1.63783,2.172201,G


#### nrows로 처음 몇 줄만 읽을 수 있다.


In [30]:
re = pd.read_csv('data/ex6.csv', nrows=500)
print(re.shape)
re

(500, 5)


Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
5,1.817480,0.742273,0.419395,-2.251035,Q
6,-0.776764,0.935518,-0.332872,-1.875641,U
7,-0.913135,1.530624,-0.572657,0.477252,K
8,0.358480,-0.497572,-0.367016,0.507702,S
9,-1.740877,-1.160417,-1.637830,2.172201,G


#### TextParser 객체를 이용해서 chunksize에 따라 분리된 파일을 순회 가능

In [31]:
chunker = pd.read_csv('data/ex6.csv', chunksize=1000) 
# 파일을 여러조각으로 나눈다
print(chunker.shape)

AttributeError: 'TextFileReader' object has no attribute 'shape'

In [32]:
chunker #분리된 파일 형태는 데이터프레임이 아닌 TextParser 형태이다

<pandas.io.parsers.TextFileReader at 0x1129b4630>

In [34]:
chunker = pd.read_csv('data/ex6.csv', chunksize=1000)

tot = Series([])
for x in chunker:
    # 분리된 파일을 순회하면서 x['key']에 있는 E, X, L 등의 숫자를 센다. 
    # 값이 없는 것들은 0으로 채운다.
    tot = tot.add(x['key'].value_counts(), fill_value=0)

# 내림차순 정리
tot.sort_index(ascending=True)[:10]

0    151.0
1    146.0
2    152.0
3    162.0
4    171.0
5    157.0
6    166.0
7    164.0
8    162.0
9    150.0
dtype: float64

In [35]:
tot[:]

0    151.0
1    146.0
2    152.0
3    162.0
4    171.0
5    157.0
6    166.0
7    164.0
8    162.0
9    150.0
A    320.0
B    302.0
C    286.0
D    320.0
E    368.0
F    335.0
G    308.0
H    330.0
I    327.0
J    337.0
K    334.0
L    346.0
M    338.0
N    306.0
O    343.0
P    324.0
Q    340.0
R    318.0
S    308.0
T    304.0
U    326.0
V    328.0
W    305.0
X    364.0
Y    314.0
Z    288.0
dtype: float64

### 6.1.2 데이터를 텍스트 형식으로 기록하기

In [36]:
data = pd.read_csv('data/ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [37]:
data.to_csv('data/out.csv') # 쉼표로 구분된 형식으로 데이터를 파일로 만들기

In [38]:
import sys

In [40]:
# csv로 지정하는데 output은 표준아웃풋(모니터), separator는 '|'
data.to_csv(sys.stdout, sep=',')

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


#### na_rep로 누락된값을 원하는 값으로 변경 가능

In [43]:
data.to_csv(sys.stdout, na_rep='0') # NaN을 NULL로 변환

,something,a,b,c,d,message
0,one,1,2,3.0,4,0
1,two,5,6,0,8,world
2,three,9,10,11.0,12,foo


#### row, column 이름 출력 여부 선택 가능

In [37]:
data.to_csv(sys.stdout, index=False, header=False) 

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [38]:
data.to_csv('temparary', index=False, header=False) 

In [39]:
!cat temparary

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


#### 컬럼의 일부분만 기록 가능, 순서 지정 가능

In [40]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


#### Series에도 to_csv method 존재

In [49]:
import numpy as np

In [50]:
dates = pd.date_range('2017/1/1', periods=7) 
# 2000 01 01 날짜로부터 7일 간의 날짜를 가진 리스트 생성
dates

DatetimeIndex(['2017-01-01', '2017-01-02', '2017-01-03', '2017-01-04',
               '2017-01-05', '2017-01-06', '2017-01-07'],
              dtype='datetime64[ns]', freq='D')

In [51]:
ts = Series(np.arange(7), index=dates) 
# 각각의 날짜 리스트를 index로 하고 그것의 0 부터 6까지의 값을 부여
ts  

2017-01-01    0
2017-01-02    1
2017-01-03    2
2017-01-04    3
2017-01-05    4
2017-01-06    5
2017-01-07    6
Freq: D, dtype: int64

In [44]:
ts.to_csv('data/tseries.csv') # 파일로 출력
!cat data/tseries.csv

2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


### 6.1.3 수동으로 구분 형식 처리하기

#### 구분자가  한 글자인 파일은 내장 csv 모듈을 이용하여 처리할 수 있는데, 열려진 파일 객체를 csv.reader함수에 넘기면된다.

In [48]:
!cat data/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3","4"


In [49]:
import csv
f = open('data/ex7.csv')

reader = csv.reader(f)

for line in reader: 
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3', '4']


In [51]:
lines = list(csv.reader(open('data/ex7.csv'))) 
header, values = lines[0], lines[1:]
header

['a', 'b', 'c']

In [52]:
values

[['1', '2', '3'], ['1', '2', '3', '4']]

In [54]:
# header = a,b,c
# values를 1,1을 같이 묶는다. 2,2 묶고. 3,3 묶고. 
# 4는 header가 a,b,c 3개 밖에 없기 때문에 포함되지 않는다.
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

### CSV 파일은 다양한 형태로 존재할 수 있는데 csv.Dialect를 상속받아 새로운 클래스 정의 후 해결

- 다양한 구분자
- 문자열을 둘러싸는 방법
- 개행문자

In [55]:
class my_dialect(csv.Dialect):
    lineterminator = '\n'
    delimiter = ';'
    quotechar = '"'
    quoting = csv.QUOTE_MINIMAL

reader = csv.reader(f, dialect=my_dialect)

In [57]:
# 서브클래스를 정의하지 않고 csv.reader에 키워드 인자로 각 CSV파일의 특징을 지정해서 전달
reader = csv.reader(f, delimiter='|')

#### CSV 파일 기록

CSV 같은 구분자로 구분된 파일을 기록하려면 csv.writer를 이용하면 된다. csv.writer는 이미 열린, 쓰기가 가능한 파일 객체를 받아서 csv.reader와 동일한 옵션으로 파일을 기록한다.

In [58]:
with open('data/mydata.csv', 'w') as f: 
    writer = csv.writer(f, dialect=my_dialect, quoting=csv.QUOTE_NONE)
    writer.writerow(('one', 'two', 'three'))
    writer.writerow(('1', '2', '3'))
    writer.writerow(('4', '5', '6'))
    writer.writerow(('7', '8', '9'))

In [59]:
!cat data/mydata.csv

one;two;three
1;2;3
4;5;6
7;8;9


### JSON 데이터 형식

- JSON(JavaScript Object Notation)은 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식

In [52]:
import json

In [53]:
# json은 python에서처럼 '으로 하면 안된다. 현재 """로 감싸 문자열로 저장되어 있기 때문에 
# javascript에서는 '를 string 값으로 인식하지 않아서 에러 발생
obj = """
{
    "name": "Wes",
    "places_lived": ["United States", "Spain", "Germany"],
    "pet": null, "siblings": [{"name": "Scott", "age":25, "pet":"Zuko"},
                                {"name": "Katie", "age":33, "pet": "Cisco"}]
}
"""

#### JSON은 널 값인 null과 다른 몇 가지 사소한 주의사항(리스트의 마지막에 쉼표가 있으면 안된다던가 하는)을 제외하면 파이썬 코드와 거의 유사

- 기본 자료형은 객체(사전), 배열(리스트), 문자열, 숫자, 불리언 그리고 널
- 객체의 키는 반드시 문자열
- JSON 읽고 쓸 수 있는 라이브러리가 몇 개 있지만 표준 라이브러리인 json 사용

In [54]:
result = json.loads(obj)
result

{'name': 'Wes',
 'pet': None,
 'places_lived': ['United States', 'Spain', 'Germany'],
 'siblings': [{'age': 25, 'name': 'Scott', 'pet': 'Zuko'},
  {'age': 33, 'name': 'Katie', 'pet': 'Cisco'}]}

#### json.dumps는 파이썬 객체를 JSON 형태로 변환

In [55]:
asjson = json.dumps(result)

In [56]:
# '가 아니라 "인 것을 확인하자
asjson

'{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, {"name": "Katie", "age": 33, "pet": "Cisco"}]}'

#### JSON 객체의 리스트를 DataFrame 생성자로 넘기고 데이터 필드 선택 가능

In [11]:
siblings = DataFrame(result['siblings'], columns=['name', 'age'])  
# siblings 리스트에서 일부 컬럼만 가져와서 데이터프레임 생성
# 만약 없는 컬럼을 가져오면 값은 NaN으로 채워진다

In [12]:
siblings

Unnamed: 0,name,age
0,Scott,25
1,Katie,33


### 6.1.5 XML과 HTML: 웹 내용 긁어오기

#### [lxml](http://lxml.de)

- 아주 큰 파일을 빠르게 처리 가능
- 여러 종류의 인터페이스 제공
- lxml.html: HTML 처리
- lxml.objectify: XML 처리

#### 대부분의 웹사이트는 딱 필요한 내용만 들어있는 JSON이나 XML을 많이 사용하지 않고 HTML을 사용

In [13]:
from lxml.html import parse
from urllib.request import urlopen

# 데이터를 가져 올 url을 넘긴 후
# 데이터를 받아 온 후 파싱(문장 단위의 문자열을 토큰(token)으로 분류하고 이를 
# 구문 트리(parse tree)로 재구성하는 구문 분석 과정)
parsed = parse(urlopen('http://finance.yahoo.com/q/op?s=AAPL+Options'))
doc = parsed.getroot()

URLError: <urlopen error [Errno 8] nodename nor servname provided, or not known>

In [77]:
links = doc.findall('.//a') 
# HTML문서의 최상위에서 findall 명령어로 XPath를 넘겨서 해당 엘리먼트를 가져올 수 있다.

In [81]:
# 이 객체는 HTML 엘리멘트를 표현하는 객체일뿐
# URL과 링크 이름을 가져오려면 각 엘리먼트에 대해 get 메서드를 호출하여 URL을 얻고
# text_content 메서드를 사용해서 링크 이름을 가져와야 한다.
links[:5]

[<Element a at 0x1138ea6d8>,
 <Element a at 0x1138ea818>,
 <Element a at 0x1138ea7c8>,
 <Element a at 0x1138ec1d8>,
 <Element a at 0x1138ec228>]

#### 이 객체는 HTML 엘리먼트를 표현하는 객체일 뿐이다

- URL과 링크 이름을 가져오려면 각 엘리먼트에 대해 get 메서드를 호출하여 URL을 얻고, text_content 메서드를 이용해서 링크 이름을 가져와야 한다.

In [89]:
lnk = links[28]
lnk.get('href')

'/quote/^GSPC?p=^GSPC'

In [90]:
lnk.text_content()

'S&P 500'

In [91]:
urls = [lnk.get('href') for lnk in doc.findall('.//a')] 
# 모든 url목록을 가져오기

In [92]:
len(urls)

182

In [93]:
urls[-3:-1]

['https://twitter.com/YahooFinance', 'https://facebook.com/yahoofinance']

In [94]:
urls[-10:]

['https://smallbusiness.yahoo.com',
 'https://help.yahoo.com/kb/index?page=content&y=PROD_FIN_DESK&locale=en_US&id=SLN2310',
 'https://help.yahoo.com/kb/index?page=content&y=PROD_FIN_DESK&locale=en_US',
 'https://yahoo.uservoice.com/forums/382977',
 'http://info.yahoo.com/privacy/us/yahoo/',
 'http://info.yahoo.com/relevantads/',
 'http://info.yahoo.com/legal/us/yahoo/utos/utos-173.html',
 'https://twitter.com/YahooFinance',
 'https://facebook.com/yahoofinance',
 'http://yahoofinance.tumblr.com']

#### 찾고자 하는 table 일일이 확인할 수 밖에 없다.

- 몇몇 웹사이트는 table마다 id 속성을 줘서 쉽게 할 수 있지만 대부분은 일일이 확인해야한다.

In [95]:
tables = doc.findall('.//table')

In [96]:
tables

[<Element table at 0x1138f0b38>,
 <Element table at 0x1138f0c78>,
 <Element table at 0x1138f0cc8>]

In [97]:
calls = tables[1]

In [98]:
calls

<Element table at 0x1138f0c78>

In [99]:
puts = tables[2]

In [100]:
puts

<Element table at 0x1138f0cc8>

In [101]:
rows = calls.findall('.//tr') 
# 각각의 table에는 헤더가 하나씩 있고 그 다음에는 데이터가 들어있다.

In [102]:
def _unpack(row, kind='td'): #헤더 역시 데이터와 마찬가지로 각각의 셀 안에 있는 텍스트를 추출한다. 
    elts = row.findall('.//%s' % kind)
    return [val.text_content() for val in elts]

In [103]:
_unpack(rows[0], kind='th')  # th셀안에는 헤더가 있다.

['Contract Name',
 'Last Trade Date',
 'Strike',
 'Last Price',
 'Bid',
 'Ask',
 'Change',
 '% Change',
 'Volume',
 'Open Interest',
 'Implied Volatility']

In [104]:
_unpack(rows[1], kind='td') #td에는 데이터가있다.

['AAPL170908C00120000',
 '2017-09-05 12:33PM EDT',
 '120.00',
 '41.00',
 '41.60',
 '41.80',
 '0.00',
 '-',
 '2',
 '51',
 '187.50%']

#### 단계들을 통합하여 웹에서 긁어온 데이터를 DataFrame으로 변환

- 숫자 데이터지만 여전히 문자열 형식으로 저장되어 있으므로 적절하게 변환을 해줘야 하는데 모든 데이터가 실수형은 아닐 것이므로 이 작업은 수동으로 처리한다
- 하지만 pandas에는 TextParser 클래스가 있어 자동 형 변환을 적절하게 수행해준다.
- TextParser 클래스는 read_csv 함수와 다른 파싱 함수에서도 사용한다

In [105]:
from pandas.io.parsers import TextParser

def parse_options_data(table):
    rows = table.findall('.//tr')
    # rows[0]은 header
    header = _unpack(rows[0], kind='th')
    # rows[1:] 부터 실제적인 data
    data = [_unpack(r) for r in rows[1:]]
    # TextParser에 data를 넘기고 column명으로 header를 사용
    return TextParser(data, names=header).get_chunk()

#### 마지막으로 lxml 테이블 객체를 위에서 작성한 파싱 함수를 이용해서 처리하면 DataFrame 결과값 얻을 수 있다

In [106]:
call_data = parse_options_data(calls) 
# 해당 데이터는 금융데이터이다 특정 금융 상품을 정해진 가격에 매입할 수 있는 권리를 가진 매입 옵션

In [107]:
put_data = parse_options_data(puts) 
# 매도할 수 있는 권리를 가진 매도 옵션

In [108]:
call_data[:10]

Unnamed: 0,Contract Name,Last Trade Date,Strike,Last Price,Bid,Ask,Change,% Change,Volume,Open Interest,Implied Volatility
0,AAPL170908C00120000,2017-09-05 12:33PM EDT,120.0,41.0,41.6,41.8,0.0,-,2,51,187.50%
1,AAPL170908C00130000,2017-09-06 10:13AM EDT,130.0,32.35,31.65,31.8,1.35,+4.35%,6,9,146.09%
2,AAPL170908C00135000,2017-09-01 12:20PM EDT,135.0,29.15,28.7,29.35,2.74,+10.37%,2,6,212.26%
3,AAPL170908C00138000,2017-08-25 11:49PM EDT,138.0,22.45,21.7,22.4,0.0,-,3,0,0.00%
4,AAPL170908C00140000,2017-09-06 10:07AM EDT,140.0,22.55,21.6,22.1,-1.35,-5.65%,20,14,110.74%
5,AAPL170908C00142000,2017-08-31 9:48AM EDT,142.0,22.0,21.75,22.4,0.0,-,55,45,172.51%
6,AAPL170908C00143000,2017-08-28 11:55AM EDT,143.0,18.73,20.75,21.4,0.0,-,63,65,166.60%
7,AAPL170908C00144000,2017-09-06 10:25AM EDT,144.0,17.75,17.6,18.0,0.52,+3.02%,8,127,91.21%
8,AAPL170908C00145000,2017-08-28 11:50AM EDT,145.0,16.69,18.75,19.4,0.0,-,15,14,154.79%
9,AAPL170908C00146000,2017-08-08 10:22AM EDT,146.0,13.97,12.15,12.95,0.0,-,15,8,0.00%


In [109]:
put_data[:10]

Unnamed: 0,Contract Name,Last Trade Date,Strike,Last Price,Bid,Ask,Change,% Change,Volume,Open Interest,Implied Volatility
0,AAPL170908P00120000,2017-08-24 3:05PM EDT,120.0,0.01,0.0,0.03,0.0,-,6,80,120.31%
1,AAPL170908P00125000,2017-08-30 3:45PM EDT,125.0,0.01,0.0,0.01,0.0,-,150,307,93.75%
2,AAPL170908P00130000,2017-08-30 3:50PM EDT,130.0,0.01,0.0,0.02,0.0,-,34,201,85.94%
3,AAPL170908P00135000,2017-08-31 3:59PM EDT,135.0,0.01,0.0,0.01,0.0,-,206,246,68.75%
4,AAPL170908P00137000,2017-09-01 10:48AM EDT,137.0,0.01,0.0,0.01,0.0,-,202,567,62.50%
5,AAPL170908P00138000,2017-09-01 1:32PM EDT,138.0,0.01,0.0,0.01,0.0,-,219,280,59.38%
6,AAPL170908P00139000,2017-09-01 3:04PM EDT,139.0,0.01,0.01,0.02,0.0,-,289,190,64.06%
7,AAPL170908P00140000,2017-09-05 2:38PM EDT,140.0,0.01,0.0,0.01,0.0,-,287,1054,54.69%
8,AAPL170908P00141000,2017-09-05 12:31PM EDT,141.0,0.01,0.0,0.01,0.0,-,12,1127,53.13%
9,AAPL170908P00142000,2017-09-05 12:49PM EDT,142.0,0.03,0.0,0.01,0.0,-,1,243,50.00%


### lxml.objectify 이용해 XML 파싱하기

- [XML(eXtensible Markup Language)](http://en.wikipedia.org/wiki/Xml)은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식이다. 지금 이 책도 실제로는 XML 문서로 작성한다
- 뉴욕 MTA(Metropolitan Transportation Authority)는 버스와 전철 운영에 관한 여러 가지 [데이터 공개](http://www.mta.info/developers/download.html)
- 살펴볼 것은 여러 XML 파일로 제공되는 실적 자료
- 전철과 버스 운영은 매월 아래와 비슷한 내용의 각각 다른 파일(Metro-North Railroad의 경우 Preformance_MNR.xml 같은)로 제공

In [60]:
%%writefile data/Performance_MNR.xml
<INDICATOR>
    <INDICATOR_SEQ>373889</INDICATOR_SEQ>
    <PARENT_SEQ></PARENT_SEQ>
    <AGENCY_NAME>MEtro-North Railroad</AGENCY_NAME>
    <INDICATOR_NAME>Escalator Availability</INDICATOR_NAME>
    <DESCRIPTION>Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009.</DESCRIPTION>
    <PERIOD_YEAR>2011</PERIOD_YEAR>
    <PERIOD_MONTH>12</PERIOD_MONTH>
    <CATEGORY>Service Indicators</CATEGORY>
    <FREQUENCY>M</FREQUENCY>
    <DESIRED_CHANGE>U</DESIRED_CHANGE>
    <INDICATOR_UNIT>%</INDICATOR_UNIT>
    <DECIMAL_PLACES>1</DECIMAL_PLACES>
    <YTD_TARGET>97.00</YTD_TARGET>
    <YTD_ACTUAL></YTD_ACTUAL>
    <MONTHLY_TARGET></MONTHLY_TARGET>
    <MONTHLY_ACTUAL></MONTHLY_ACTUAL>
</INDICATOR>

Overwriting data/Performance_MNR.xml


In [61]:
from lxml import objectify
import urllib

path = 'data/Performance_MNR.xml'

# objectify를 이용해서 파일 파싱
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [65]:
print(root)




In [62]:
data = []

In [63]:
skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']

#### root.INDICATOR를 통해 모든 <INDICATOR> 엘리먼트를 끄집어 낼 수 있다

- 각각의 항목에 대해 몇몇 태그는 제외하고 태그 이름(YTD_ACTUAL 같은)을 키 값으로 하는 사전을 만들어 냄

In [66]:
for elt in root:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [68]:
data

[{'AGENCY_NAME': 'MEtro-North Railroad',
  'CATEGORY': 'Service Indicators',
  'DESCRIPTION': 'Percent of the time that escalators are operational systemwide. The availability rate is based on physical observations performed the morning of regular business days only. This is a new indicator the agency began reporting in 2009.',
  'FREQUENCY': 'M',
  'INDICATOR_NAME': 'Escalator Availability',
  'INDICATOR_UNIT': '%',
  'MONTHLY_ACTUAL': '',
  'MONTHLY_TARGET': '',
  'PERIOD_MONTH': 12,
  'PERIOD_YEAR': 2011,
  'YTD_ACTUAL': '',
  'YTD_TARGET': 97.0}]

In [69]:
perf = DataFrame(data) # 사전 리스트를 데이터프레임으로 변환

In [71]:
perf.T

Unnamed: 0,0
AGENCY_NAME,MEtro-North Railroad
CATEGORY,Service Indicators
DESCRIPTION,Percent of the time that escalators are operat...
FREQUENCY,M
INDICATOR_NAME,Escalator Availability
INDICATOR_UNIT,%
MONTHLY_ACTUAL,
MONTHLY_TARGET,
PERIOD_MONTH,12
PERIOD_YEAR,2011


## 6.2 이진 데이터 형식

### 데이터를 효율적으로 저장하는 가장 손쉬운 방법

- 파이썬에 기본으로 내장되어 있는 pickle 직렬화를 통해 데이터를 이진 형식으로 저장하는 것이다.
- 편리하게도 pandas의 객체는 모두 pickle을 이용해서 데이터를 저장하는 save 메서드가 있다

In [118]:
frame = pd.read_csv('data/ex1.csv') 

In [119]:
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [120]:
frame.to_pickle('frame_pickle') # 파일 저장

In [122]:
pd.read_pickle('frame_pickle') #불러오기

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


### pickle 사용시 주의사항

- pickle은 오래 보관할 필요가 없는 데이터에만 추천한다
- 오랜 시간이 지나도 안정적으로 데이터를 저장할 거라고 보장 하기 힘들기 때문이다

### 6.2.1 HDF5 형식 사용하기

- 디스크에 이진 형식으로 저장된 대용량의 과학 자료를 효율적으로 읽고 쓸 수 있는 다양한 도구 존재
- 산업 기준에 맞는 인기 라이브러리중 하나가 HDF5(Hierarchical Data Format), 계층적 데이터 형식
- 내부적으로 파일 시스템 같은 노드 구조
- 여러 개의 데이터셋을 저장하고 부가 정보 기록 가능
- 다양한 압축 기술을 사용해서 on-the-fly(실시간) 압축 지원
- 반복되는 패턴을 가진 데이터 좀 더 효과적 저장
- 메모리에 모두 적재할 수 없는 엄청나게 큰 데이터를 아주 큰 배열에서 필요한 만큼의 작은 부분들만 효과적으로 읽고 쓸 수 있는 훌륭한 선택

- PyTables: HDF5를 추상화하여 여러가지 유연한 데이터 컨테이너와 테이블 색인, 질의 기능 그리고 외부 메모리 연산(out-of-core, external memory algorithm) 지원
- h5py: 직접적이지만 고수준의 HDF5 API에 대한 인터페이스 제공

In [123]:
store = pd.HDFStore('data/mydata.h5') #pandas의 PyTable를 이용하여 HDFStore라는 가벼운 사전 클래스를 통해 pandas 객체를 저장
store['obj1'] = frame 
store['obj1_col'] = frame['a']
store

<class 'pandas.io.pytables.HDFStore'>
File path: data/mydata.h5
/obj1                frame        (shape->[3,5])
/obj1_col            series       (shape->[3])  

In [124]:
store['obj1'] #store에는 frame이라는 데이터프레임과 frame의 a열의 데이터 두개가 들어있는 상태이다

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


#### 데이터 분석 문제

- 대부분 CPU보다는 IO 성능에 의존적이다
- **HDF5는 데이터베이스가 아니다.** HDF5는 **한 번만 기록**하고 **여러 번 자주 읽어야** 하는 데이터에 최적화되어 있다. 데이터는 아무때나 파일에 추가할 수 있지만 만약 여러 곳에서 동시에 파일을 쓴다면 파일이 깨지는 문제가 발생할 수 있다.

### 6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기

- pandas는 ExcelFile 클래스를 통해 마이크로소프트 엑셀 2003 이후 버전의 데이터를 읽기 가능하다
- 내부적으로 ExcelFile 클래스는 xlrd, openpyxl 패키지 활용. 사용하기 전에 먼저 설치한다

#### Excel 작업시 주의사항

- **현업**에서는 Excel 에서 오류가 많이 발생하기 때문에 **csv로 변경 후에 작업**한다고 한다. 그러니 굳이 excel 파일로 하여 Error를 만들지 말고 안전하게 csv 파일로 변경 후에 사용하여야 한다.

## 6.3 HTML, 웹 API와 함께 사용하기

In [125]:
import requests  # 파이썬으로 공개 api를 사용하는 가장 쉬운 방법은 requests 패키지를 사용하는 것이다.

In [126]:
url = 'https://api.github.com/repos/pydata/pandas/milestones/28/labels' 

In [127]:
resp = requests.get(url) # 릴리즈에 대한 최초 30개의 이슈를 가져오려면 다음과 같은 요청을 한다.

In [128]:
resp

<Response [200]>

In [129]:
data = resp.json() #Response 객체의 json 메서드는 파이썬 객체의 사전 형태로 변환된 JSON 데이터를 반환한다.
data[:5]

[{'color': 'e10c02',
  'default': False,
  'id': 76811,
  'name': 'Bug',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Bug'},
 {'color': '06909A',
  'default': False,
  'id': 2301354,
  'name': 'Data IO',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Data%20IO'},
 {'color': 'e102d8',
  'default': False,
  'id': 31404521,
  'name': 'Dtypes',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Dtypes'},
 {'color': '5319e7',
  'default': False,
  'id': 47232590,
  'name': 'IO SQL',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/IO%20SQL'},
 {'color': '4E9A06',
  'default': False,
  'id': 76812,
  'name': 'Enhancement',
  'url': 'https://api.github.com/repos/pandas-dev/pandas/labels/Enhancement'}]

In [130]:
iss = pd.DataFrame(data) #그리고 해당 데이터를 이용하여 데이터프레임으로 만들수도 있다
iss.head(5)

Unnamed: 0,color,default,id,name,url
0,e10c02,False,76811,Bug,https://api.github.com/repos/pandas-dev/pandas...
1,06909A,False,2301354,Data IO,https://api.github.com/repos/pandas-dev/pandas...
2,e102d8,False,31404521,Dtypes,https://api.github.com/repos/pandas-dev/pandas...
3,5319e7,False,47232590,IO SQL,https://api.github.com/repos/pandas-dev/pandas...
4,4E9A06,False,76812,Enhancement,https://api.github.com/repos/pandas-dev/pandas...


####  평범한 웹 API를 위한 고수준의 인터페이스를 만들어서 DataFrame에 저장하고 쉽게 분석 작업 수행이 가능하다

## 6.4 데이터베이스와 함께 사용하기

- 대부분의 애플리케이션은 텍스트 파일에서 데이터를 읽어오지 않는다
- 왜냐하면 대용량의 데이터를 저장하기에 텍스트 파일은 상당히 비효율적이다
- MySql 같은 SQL 기반의 관계형 데이터 베이스가 많이 사용된다
- 최근 유명해진 NoSQL이라 불리는 비 SQL 기반의 데이터베이스도 많이 사용되고 있다
- SQL vs NoSQL은 서로 각각의 장점을 파악하고 자신의 업무에 맞는 DB를 선택하여 사용
- SQL에서 데이터를 읽어와서 DataFrame에 저장하는 방법은 꽤 직관적이다

In [73]:
import sqlite3  # 파이썬에서 데이터베이스 이용할 수 있게 해주는 sqlite3를 사용

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
c REAL, d INTEGER
);"""

con = sqlite3.connect(':memory:') # 괄호안에는 사용할 db파일을 넣기도하는데 여기서는 메모리에서 사용한다(임시 db)
con.execute(query) #실행할 쿼리문이 괄호안에 들어간다.
con.commit()  #트랜잭션 변경내용을 db에 반영

In [74]:
data = [('Atlanta', 'Georgia', 1.25, 6), # 저장할 데이터
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]

stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"# 데이터를 저장할때 사용할 insert 문

con.executemany(stmt, data)  #execute와 같은 동작이지만 이것은 여러가지 일을 한번에 할 수 있다.
con.commit()

대부분의 파이썬 SQL 드라이버(PyODBC, psycopg2, MySQLdb, pymssql 등)는 테이블에 대해 select 쿼리를 수행하면 튜플 리스트를 반환한다

In [133]:
cursor = con.execute('select * from test')  # select 쿼리를 수행하면 튜플 리스트를 반환한다

In [134]:
rows = cursor.fetchall() # 조회된 결과에서 모든 데이터를 리스트형태로 반환

In [135]:
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [136]:
cursor.description  #쿼리의 열 이름을 제공 또한   Python DB와 호환을 위해 튜플에 있는  데이터의 갯수보다 하나 더 많은 튜플을 반환 

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [137]:
pd.DataFrame(rows, columns=list(zip(*cursor.description))[0]) # cursor.description에서 0번째 값들을 zip으로 묶는어 컬럼으로 사용

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [138]:
DataFrame(rows, columns=['country', 'state', 'grade1', 'grade2']) # 자신이 원하는 컬럼명을 쓰고싶다면 해당 방법으로 하는 것도 있다

Unnamed: 0,country,state,grade1,grade2
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [139]:
import pandas.io.sql as sql  #데이터베이스에 쿼리를 보내려고 매번 이렇게 하는건 비효율적이기 때문에 해당 모듈을 사용하여 간편화한다.
                            # select 쿼리문과 데이터 베이스 연결 객체(con)만 넘기면 된다

In [140]:
sql.read_sql('select * from test', con)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5
