# 데이터 로딩과 저장, 파일 형식





## 6.1 텍스트 파일에서 데이터를 읽고 쓰는 법

#### pandas 파일 파싱 함수


> - read_csv : 파일,URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 쉼표(,)를 기본으로 한다.

> - read_table : 파일, URL 또는 파일과 유사한 객체로부터 구분된 데이터를 읽어온다. 데이터 구분자는 탭('|t')을 기본으로 한다.

> - read_fwf : 고정폭 컬럼 형식에서 데이터를 읽어온다.(구분자가 없는 데이터)

> - read_clipboard : 클립보드에 있는 데이터를 읽어오는 read_table 함수. 웹페이지에서 표를 읽어올 때 유용하다.

> - read_excel : 엑셀 파일(XLS, XLSX)에서 표 형식의 데이터를 읽어온다.

> - read_hdf : pandas에서 저장한 HDFS 파일에서 데이터를 읽어온다.

> - read_html : HTML 문서 내의 모든 테이블의 데이터를 얽어온다.

> - read_json : JSON 문자열에서 데이터를 읽어온다.

> - read_msgpack : 메시지팩 바이너리 포맷으로 인코딩된 pandas 데이터를 읽어온다.

> - read_pickle : 파이썬 피클 포맷으로 저장된 객체를 읽어온다.

> - read_sas : SAS 시스템의 사용자 정의 저장 포맷으로 저장된 데이터를 읽어온다.

> - read_sql : SQL 쿼리 결과를 pandas의 DataFrame 형식으로 읽어온다.

> - read_stata : Stata 파일에서 데이터를 읽어온다.

> - read_feather : Feather 바이너리 파일 포맷으로부터 데이터를 읽어온다.


- 색인 : 반환하는 DataFrame에서 하나 이상의 컬럼을 색인으로 지정할 수 있다. 파일이나 사용자로부터 컬럼 이름을 받거나 아무것도 받지 않을 수 있다.

- 자료형 추론과 데이터 변환 : 사용자 정의 값 변환과 비어 있는 값을 위한 사용자 리스트를 포함한다.

- 날짜 분석 : 여러 컬럼에 걸쳐 있는 날짜와 시간 정보를 하나의 컬럼에 조합해서 결과에 반영한다.

- 반복 : 여러 개의 파일에 걸쳐 있는 자료를 반복적으로 읽어올 수 있다.

- 정제되지 않은 데이터 처리 : 로우나 꼬리말, 주석 건너뛰기 또는 천 단위마다 쉼표로 구분된 숫자 같은 사소한 것들의 처리를 해준다.


In [2]:
import os
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

In [3]:
path = os.path.join(os.getenv('HOME'),'aiffel/DATA_CH')
os.chdir(path)

print(path)

/aiffel/aiffel/DATA_CH


In [4]:
!cat ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [5]:
df = pd.read_csv('ex1.csv')
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [6]:
pd.read_table('ex1.csv', sep=',')
# read_table에 구분자를 쉼표로 지정해서 읽어오기

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [8]:
!cat ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

- 컬럼 이름을 자동으로 생성하거나, 직접 컬럼 이름을 지정 가능.

In [9]:
pd.read_csv('ex2.csv', header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [10]:
pd.read_csv('ex2.csv', names=['a', 'b', 'c', 'd', 'message'])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [11]:
names = ['a', 'b', 'c', 'd', 'message']

In [15]:
pd.read_csv('ex2.csv', names=names, index_col = 'message')

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


In [17]:
!cat csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [19]:
parsed = pd.read_csv('csv_mindex.csv',
                     index_col=['key1', 'key2'])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [20]:
list(open('ex3.txt'))

['            A         B         C\n',
 'aaa -0.264438 -1.026059 -0.619500\n',
 'bbb  0.927272  0.302904 -0.032399\n',
 'ccc -0.264273 -0.386314 -0.217601\n',
 'ddd -0.871858 -0.348382  1.100491\n']

- 정규 표현식으로 공백을 없앤다.

In [21]:
result = pd.read_table('ex3.txt', sep='\s+')
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


In [22]:
!cat ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

In [24]:
pd.read_csv('ex4.csv', skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [25]:
!cat ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [26]:
result = pd.read_csv('ex5.csv')
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [27]:
pd.isnull(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


In [28]:
result = pd.read_csv('ex5.csv', na_values=['NULL'])
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [29]:
sentinels = {'message': ['foo', 'NA'], 'something': ['two']}

In [31]:
pd.read_csv('ex5.csv', na_values=sentinels)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


> - path : 파일 시스템에서의 위치, URL, 파일 객체를 나타내는 문자열

> - sep 또는 delimiter : 필드를 구분하기 위해 사용할 연속된 문자나 정규 표현식

> - header : 컬럼 이름으로 사용할 로우 번호, 기본값은 0(첫 번째 로우)이며 헤더가 없을 경우에는 None으로 지정할 수 있다.

> - index_col : 색인으로 사용할 컬럼 번호나 이름, 계층적 색인을 지정할 경우 리스트를 넘길 수 있다.

> - names : 컬럼 이름으로 사용할 리스트. header=None과 함께 사용한다.

> - skiprows : 파일의 시작부터 무시할 행 수 또는 무시할 로우 번호가 담긴 리스트

> - na_values : NA 값으로 처리할 값들의 목록

> - comment : 주석으로 분류되어 파싱하지 않을 문자 혹은 문자열

> - parse_dates : 날짜를 datetime으로 변환할지 여부, 기본값은 False이며, True일 경우 모든 컬럼에 적용된다. 컬럼의 번호나 이름을 포함한 리스트를 넘겨서 변환할 컬럼을 지정할 수 있는데, [1, 2, 3]을 넘기면 각각의 컬럼을 datetime으로 변환하며, [[1,3]]을 넘기면 1, 3번 컬럼을 조합해서 하나의 datetime으로 변환한다. 

> - keep_date_col : 여러 컬럼을 datetime으로 변환했을 경우 원래 컬럼을 남겨둘지 여부. 기본값은 True.

> - converters : 변환 시 컬럼에 적용할 함수를 지정한다. 예를 들어 {'foo': f}는 'foo' 컬럼에 f 함수를 적용시킨다. 전달하는 사전의 키 값은 컬럼 이름이나 번호가 될 수 있다.

> - dayfirst : 모호한 날짜 형식일 경우 국제 형식으로 간주한다(7/6/2012는 2012년 6월 7일로 간주한다). 기본값은 False

> - date_parser : 날짜 변환 시 사용할 함수

> - nrows : 파일의 첫 일부만 읽어올 때 처음 몇 줄을 읽을 것인지 지정

> - iterator : 파일을 조금씩 읽을 때 사용하도록 TextParser 객체를 반환하도록 한다. 기본값은 False

> - chunksize : TextParser 객체에서 사용할 한 번에 읽을 파일의 크기

> - skip_footer : 파일의 끝에서 무시할 라인 수

> - verbose : 파싱 결과에 대한 정보를 출력한다. 숫자가 아닌 값이 들어 있는 컬럼에 누락된 값이 있다면 줄 번호를 출력해준다. 기본값은 False

> - encoding : 유니코드 인코딩 종류를 지정한다. UTF-8로 인코딩된 텍스트일 경우 'utf-8'로 지정한다.

> - squeeze : 만일 컬럼이 하나뿐이라면 Series 객체를 반환한다. 기본값은 False

> - thousands : 숫자를 천 단위로 끊을 때 사용할 ',' 나 '.' 같은 구분자




## 6.1.1 텍스트 파일 조금씩 읽어오기

In [32]:
pd.options.display.max_rows = 10

In [33]:
result = pd.read_csv('ex6.csv')
result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


In [34]:
pd.read_csv('ex6.csv', nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


In [36]:
# 파일을 여러 조각으로 나누어서 읽고 싶다면 chunksize 옵션으로 로우의 개수를 주면 된다.
chunker = pd.read_csv('ex6.csv', chunksize=1000)
chunker

<pandas.io.parsers.TextFileReader at 0x7f75b9131690>

In [37]:
chunker = pd.read_csv('ex6.csv', chunksize=1000)

tot = pd.Series([])
for piece in chunker:
    tot = tot.add(piece['key'].value_counts(), fill_value=0)

tot = tot.sort_values(ascending=False)

  This is separate from the ipykernel package so we can avoid doing imports until


In [38]:


tot[:10]



E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

## 6.1.2 데이터를 텍스트 형식으로 기록하기

In [39]:
data = pd.read_csv('ex5.csv')
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [42]:
data.to_csv('out.csv')
!cat out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [43]:
import sys
data.to_csv(sys.stdout, sep='|')

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


In [44]:
data.to_csv(sys.stdout, na_rep='NULL')

,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


In [46]:
# 로우와 컬럼 이름을 포함하지 않으려면.
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


In [47]:
data.to_csv(sys.stdout, index=False, columns=['a', 'b', 'c'])

a,b,c
1,2,3.0
5,6,
9,10,11.0


In [49]:
dates = pd.date_range('1/1/2000', periods=7)
ts = pd.Series(np.arange(7), index=dates)
ts.to_csv('tseries.csv')

In [50]:
!cat tseries.csv

,0
2000-01-01,0
2000-01-02,1
2000-01-03,2
2000-01-04,3
2000-01-05,4
2000-01-06,5
2000-01-07,6


## 6.1.3 구분자 형식 다루기

In [51]:
!cat ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


In [52]:
import csv
f = open('ex7.csv')

reader = csv.reader(f)

- 파일을 읽듯이 reader를 순회하면 둘러싸고 있던 큰따옴표가 제거된 튜플을 얻을 수 있다.

In [53]:
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [54]:
with open('ex7.csv') as f:
    lines = list(csv.reader(f))

In [55]:
header, values = lines[0], lines[1:]

- 사전 표기법과 로우를 컬럼으로 전치해주는 zip(*values)를 이용해서 데이터 컬럼 사전 만들기

In [56]:
data_dict = {h: v for h, v in zip(header, zip(*values))}
data_dict

{'a': ('1', '1'), 'b': ('2', '2'), 'c': ('3', '3')}

In [62]:
class my_dialect(csv.Dialect):
    lineterminator = '\n' 
    delimiter = ';' 
    quotechar = '"' 
    quoting = csv.QUOTE_MINIMAL

In [74]:
reader = csv.reader(f, dialect=my_dialect)

TypeError: argument 1 must be an iterator

In [73]:
reader = csv.reader(f, delimiter='|')

TypeError: argument 1 must be an iterator

> - delimiter : 필드를 구분하기 위한 한 문자로 된 구분자. 기본값은 ','

> - lineterminater : 파일을 저장할 때 사용할 개행 문자. 기본값은 '\r\n'. 파일을 읽을 때는 이 값을 무시하며, 자동으로 플랫폼별 개행 문자를 인식한다.

> - quotechar : 각 필드에서 값을 둘러싸고 있는 문자. 기본값은 '"'

> - quoting : 값을 읽거나 쓸 때 둘러쌀 문자 컨벤션. csv.QUOTE_ALL(모든 필드에 적용). csv.QUOTE_MINIMAL(구분자 같은 특별한 문자가 포함된 필드만 적용), csv.QUOTE_NONE(값을 둘러싸지 않음) 옵션이 있다. 자세한 내용은 파이썬 문서를 참고하자. 기본값은 QUOTE_MINIMAL

> - skipinitialspace : 구분자 뒤에 있는 공백 문자를 무시할지 여부. 기본값은 False

> - doublequote : 값을 둘러싸는 문자가 필드 내에 존재할 경우 처리 여부. True일 경우 그 문자까지 모두 둘러싼다. 자세한 내용은 온라인 문서를 참고하자. http://docs.python.org/2/library/csv.html

> - escapechar : quoting이 csv.QUOTE_NONE일 때 값에 구분자와 같은 문자가 있을 경우 구별할 수 있도록 해주는 이스케이프 문자('\'같은). 기본값은 None

- 더 복잡하거나 구분자가 한 글자를 초과하는 고정 길이를 가진다면 csv 모듈을 사용할 수 없다. 이 경우 줄을 나누고 문자열의 split 메서드나 정규 표현식 메서드인 re.split 등을 이용해서 가공하는 작업이 필요하다.


In [1]:
with open('mydata.csv', 'w') as f: 
    writer = csv.writer(f, dialect=my_dialect) 
    writer.writerow(('one', 'two', 'three')) 
    writer.writerow(('1', '2', '3')) 
    writer.writerow(('4', '5', '6')) 
    writer.writerow(('7', '8', '9'))
# csv 처럼 구분자로 구분된 파일을 기록하려면 csv.writer를 이용하면 된다. csv.writer는 이미 열린, 쓰기가 가능한 파일 객체를 받아서 csv.reader와 동일한 옵션으로 파일을 기록한다.

NameError: name 'csv' is not defined

## 6.1.4 JSON 데이터

- JSON(JavaScript Object Notation)은 웹브라우저와 다른 애플리케이션이 HTTP 요청으로 데이터를 보낼 때 널리 사용하는 표준 파일 형식 중 하나다.
- JSON은 CSV 같은 표 형식의 텍스트보다 좀 더 유연한 데이터 형식이다.

In [4]:
obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

- JSON은 널값 null과 다른 몇 가지 미묘한 차이(리스트의 마지막에 쉼표가 있으면 안되는 등)를 제외하면 파이썬 코드와 거의 유사.
- 기본 자료형은 객체(사전), 배열(리스트), 문자열, 숫자, 불리언, 그리고 널이다.
- 객체의 키는 반드시 문자열이어야 한다.
- 파이썬 표준 라이브러리인 json을 사용.
- JSON 문자열을 파이썬 형태로 변환하기 위해서는 json.loads를 사용.

In [5]:
import json
result = json.loads(obj)
result

{'name': 'Wes',
 'places_lived': ['United States', 'Spain', 'Germany'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']},
  {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}

In [6]:
asjson = json.dumps(result)

In [7]:
siblings = pd.DataFrame(result['siblings'], columns=['name', 'age'])
siblings

Unnamed: 0,name,age
0,Scott,30
1,Katie,38


In [9]:
!cat example.json

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


In [11]:
data = pd.read_json('example.json')
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [12]:
print(data.to_json())

{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


In [14]:
print(data.to_json(orient='records'))

[{"a":1,"b":2,"c":3},{"a":4,"b":5,"c":6},{"a":7,"b":8,"c":9}]


- pandas의 데이터를 JSON으로 저장하는 방법은 Series나 DataFrame의 to_json 함수를 이용하는 것이다.

## 6.1.5 XML과 HTML : 웹 스크래핑

- pandas에는 read_html 이라는 내장 함수가 있다.
    - lxml이나 Beautiful Soup 같은 라이브러리를 사용해서 자동으로 HTML 파일을 파싱하여 DataFrame으로 변환해준다. 

! conda install lxml 


! pip install beautifulsoup4 html5lib

In [15]:
tables = pd.read_html('fdic_failed_bank_list.html')

In [16]:
len(tables)

1

In [17]:
failures = tables[0]

In [18]:
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"
2,First CornerStone Bank,King of Prussia,PA,35312,First-Citizens Bank & Trust Company,"May 6, 2016","September 6, 2016"
3,Trust Company Bank,Memphis,TN,9956,The Bank of Fayette County,"April 29, 2016","September 6, 2016"
4,North Milwaukee State Bank,Milwaukee,WI,20364,First-Citizens Bank & Trust Company,"March 11, 2016","June 16, 2016"


In [19]:
close_timestamps = pd.to_datetime(failures['Closing Date'])
close_timestamps.dt.year.value_counts()

2010    157
2009    140
2011     92
2012     51
2008     25
2013     24
2014     18
2002     11
2015      8
2016      5
2001      4
2004      4
2003      3
2007      3
2000      2
Name: Closing Date, dtype: int64

### lxml.objectify를 이용해서 XML 파싱하기


- XML은 계층적 구조와 메타데이터를 포함하는 중첩된 데이터 구조를 지원하는 또 다른 유명한 데이터 형식.

In [21]:
from lxml import objectify

path = 'Performance_MNR.xml'
parsed = objectify.parse(open(path))
root = parsed.getroot()

In [22]:
data = []

skip_fields = ['PARENT_SEQ', 'INDICATOR_SEQ',
               'DESIRED_CHANGE', 'DECIMAL_PLACES']

for elt in root.INDICATOR:
    el_data = {}
    for child in elt.getchildren():
        if child.tag in skip_fields:
            continue
        el_data[child.tag] = child.pyval
    data.append(el_data)

In [23]:
perf = pd.DataFrame(data)
perf.head()

Unnamed: 0,AGENCY_NAME,INDICATOR_NAME,DESCRIPTION,PERIOD_YEAR,PERIOD_MONTH,CATEGORY,FREQUENCY,INDICATOR_UNIT,YTD_TARGET,YTD_ACTUAL,MONTHLY_TARGET,MONTHLY_ACTUAL
0,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,1,Service Indicators,M,%,95.0,96.9,95.0,96.9
1,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,2,Service Indicators,M,%,95.0,96.0,95.0,95.0
2,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,3,Service Indicators,M,%,95.0,96.3,95.0,96.9
3,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,4,Service Indicators,M,%,95.0,96.8,95.0,98.3
4,Metro-North Railroad,On-Time Performance (West of Hudson),Percent of commuter trains that arrive at thei...,2008,5,Service Indicators,M,%,95.0,96.6,95.0,95.8


In [24]:
from io import StringIO
tag = '<a href="http://www.google.com">Google</a>'
root = objectify.parse(StringIO(tag)).getroot()

In [25]:
root


<Element a at 0x7fa0d8ea30f0>

In [26]:
root.get('href')


'http://www.google.com'

In [27]:
root.text

'Google'

## 6.2 이진 데이터 형식

- pickle(직렬화)를 사용해 데이터를 이진 형식으로 저장하는 것.

In [28]:
frame = pd.read_csv('ex1.csv')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [30]:
frame.to_pickle('frame_pickle')

In [31]:
pd.read_pickle('frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- pickle은 오래 보관할 필요가 없는 데이터일 경우에만 추천.

> - Bcolz : 압축 알고리즘에 기반한 압축이 가능한 컬럼지향 바이너리 포맷이다.

> - Feather : R 커뮤니티의 해들리 위컴과 내가 함께 설계한 컬럼지향 파일 형식이다. Feather는 아파치 에로우의 메모리 포맷을 사용한다.

## 6.2.1 HDF5 형식 사용하기

- HDF5는 대량의 과학 계산용 배열 데이터를 저장하기 위해 고안된 훌륭한 파일 포맷이다. C 라이브러리로도 존재하며 자바, 줄리아, 매트랩, 그리고 파이썬 같은 다양한 다른 언어에서도 사용할 수 있는 인터페이스를 제공한다.

- 계층적 데이터 형식. 각각의 HDF5 파일은 여러 개의 데이터셋을 저장하고 부가 정보를 기록할 수 있다. 보다 단순한 형식과 비교하면 HDF5는 다양한 압축 기술을 사용해서 온더플라이(실시간) 압축을 지원하며 반복되는 패턴을 가진 데이터를 좀 더 효과적으로 저장할 수 있다.

! conda install pytables

In [35]:
import tables
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
store['obj1'] = frame
store['obj1_col'] = frame['a']
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [36]:
store['obj1']

Unnamed: 0,a
0,-1.565657
1,-0.562540
2,-0.032664
3,-0.929006
4,-0.482573
...,...
95,0.910983
96,-1.020903
97,-1.413416
98,1.296608


In [37]:
# HDF5Store는 'fixed'와 'table' 두 가지 저장 스키마를 지원한다.
store.put('obj2', frame, format='table')
store.select('obj2', where=['index >= 10 and index <= 15'])

Unnamed: 0,a
10,-0.528735
11,0.457002
12,0.929969
13,-1.569271
14,-1.022487
15,-0.402827


In [38]:
store.close()

In [39]:
frame.to_hdf('mydata.h5', 'obj3', format='table')
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

Unnamed: 0,a
0,-1.565657
1,-0.56254
2,-0.032664
3,-0.929006
4,-0.482573


In [40]:
os.remove('mydata.h5')

## 6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기

! pip install xlrd
! conda install -c anaconda xlrd
! python3 -m pip install openpyxl

In [45]:
xlsx = pd.ExcelFile('ex1.xlsx')

- 시트에 있는 데이터는 parse 함수를 이용해서 DataFrame으로 읽어올 수 있다.

In [46]:
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [47]:
frame = pd.read_excel('ex1.xlsx', 'Sheet1')
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [48]:
writer = pd.ExcelWriter('ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

In [49]:
frame.to_excel('ex2.xlsx')

In [50]:
!rm ex2.xlsx

## 6.3 웹 API와 함께 사용하기

- requests 라이브러리를 이용해서 GET HTTP 요청을 생성한다.

In [51]:
import requests
url = 'https://api.github.com/repos/pandas-dev/pandas/issues'
resp = requests.get(url)
resp

<Response [200]>

- 응답 객체의 json 메서드는 JSON의 내용을 파이썬 사전 형태로 변환한 객체를 반환.

In [52]:
data = resp.json()
data[0]['title']

'MISC: Check that min versions are aligned in CI and import_optional_dependency'

In [53]:
issues = pd.DataFrame(data, columns=['number', 'title',
                                     'labels', 'state'])
issues

Unnamed: 0,number,title,labels,state
0,45219,MISC: Check that min versions are aligned in C...,[],open
1,45218,REF: share Categorical._repr_categories and Ca...,"[{'id': 76811, 'node_id': 'MDU6TGFiZWw3NjgxMQ=...",open
2,45217,Adding unixtime property to Timestamp and Date...,[],open
3,45216,REF: consolidate _validate_fill_logic in np_ca...,[],open
4,45215,Move dummy coding related functions from resha...,[],open
5,45214,"REGR: Index(pd.array(foo), dtype=object)",[],open
6,45212,CLN: suppress warnings,[],open
7,45211,Backport PR #45138 on branch 1.4.x (ENH: add `...,"[{'id': 251382258, 'node_id': 'MDU6TGFiZWwyNTE...",open
8,45209,TST/REF: port coercion tests to SetitemCasting...,[],open
9,45208,DOC: improve IO & General Functions API reference,"[{'id': 134699, 'node_id': 'MDU6TGFiZWwxMzQ2OT...",open


## 6.4 데이터베이스와 함께 사용하기

- 파이썬의 내장 sqlite3 드라이버를 사용해서 SQLite 데이터베이스를 이용할 수 있다.

In [54]:
import sqlite3
query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""
con = sqlite3.connect('mydata.sqlite')
con.execute(query)

<sqlite3.Cursor at 0x7fa0d0ee6c70>

In [55]:
con.commit()

In [56]:
# 데이터 입력
data = [('Atlanta', 'Georgia', 1.25, 6),
        ('Tallahassee', 'Florida', 2.6, 3),
        ('Sacramento', 'California', 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"
con.executemany(stmt, data)


<sqlite3.Cursor at 0x7fa0d0ee6ea0>

In [57]:
con.commit()

In [58]:
cursor = con.execute('select * from test')
rows = cursor.fetchall()
rows

[('Atlanta', 'Georgia', 1.25, 6),
 ('Tallahassee', 'Florida', 2.6, 3),
 ('Sacramento', 'California', 1.7, 5)]

In [59]:
cursor.description

(('a', None, None, None, None, None, None),
 ('b', None, None, None, None, None, None),
 ('c', None, None, None, None, None, None),
 ('d', None, None, None, None, None, None))

In [60]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


- 다음은 SQLAlchemy를 사용하여 같은 SQLite 데이터베이스에 접속하고 앞서 만든 테이블에서 데이터를 읽어오는 예다.

! pip install Flask-SQLAlchemy

In [62]:
import sqlalchemy as sqla
db = sqla.create_engine('sqlite:///mydata.sqlite')
pd.read_sql('select * from test', db)

Unnamed: 0,a,b,c,d
0,Atlanta,Georgia,1.25,6
1,Tallahassee,Florida,2.6,3
2,Sacramento,California,1.7,5


In [63]:
!rm mydata.sqlite