In [1]:
##### 6.2 이진 데이터 형식 #####
# 데이터를 효율적으로 저장하는 가장 쉬운 방법은 파이썬에 기본으로 내장된 pickle 직렬화를 사용해 이진 형식으로 저장하는 것이다.
# pandas 객체는 모두 pickle을 이용해 데이터를 저장하는 to_pickle 메서드를 가지고 있다.

In [2]:
import pandas as pd

frame = pd.read_csv("C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.csv")

In [3]:
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
frame.to_pickle('C:/Users/LG/Desktop/Python for Data Analysis/data/frame_pickle')

In [5]:
# pickle로 직렬화된 객체는 내장 함수인 pickle로 직접 불러오거나 pandas.read_pickle 메서드를 이용해 불러올 수 있다.
# pickle은 오래 보관할 필요가 없는 데이터일 경우에만 추천한다.

pd.read_pickle('C:/Users/LG/Desktop/Python for Data Analysis/data/frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [3]:
##### 6.2.1 HDF5 형식 사용하기 #####

import numpy as np

In [9]:
frame = pd.DataFrame({'a': np.random.randn(100)})

In [4]:
store = pd.HDFStore('mydata.h5')

In [12]:
store['obj1'] = frame

In [13]:
store['obj1_col'] = frame['a']

In [14]:
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [16]:
store['obj1']

Unnamed: 0,a
0,0.469313
1,0.565002
2,-0.769203
3,-0.947036
4,-1.108552
...,...
95,-0.250661
96,2.286872
97,-0.749255
98,0.661270


In [17]:
# HDF는 'fixed'와 'table' 두 가지 저장 스키마를 지원한다.

store.put('obj2', frame, format='table')

In [18]:
store.select('obj2', where=['index >= 10 and index <= 15'])

Unnamed: 0,a
10,-0.380141
11,-1.394628
12,1.423827
13,-1.599507
14,1.565964
15,-0.274821


In [20]:
store.close()

In [21]:
# pandas.read_hdf는 이런 기능을 축약해서 쓸 수 있다.

frame.to_hdf('mydata.h5', 'obj3', format='table')

In [22]:
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

Unnamed: 0,a
0,0.469313
1,0.565002
2,-0.769203
3,-0.947036
4,-1.108552


In [12]:
##### 6.2.2 마이크로소프트 엑셀 파일에서 데이터 읽어오기 #####

import openpyxl
import xlrd

In [17]:
# 한 파일에서 여러 시트를 읽어오는 경우

xlsx = pd.ExcelFile('C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.xlsx', engine = 'openpyxl')

In [18]:
pd.read_excel(xlsx, "Sheet1")

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [20]:
# 빠르고 간단하게 읽어오기

frame = pd.read_excel('C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.xlsx', 'Sheet1', engine = 'openpyxl')

In [21]:
frame

Unnamed: 0.1,Unnamed: 0,a,b,c,d,message
0,0,1,2,3,4,hello
1,1,5,6,7,8,world
2,2,9,10,11,12,foo


In [23]:
# pandas 데이터를 엑셀 파일에 저장하기

writer = pd.ExcelWriter('C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.xlsx')
frame.to_excel(writer, 'Sheet1')

In [24]:
writer.save()

In [25]:
# ExcelWriter 사용하지않고 to_excel 메서드에 경로만 넘겨주기

frame.to_excel('C:/Users/LG/Desktop/Python for Data Analysis/data/ex1.xlsx')