In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
# pickleが推奨されるのは、短時間の保存形式としてのみ
# 今日pickle化したオブジェクトが、ライブラリの将来バージョンでunpickleできないことがある
frame = pd.read_csv('ex1.csv')
frame.to_pickle('frame_pickle')

In [3]:
pd.read_pickle('frame_pickle')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [4]:
!rm frame_pickle

In [5]:
# HDF5は書き込みが一度だけで、読み込みが多いデータセットに最適なファイル形式
# 複数の書き込みを同時にすると壊れることがある
# データ分析の課題の多くはCPUの限界よりIOの限界によるものなので、HDF5のようなツールを用いると効率化される
frame = pd.DataFrame({'a': np.random.randn(100)})
store = pd.HDFStore('mydata.h5')
# DataFrameを格納する
store['obj1'] = frame
# Seriesを格納する
store['obj1_col'] = frame['a']
store

<class 'pandas.io.pytables.HDFStore'>
File path: mydata.h5

In [6]:
store['obj1'].head()

Unnamed: 0,a
0,0.398717
1,0.489599
2,0.066677
3,1.45221
4,-0.448359


In [7]:
store['obj1_col'].head()

0    0.398717
1    0.489599
2    0.066677
3    1.452210
4   -0.448359
Name: a, dtype: float64

In [8]:
# メソッド呼び出しによる細かい操作もできる
store.put('obj2', frame, format='table')
store.select('obj2', where=['index >= 10 and index <= 15'])

Unnamed: 0,a
10,2.424761
11,-0.270085
12,0.415002
13,-1.26813
14,2.008714
15,1.108371


In [9]:
# ストリームを切る
store.close()

In [10]:
# DataFrameオブジェクトから直接呼び出すこともできる
frame.to_hdf('mydata.h5', 'obj3', format='table')
pd.read_hdf('mydata.h5', 'obj3', where=['index < 5'])

Unnamed: 0,a
0,0.398717
1,0.489599
2,0.066677
3,1.45221
4,-0.448359


In [11]:
# HDF5ファイル削除
os.remove('mydata.h5')

In [12]:
# Excelファイルの操作
xlsx = pd.ExcelFile('ex1.xlsx')
pd.read_excel(xlsx, 'Sheet1')

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [13]:
frame = pd.read_excel('ex1.xlsx', 'Sheet1')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [14]:
writer = pd.ExcelWriter('ex2.xlsx')
frame.to_excel(writer, 'Sheet1')
writer.save()

In [15]:
frame.to_excel('ex2.xlsx')
frame = pd.read_excel('ex2.xlsx', 'Sheet1')
frame

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [16]:
!rm ex2.xlsx