In [2]:
import pandas as pd

In [3]:
# pandas.DataFrame の作成方法
# 1) 二次元配列を引数にする
# 一次元目は縦方向、二次元目は横方向に並ぶ
df = pd.DataFrame([[1, 11, 111], [2, 22, 222], [3, 33, 333], [4, 44, 444]])
df

Unnamed: 0,0,1,2
0,1,11,111
1,2,22,222
2,3,33,333
3,4,44,444


In [4]:
df = pd.DataFrame([[1, 11, 111]])
df2 = pd.DataFrame([[2, 22, 222]])
df3 = pd.DataFrame([[3, 33, 333]])
df4 = pd.DataFrame([[4, 44, 444]])
df = pd.concat([df, df2, df3, df4])

# append でもOK
# df = df.append(df2).append(df3).append(df4)
df

Unnamed: 0,0,1,2
0,1,11,111
0,2,22,222
0,3,33,333
0,4,44,444


In [5]:
# index（縦方向のラベル）や columns（横方向のラベル）を指定することが可能
df = pd.DataFrame([[1, 11, 111], [2, 22, 222], [3, 33, 333], [4, 44, 444]],
                  index=['one', 'two', 'three', 'four'],
                  columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
one,1,11,111
two,2,22,222
three,3,33,333
four,4,44,444


In [6]:
# 時系列っぽいデータを作成
df = pd.DataFrame([[18818.580078, 136000, 18450.980469],
                   [18398.759766, 128300, 18374.00],
                   [18410.570312, 142200, 18191.320312],
                   [18139.769531, 163000, 17767.339844]],
                  index=pd.to_datetime(['2016-01-04', '2016-01-05', '2016-01-06', '2016-01-07']),
                  columns=['Open', 'Volume', 'Adj Close'])
df

Unnamed: 0,Open,Volume,Adj Close
2016-01-04,18818.580078,136000,18450.980469
2016-01-05,18398.759766,128300,18374.0
2016-01-06,18410.570312,142200,18191.320312
2016-01-07,18139.769531,163000,17767.339844


In [7]:
# 2) 辞書を引数にする
# 辞書の値は、リストまたは pandas.Series
df = pd.DataFrame({'A': [1, 11, 111],
                   'B': pd.Series([2, 22, 222]),
                   'C': pd.Series({0: 3, 1: 33, 2: 333})})
df

Unnamed: 0,A,B,C
0,1,2,3
1,11,22,33
2,111,222,333


In [8]:
# ちなみに、リストの要素数が他と合わない場合は ValueError
df = pd.DataFrame({'A': [1, 11],
                   'B': pd.Series([2, 22, 222]),
                   'C': pd.Series({0: 3, 1: 33, 2: 333})})
df

ValueError: array length 2 does not match index length 3

In [9]:
# ただし、Series の場合は NaN で補完されるので便利
df = pd.DataFrame({'A': [1, 11, 111],
                   'B': pd.Series([2, 22]),
                   'C': pd.Series({0: 3, 1: 33, 2: 333})})
df

Unnamed: 0,A,B,C
0,1,2.0,3
1,11,22.0,33
2,111,,333


In [10]:
# DataFrame を横方向に結合する
df = pd.DataFrame({'A': [1, 11, 111]})
df2 = pd.DataFrame({'B': [2, 22, 222]})

# 横方向に結合するときは axis=1 を指定
df = pd.concat([df, df2], axis=1)
# あるいは、index が同じであれば、index をキーにして結合する DataFrame.join を使ってもよい
# df = df.join(df2)
df

Unnamed: 0,A,B
0,1,2
1,11,22
2,111,222


In [11]:
# 2) の方式では時系列データは扱いづらい。。
# もしやるなら、一旦こういう感じで作成して、 
df = pd.DataFrame({'2016-01-04': [18818.580078, 136000, 18450.980469],
                   '2016-01-05': [18398.759766, 128300, 18374.00],
                   '2016-01-06': [18410.570312, 142200, 18191.320312],
                   '2016-01-07': [18139.769531, 163000, 17767.339844]},
                  index=['Open', 'Volume', 'Adj Close'])
# DataFrame.T で縦横を反転させるのがいいのかな。。
df = df.T
df
# うーん。やっぱり使いづらい。。

Unnamed: 0,Open,Volume,Adj Close
2016-01-04,18818.580078,136000.0,18450.980469
2016-01-05,18398.759766,128300.0,18374.0
2016-01-06,18410.570312,142200.0,18191.320312
2016-01-07,18139.769531,163000.0,17767.339844


In [12]:
# 3) pandas.read_csv を使う
# 日経平均のデータ（n225.csv）を読み込む
df = pd.read_csv('n225.csv', index_col='Date', parse_dates=True, usecols=['Date', 'Open', 'Volume', 'Adj Close'])
df = df.sort_index()
df.head(10)

Unnamed: 0_level_0,Open,Volume,Adj Close
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2016-01-04,18818.580078,136000,18450.980469
2016-01-05,18398.759766,128300,18374.0
2016-01-06,18410.570312,142200,18191.320312
2016-01-07,18139.769531,163000,17767.339844
2016-01-08,17562.230469,178800,17697.960938
2016-01-12,17470.929688,173000,17218.960938
2016-01-13,17449.119141,145900,17715.630859
2016-01-14,17384.929688,173000,17240.949219
2016-01-15,17522.460938,167800,17147.109375
2016-01-18,16826.929688,152500,16955.570312


In [13]:
# 2016年1年分のDataFrameを用意
# （参考）http://www.madopro.net/entry/MachineLearningForTrading
df = pd.DataFrame(index=pd.date_range('2016-01-01', '2016-12-31'))

# 日経平均のデータを読み込んで join
df = df.join(
    pd.read_csv('n225.csv', index_col='Date', parse_dates=True, usecols=['Date', 'Open', 'Volume', 'Adj Close']))

# 市場が休みの日のデータを取り除く
df = df.dropna()
df.head(10)

Unnamed: 0,Open,Volume,Adj Close
2016-01-04,18818.580078,136000.0,18450.980469
2016-01-05,18398.759766,128300.0,18374.0
2016-01-06,18410.570312,142200.0,18191.320312
2016-01-07,18139.769531,163000.0,17767.339844
2016-01-08,17562.230469,178800.0,17697.960938
2016-01-12,17470.929688,173000.0,17218.960938
2016-01-13,17449.119141,145900.0,17715.630859
2016-01-14,17384.929688,173000.0,17240.949219
2016-01-15,17522.460938,167800.0,17147.109375
2016-01-18,16826.929688,152500.0,16955.570312


In [14]:
# 余談
# Iris のデータを Pandas で使う方法
# （参考）http://dragstar.hatenablog.com/entry/2016/07/24/150534
import pandas as pd
from sklearn import datasets

iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['Species'] = iris.target_names[iris.target]
df.rename(columns={'sepal length (cm)': 'Sepal.Length',
                   'sepal width (cm)': 'Sepal.Width',
                   'petal length (cm)': 'Petal.Length',
                   'petal width (cm)': 'Petal.Width'},
          inplace=True)
df.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [15]:
# rpy2 (R interface) パッケージを使ってもいいらしいが、Anaconda 4.2.0 にはデフォルトで入っていない
# （参考）http://stackoverflow.com/a/28417338
import pandas.rpy.common as rcom
iris = rcom.load_data('iris')

See here for a guide on how to port your code to rpy2: http://pandas.pydata.org/pandas-docs/stable/r_interface.html
  app.launch_new_instance()


ImportError: No module named rpy2.robjects.packages