In [1]:
import pandas as pd
import numpy as np
from datetime import datetime
from datetime import timedelta
from dateutil.parser import parse

In [2]:
dates = [
    datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7),
    datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 12)
]

In [3]:
# datetime型をインデックスに指定すると、時系列のSeriesになる
ts = pd.Series(np.random.randn(6), index=dates)
ts

2011-01-02    0.234956
2011-01-05   -0.810558
2011-01-07   -1.764123
2011-01-08    0.934185
2011-01-10    0.899615
2011-01-12   -1.067889
dtype: float64

In [4]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

In [5]:
ts[::2]

2011-01-02    0.234956
2011-01-07   -1.764123
2011-01-10    0.899615
dtype: float64

In [6]:
# 通常のSeriesと同様に、加算するとindexは論理和をとり、indexが片方にしかないものは欠損値になる
ts + ts[::2]

2011-01-02    0.469912
2011-01-05         NaN
2011-01-07   -3.528247
2011-01-08         NaN
2011-01-10    1.799230
2011-01-12         NaN
dtype: float64

In [7]:
# pandasが生成する時系列のSeriesのindexはナノ秒の制度でタイムスタンプを取る
ts.index.dtype

dtype('<M8[ns]')

In [8]:
# pandasが生成する時系列のSeriesのindexはTimestamp型という特殊なオブジェクト
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

In [9]:
# 通常のSeriesと同様にindexを指定すれば、対応したレコードが取り出せせる
stamp = ts.index[2]
ts[stamp]

-1.7641234582435974

In [10]:
# 文字列でインデックスを指定することもできる
ts['1/10/2011']

0.89961508606719132

In [11]:
# 日付として解釈可能な文字列ならindexを指定できる
ts['20110110']

0.89961508606719132

In [12]:
# date_rangeでindexとする時間の範囲を指定できる
longer_ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
longer_ts.head()

2000-01-01    1.312282
2000-01-02    0.011290
2000-01-03   -0.420122
2000-01-04    0.771995
2000-01-05    1.154143
Freq: D, dtype: float64

In [13]:
# 日付のある年やある年月を指定して切り出すことができる
longer_ts['2001'].head()

2001-01-01    0.948262
2001-01-02    0.174733
2001-01-03   -0.274985
2001-01-04    0.037822
2001-01-05   -0.363365
Freq: D, dtype: float64

In [14]:
longer_ts['2001-05'].head()

2001-05-01    2.258663
2001-05-02   -0.279274
2001-05-03   -0.896804
2001-05-04   -0.988559
2001-05-05   -3.140771
Freq: D, dtype: float64

In [15]:
# 日付を指定してデータの一部を切り出すときは、通常のSeriesと同じ
ts[datetime(2011, 1, 7):]

2011-01-07   -1.764123
2011-01-08    0.934185
2011-01-10    0.899615
2011-01-12   -1.067889
dtype: float64

In [16]:
# 時系列Seriesの中に含まれないタイムスタンプでも範囲指定できる
ts

2011-01-02    0.234956
2011-01-05   -0.810558
2011-01-07   -1.764123
2011-01-08    0.934185
2011-01-10    0.899615
2011-01-12   -1.067889
dtype: float64

In [17]:
ts['1/6/2011':'1/11/2011']

2011-01-07   -1.764123
2011-01-08    0.934185
2011-01-10    0.899615
dtype: float64

In [18]:
# truncateメソッドで指定した範囲を取り除くことができる
ts.truncate(after='1/9/2011')

2011-01-02    0.234956
2011-01-05   -0.810558
2011-01-07   -1.764123
2011-01-08    0.934185
dtype: float64

In [19]:
# Seriesと同様にDataFrameも時系列操作が出来る
dates = pd.date_range('1/1/2000', periods=100, freq='W-WED')
long_df = pd.DataFrame(np.random.randn(100, 4), index=dates, columns=['Colorado', 'Texas', 'New York', 'Ohio'])
long_df.loc['5-2001']

Unnamed: 0,Colorado,Texas,New York,Ohio
2001-05-02,0.774326,-0.253243,0.52538,1.218097
2001-05-09,-0.354704,0.682026,1.37707,1.553779
2001-05-16,0.694752,-1.148884,-0.49351,0.901305
2001-05-23,-0.887124,0.129108,-1.517615,-0.7336
2001-05-30,1.497865,0.753264,0.630892,0.360885


In [20]:
# あるタイムスタンプが重複したデータを見る
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', '1/2/2000', '1/3/2000'])
dup_ts = pd.Series(np.arange(5), index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int64

In [21]:
# is_uniqueでタイムスタンプが重複してるか確認
dup_ts.index.is_unique

False

In [22]:
# 重複してないとこう
dup_ts['1/3/2000']

4

In [23]:
# 重複してるとこう
dup_ts['1/2/2000']

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int64

In [24]:
# Seriesと同様にgroupbyの操作ができる
grouped = dup_ts.groupby(level=0)
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int64

In [25]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64