時系列データは、金融、経済、生態学、物理学など、さまざまな分野において重要なデータ構造になる  
ある時点において観測されたデータは、どのようなものでも時系列を構成する  
多くの時系列は一定頻度で一定のルールに従った感覚でデータポイントが発生する  
しかし、時系列は固定の単位時間やオフセットがないような不規則なものであっても問題なく、時系列データをどのように特徴づけて参照するかは何に応用したいかによる  
例えば以下のような特徴づけの仕方がある  
- タイムスタンプ(特定の時刻)
- 2007年1月、2010年などの一定の期間
- 開始時刻と終了時刻によって特定される時間の間隔。期間は、間隔の特殊なケースと考えられる
- 経験時間または経過時間。この時間は、特定の開始時間から相対的に計測されたもの(オーブンに置かれた後、1秒おきにクッキーが焼けた半径など)  

ここでは3つのケースの時系列に主に着目するが、多くのテクニックは開始時間からの経過時間(例数や浮動小数の値になる)をインデックスとして持つ時系列にも応用できる  
pandasは、時系列を扱うために組み込みのツールを多数提供している  
これによって巨大な時系列を効率的に扱うことができる  
一定頻度の時系列でも不規則な時系列でも、簡単に一部を切り取ったり、集約したり、再サンプリングしたりできる  
これらのツールは、金融や経済分野への応用に特に役立ち、サーバーのログデータ分析にも使える

## 11.1  日付、時間のデータ型とツール

Python標準のライブラリには、日付と時間を扱うためのデータ型が、カレンダー関連機能とともに用意されている

In [1]:
from datetime import datetime

In [2]:
now = datetime.now()
now

datetime.datetime(2020, 9, 28, 23, 24, 15, 377736)

In [3]:
now.year, now.month, now.day

(2020, 9, 28)

datetimeは日付と時間の情報をマイクロ秒の精度で持つ

In [4]:
delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)
delta

datetime.timedelta(days=926, seconds=56700)

In [5]:
delta.days, delta.seconds

(926, 56700)

timedeltaは、datetimeオブジェクトやdateオブジェクト間の差を表すことができる

In [6]:
from datetime import timedelta

In [7]:
start = datetime(2011, 1, 7)
start + timedelta(12)

datetime.datetime(2011, 1, 19, 0, 0)

In [8]:
start - 2 * timedelta(12)

datetime.datetime(2010, 12, 14, 0, 0)

timedeltaや、timedeltaを何倍かしたものをdatetimeオブジェクトに足したり引いたりして、時間差のある新しいdatetimeオブジェクトを作ることができる

datetimeモジュールに含まれるデータ型  

|データ型|説明|
|:-|:-|
|date|グレゴリオ暦の日付(年、月、日)の情報を持つ|
|time|1日の時間の情報(時、分、秒、マイクロ秒)を持つ|
|datetime|日付と時間の両方の情報を持つ|
|timedelta|2つのdatetime型の値の差を、日、秒、マイクロ秒で表す|
|tzinfo|タイムゾーン情報を持つ基本の型|

## 11.1.1  文字列とdatetimeの変換

datetimeオブジェクトとpandasのタイムスタンプ(Timestamp)オブジェクトは、strやstrftimeメソッドを使って書式を指定することで、文字列で表現することができる

In [9]:
stamp = datetime(2011, 1, 3)
str(stamp)

'2011-01-03 00:00:00'

In [10]:
stamp.strftime("%Y-%m-%d")

'2011-01-03'

Datetimeフォーマット一覧

|型|説明|
|:-|:-|
|%Y|4桁の年|
|%y|2桁の年|
|%m|2桁の月|
|%d|2桁の日|
|%H|時間(24時間)|
|%I|時間(12時間)|
|%M|2桁の分|
|%S|2桁の秒|
|%w|曜日を示す整数(0が日曜)|
|%U|1年の週を表す整数。日曜をその週の最初の日とみなし、その年の最初の日曜よりも前の日は第0週となる|
|%W|1年の週を表す整数。月曜をその週の最初の日とみなし、その年の最初の月曜よりも前の日は第0週となる|
|%z|UTC時間からのずれを+HHMMまたは-HHMM形式で表したもの。タイムゾーンがわからない場合は空になる|
|%F|%Y-%M-%dを短縮したもの(2012-4-18)|
|%D|%m/%d/%yを短縮したもの(04/18/12)|

In [11]:
value = "2011-01-03"

In [12]:
datetime.strptime(value, "%Y-%m-%d")

datetime.datetime(2011, 1, 3, 0, 0)

In [13]:
datesets = ["7/6/2011", "8/6/2011"]
[datetime.strptime(x, "%m/%d/%Y") for x in datesets]

[datetime.datetime(2011, 7, 6, 0, 0), datetime.datetime(2011, 8, 6, 0, 0)]

datetimeのstrptime関数は特定の書式で日付をパースするのに最も適した方法になる  
しかし、一般的な書式を使う場合に毎回各時間の書式を指定するのは億劫になり、そのような場合はサードパーティ製のdateutilパッケージに含まれるparser.parseメソッドを使うことができる

In [14]:
from dateutil.parser import parse

In [15]:
parse("2011-01-03")

datetime.datetime(2011, 1, 3, 0, 0)

In [16]:
parse("Jan 31, 1997 10:45 PM")

datetime.datetime(1997, 1, 31, 22, 45)

dateutilは、おおよそ人間が理解できる日付表現のほとんどをパースすることができる

In [17]:
parse("6/12/2011", dayfirst=True)

datetime.datetime(2011, 12, 6, 0, 0)

国際的なロケールでは、日が月よりも前に現れるのが一般的になる  
その時はキーワード引数のdayfirstにTrueを渡すことで示すことができる

pandasは、データフレームのインデックスや列にある日付の配列を扱えるように作られている

In [18]:
import pandas as pd

In [19]:
datestrs = ["2011-07-06 12:00:00", "2011-08-06 00:00:00"]

In [20]:
pd.to_datetime(datestrs)

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00'], dtype='datetime64[ns]', freq=None)

pandasのto_datetimeメソッドは多くの種類の日付表現をパースできる  
特にISO 8601のような標準の日付表現は素早くパースすることができる

In [21]:
idx = pd.to_datetime(datestrs + [None])
idx

DatetimeIndex(['2011-07-06 12:00:00', '2011-08-06 00:00:00', 'NaT'], dtype='datetime64[ns]', freq=None)

In [22]:
idx[2]

NaT

In [23]:
pd.isnull(idx)

array([False, False,  True])

to_datetimeメソッドは、欠損値を扱うこともできる  
NaT(Not a Time)というのは、pandasでのタイムスタンプ型のデータにおける欠損値のことになる

datetimeオブジェクトは、他国や多言語における特定のロケール向けの書式オプションも多く持っている  
例えば月の名前の省略形はドイツ語とフランス語では、英語と異なる  

特定のロケール向けの日付書式

|型|説明|
|:-|:-|
|%a|曜日の省略形|
|%A|曜日を完全に表現したもの|
|%b|月の省略形|
|%B|月を完全に表現したもの|
|%c|日付と時間を完全に表現したもの(Tue 01 May 2012 04:20:57 PM)|
|%p|ロケールでの午前と午後を表したもの(AMやPM)|
|%x|ロケールに適した日付の書式。例えばアメリカでは「05/15/2012」など|
|%X|ロケールに適した時間の書式。「04:24:12 PM」など|

# 11.2  時系列の基本

pandasにおける基本的な時系列オブジェクトは、タイムスタンプによってインデックス付けされたシリーズになる  
このタイムスタンプはpandasの機能で表現するわけではなく、Pythonの文字列やdatetimeオブジェクトを使う

In [24]:
import numpy as np

In [25]:
dates = [datetime(2011, 1, 2), datetime(2011, 1, 5), datetime(2011, 1, 7),
         datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 12)]

In [26]:
ts = pd.Series(np.random.randn(6), index=dates)
ts

2011-01-02   -0.751080
2011-01-05   -0.546356
2011-01-07   -0.417484
2011-01-08   -0.450892
2011-01-10   -0.775259
2011-01-12    0.839608
dtype: float64

In [27]:
ts.index

DatetimeIndex(['2011-01-02', '2011-01-05', '2011-01-07', '2011-01-08',
               '2011-01-10', '2011-01-12'],
              dtype='datetime64[ns]', freq=None)

内部では、datetimeオブジェクトはDatetimeIndexクラスに保持される

In [28]:
ts + ts[::2]

2011-01-02   -1.502159
2011-01-05         NaN
2011-01-07   -0.834968
2011-01-08         NaN
2011-01-10   -1.550519
2011-01-12         NaN
dtype: float64

シリーズと同じように別々にインデックス付けされた時系列での算術演算は、日付に従って自動的に整形される

In [29]:
ts.index.dtype

dtype('<M8[ns]')

pandasはNumpyのdatetime64データ型を使ってナノ秒の精度でタイムスタンプを保存している

In [30]:
stamp = ts.index[0]
stamp

Timestamp('2011-01-02 00:00:00')

datetimeIndexのスカラー値は、pandasのタイムスタンプオブジェクトになっている

datetimeオブジェクトを使えるところではどこでも、タイムスタンプで代用することができる  
更にタイムスタンプは頻度の情報も保存でき、タイムゾーンの変換やその他の操作も可能になる

## 11.2.1  インデックス参照、データの選択、サブセットの抽出

In [31]:
stamp = ts.index[2]
ts[stamp]

-0.41748388673814146

ラベルに基づいたインデックス参照やデータの選択に関して、時系列はpandas.Seriesと同様な振る舞いをする

In [32]:
ts["1/10/2011"]

-0.7752593631082577

In [33]:
ts["20110110"]

-0.7752593631082577

利便性のため、日付として解釈可能な文字列を使って参照することができる

In [34]:
longer_ts = pd.Series(np.random.randn(1000),
                      index=pd.date_range("1/1/2000", periods=1000))
longer_ts

2000-01-01   -1.754212
2000-01-02   -0.348689
2000-01-03    1.178743
2000-01-04    0.415586
2000-01-05    0.295363
                ...   
2002-09-22   -1.810221
2002-09-23   -1.370747
2002-09-24    0.169081
2002-09-25   -0.025739
2002-09-26    1.015654
Freq: D, Length: 1000, dtype: float64

長い時系列の場合、ある年やある年月を指定して簡単にデータの一部分を選択することができる  
pandasのdate_range関数に解釈可能な日付の文字列を第一引数と第二引数に渡すことで、その範囲のすべての日付をまとめたdatetimeIndexにして返してくれる  
上の場合は第二引数に日付を渡す代わりに、キーワード引数のperiodsに整数を渡してその整数分の日付を指定している

In [35]:
longer_ts["2002"]

2002-01-01    0.856318
2002-01-02   -0.985619
2002-01-03    0.614365
2002-01-04    0.497701
2002-01-05    1.047057
                ...   
2002-09-22   -1.810221
2002-09-23   -1.370747
2002-09-24    0.169081
2002-09-25   -0.025739
2002-09-26    1.015654
Freq: D, Length: 269, dtype: float64

datetimeIndexを持ったシリーズに対して、上のように解釈可能な年を指定するとその年の範囲の要素を選択することができる

In [36]:
longer_ts["2001-05"].head()

2001-05-01    0.601583
2001-05-02    0.194058
2001-05-03    0.380043
2001-05-04    0.605491
2001-05-05    0.956088
Freq: D, dtype: float64

これは解釈できる年と月を指定したときでも同じようにできる

In [37]:
ts[datetime(2011, 1, 7):]

2011-01-07   -0.417484
2011-01-08   -0.450892
2011-01-10   -0.775259
2011-01-12    0.839608
dtype: float64

datetimeオブジェクトを指定しても同じように選択できる

In [38]:
ts

2011-01-02   -0.751080
2011-01-05   -0.546356
2011-01-07   -0.417484
2011-01-08   -0.450892
2011-01-10   -0.775259
2011-01-12    0.839608
dtype: float64

In [39]:
ts["1/6/2011": "1/11/2011"]

2011-01-07   -0.417484
2011-01-08   -0.450892
2011-01-10   -0.775259
dtype: float64

ほとんどの時系列データは年代順に並んでいるため、時系列の中に含まれないタイムスタンプを使って範囲選択をすることができる

文字列、datetime、タイムスタンプのどれでも指定でき、この方法で取り出したデータは元の時系列の参照なので、抽出したデータを修正すると元のデータにも反映される

In [40]:
ts.truncate(after="1/9/2011")

2011-01-02   -0.751080
2011-01-05   -0.546356
2011-01-07   -0.417484
2011-01-08   -0.450892
dtype: float64

シリーズやデータフレームのインスタンスメソッドであるtruncateメソッドを使うことで、指定した範囲の時系列データを除くことができる  
キーワード引数のbeforeやafterに日付を渡すことで、beforeなら以前、afterなら以後の時系列データを除くことができる

In [41]:
dates = pd.date_range("1/1/2000", periods=100, freq="W-WED")

In [42]:
long_df = pd.DataFrame(np.random.randn(100, 4), 
                       index=dates,
                       columns=["Colorado", "Texas", "New York", "Ohio"])
long_df.loc["5-2001"]

Unnamed: 0,Colorado,Texas,New York,Ohio
2001-05-02,0.178417,0.921122,0.20518,-0.241434
2001-05-09,1.24932,-0.434853,0.095671,0.671308
2001-05-16,0.716019,-1.621056,-0.818953,0.156405
2001-05-23,-0.779468,0.181993,0.379287,1.4271
2001-05-30,0.103395,1.225012,-0.911249,1.05744


date_range関数のキーワード引数のfreqに"W-WED"を渡すことで水曜日のみに指定できる(後で解説)  
また、データフレームのlocにも同様に解釈可能な文字列を指定することで行をインデックス参照できる

## 11.2.2  重複したインデックスを持つ時系列

In [43]:
dates = pd.DatetimeIndex(["1/1/2000", "1/2/2000", "1/2/2000", "1/2/2000", "1/3/2000"])

In [44]:
dup_ts = pd.Series(np.arange(5), index=dates)
dup_ts

2000-01-01    0
2000-01-02    1
2000-01-02    2
2000-01-02    3
2000-01-03    4
dtype: int32

アプリケーションによっては、上のようにあらタイムスタンプに対して複数のデータを観測することがある

In [45]:
dup_ts.index.is_unique

False

インデックスが一意でないことはindexオブジェクトのis_uniqueで確認できる

In [46]:
dup_ts["1/3/2000"] # 重複していない

4

In [47]:
dup_ts["1/2/2000"] # 重複している

2000-01-02    1
2000-01-02    2
2000-01-02    3
dtype: int32

この時系列インデックス参照すると、タイムスタンプが重複しているかどうかによって、スカラー値かデータの集合が返ってくるかが変わる

In [48]:
grouped = dup_ts.groupby(level=0)

In [49]:
grouped.mean()

2000-01-01    0
2000-01-02    2
2000-01-03    4
dtype: int32

In [50]:
grouped.count()

2000-01-01    1
2000-01-02    3
2000-01-03    1
dtype: int64

一意でないスタンプを持つデータを集約したい場合は、groupbyメソッドでlevel=0を指定することでできるGroupByオブジェクトを使うことでできる

# 11.3  日付範囲、頻度、シフト

pandasの時系列では基本的に不規則なデータを想定していて、一定頻度であることを想定していない  
多くのアプリケーションはこれで十分だが、たとえ時系列に欠損値を追加することになったとしても、日次、月次、15分おきなどの一定頻度のデータを扱える方が望ましいこともある  
pandasは、標準的な時系列の頻度を扱う機能や、再サンプリング、頻度の推論、一定頻度の日付範囲生成などのツールを一式持っている

In [51]:
ts

2011-01-02   -0.751080
2011-01-05   -0.546356
2011-01-07   -0.417484
2011-01-08   -0.450892
2011-01-10   -0.775259
2011-01-12    0.839608
dtype: float64

In [52]:
resampler = ts.resample("D")
resampler

<pandas.core.resample.DatetimeIndexResampler object at 0x000002305FCAC988>

In [53]:
resampler.mean()

2011-01-02   -0.751080
2011-01-03         NaN
2011-01-04         NaN
2011-01-05   -0.546356
2011-01-06         NaN
2011-01-07   -0.417484
2011-01-08   -0.450892
2011-01-09         NaN
2011-01-10   -0.775259
2011-01-11         NaN
2011-01-12    0.839608
Freq: D, dtype: float64

例えば、時系列データを一定頻度の時系列データに変換するにはresampleメソッドを使うことででき、groupbyメソッドのときのように使うことができる  
ここで指定している"D"は日次の頻度を表している  
一定頻度を持つデータ間での変換や再サンプリングは大きなテーマなので、あとで詳しく説明する

## 11.3.1  日付範囲の生成

In [54]:
index = pd.date_range("2012-04-01", "2012-06-01")
index

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20',
               '2012-04-21', '2012-04-22', '2012-04-23', '2012-04-24',
               '2012-04-25', '2012-04-26', '2012-04-27', '2012-04-28',
               '2012-04-29', '2012-04-30', '2012-05-01', '2012-05-02',
               '2012-05-03', '2012-05-04', '2012-05-05', '2012-05-06',
               '2012-05-07', '2012-05-08', '2012-05-09', '2012-05-10',
               '2012-05-11', '2012-05-12', '2012-05-13', '2012-05-14',
               '2012-05-15', '2012-05-16', '2012-05-17', '2012-05-18',
               '2012-05-19', '2012-05-20', '2012-05-21', '2012-05-22',
               '2012-05-23', '2012-05-24', '2012-05-25', '2012-05-26',
      

先程も使ったが、pandasのdate_range関数を使うことで一定の頻度に従う指定した長さのDatetimeIndexを生成できる

In [55]:
pd.date_range(start="2012-04-01", periods=20)

DatetimeIndex(['2012-04-01', '2012-04-02', '2012-04-03', '2012-04-04',
               '2012-04-05', '2012-04-06', '2012-04-07', '2012-04-08',
               '2012-04-09', '2012-04-10', '2012-04-11', '2012-04-12',
               '2012-04-13', '2012-04-14', '2012-04-15', '2012-04-16',
               '2012-04-17', '2012-04-18', '2012-04-19', '2012-04-20'],
              dtype='datetime64[ns]', freq='D')

In [56]:
pd.date_range(end="2012-06-01", periods=20)

DatetimeIndex(['2012-05-13', '2012-05-14', '2012-05-15', '2012-05-16',
               '2012-05-17', '2012-05-18', '2012-05-19', '2012-05-20',
               '2012-05-21', '2012-05-22', '2012-05-23', '2012-05-24',
               '2012-05-25', '2012-05-26', '2012-05-27', '2012-05-28',
               '2012-05-29', '2012-05-30', '2012-05-31', '2012-06-01'],
              dtype='datetime64[ns]', freq='D')

デフォルトでは、date_rangeは日次のラインスタンプを生成する  
開始日または終了日だけを指定した場合は、生成する日数をキーワード引数のperiodsに渡して指定する必要がある

In [57]:
pd.date_range("2000-01-31", "2000-12-01", freq="BM")

DatetimeIndex(['2000-01-31', '2000-02-29', '2000-03-31', '2000-04-28',
               '2000-05-31', '2000-06-30', '2000-07-31', '2000-08-31',
               '2000-09-29', '2000-10-31', '2000-11-30'],
              dtype='datetime64[ns]', freq='BM')

date_range指定された開始日と終了日は、生成された日付のインデックスにおいて厳密な境界になり終了日も含まれる  
例えば、各月の最終営業日をインデックスに含ませたい場合は、"BM"(Business end of month)を頻度と指定することででき、指定した開始日と終了日に一致するか、範囲の内側に含まれる日付だけが結果に含まれる(上では2000-12-01が含まれていない)

時系列の基準頻度  

|文字|オフセットクラス|説明|
|:-|:-|:-|
|D|Day|暦通りの日次|
|B|BusinessDay|毎営業日|
|H|Hour|毎時|
|Tまたはmin|Minute|毎分|
|S|Second|毎秒|
|Lまたはms|Milli|毎ミリ秒(1秒の1000分の1)|
|U|Micro|毎マイクロ秒(1秒の1000000分の1)|
|M|MonthEnd|暦通りの月末ごと|
|BM|BusinessMonthEnd|月の最終営業日ごと|
|MS|MonthBegin|暦通りの月初ごと|
|BMS|BusinessMonthBegin|月の営業開始日ごと|
|W-MON, W-TUE, ...|Week|毎週指定した曜日ごと(MON, TUE, WED, THU, FRI, SAT, SUN)|
|WOM-1MON, WOM-2MON, ...|WeekOfMonth|月の第1～4週目の指定した曜日ごと(WOM-3FRIなら毎月第3金曜日ごと)|
|Q-JAN, Q-FEB, ...|QuarterEnd|指定した月に年度が終わる前提で、四半期の暦通りの月末ごと(JAN, FEB, MAR, APR, MAY, JUN, JUL, AUG, SEP, OCT, NOV, DEC)|
|BQ-JAN, BQ-FEB, ...|BusinessQuarterEnd|指定した月に年度が終わる前提で、四半期の最終営業日ごと|
|QS-JAN, QS-FEB, ...|QuarterBegin|指定した月に年度が終わる前提で、四半期の暦通りの月初めごと|
|BQS-JAN, BQS-FEB, ...|BusinessQuarterBegin|指定した月に年度が終わる前提で、四半期の営業開始日ごと|
|A-JAN, A-FEB, ...|YearEnd|1年に1度、指定した月の暦通りの月末ごと|
|BA-JAN, BA-FEB, ...|BusinessYearEnd|1年に1度、指定した月の最終営業日ごと|
|AS-JAN, AS-FEB, ...|YearBegin|1年に1度、指定した月の暦通りの月初ごと|
|BAS-JAN, BAS-FEB, ...|BusinessYearBegin|1年に1度、指定した月の営業開始日ごと|

In [58]:
pd.date_range("2012-05-02 12:56:31", periods=5)

DatetimeIndex(['2012-05-02 12:56:31', '2012-05-03 12:56:31',
               '2012-05-04 12:56:31', '2012-05-05 12:56:31',
               '2012-05-06 12:56:31'],
              dtype='datetime64[ns]', freq='D')

date_rangeは、デフォルトでは開始と終了のタイムスタンプを保存する

In [59]:
pd.date_range("2012-05-02 12:56:31", periods=5, normalize=True)

DatetimeIndex(['2012-05-02', '2012-05-03', '2012-05-04', '2012-05-05',
               '2012-05-06'],
              dtype='datetime64[ns]', freq='D')

開始日と終了日に時刻の情報を追加したいものの、タイムスタンプとしては午前零時に標準化したい場合はキーワード引数のnormalieにTrueを渡すことでできる

## 11.3.2  頻度と日付のオフセット

pandasにおいて、頻度は基準頻度と乗数の組み合わせで構成されている  
普通は、毎月の場合を"M"、毎時の場合を"H"のように、文字列で基準頻度を参照する  
基準頻度には、日付オフセットと一般的に呼ばれるオブジェクトが定義されていて、例えば、毎時の頻度の場合は、Hourクラスで表現できる

In [60]:
from pandas.tseries.offsets import Hour, Minute

In [61]:
hour = Hour()
hour

<Hour>

pandasのtsries.offsets.HourにHourクラスがある

In [62]:
four_hour = Hour(4)
four_hour

<4 * Hours>

整数を使って日付オフセットの倍数を定義することもできる("4H"と同じ)  
ほとんどアプリケーションでは、これらの日付オフセットを表現するオブジェクトを明示的に作成することはなく、通常は"H"や"4H"などの文字列を使う

In [63]:
pd.date_range("2000-01-01", "2000-01-03 23:59", freq="4H")

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 04:00:00',
               '2000-01-01 08:00:00', '2000-01-01 12:00:00',
               '2000-01-01 16:00:00', '2000-01-01 20:00:00',
               '2000-01-02 00:00:00', '2000-01-02 04:00:00',
               '2000-01-02 08:00:00', '2000-01-02 12:00:00',
               '2000-01-02 16:00:00', '2000-01-02 20:00:00',
               '2000-01-03 00:00:00', '2000-01-03 04:00:00',
               '2000-01-03 08:00:00', '2000-01-03 12:00:00',
               '2000-01-03 16:00:00', '2000-01-03 20:00:00'],
              dtype='datetime64[ns]', freq='4H')

基準頻度の前に整数を書けば、倍数が作られる

In [64]:
Hour(2) + Minute(30)

<150 * Minutes>

多くのオフセットは加算して組み合わせることができる

In [65]:
pd.date_range("2000-01-01", periods=10, freq="2h30min")

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 02:30:00',
               '2000-01-01 05:00:00', '2000-01-01 07:30:00',
               '2000-01-01 10:00:00', '2000-01-01 12:30:00',
               '2000-01-01 15:00:00', '2000-01-01 17:30:00',
               '2000-01-01 20:00:00', '2000-01-01 22:30:00'],
              dtype='datetime64[ns]', freq='150T')

同様に、頻度を表す文字列を組み合わせて"2h30min"のように指定することもできる

頻度によっては、等間隔の期間にならない場合があり、例えば、"M"(カレンダー上の月末)や"BM"(月の最後の営業日)は、その月の日数になる  
後者の場合は月末が週末どうかにもより、これらのオフセットをアンカー型オフセットと呼ぶこともある

### 11.3.2.1  月の第何週目の曜日

In [66]:
rng = pd.date_range("2012-01-01", "2012-09-01", freq="WOM-3FRI")
list(rng)

[Timestamp('2012-01-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-02-17 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-03-16 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-04-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-05-18 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-06-15 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-07-20 00:00:00', freq='WOM-3FRI'),
 Timestamp('2012-08-17 00:00:00', freq='WOM-3FRI')]

便利な頻度の指定の仕方に week of month (第何週目の曜日)がある  
WOMで始まる文字列と何週目の何曜日かを示す文字列で指定し、これによって各月の第3金曜日のような指定が可能になる

## 11.3.3  データの前方と後方へのシフト

ここでいうシフトとは、データを時間的に前方や後方へ移動させることを指す  

In [67]:
ts = pd.Series(np.random.randn(4), index=pd.date_range("1/1/2000", periods=4, freq="M"))
ts

2000-01-31    1.267005
2000-02-29    1.430477
2000-03-31   -0.276075
2000-04-30   -1.349169
Freq: M, dtype: float64

In [68]:
ts.shift(2)

2000-01-31         NaN
2000-02-29         NaN
2000-03-31    1.267005
2000-04-30    1.430477
Freq: M, dtype: float64

In [69]:
ts.shift(-2)

2000-01-31   -0.276075
2000-02-29   -1.349169
2000-03-31         NaN
2000-04-30         NaN
Freq: M, dtype: float64

シリーズもデータフレームもshiftメソッドを持っていて、単純な前方や後方へのシフトを行うことができる  
この時のインデックスは変わらない  
また、シフトを行うと時系列の最初か最後に欠損値が発生する

In [70]:
ts / ts.shift(1) - 1

2000-01-31         NaN
2000-02-29    0.129022
2000-03-31   -1.192995
2000-04-30    3.886965
Freq: M, dtype: float64

よくシフトを使うケースとしては、1つの時系列やデータフレームの複数の列にある複数の時系列のパーセンテージ変化を計算する場合があり、計算式は上のようになる

In [71]:
ts.shift(2, freq="M")

2000-03-31    1.267005
2000-04-30    1.430477
2000-05-31   -0.276075
2000-06-30   -1.349169
Freq: M, dtype: float64

単純なシフトはインデックスを変更しないので、いくつかのデータが切り捨てられてしまう  
もし頻度がわかっているのならば、キーワード引数のfreqに基準頻度を渡すことでデータだけでなくタイムスタンプ(インデックス)も移動させることができる

In [72]:
ts.shift(3, freq="D") # 3日分シフト

2000-02-03    1.267005
2000-03-03    1.430477
2000-04-03   -0.276075
2000-05-03   -1.349169
dtype: float64

In [73]:
ts.shift(1, freq="90T") # 90分だけシフト

2000-01-31 01:30:00    1.267005
2000-02-29 01:30:00    1.430477
2000-03-31 01:30:00   -0.276075
2000-04-30 01:30:00   -1.349169
Freq: M, dtype: float64

shiftメソッドには日付以外の頻度も指定することができる  
これによって柔軟に前方や後方へのシフトを変化させることができる  
例えば月ごとではなく日ごとにシフトさせたい場合は"D"、分ごとにシフトさせたい場合は"T"が使える

### 11.3.3.1  オフセットを指定して日付をシフトする

In [74]:
from pandas.tseries.offsets import Day, MonthEnd

In [75]:
now = datetime(2011, 11, 17)

In [76]:
now + 3 * Day() # 3 * Day() は Day(3)と同じ

Timestamp('2011-11-20 00:00:00')

pandasの日付オフセットはdatetimeオブジェクトやタイムスタンプオブジェクトに対しも使うことができる

In [77]:
now + MonthEnd()

Timestamp('2011-11-30 00:00:00')

In [78]:
now + MonthEnd(2) # MonthEnd(2) は 2 * MonthEnd と同じ

Timestamp('2011-12-31 00:00:00')

MonthEndのようなアンカー型のオフセットを加算した場合、指定した頻度分だけ日付が前進する

In [79]:
offset = MonthEnd()

In [80]:
offset.rollforward(now)

Timestamp('2011-11-30 00:00:00')

In [81]:
offset.rollback(now)

Timestamp('2011-10-31 00:00:00')

アンカー型のオフセットオブジェクトは、rollforwardメソッドやrollbackメソッドを持っていて、datetimeオブジェクトなどを渡すことで日付の前進や後退を行うことができる

In [82]:
ts = pd.Series(np.random.randn(20), 
               index=pd.date_range("1/15/2000", periods=20, freq="4d")) # 4日ごとのデータ
ts

2000-01-15    0.212968
2000-01-19    0.127289
2000-01-23   -0.244661
2000-01-27    0.623309
2000-01-31    0.317508
2000-02-04   -0.098379
2000-02-08    1.522351
2000-02-12    0.887707
2000-02-16   -0.158020
2000-02-20   -0.196466
2000-02-24   -1.318289
2000-02-28    0.834324
2000-03-03   -0.562724
2000-03-07    0.273239
2000-03-11   -0.205535
2000-03-15   -0.983166
2000-03-19   -0.133887
2000-03-23   -1.224005
2000-03-27   -1.481184
2000-03-31   -0.325338
Freq: 4D, dtype: float64

In [83]:
ts.groupby(offset.rollforward).mean() # offset = MonthEnd()

2000-01-31    0.207283
2000-02-29    0.210461
2000-03-31   -0.580325
dtype: float64

日付オフセットのいい使い方には、これらのメソッドをgroupbyメソッドに渡して一緒に使う方法があり、上では月末にその月の内容をまとめて平均を求めている

In [84]:
ts.resample("M").mean()

2000-01-31    0.207283
2000-02-29    0.210461
2000-03-31   -0.580325
Freq: M, dtype: float64

この場合は、resampleメソッドを使うことで簡単に早く同じことができる  
この内容はまた後で扱う

# 11.4  タイムゾーンを扱う

ほとんどの時系列ユーザーは、時系列を協定世界時、つまりUTCで扱っている  
UTCはグリニッジ標準時の後継で、現在では国際標準になっている  
タイムゾーンはUTCからの時差で表現し、例えば、ニューヨークはサマータイム時はUTCから4時間遅れていて、それ以外のときは5時間遅れている

Pythonでは、タイムゾーン情報はサードパーティ製のpytzライブラリから取得している  
pytzライブラリはオルソンデータベース(世界のタイムゾーン情報を集めたもの)をPythonで使用可能にする  
pandasではpytzライブラリをラップしているため、タイムゾーン以外のAPIの部分は無視することができる  
タイムゾーン名に関しては、スクリプトを実行して対話的に確認でき、またドキュメントで確認することができる

In [85]:
import pytz

In [86]:
pytz.common_timezones[-5:]

['US/Eastern', 'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC']

pytzのcommon_timeonesにタイムゾーン名が収められている

In [87]:
tz = pytz.timezone("America/New_York")
tz

<DstTzInfo 'America/New_York' LMT-1 day, 19:04:00 STD>

pytzのtimezone関数にタイムゾーン名を渡すことで、その地域のタイムゾーンオブジェクトを取得することができる  
pandasのメソッドでは、タイムゾーン名やタイムゾーンオブジェクトが利用可能になる

## 11.4.1  タイムゾーンのローカライゼーションと変換

In [88]:
rng = pd.date_range("3/9/2012 9:30", periods=6, freq="D")

In [89]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2012-03-09 09:30:00   -1.593051
2012-03-10 09:30:00   -0.093786
2012-03-11 09:30:00    0.460255
2012-03-12 09:30:00   -0.886761
2012-03-13 09:30:00    0.954222
2012-03-14 09:30:00    1.019620
Freq: D, dtype: float64

In [90]:
print(ts.index.tz)

None


デフォルトでは、pandasの時系列はタイムゾーンに関して曖昧な状態で、インデックスオブジェクトのtz属性はNoneになっている

In [91]:
pd.date_range("3/9/2012 9:30", periods=6, freq="D", tz="UTC")

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

日付範囲は、DatetimeIndexオブジェクトを作成するときにキーワード引数のtzにタイムゾーン名を渡すことで指定して生成できる

In [92]:
ts_utc = ts.tz_localize("UTC") # 世界標準時
ts_utc

2012-03-09 09:30:00+00:00   -1.593051
2012-03-10 09:30:00+00:00   -0.093786
2012-03-11 09:30:00+00:00    0.460255
2012-03-12 09:30:00+00:00   -0.886761
2012-03-13 09:30:00+00:00    0.954222
2012-03-14 09:30:00+00:00    1.019620
Freq: D, dtype: float64

In [93]:
ts_utc.index

DatetimeIndex(['2012-03-09 09:30:00+00:00', '2012-03-10 09:30:00+00:00',
               '2012-03-11 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='D')

タイムゾーンが未設定の状態から、ローカライズされた状態にするには、シリーズオブジェクトのtz_localizeメソッドを使いタイムゾーン名を渡すことできる

In [94]:
ts_utc.tz_convert("America/New_York")

2012-03-09 04:30:00-05:00   -1.593051
2012-03-10 04:30:00-05:00   -0.093786
2012-03-11 05:30:00-04:00    0.460255
2012-03-12 05:30:00-04:00   -0.886761
2012-03-13 05:30:00-04:00    0.954222
2012-03-14 05:30:00-04:00    1.019620
Freq: D, dtype: float64

すでに特定のタイムゾーンにローカライズされている時系列を、他のタイムゾーンに再設定したい場合は、シリーズオブジェクトのtz_convertメソッドにタイムゾーン名を渡すことでできる  
時間もそのタイムゾーンに適した時間に変更される

In [95]:
ts_easten = ts.tz_localize("America/New_York")
ts_easten.tz_convert("UTC")

2012-03-09 14:30:00+00:00   -1.593051
2012-03-10 14:30:00+00:00   -0.093786
2012-03-11 13:30:00+00:00    0.460255
2012-03-12 13:30:00+00:00   -0.886761
2012-03-13 13:30:00+00:00    0.954222
2012-03-14 13:30:00+00:00    1.019620
Freq: D, dtype: float64

In [96]:
ts_easten.tz_convert("Europe/Berlin")

2012-03-09 15:30:00+01:00   -1.593051
2012-03-10 15:30:00+01:00   -0.093786
2012-03-11 14:30:00+01:00    0.460255
2012-03-12 14:30:00+01:00   -0.886761
2012-03-13 14:30:00+01:00    0.954222
2012-03-14 14:30:00+01:00    1.019620
Freq: D, dtype: float64

サマータイム遷移をまたがったデータでも他の時間に変更することができる

In [97]:
ts.index.tz_localize("Asia/Shanghai")

DatetimeIndex(['2012-03-09 09:30:00+08:00', '2012-03-10 09:30:00+08:00',
               '2012-03-11 09:30:00+08:00', '2012-03-12 09:30:00+08:00',
               '2012-03-13 09:30:00+08:00', '2012-03-14 09:30:00+08:00'],
              dtype='datetime64[ns, Asia/Shanghai]', freq='D')

tz_localizeメソッドとtz_convertメソッドは、DatetimeIndexオブジェクトのインスタンスメソッドとしても定義されている

## 11.4.2  タイムゾーンを考慮したタイムスタンプオブジェクト

時系列や日付範囲と同じように、個別のタイムスタンプオブジェクトも、曖昧な状態からタイムゾーンを考慮した状態にローカライズしたり、あるタイムゾーンから別のタイムゾーンに変換することができる

In [98]:
stamp = pd.Timestamp("2011-03-12 04:00")

In [99]:
stamp_utc = stamp.tz_localize("utc")

In [100]:
stamp_utc.tz_convert("America/New_York")

Timestamp('2011-03-11 23:00:00-0500', tz='America/New_York')

pandasのTimestamp関数に解釈可能な日付の文字列を渡すことでタイムスタンプオブジェクトを作成でき、tz_localizeメソッドとtz_convertメソッドを使うことができる

In [101]:
stamp_moscow = pd.Timestamp("2011-03-12 04:00", tz="Europe/Moscow")
stamp_moscow

Timestamp('2011-03-12 04:00:00+0300', tz='Europe/Moscow')

Timestamp関数を使ってタイムスタンプオブジェクトを生成するときに、キーワード引数のtzにタイムゾーン名を渡すことでも設定できる

In [102]:
stamp_utc.value

1299902400000000000

In [103]:
stamp_utc.tz_convert("America/New_York").value

1299902400000000000

タイムゾーンを考慮したタイムスタンプオブジェクトは、内部にUTCのタイムスタンプ値をUNIXエポック時間からのナノ秒単位の経過時間として保持していて、value属性を使うことでアクセスできる  
このUTC値は、タイムゾーンを変換しても変わらない

In [104]:
from pandas.tseries.offsets import Hour

In [105]:
stamp = pd.Timestamp("2012-03-11 01:30", tz="US/Eastern") # サマータイム開始の30分前
stamp

Timestamp('2012-03-11 01:30:00-0500', tz='US/Eastern')

In [106]:
stamp + Hour()

Timestamp('2012-03-11 03:30:00-0400', tz='US/Eastern')

In [107]:
stamp = pd.Timestamp("2012-11-04 00:30", tz="US/Eastern") # サマータイム終了の90分前
stamp

Timestamp('2012-11-04 00:30:00-0400', tz='US/Eastern')

In [108]:
stamp + 2 * Hour()

Timestamp('2012-11-04 01:30:00-0500', tz='US/Eastern')

pandasの日付オフセットオブジェクトを使って、時間の算術計算を行うときは、サマータイム遷移が可能な限り考慮される

## 11.4.3  別のタイムゾーンとの演算

In [109]:
rng = pd.date_range("3/7/2012 9:30", periods=10, freq="B")

In [110]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2012-03-07 09:30:00    0.333815
2012-03-08 09:30:00    0.749053
2012-03-09 09:30:00   -1.505195
2012-03-12 09:30:00    0.571687
2012-03-13 09:30:00    1.462468
2012-03-14 09:30:00   -1.186968
2012-03-15 09:30:00   -2.585234
2012-03-16 09:30:00    0.331584
2012-03-19 09:30:00   -0.548682
2012-03-20 09:30:00   -1.162719
Freq: B, dtype: float64

In [111]:
ts1 = ts[:7].tz_localize("Europe/London")
ts2 = ts1[2:].tz_convert("Europe/Moscow")

In [112]:
ts1 # ロンドンの標準時

2012-03-07 09:30:00+00:00    0.333815
2012-03-08 09:30:00+00:00    0.749053
2012-03-09 09:30:00+00:00   -1.505195
2012-03-12 09:30:00+00:00    0.571687
2012-03-13 09:30:00+00:00    1.462468
2012-03-14 09:30:00+00:00   -1.186968
2012-03-15 09:30:00+00:00   -2.585234
Freq: B, dtype: float64

In [113]:
ts2 # モスクワの標準時

2012-03-09 13:30:00+04:00   -1.505195
2012-03-12 13:30:00+04:00    0.571687
2012-03-13 13:30:00+04:00    1.462468
2012-03-14 13:30:00+04:00   -1.186968
2012-03-15 13:30:00+04:00   -2.585234
Freq: B, dtype: float64

In [114]:
result = ts1 + ts2
result.index # UTCになる

DatetimeIndex(['2012-03-07 09:30:00+00:00', '2012-03-08 09:30:00+00:00',
               '2012-03-09 09:30:00+00:00', '2012-03-12 09:30:00+00:00',
               '2012-03-13 09:30:00+00:00', '2012-03-14 09:30:00+00:00',
               '2012-03-15 09:30:00+00:00'],
              dtype='datetime64[ns, UTC]', freq='B')

2つの別々のタイムゾーンの時系列を持っているデータ同士を演算するとUTCとした結果が返ってくる  

# 11.5  期間を使った算術演算

期間は、日、月、四半期、年など、一定の期間を表現し、Periodクラスはこのようなデータ型を表現している  
期間を表現するには、文字列か整数、時系列の基準頻度を使う

In [115]:
p = pd.Period(2007, freq="A-DEC") # Aは年、DECが12月末を表す freq=A でも可
p

Period('2007', 'A-DEC')

pandasのPeriod関数に時系列と、freqに期間を渡すことでPeriodオブジェクトを生成できる  
上の例ではPriodオブジェクトは2007年1月1日から2007年12月31日までを含んだ期間を表現している  

In [116]:
p + 5

Period('2012', 'A-DEC')

In [117]:
p-2

Period('2005', 'A-DEC')

Periodオブジェクトに対して整数を足したり引いたりすると、定義した頻度に従って期間をずらすことができる

In [118]:
pd.Period("2014", freq="A-DEC") - p

<7 * YearEnds: month=12>

2つの期間が同じ頻度を持つ場合に差を取ると、2つの期間の間に含まれる単位期間のオフセットオブジェクトが返される

In [119]:
rng = pd.period_range("2000-01-01", "2000-06-30", freq="M")
rng

PeriodIndex(['2000-01', '2000-02', '2000-03', '2000-04', '2000-05', '2000-06'], dtype='period[M]', freq='M')

定期的な範囲の期間は、period_range関数に開始の時系列と終了の時系列とfreqに期間を渡すことできる  
この場合返ってくるのはPeriodIndexオブジェクトになる

In [120]:
pd.Series(np.random.randn(6), index=rng)

2000-01   -1.102581
2000-02   -1.959000
2000-03    0.208600
2000-04   -0.343081
2000-05   -0.832615
2000-06    0.324945
Freq: M, dtype: float64

PeriodIndexクラスは期間のシーケンスを保持していて、pandasのデータ構造の中でインデックスとして渡すことができる

In [121]:
values = ["2001Q3", "2002Q2", "2003Q1"]

In [122]:
index = pd.PeriodIndex(values, freq="Q-DEC") # Qは四半期を表す Q-DEC は Q でも可
index

PeriodIndex(['2001Q3', '2002Q2', '2003Q1'], dtype='period[Q-DEC]', freq='Q-DEC')

時系列の文字列の配列がある場合は、pandasのPeriodIndex関数に渡すことでPeriodIndexオブジェクトを作成することができる

## 11.5.1  期間頻度の変換

In [123]:
p = pd.Period("2007", freq="A-DEC")
p

Period('2007', 'A-DEC')

In [124]:
p.asfreq("M", how="start")

Period('2007-01', 'M')

In [125]:
p.asfreq("M", how="end")

Period('2007-12', 'M')

PeriodオブジェクトやPeriodIndexオブジェクトはasfreqメソッドを使うことで別の頻度に変えることができる  
第一引数に基準頻度を渡し、キーワード引数のhow(第二引数)に"start"か"end"(デフォルトはend)を渡すことで変換することができる

In [126]:
p = pd.Period("2007", freq="A-JUN") # 6月末までの期間
p

Period('2007', 'A-JUN')

In [127]:
p.asfreq("M", "start")

Period('2006-07', 'M')

In [128]:
p.asfreq("M", "end")

Period('2007-06', 'M')

上の変数pは、1か月の期間でさらに分割されている全体の期間を指し示すカーソルと考えることができる  
12月以外で年度が終わる営業年度の場合は、対応する1か月の期間が異なる

In [129]:
p = pd.Period("Aug-2007", "M")
p

Period('2007-08', 'M')

In [130]:
p.asfreq("A-JUN")

Period('2008', 'A-JUN')

高い頻度から低い頻度に変換する場合、短いほうの期間がどこに含まれるかで変換後の期間が決まる  
例えば上のような場合2007年8月は2008年の期間に含まれる

In [131]:
rng = pd.period_range("2006", "2009", freq="A-DEC")
rng

PeriodIndex(['2006', '2007', '2008', '2009'], dtype='period[A-DEC]', freq='A-DEC')

In [132]:
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2006    0.089318
2007    1.344399
2008    1.100108
2009   -1.098614
Freq: A-DEC, dtype: float64

In [133]:
ts.asfreq("M", how="start")

2006-01    0.089318
2007-01    1.344399
2008-01    1.100108
2009-01   -1.098614
Freq: M, dtype: float64

PeriodIndexオブジェクトや時系列を持つpandasオブジェクトにもasfreqメソッドを使うことができ、同じように変換することができる

In [134]:
ts.asfreq("B", how="end")

2006-12-29    0.089318
2007-12-31    1.344399
2008-12-31    1.100108
2009-12-31   -1.098614
Freq: B, dtype: float64

各年の最後の営業日にしたい場合は"B"を基準頻度として渡し、howに"end"を渡して期間の最後を使うことを指示することでできる

## 11.5.2  四半期の頻度

多くの四半期報告は年度の最後の日、もしくは最後の営業日である会計年度末と関連して報告される  
したがって、2012Q4という期間は会計年度の決め方によって意味が違ってくる  
pandasはQ-JANからQ-DECまでの12個すべての四半期の頻度をサポートする

In [135]:
p = pd.Period("2012Q4", freq="Q-JAN") # Q-JAN は会計年度が1月を表す
p

Period('2012Q4', 'Q-JAN')

会計年度が1月である場合は、2012Q4は11月から1月までになる  

In [136]:
p.asfreq("D", "start")

Period('2011-11-01', 'D')

In [137]:
p.asfreq("D", "end")

Period('2012-01-31', 'D')

上のように四半期の情報を日に換算して開始日と終了日を見てみることで四半期の範囲を確認できる

In [138]:
p4pm = (p.asfreq("B", "e") - 1).asfreq("T", "s") + 16 * 60 # Bは営業日、Tは分を表す。eはend、sはstartと同義
p4pm

Period('2012-01-30 16:00', 'T')

期間に対して簡単な算術演算を行うことができ、上では四半期最後の営業日の1日前の16時に変換している  
.asfreq("T", "s") + 16 * 60の部分は.asfreq("H", "s") + 16でも同じようにできる

In [139]:
p4pm.to_timestamp()

Timestamp('2012-01-30 16:00:00')

Periodオブジェクトは、to_timestampメソッドを使うことでTimestampとして取得することができる

In [140]:
rng = pd.period_range("2011Q3", "2012Q4", freq="Q-JAN")
rng

PeriodIndex(['2011Q3', '2011Q4', '2012Q1', '2012Q2', '2012Q3', '2012Q4'], dtype='period[Q-JAN]', freq='Q-JAN')

In [141]:
ts = pd.Series(np.arange(len(rng)), index=rng)
ts

2011Q3    0
2011Q4    1
2012Q1    2
2012Q2    3
2012Q3    4
2012Q4    5
Freq: Q-JAN, dtype: int32

pandasのperiod_range関数を使うことで四半期を使った一定の範囲の期間を生成することもできる

In [142]:
new_rng = (rng.asfreq("B", "e") - 1).asfreq("T", "s") + 16 * 60
new_rng

PeriodIndex(['2010-10-28 16:00', '2011-01-28 16:00', '2011-04-28 16:00',
             '2011-07-28 16:00', '2011-10-28 16:00', '2012-01-30 16:00'],
            dtype='period[T]', freq='T')

In [143]:
ts.index = new_rng.to_timestamp()
ts

2010-10-28 16:00:00    0
2011-01-28 16:00:00    1
2011-04-28 16:00:00    2
2011-07-28 16:00:00    3
2011-10-28 16:00:00    4
2012-01-30 16:00:00    5
dtype: int32

period_rangeメソッドで作成したPeriodIndexオブジェクトに対して算術演算を行うこともでき、既存のpandasオブジェクトのindexオブジェクトに代入して再設定することができる

## 11.5.3  タイムスタンプから期間への変換(とその逆)