#  <font color=red> Module_09_時間序列建模</font>

## 日期、時間、區間的表示方法以及工具

### datetime、day、time 物件

In [None]:
import pandas as pd
import numpy as np
from datetime import datetime

# import datetime 要使用 datetime 類別，要寫 datetime.datetime()
# 但是因為這個類別太常用，所以我們使用 from datetime import datetime 比較簡潔方便
# 這樣就可以直接調用 datetime() 類別與建立實體物件
# datetime 物件包括年、月、日、時、分...
# 來 new 一個 datetime 實體物件
datetime(2014, 12, 15)

In [None]:
datetime(2014, 12, 15, 17, 30, 5) # 年、月、日、時、分、秒

In [None]:
# 調用類方法，直接生成現在的時間，返回現在時間的實體物件
now = datetime.now()
now

In [None]:
# 可以用它的屬性直接獲得年、月、日、時、分、秒
# 別忘了這是 tuple 的寫法
now.year, now.month, now.day, now.hour, now.minute, now.second

---

In [None]:
from datetime import date
d = date(2020, 3, 10) # datetime.date 物件代表特定的一天 (沒有時間成分)
d

In [None]:
d.year, d.month, d.day

---

In [None]:
# 如果是日期時間物件怎麼把時間去除 ?
day = datetime(2021, 2, 23, 8, 10)
day

In [None]:
# 調用 .date() 方法就可以把時間給刪掉，返回日期實體物件
day.date()

In [None]:
datetime.now().date()

---

---

In [None]:
# 使用剛剛的邏輯，這是沒有日期成分的時間
from datetime import time
time(4, 50, 40) # 時、分、秒

In [None]:
day = datetime(2014, 12, 15, 17, 30)
day

In [None]:
day.time()

In [None]:
datetime.now().time()

### 以 Timestamp 表示一個時間點

In [None]:
# Pandas 裡日期與時間的表示，是利用 pandas.tslib.Timestamp 類別執行
# 其精準度比 python 的 datetime 物件來得高
# 且 pd.Timestamp() 類別看得懂字串
# 來 new 一個 Timestamp 實體物件
pd.Timestamp('2014-12-15')

In [None]:
pd.Timestamp('2014-12-15 17:30')

In [None]:
pd.Timestamp(2014, 12, 15, 17, 30) # 當然也可以按照之前那種習慣的寫法!

In [None]:
# Timestamp 也可以只以時間建立
# 此時日期會預設為本地日期
pd.Timestamp('17:30')

In [None]:
pd.Timestamp('now')

### 以 Timedelta 表示時間區間

In [None]:
# datetime 儲存了日期、時間，精確度可以到微秒。 timedelta 物件用來表示兩個 datetime 物件之間的時間差
delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)
delta

In [None]:
# timedelta 物件的 days 屬性
delta.days

In [None]:
# timedelta 物件的 seconds 屬性
delta.seconds

---

In [None]:
from datetime import timedelta

start = datetime(2011, 1, 7) # 沒有設定時間，預設就是都是 0
start

In [None]:
start + timedelta(12, 45, 50) # timedelta(日, 秒, 微秒)

In [None]:
start - 2*timedelta(12) # 減去 24 天

In [None]:
date1 = datetime(2014, 12, 2)
date2 = datetime(2014, 11, 28)
date1 - date2

---

In [None]:
# 也可使用 pandas 的全域函式 pd.Timedelat()
today = datetime(2014, 11, 30)
today

In [None]:
tomorrow = today + pd.Timedelta(days = 1) # 參數有很多可選，需要時再上網查
tomorrow

---

In [None]:
today = pd.Timestamp('2014-11-30')
today

In [None]:
tomorrow = today + pd.Timedelta(days = 1)
tomorrow

### 字串和時間日期轉換

In [None]:
stamp = datetime(2011, 1, 3)
stamp

In [None]:
# 使用 str() 函式轉換成字串
str(stamp)

In [None]:
# 使用 datetime 物件的 .strftime() 方法轉換成字串，可自選格式
stamp.strftime('%Y-%m-%d')

---

In [None]:
stamp = pd.Timestamp(2011, 1, 3)
stamp

In [None]:
str(stamp)

In [None]:
# Timestamp 物件一樣有 .strftime() 方法可以用
stamp.strftime('%Y-%m-%d')

---

In [None]:
# 使用類方法 datetime.strptime() 把字串轉日期
# 要給出正確的時間日期形式才能解析成功
value = '2011-01-03'
datetime.strptime(value, '%Y-%m-%d')

In [None]:
value = '2011-01-03 00:00:00'
datetime.strptime(value, '%Y-%m-%d') # 形式沒給對!

In [None]:
value = '2011-01-03 00:00:00'
datetime.strptime(value, '%Y-%m-%d %H:%M:%S')

In [None]:
datestrs = ['7/6/2011', '8/6/2011']
[datetime.strptime(i, '%m/%d/%Y') for i in datestrs]

---

In [None]:
value

In [None]:
# 也可以用 pandas 的全域函式 pd.to_datetime() 來解析字串
# 會返回 Timestamp 物件
pd.to_datetime(value)

In [None]:
datestrs

In [None]:
# 會返回 DatetimeIndex 物件
pd.to_datetime(datestrs)

---

In [None]:
value

In [None]:
pd.Timestamp(value) # 直接把 value 帶入，new 一個實體物件也是可以

In [None]:
datestrs

In [None]:
pd.Timestamp(datestrs) # 這樣當然會失敗!

---

In [None]:
# 還可以使用第三方套件 dateutil 中的 parser.parse 模組來解析
# 可以不用寫格式規格，相當方便，但不是什麼形式都可以解析成功喔!
# 會返回 datetime 物件
from dateutil.parser import parse

parse('2011-01-03')

In [None]:
parse('Jan 31, 1997 10:45 PM')

In [None]:
parse('6/12/2011')

In [None]:
parse('6/12/2011', dayfirst = True) # 參數 dayfirst 會使第一位當成日，跟上面比較看看!

In [None]:
parse(datestrs) # 也沒辦法帶入列表

## 時間序列資料簡介

### 使用 DatetimeIndex 作為索引

In [None]:
# 用 datetime 物件來建立
dates = [datetime(2014, 8, 1), datetime(2014, 8, 2)]
ts = pd.Series(np.random.randn(2), index = dates)
ts

In [None]:
ts.index

In [None]:
type(ts.index) # 序列接收 datetime 物件後，從日期值建構 DatetimeIndex

In [None]:
ts.index[0] # 雖然是用 datetime 物件建構，但放進序列後會統一都換成 Timestamp 物件

In [None]:
type(ts.index[0]) # 每個索引值都是一個 Timestamp 物件

---

In [None]:
# 用 Timestamp 物件來建立，好處之一是可以直接使用字串
dates = [pd.Timestamp('2014-08-01'), pd.Timestamp('2014-08-02')]
ts = pd.Series(np.random.randn(2), index = dates)
ts

In [None]:
ts.index

In [None]:
ts.index[0]

---

In [None]:
# 也可以先用字串組成一個列表再傳入 pd.DatetimeIndex 類別，建立一個實體物件
# 也就是直接 new 一個 DatetimeIndex 物件
dates = ['2014-08-01', '2014-08-02']
dates = pd.DatetimeIndex(dates)
dates

In [None]:
ts = pd.Series(np.random.randn(2), index = dates)
ts

In [None]:
ts.index

In [None]:
ts.index[0]

---

In [None]:
# 函式 pd.to_datetime() 接收一系列相似或混合型別物件，嘗試將這些物件轉換成 Timestamp 物件以及產生 DatetimeIndex 物件
# 無法轉換會填入 NaT
dti = pd.to_datetime(['Aug 1, 2014', '2014-08-02', '2014.8.3', None])
dti

In [None]:
for i in dti: print(i) 

In [None]:
pd.to_datetime(['Aug 1, 2014', 'foo']) # 無法解析是什麼的會產生例外

In [None]:
pd.to_datetime(['Aug 1, 2014', 'foo'], errors = "coerce") # 設定參數 errors = "coerce" 會把無法解析是什麼的也產生 NaT

---

In [None]:
# 之前很常遇到的用 pd.date_range() 函式建立 DatetimeIndex
# pd.date_range() 可以給開頭時間，再設定參數 periods 和 freq
np.random.seed(123456)
periods = pd.date_range('8/1/2014', periods = 10) # 預設 freq = 'D'
date_series = pd.Series(np.random.randn(10), index = periods)
date_series

In [None]:
date_series.index

In [None]:
type(date_series.index[0])

In [None]:
subset = date_series[3:7]
subset

In [None]:
s2  = pd.Series([10, 100, 1000, 10000], index = subset.index)
s2

---

In [None]:
date_series

In [None]:
s2

In [None]:
# 會執行對齊
date_series + s2

---

In [None]:
date_series

In [None]:
# 可用 datetime 物件來提取
date_series[datetime(2014, 8, 5)]

In [None]:
# 可用 Timestamp 物件來提取
date_series[pd.Timestamp('2014-8-5')]

In [None]:
# 也可直接透過字串來提取
# 當然也可以用 .loc[] 運算子
date_series['2014-08-05']

---

In [None]:
date_series

In [None]:
# 索引標籤的切片是會包含最後一項的喔!
# 記得此處的切片跟之前對 NumPy 陣列做切片時一樣，是會在原始資料上產生一個 view，在 view 上做的修改會同步到原始資料上
date_series['2014-08-05':'2014-08-07']

In [None]:
date_series[datetime(2014, 8, 5):]

In [None]:
date_series.truncate(after = '8/9/2014') # 序列的方法， 參數 after 之後的都不要 # 也有參數 before 可用

---

In [None]:
# pd.date_range() 也可以給開頭時間跟結束時間，再設定參數 freq
dates  = pd.date_range('2013-01-01', '2014-12-31', freq = 'M') # freq = 'M'，是月底 # freq = 'MS' 是月初
s3 = pd.Series(np.random.randint(0, 10, len(dates)), index = dates)
s3

In [None]:
s3.index

In [None]:
# 可利用日期規格的一部分來切割 DatetimeIndex
# 跟 s3[s3.index.year == 2013] 布林選擇同效果
s3['2013']

In [None]:
s3['2014-05']

In [None]:
s3['2014-08':'2014-09']

---

In [None]:
# 若目標改為 Dataframe，當然也可以用一樣的邏輯使用 pd.data_range() 函式
dates = pd.date_range('1/1/2000', periods = 100, freq = 'W-WED') # freq = 'W-WED' 代表每周的禮拜三
long_df = pd.DataFrame(np.random.randn(100, 4),
                       index = dates,
                       columns = ['Colorado', 'Texas', 'New York', 'Ohio'])
long_df

In [None]:
long_df.loc['5-2001']

### 有重複索引的時間序列

In [None]:
# 在某些應用中，同一個時間戳記有可能有多個觀察值
dates = pd.DatetimeIndex(['1/1/2000', '1/2/2000', '1/2/2000', '1/2/2000', '1/3/2000'])
dup_ts = pd.Series(np.arange(5), index = dates)
dup_ts

In [None]:
dup_ts.index.is_unique

In [None]:
# 沒有重複，產生常數值
dup_ts['1/3/2000']

In [None]:
# 重複，會產生切片，也就是一個序列
dup_ts['1/2/2000']

In [None]:
grouped = dup_ts.groupby(level = 0)

In [None]:
grouped.mean()

In [None]:
grouped.count()

### 建立特定頻率的時間序列

In [None]:
# 預設為 freq = 'D'，是以每日的區間為頻率來建立
dates = pd.date_range('2014-08-01', '2014-10-29')
bymin = pd.Series(np.random.randn(len(dates)),
                  index = dates)
bymin

In [None]:
# freq = 'T'， 是以每分鐘的區間為頻率來建立
dates = pd.date_range('2014-08-01', '2014-10-29 23:59', freq = 'T')
bymin = pd.Series(np.random.randn(len(dates)),
                  index = dates)
bymin

In [None]:
bymin['2014-08-01 00:02':'2014-08-01 00:07']

In [None]:
# freq = 'B' 建立只有營業日的時間序列
# 周末的兩天被忽略了
days = pd.date_range('2014-08-29', '2014-09-05', freq = 'B')
days

In [None]:
# BM (business end of month): 每個月的最後一個上班日
pd.date_range('2000-01-01', '2000-12-01', freq = 'BM')

In [None]:
pd.date_range('2000-01-01', '2000-01-02', freq = '4h')

In [None]:
pd.date_range('2000-01-01', '2000-01-02', freq = '4h30min')

---

In [None]:
# 如果只有傳入開始或結束時間的話，必須在另外傳入要產生多少周期的數量
pd.date_range(start = '2014-08-01 12:10:01', freq = 'S', periods = 5) # 頻率為秒

In [None]:
pd.date_range(end = '2014-08-01 12:10:01', periods = 10)

In [None]:
# normalize = True 會把時間統一設為午夜
pd.date_range('2012-05-02 12:56:31', periods = 5, normalize = True)

## 使用偏移值計算新日期

### 以日期偏移值表示資料區間

In [None]:
# pandas 利用 Dateoffset 物件的觀念，延伸了 Timedelta 物件的概念
# Dateoffset 物件的功能更強大
dti = pd.date_range('2014-08-29', '2014-09-05', freq = 'B')
dti

In [None]:
dti.values

In [None]:
dti.freq

---

In [None]:
d = datetime(2014, 8, 29)
do = pd.DateOffset(days = 1)
d + do

In [None]:
# 跟上面同樣效果，但是返回不同的物件
do = pd.Timedelta(days = 1)
d + do

---

In [None]:
d

In [None]:
from pandas.tseries.offsets import BusinessDay

d + BusinessDay() # 加一天營業日

In [None]:
d + 2*BusinessDay()

---

In [None]:
d

In [None]:
from pandas.tseries.offsets import Hour, Minute, Day
d + Hour() # 更多的偏移量可以使用 # 裡面不給值預設 1 小時

In [None]:
d + 3*Day()

In [None]:
d + Hour(4) + Minute(30)

---

In [None]:
d

In [None]:
from pandas.tseries.offsets import BMonthEnd, MonthEnd
d + BMonthEnd() # 月的最後一個營業日，也就是月的最後一個上班日

In [None]:
d2 = datetime(2014, 8, 10)
d2

In [None]:
d2 + BMonthEnd()

In [None]:
d2 + MonthEnd() # 這是月的最後一天喔!

---

In [None]:
d3 = pd.Timestamp('2014-08-10')
d3 + BMonthEnd()

In [None]:
type(BMonthEnd()) # 物件

In [None]:
BMonthEnd().rollforward(datetime(2014, 9, 15)) # 使用物件的 .rollforward() 方法 # 往前偏移 # 也可帶字串

In [None]:
BMonthEnd().rollback(datetime(2014, 9 ,15)) # 使用物件的 .rollback() 方法 # 往後偏移

---

In [None]:
ts = pd.Series(np.random.randn(20), 
               index = pd.date_range('1/15/2000', periods = 20, freq= '4d'))
ts

In [None]:
# 一個有創意的用法
# 可以想成是要在每個月底算每個月值的平均
ts.groupby(MonthEnd().rollforward).mean() # 傳入的是一個函式，所以會對索引標籤操作

In [None]:
# 得到同樣的結果，後面會詳細介紹此方法
ts.resample('M').mean()

In [None]:
# 'MS': 每個月的第一個月曆日，也就是月初
ts.resample('MS').mean()

---

In [None]:
d

In [None]:
# weekday = 0 是星期一，weekday = 6 是星期日
from pandas.tseries.offsets import Week

d - Week(weekday = 1) # 計算 2014-08-29 前一個星期二

In [None]:
d = datetime(2014, 8, 27)
d - Week(weekday = 1)

In [None]:
d = datetime(2021, 9, 15)
d - Week(weekday = 4)

### 錨點偏移

In [None]:
# W-SUN : 每週的星期天
# W-MON : 每週的星期一，依此類推
wednesdays = pd.date_range('2014-06-01', '2014-07-31', freq = 'W-WED')
wednesdays

In [None]:
# 每月的第幾周的星期幾
# 例如每月第三周的星期五
rng = pd.date_range('2021-01-01', '2021-10-01', freq = 'WOM-3FRI')
rng

In [None]:
# B : 營業日
# S : 週期開始而非結束
# A : 表示年度
# Q : 表示季度
qends = pd.date_range('2014-01-01', '2014-12-31', freq = 'BQS-JAN') # 定錨在一月，2014 每季季末的月初營業日
qends

In [None]:
qends = pd.date_range('2014-01-01', '2014-12-31', freq = 'BQS-FEB') # 定錨在二月，2014 每季季末的月初營業日
qends

In [None]:
qends = pd.date_range('2014-01-01', '2014-12-31', freq = 'BQS-MAR')
qends

In [None]:
qends = pd.date_range('2014-01-01', '2014-12-31', freq = 'BQS-APR') # 注意一下順序
qends

In [None]:
qends = pd.date_range('2014-01-01', '2014-12-31', freq = 'BQS-JUN') 
qends

## 利用 Period 表示持續時間

### 利用 Period 對時間區間 (期間) 建模

In [None]:
aug2014 = pd.Period('2014-08', freq = 'M') # 這是在建立區間物件，所以這裡的 freq = 'M' 表示 月
aug2014 # 返回 Period 物件

In [None]:
aug2014.start_time

In [None]:
aug2014.end_time

In [None]:
# 位移一單位的【代表頻率】
sep2014 = aug2014 + 1
sep2014

In [None]:
# Period 聰明到知道 9 月只有 30 天
sep2014.start_time, sep2014.end_time

---

In [None]:
p = pd.Period(2007, freq = 'A-DEC') # 代表一整年的區間，年底在 2007 年 12 月底
p

In [None]:
p.start_time, p.end_time

In [None]:
p1 = pd.Period(2007, freq = 'A-JUN') # 代表一整年的區間，年底在 2007 年 6 月底

In [None]:
p1.start_time, p1.end_time

---

In [None]:
p

In [None]:
p + 5

In [None]:
p - 2

In [None]:
# 頻率一樣可以看差幾個單位
pd.Period('2014', freq = 'A-DEC') - p

### 使用 PeriodIndex 作為索引

In [None]:
# 使用 period_range 函式可以產生有規律的時間區間
# 這時候的 freq = "M" 是月，要知道跟 pd.date_range() 的差別
mp2013 = pd.period_range('1/1/2013', '12/31/2013', freq = 'M')
mp2013

In [None]:
# PeriodIndex 與 DatetimeIndex 的差異點在於索引標籤是 Period 物件
# 不同物件有不同的屬性跟方法
for p in mp2013:
    print('{} -> {}'.format(p.start_time, p.end_time))

In [None]:
# 可以想成某支股票在某月份的平均股價，並非在於特定的時間點
# 這項特點在重新取樣時間序列成另一個頻率時非常有用，等等就會遇到
np.random.seed(12345)
ps = pd.Series(np.random.randn(12), mp2013)
ps

In [None]:
dates = [datetime(2013, 1, 1), datetime(2013, 2, 1)] # 跟上面的比較一下 ，這裡的索引標籤是 Timestamp 物件喔!
pd.Series(np.random.randn(2), index = dates)

---

In [None]:
np.random.seed(123456)
idx = pd.period_range('1/1/2013', '12/31/2014', freq = 'M')
ps = pd.Series(np.random.randn(len(idx)), index = idx)
ps

In [None]:
ps['2014-06'] # 雖然是區間物件但一樣用字串就能選取

In [None]:
ps['2014']

In [None]:
ps['2014-03':'2014-06']

---

In [None]:
values = ['2001Q3', '2002Q2', '2003Q1']
index = pd.PeriodIndex(values, freq = 'Q-DEC') # 一月一日開始是 Q1
index

In [None]:
index.start_time # PeriodIndex 物件也有 .start_time 屬性

In [None]:
index.end_time # PeriodIndex 物件也有 .end_time 屬性

In [None]:
values = ['2001Q3', '2002Q2', '2003Q1']
index = pd.PeriodIndex(values, freq = 'Q-MAR') # 四月一日開始是 Q1
index

In [None]:
index.start_time

In [None]:
index.end_time

### 時間區間頻率轉換

In [None]:
p = pd.Period('2007', freq = 'A-DEC')
p

In [None]:
p.start_time, p.end_time

In [None]:
# 從低頻率轉成高頻率
# 用 Period 物件的 .asfreq() 方法換頻率
p1 = p.asfreq('M', how = 'start') # 換成月。如何換，從開始換
p1

In [None]:
p1.start_time, p1.end_time

---

In [None]:
p

In [None]:
p2 = p.asfreq('M', how = 'end')
p2

In [None]:
p2.start_time, p2.end_time

---

In [None]:
p = pd.Period('2007', freq = 'A-JUN')
p

In [None]:
p.asfreq('M', 'start')

In [None]:
p.asfreq('M', 'end')

---

In [None]:
# 當你從高頻率轉成低頻率時，pandas 會以子時間屬於誰來決定上層時間區間
p = pd.Period('Aug-2007', freq = "M")
p

In [None]:
p.asfreq('A-JUN')

---

In [None]:
# 整個 PeriodIndex 或時間序列也可以用同樣的邏輯來做轉換
# 時間序列的頻率轉換後面會有例子
# 時間序列就是索引標籤是 Timestamp 物件
rng = pd.period_range('2006', '2009', freq = 'A-DEC')
ts =  pd.Series(np.random.randn(len(rng)), index = rng)
ts

In [None]:
ts1 = ts.asfreq('M', how = 'start') # 從低頻轉高頻 # 值不會改變
ts1

In [None]:
ts1.index.start_time, ts1.index.end_time

In [None]:
ts2 = ts.asfreq('B', how = 'end') # 從低頻轉高頻 # 在這裡的 'B' 是最後一天營業日 <- 這是區間喔!
ts2

In [None]:
ts2.index.start_time, ts2.index.end_time

### 季度期間頻率

In [None]:
p = pd.Period('2012Q4', freq = 'Q-JAN') # 從二月一日開始是 Q1
p

In [None]:
p.start_time, p.end_time

In [None]:
p.asfreq('D', 'start') # 從低頻轉高頻 # 在這裡的 'D' 是一整天

In [None]:
p.asfreq('D', 'end')

---

In [None]:
p

In [None]:
p.asfreq('B', 'e') # 季末最後一個營業日

In [None]:
p.asfreq('B', 'e') - 1 # 季末倒數第二個營業日  

In [None]:
(p.asfreq('B', 'e') - 1).asfreq('T', 's') # 這裡的 'T' 是表示分鐘區間

In [None]:
p4pm = (p.asfreq('B', 'e') - 1).asfreq('T', 's') + 16*60 # 一小時 60 分鐘，加 16*60 單位就到下午四點那個分鐘
p4pm

In [None]:
p4pm.to_timestamp() # 轉成時間戳記

---

In [None]:
# 可以用 period_range() 函式產生多個季度期間，也可以做一樣的算術運算
rng = pd.period_range('2011Q3', '2012Q4', freq = 'Q-JAN')
ts = pd.Series(np.arange(len(rng)), index = rng)
ts

In [None]:
new_rng = (rng.asfreq('B', 'e') - 1).asfreq('T', 's') + 16*60
new_rng

In [None]:
ts.index = new_rng.to_timestamp()
ts

### 時間戳記和期間轉換

In [None]:
rng = pd.date_range('2000-01-01', periods = 3, freq = 'M')
ts = pd.Series(np.random.randn(3), index = rng)
ts

In [None]:
ts.index

In [None]:
pts = ts.to_period()
pts

In [None]:
pts.index

---

In [None]:
rng = pd.date_range('1/29/2000', periods = 6, freq = 'D')
ts2 = pd.Series(np.random.randn(6), index = rng)
ts2

In [None]:
ts2.to_period('M')

---

In [None]:
pts = ts2.to_period()
pts.index[0]

In [None]:
pts.to_timestamp(how = 'end')

### 從陣列建立 PeriodIndex

In [None]:
# 有著固定頻率的資料集，時間間隔資訊有時候會分別存在好幾個欄位，例如 macroeconomic 資料集
data = pd.read_csv('./mod09/macrodata.csv')
data

In [None]:
data.year

In [None]:
data.quarter

In [None]:
index = pd.PeriodIndex(year = data.year, quarter = data.quarter, freq = 'Q-DEC')
index

In [None]:
data.index = index
data

## 處理日曆中的假日

In [None]:
import pandas as pd
from datetime import datetime
from pandas.tseries.holiday import *
from pandas.tseries.offsets import *

cal = USFederalHolidayCalendar()
for d in cal.holidays(start = '2014-01-01', end = '2014-12-31'):
    print(d)

In [None]:
cbd = CustomBusinessDay(holidays = cal.holidays())
datetime(2014, 8, 29) + cbd

## 時區

In [None]:
import pytz

# 在操作時間序列資料時，若碰到時區問題，一般都會令人覺得不開心
# 所以很多時間序列的使用者都選擇使用世界協調時間(coordinated universal time, UTC)
# 現今的國際標準，時區則用 UTC 的偏移量表示
# 例如紐約在實行日光節約時間 (DST) 時，比 UTC 晚 4 小時，非日光節約時間時，則比 UTC 晚 5 個小時

pytz.common_timezones[-5:]

In [None]:
# 使用 pytz.timezone 可以取得 pytz 中的時區物件
# pandas 中的方法，可以通吃時區名稱或是時區物件
# 亞洲台北: Asia/Taipei 

tz = pytz.timezone('America/New_York')
tz

### 時區本地化及轉換

In [None]:
# 預設上來說，pandas中的時間序列是不含時區資訊的

rng = pd.date_range('3/9/2012 9:30', periods = 6, freq = 'D')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

In [None]:
# DatatimeIndex 與其 Timestamp 物件預設也都沒有時區資料
print(ts.index)
print(ts.index[0])

In [None]:
print(ts.index.tz)
print(ts.index[0].tz)

---

In [None]:
#　Timestamp 物件預設也沒有時區資料

now = pd.Timestamp('now')
now

In [None]:
print(now.tz)

---

In [None]:
# 指定時區

pd.date_range('3/9/2012 9:30', periods = 10, freq = 'D', tz = 'UTC')

In [None]:
# 也可以用 tz_localize() 方法，將不含時區資訊的資料轉換為含本地時區資訊的資料:

ts

In [None]:
ts_utc = ts.tz_localize('UTC')
ts_utc

In [None]:
ts_utc.index

---

In [None]:
# 一旦時間序列被本地化為某個特定時區後，就可以用 tz_convert 將它轉換成另外一個時區
# 剛好跨過日光節約時間

ts_utc.tz_convert('America/New_York')

In [None]:
ts_eastern = ts.tz_localize('America/New_York')
ts_eastern

In [None]:
ts_eastern.tz_convert('UTC')

In [None]:
ts_eastern.tz_convert('Europe/Berlin')

---

In [None]:
# tz_localize() 和 tz_convert() 同時也是 DatetimeIndex 的實例方法

ts.index

In [None]:
ts.index.tz_localize('Asia/Shanghai')

### 含時區的 Timestamp 物件

In [None]:
stamp = pd.Timestamp('2011-03-12 04:00')
stamp

In [None]:
stamp_utc = stamp.tz_localize('UTC')
stamp_utc

In [None]:
stamp_utc.tz_convert('America/New_York')

In [None]:
# 也可以在建立 Timestamp 時同步指定時區

stamp_moscow = pd.Timestamp('2011-03-12 04:00', tz = 'Europe/Moscow')
stamp_moscow

---

In [None]:
now = pd.Timestamp('now')
now

In [None]:
mountain_tz  = pytz.timezone('US/Mountain')
eastern_tz = pytz.timezone('US/Eastern')

mountain_tz.localize(now)

In [None]:
eastern_tz.localize(now)

---

In [None]:
# 含時區資訊的 Timestamp 物件內部儲存一個 UTC 的時間戳記，從 Unix紀元 (1970 年 1 月 1 日)起算，單位是奈秒
# 這個 UTC 值不管時區怎麼轉換都是不變的

stamp_utc.value

In [None]:
stamp_utc.tz_convert('America/New_York').value

---

In [None]:
from pandas.tseries.offsets import Hour

stamp = pd.Timestamp('2012-03-11 01:30', tz = 'US/Eastern')
stamp

In [None]:
# 利用 pandas 的 DateOffset 物件執行時間的算術運算時，pandas 會盡量配合日光節約轉換
# 日光節約時間前 30 分鐘
stamp + Hour()

In [None]:
# 離開日光節約時間前 90 分鐘
stamp = pd.Timestamp('2012-11-04 00:30', tz = 'US/Eastern')
stamp

In [None]:
stamp + 2*Hour()

### 不同時區的操作

In [None]:
# 如果不同區的兩個時間序列要合併的話，出來的時區將會是 UTC

rng = pd.date_range('3/7/2012 9:30', periods = 10, freq = 'B')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

In [None]:
ts1 = ts[:7].tz_localize('Europe/London')
ts1

In [None]:
ts2 = ts1[2:].tz_convert('Europe/Moscow')
ts2

In [None]:
# 值會對齊
# 出來的時區將會是 UTC

result = ts1 + ts2
result

In [None]:
result.index

---

In [None]:
s_mountain = pd.Series(np.arange(0, 5),
                    index = pd.date_range('2014-08-01', 
                                        periods = 5, freq = "H", 
                                        tz = 'US/Mountain'))
s_eastern = pd.Series(np.arange(0, 5), 
                   index = pd.date_range('2014-08-01', 
                                       periods = 5, freq = "H", 
                                       tz = 'US/Eastern'))
s_mountain

In [None]:
s_eastern

In [None]:
s_eastern + s_mountain

In [None]:
s_pacific = s_eastern.tz_convert("US/Pacific")
s_pacific

In [None]:
s_mountain + s_pacific

## 操控時間序列資料

### 移動與滯後

In [None]:
ts = pd.Series([1, 2, 2.5, 1.5, 0.5],
               index = pd.date_range('2014-08-01', periods = 5))
ts

In [None]:
# 資料往前一單位，索引標籤保持不變
# 會出現遺失值
ts.shift(1)

In [None]:
ts.shift(-2)

In [None]:
# 移動常用來計算每天百分比的改變
ts/ts.shift(1) - 1

---

In [None]:
# 移動一個營業日
# 索引標籤改變，資料不變，不會有遺失值
ts.shift(1, freq = 'B')

In [None]:
ts.shift(1, freq = 'H')

In [None]:
ts.shift(1, freq = pd.DateOffset(minutes = 0.5))

In [None]:
ts.shift(1, freq = '90T')

In [None]:
ts.shift(-1, freq = 'H')

In [None]:
ts.shift(3, freq = 'D')

### 時間序列的頻率轉換

In [None]:
dates = pd.date_range('08-01-2014', freq = '2H', periods = 31*24)
hourly = pd.Series(np.arange(0, len(dates)), 
                  index = dates)
hourly[:5]

In [None]:
hourly.index

In [None]:
hourly.index[0]

---

In [None]:
# 資料會對齊
# 有很多列的資料被丟棄了
daily = hourly.asfreq('D')
daily

In [None]:
# 再轉回每小時的頻率，會看到很多值變成 NaN
daily.asfreq('H')

In [None]:
# 利用 method 參數來填塞 NaN
daily.asfreq('H', method = 'ffill')

In [None]:
daily.asfreq('H', method = 'bfill')

### 時間序列重新取樣

In [None]:
# 重新取樣是個動作程序，意思是將時間序列從一種頻率轉換為另一種頻率
# 如果將較高頻率轉換成較低頻率，稱為降低取樣頻率 (downsampling)
# 如果將較低頻率轉換成較高頻率，稱為提高取樣頻率 (upsampling)
# 但重新取樣也有不屬於這兩種情況的，例如將 W-WED 轉換成 W-FRI
# resample 方法跟 groupby 方法有類似的 API

In [None]:
rng = pd.date_range('2000-01-01', periods = 100, freq = 'D')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

In [None]:
ts.resample('M').mean()

In [None]:
# kind 可以選擇聚合到期間 (period) 或是戳記(timestamp)，預設使用該時間序列的 index 本來的種類
ts.resample('M', kind = 'period').mean()

---

In [None]:
# 降低取樣頻率
rng = pd.date_range('2000-01-01', periods = 12, freq = 'T')
ts = pd.Series(np.arange(12), index = rng)
ts

In [None]:
# 預設上左端會被包含 (closed)
# 預設會以每組的左端點為時間戳記的標籤
ts.resample('5min').sum()

In [None]:
ts.resample('5min', closed = 'right').sum()

In [None]:
# 若傳入 label = 'right'，會把標籤改為右端點
ts.resample('5min', closed = 'right', label = 'right').sum()

In [None]:
ts.resample('5min', closed = 'right', label = 'right').sum()

In [None]:
# 你可能想要把產出的 index 做位移若干單位，例如將右端減去一分鐘，讓它更貼近時間戳記參照的時間分段
ts.resample('5min', closed = 'right', label = 'right').sum().shift(-1, freq = 's')

---

In [None]:
# 開始-最大-最小-結束(OHLC) 重新取樣
# 在財務的應用上，常會把時間序列聚合，然後計算每組的四個值:開始(open)、結束(close)、最大(high)、最小(low)。
# 藉由使用 .ohlc() 方法，就可以得到含有這四個聚合值的 Dataframe
ts.resample('5min').ohlc()

---

In [None]:
# 提高取樣和內插值
# 當從低頻率轉為高頻率時，沒有聚合的動作

frame = pd.DataFrame(np.random.randn(2, 4),
                    index = pd.date_range('1/1/2000', periods = 2, freq = 'W-WED'),
                    columns = ['Colorado', 'Texas', 'New York', 'Ohio'])
frame

In [None]:
df_daily = frame.resample('D').asfreq()  # 等同於 frame.asfreq('D')
df_daily

In [None]:
# 和使用 fillna() 與 reindex() 方法類似去做填充與插值
frame.resample('D').ffill()

In [None]:
frame.resample('D').ffill(limit = 2)

In [None]:
# 新資料的 index 完全不需要和舊資料 index 重疊
frame.resample('W-THU').ffill()

---

In [None]:
# 指定期間重新取樣
# 以期間為 index 的資料，重新取樣的方法跟以時間戳記為 index 的資料類似
frame = pd.DataFrame(np.random.randn(24, 4),
                    index = pd.period_range('1-2000', '12-2001', freq = 'M'),
                    columns = ['Colorado', 'Texas', 'New York', 'Ohio'])
frame

In [None]:
annual_frame  = frame.resample('A-DEC').mean()
annual_frame

In [None]:
annual_frame.index

In [None]:
annual_frame.resample('Q-DEC').asfreq()

In [None]:
annual_frame.resample('Q-DEC').ffill()

In [None]:
annual_frame.resample('Q-DEC', convention = 'end').ffill()

In [None]:
# 由於期間是一種時間間隔，所以用來提高或降低取樣的規定就更嚴格
# 在做降低取樣時，目標頻率一定要是原始頻率的子期間 (subperiod)
# 在做提高取樣時，目標頻率一定要是原始頻率的超期間 (superperiod)
# 無法滿足會得到一個例外
# 例如由 Q-MAR 定義出來的時間間隔僅能支持 A-MAR、A-JUN、A-SUP、A-DEC

annual_frame.resample('Q-MAR').ffill()

## 時間序列的移動視窗運算

In [None]:
# pandas 在序列與資料框物件上面提供 .rolling() 方法，直接支援滾動視窗
# 我們還能從 .rolling() 的結果呼叫許多不同的方法，對視窗進行運算
# 例如滾動平均用來消除短期波動，並強調長期趨勢，常用在金融時間序列的分析

In [None]:
# 準備建立代表五天的隨機漫步值的時間序列
np.random.seed(123456)
count = 24 * 60 * 60 * 5
values = np.random.randn(count)
ws = pd.Series(values)
ws

In [None]:
walk = ws.cumsum()
walk

In [None]:
walk.index = pd.date_range('2014-08-01', periods = len(walk), freq = "S")
walk[:100]

In [None]:
first_minute = walk['2014-08-01 00:00']
first_minute

In [None]:
means = first_minute.rolling(window = 5, center = False).mean()
means[:10]

In [None]:
first_minute[:5].sum()/5

In [None]:
# .rolling().mean() 提供了比較平滑的資料表示方式
# 視窗愈大，產生的變異愈小，視窗愈小，產生的變異愈大
means.plot()
first_minute.plot();

---

In [None]:
# 注意，視窗愈大，曲線一開始缺少的資料越多
# 一個大小為 n 的視窗要等到有 n 個資料點才能進行計算
hlw = walk['2014-08-01 00:00']
means2 = hlw.rolling(window = 2, center = False).mean()
means5 = hlw.rolling(window = 5, center = False).mean()
means10 = hlw.rolling(window = 10, center = False).mean()
hlw.plot()
means2.plot()
means5.plot()
means10.plot();

---

In [None]:
# 利用 .rolling().apply() 方法，也可以把任何使用者自定義的函數套用在滾動視窗
# 底下示範計算滾動視窗內的資料值與視窗平均值的差異的平均值
mean_abs_dev = lambda x: np.fabs(x - x.mean()).mean()
means = hlw.rolling(window = 5, center = False).apply(mean_abs_dev)
means

In [None]:
np.fabs(hlw[:5] - hlw[:5].mean()).mean()

In [None]:
means.plot()

---

In [None]:
# 還有一個擴張視窗平均的計算方法，它總是從時間序列的第一個值開始，不斷的重複計算視窗資料的平均值
# 只不過每次迭代時，都讓視窗大小增加一
# 擴張視窗平均比滾動視窗來得穩定，因為隨著視窗變大，下一個值的影響就會越小
expanding = hlw.expanding(min_periods = 1).mean()
expanding[:10]

In [None]:
hlw[0]

In [None]:
hlw[:2].mean()

In [None]:
hlw.plot()
expanding.plot();

## 綜合應用

In [None]:
close_px_all = pd.read_csv('./mod09/stock_px_2.csv', parse_dates = True, index_col = 0)
close_px_all

In [None]:
close_px = close_px_all[['AAPL', 'MSFT', 'XOM']]
close_px

In [None]:
close_px = close_px.resample('B').ffill()
close_px

In [None]:
close_px.AAPL.plot()
close_px.AAPL.rolling(window = 250).mean().plot()

In [None]:
# 預設上 rolling 函式的視窗中的值，都必須是 non-NA
# 這行為可使用參數 min_periods 來調整
appl_std250 = close_px.AAPL.rolling(250, min_periods = 10).std()
appl_std250[:20]

In [None]:
close_px.AAPL[:10].std()

In [None]:
appl_std250.plot()

---

In [None]:
# 如果 Dataframe 呼叫移動視窗的話，就會對每個欄位都套用運算
close_px.rolling(window = 60).mean().plot(logy = True)

In [None]:
# rolling() 函式也接受指定固定時間位移量的字串
close_px.rolling(window = '3D').mean()

---

In [None]:
appl_px = close_px.AAPL['2006':'2007']
appl_px

In [None]:
ma30 = appl_px.rolling(window = 30, min_periods = 20).mean()
ma30[:25]

In [None]:
appl_px[:10]

In [None]:
# 指數加權函式

ewma30 = appl_px.ewm(span = 30).mean()
ewma30

In [None]:
import matplotlib.pyplot as plt
ma30.plot(style = 'k--', label = 'Simple MA')
ewma30.plot(style = 'k-', label = 'EW MA')
plt.legend();

---

In [None]:
# 二元移動視窗函式
spx_px = close_px_all['SPX']
spx_px

In [None]:
spx_rets = spx_px.pct_change()
spx_rets

In [None]:
returns = close_px.pct_change()
returns

In [None]:
corr = returns.AAPL.rolling(125, min_periods = 100).corr(spx_rets)
corr

In [None]:
corr.plot();

In [None]:
corr = returns.rolling(125, min_periods = 100).corr(spx_rets)
corr.plot();

---

In [None]:
# 準備建立代表五天的隨機漫步值的時間序列
np.random.seed(123456)
count = 24 * 60 * 60 * 5
values = np.random.randn(count)
ws = pd.Series(values)
ws

In [None]:
walk = ws.cumsum()
walk

In [None]:
walk.index = pd.date_range('2014-08-01', periods = len(walk), freq = "S")
walk[:100]

In [None]:
# pandas 的重新取樣是利用 .resample() 方法並傳給一個新頻率來完成
# 此方法在填值的時候比 .asfreq() 方法在填值時更有彈性
# 此例是向下取樣
walk.resample('1min').mean()

In [None]:
walk['2014-08-01 00:00'].mean()

In [None]:
walk.resample('1min', closed = 'right').mean()

In [None]:
walk.resample('1min').first()

---

In [None]:
bymin = walk.resample('1min').mean()
bymin

In [None]:
bymin.resample('S').mean()

In [None]:
bymin.resample('S').bfill()

In [None]:
interpolated  = bymin.resample('S').interpolate()
interpolated

In [None]:
bymin['2014-08-01 00:00:00'] + (bymin['2014-08-01 00:01:00'] - bymin['2014-08-01 00:00:00'])*(1/60)

---

In [None]:
walk

In [None]:
ohlc = walk.resample('H').ohlc()
ohlc

In [None]:
walk['2014-08-01 00'][0]

In [None]:
walk['2014-08-01 00'].max()

In [None]:
walk['2014-08-01 00'].min()

In [None]:
walk['2014-08-01 00'][-1]