範例目標:<br>
1. 實做時間序列資料操作
2. 實做時間上的四則運算與操作

範例重點:<br>
1. 時間序列的資料非常注重時間的間隔(年、月、日、時、分、秒)
2. 時間也有分不同資料型態，在這邊使用timestamps的資料型態，須注意不同資料型態是不可以一起運算的

In [None]:
import pandas as pd
import numpy as np

In [None]:
#同樣差一個月，但是相差的天數不同
#所以時間序列的資料非常注重時間的間隔
rng = pd.date_range('1/1/2020', periods=10, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2020-01-31    1.057729
2020-02-29   -0.296776
2020-03-31   -0.984358
2020-04-30    0.205607
2020-05-31   -0.189151
2020-06-30   -0.624924
2020-07-31   -1.168424
2020-08-31   -1.383008
2020-09-30   -0.606416
2020-10-31   -1.391943
Freq: M, dtype: float64

In [None]:
#時間間隔很重要，可以藉由.to_period()控制時間長度，參數freq代表時間頻率(Y:年、M:月、D:日、H:小時)
#更改時間頻率:年
ts.to_period(freq="Y")

2020    1.296478
2020    1.484486
2020   -0.386317
2020   -0.013741
2020   -0.735426
2020    0.617767
2020    0.898438
2020    0.771031
2020    1.757624
2020   -0.656737
Freq: A-DEC, dtype: float64

In [None]:
#更改時間頻率:月
ts.to_period(freq="M")

2020-01    1.296478
2020-02    1.484486
2020-03   -0.386317
2020-04   -0.013741
2020-05   -0.735426
2020-06    0.617767
2020-07    0.898438
2020-08    0.771031
2020-09    1.757624
2020-10   -0.656737
Freq: M, dtype: float64

In [None]:
#更改時間頻率:日
ts.to_period(freq="D")

2020-01-31    1.296478
2020-02-29    1.484486
2020-03-31   -0.386317
2020-04-30   -0.013741
2020-05-31   -0.735426
2020-06-30    0.617767
2020-07-31    0.898438
2020-08-31    0.771031
2020-09-30    1.757624
2020-10-31   -0.656737
Freq: D, dtype: float64

In [None]:
#更改時間頻率:小時
ts.to_period(freq="H")

2020-01-31 00:00    1.296478
2020-02-29 00:00    1.484486
2020-03-31 00:00   -0.386317
2020-04-30 00:00   -0.013741
2020-05-31 00:00   -0.735426
2020-06-30 00:00    0.617767
2020-07-31 00:00    0.898438
2020-08-31 00:00    0.771031
2020-09-30 00:00    1.757624
2020-10-31 00:00   -0.656737
Freq: H, dtype: float64

In [None]:
#可運用索引的方式取出需要的時間點
ts['2020-03-31': '2020-07-31']

2020-03-31   -0.386317
2020-04-30   -0.013741
2020-05-31   -0.735426
2020-06-30    0.617767
2020-07-31    0.898438
Freq: M, dtype: float64

In [None]:
#也可以用月的方式做索引操作
ts['2020-02': '2020-05']

2020-02-29    1.484486
2020-03-31   -0.386317
2020-04-30   -0.013741
2020-05-31   -0.735426
Freq: M, dtype: float64

In [None]:
#分時間資料以及字串差別，時間需要使用pd.Timestamp()做設定，並不是只使用字串就可以代表時間
str_date = '2020-10-10'
date = pd.Timestamp(2020,10,10)

In [None]:
#type是字串
str_date, type(str_date)

('2020-10-10', str)

In [None]:
#type是Timestamp
date,type(date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

In [None]:
#時間轉字串
date2str = date.strftime('%Y-%m-%d')
date2str, type(date2str)

('2020-10-10', str)

In [None]:
# 字串轉時間
str2date = pd.to_datetime(str_date)
str2date, type(str2date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

In [None]:
ts

2020-01-31    1.057729
2020-02-29   -0.296776
2020-03-31   -0.984358
2020-04-30    0.205607
2020-05-31   -0.189151
2020-06-30   -0.624924
2020-07-31   -1.168424
2020-08-31   -1.383008
2020-09-30   -0.606416
2020-10-31   -1.391943
Freq: M, dtype: float64

In [None]:
#移動（shifting）指的是沿著時間軸將資料前移或後移。Series 和 DataFrame 都有一個 .shift() 方法用於執行單純的移動操作
ts.shift(2,freq='D')

In [None]:
#直接呼叫出年月日，在timestamps後面加上回傳的year, month, day即可
date.year,date.month,date.day

(2020, 10, 10)

In [None]:
# 也可以呼叫星期與周數
date.day_name(), date.weekofyear

('Saturday', 41)

In [None]:
date1 = pd.Timestamp(2020,10,10)
date2 = pd.Timestamp(2020,11,10)

In [None]:
#Timestamps可以直接加時間或是計算時間差距
date2 - date1

Timedelta('31 days 00:00:00')

In [None]:
date1 + pd.Timedelta(days=1)

Timestamp('2020-10-11 00:00:00')

In [None]:
#也可以加工作日天數 two_business_days = 2 * pd.offsets.BDay() 表示工作天
two_business_days = 2 * pd.offsets.BDay()
date1_add_two_business_days = date1 + two_business_days
date1.day_name(), date1_add_two_business_days.day_name()

('Saturday', 'Tuesday')

In [None]:
s = pd.Series([1, 2], index=pd.period_range('2018-01-01',freq='Y',periods=2))
s

2018    1
2019    2
Freq: A-DEC, dtype: int64

In [None]:
#更改時間頻率如果從年轉成季該怎麼做?可以運用resample函數將年轉成季，如沒有值的填上nan
s.resample('Q').asfreq()

2018Q1    1.0
2018Q2    NaN
2018Q3    NaN
2018Q4    NaN
2019Q1    2.0
2019Q2    NaN
2019Q3    NaN
2019Q4    NaN
Freq: Q-DEC, dtype: float64