# 範例目標:
1. 實做時間序列資料操作
2. 實做時間上的四則運算與操作

# 範例重點:
1. 時間序列的資料非常注重時間的間隔(年、月、日、時、分、秒)
2. 時間也有分不同資料型態，在這邊使用timestamps的資料型態，須注意不同資料型態是不可以一起運算的

In [1]:
import pandas as pd
import numpy as np


`
pandas.date_range(start=None, end=None, periods=None, freq=’D’, tz=None, normalize=False, name=None, closed=None, **kwargs)
`


|參數|型別|
|---|---|
|start|string或datetime-like，默認值是None，表示日期的起點|
|end|string或datetime-like，默認值是None，表示日期的終點|
|periods|integer或None，默認值是None，表示你要從這個函數產生多少個日期索引值；如果是None的話，那麼start和end必須不能為None|
|freq|string或DateOffset，(Y:年、M:月、D:日、H:小時)，默認值是’D’，表示以自然日為單位，這個參數用來指定計時單位，比如’5H’表示每隔5個小時計算一次|
|tz|string或None，表示時區，例如：’Asia/Hong_Kong’|
|normalize|bool，默認值為False，如果為True的話，那麼在產生時間索引值之前會先把start和end都轉化為當日的午夜0點|
|name|str，默認值為None，給返回的時間索引指定一個名字|
|closed|string或者None，默認值為None，表示start和end這個區間端點是否包含在區間內，可以有三個值，’left’表示左閉右開區間，’right’表示左開右閉區間，None表示兩邊都是閉區間|

**同樣差一個月，但是相差的天數不同**

**所以時間序列的資料非常注重時間的間隔**

In [3]:
rng = pd.date_range('1/1/2020', periods=10, freq='M')
rng

DatetimeIndex(['2020-01-31', '2020-02-29', '2020-03-31', '2020-04-30',
               '2020-05-31', '2020-06-30', '2020-07-31', '2020-08-31',
               '2020-09-30', '2020-10-31'],
              dtype='datetime64[ns]', freq='M')

In [2]:
rng = pd.date_range('1/1/2020', periods=10, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2020-01-31   -0.252017
2020-02-29   -0.012751
2020-03-31    0.120922
2020-04-30   -0.606202
2020-05-31   -0.067104
2020-06-30    0.740778
2020-07-31    1.806956
2020-08-31   -0.129697
2020-09-30    0.161174
2020-10-31    1.053694
Freq: M, dtype: float64

**時間間隔很重要，可以藉由`.to_period()`控制時間長度，參數freq代表時間頻率(Y:年、M:月、D:日、H:小時)**


更改時間頻率:年

In [4]:
ts.to_period(freq="Y")

2020   -0.252017
2020   -0.012751
2020    0.120922
2020   -0.606202
2020   -0.067104
2020    0.740778
2020    1.806956
2020   -0.129697
2020    0.161174
2020    1.053694
Freq: A-DEC, dtype: float64

更改時間頻率:月

In [5]:
ts.to_period(freq="M")

2020-01   -0.252017
2020-02   -0.012751
2020-03    0.120922
2020-04   -0.606202
2020-05   -0.067104
2020-06    0.740778
2020-07    1.806956
2020-08   -0.129697
2020-09    0.161174
2020-10    1.053694
Freq: M, dtype: float64

更改時間頻率:周

In [34]:
ts.to_period(freq="W")

2020-01-27/2020-02-02   -0.252017
2020-02-24/2020-03-01   -0.012751
2020-03-30/2020-04-05    0.120922
2020-04-27/2020-05-03   -0.606202
2020-05-25/2020-05-31   -0.067104
2020-06-29/2020-07-05    0.740778
2020-07-27/2020-08-02    1.806956
2020-08-31/2020-09-06   -0.129697
2020-09-28/2020-10-04    0.161174
2020-10-26/2020-11-01    1.053694
Freq: W-SUN, dtype: float64

更改時間頻率:日

In [6]:
ts.to_period(freq="D")

2020-01-31   -0.252017
2020-02-29   -0.012751
2020-03-31    0.120922
2020-04-30   -0.606202
2020-05-31   -0.067104
2020-06-30    0.740778
2020-07-31    1.806956
2020-08-31   -0.129697
2020-09-30    0.161174
2020-10-31    1.053694
Freq: D, dtype: float64

更改時間頻率:小時

In [7]:
ts.to_period(freq="H")

2020-01-31 00:00   -0.252017
2020-02-29 00:00   -0.012751
2020-03-31 00:00    0.120922
2020-04-30 00:00   -0.606202
2020-05-31 00:00   -0.067104
2020-06-30 00:00    0.740778
2020-07-31 00:00    1.806956
2020-08-31 00:00   -0.129697
2020-09-30 00:00    0.161174
2020-10-31 00:00    1.053694
Freq: H, dtype: float64

**可運用索引的方式取出需要的時間點**

In [11]:
ts['2020-03-31': '2020-07-31']

2020-03-31    0.120922
2020-04-30   -0.606202
2020-05-31   -0.067104
2020-06-30    0.740778
2020-07-31    1.806956
Freq: M, dtype: float64

**也可以用月的方式做索引操作**

In [12]:
ts['2020-02': '2020-05']

2020-02-29   -0.012751
2020-03-31    0.120922
2020-04-30   -0.606202
2020-05-31   -0.067104
Freq: M, dtype: float64

**分時間資料以及字串差別，時間需要使用`pd.Timestamp()`做設定，並不是只使用字串就可以代表時間**

In [13]:
str_date = '2020-10-10'
date = pd.Timestamp(2020,10,10)

In [14]:
str_date, type(str_date)

('2020-10-10', str)

In [15]:
date,type(date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

**時間轉字串**

`.strftime()`

In [16]:
date2str = date.strftime('%Y-%m-%d')
date2str, type(date2str)

('2020-10-10', str)

**字串轉時間**

`.to_datetime()`

In [17]:
str2date = pd.to_datetime(str_date)
str2date, type(str2date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

In [18]:
ts

2020-01-31   -0.252017
2020-02-29   -0.012751
2020-03-31    0.120922
2020-04-30   -0.606202
2020-05-31   -0.067104
2020-06-30    0.740778
2020-07-31    1.806956
2020-08-31   -0.129697
2020-09-30    0.161174
2020-10-31    1.053694
Freq: M, dtype: float64

**移動（shifting）指的是沿著時間軸將資料前移或後移。**

**Series 和 DataFrame 都有一個 `.shift()` 方法用於執行單純的移動操作**

In [20]:
ts.shift(2,freq='D')

2020-02-02   -0.252017
2020-03-02   -0.012751
2020-04-02    0.120922
2020-05-02   -0.606202
2020-06-02   -0.067104
2020-07-02    0.740778
2020-08-02    1.806956
2020-09-02   -0.129697
2020-10-02    0.161174
2020-11-02    1.053694
dtype: float64

**直接呼叫出年月日，在timestamps後面加上回傳的year, month, day即可**

`.year`
`.month`
`.day`

In [21]:
date.year,date.month,date.day

(2020, 10, 10)

**也可以呼叫星期與周數**

星期:`.day_name()`<br>
週數:`weekofyear`

In [22]:
date.day_name(), date.weekofyear

('Saturday', 41)

In [23]:
date1 = pd.Timestamp(2020,10,10)
date2 = pd.Timestamp(2020,11,10)

**Timestamps可以直接加時間或是計算時間差距**

In [24]:
date2 - date1

Timedelta('31 days 00:00:00')

時間差 : `pd.Timedelta()`

https://www.yiibai.com/pandas/python_pandas_timedelta.html

In [29]:
date1 + pd.Timedelta(days=1)

Timestamp('2020-10-11 00:00:00')

**也可以加工作日天數**

日期偏移 : `pd.offsets.BDay()`

https://www.gairuo.com/p/pandas-date-offset

In [26]:
two_business_days = 2 * pd.offsets.BDay()
date1_add_two_business_days = date1 + two_business_days
date1.day_name(), date1_add_two_business_days.day_name()

('Saturday', 'Tuesday')

In [27]:
s = pd.Series([1, 2], index=pd.period_range('2018-01-01',freq='Y',periods=2))
s

2018    1
2019    2
Freq: A-DEC, dtype: int64

**更改時間頻率如果從年轉成季該怎麼做?可以運用`resample`函數將年轉成季，如沒有值的填上nan**

`.resample('').asfreq()`

In [32]:
s.resample('Q').asfreq()

2018Q1    1.0
2018Q2    NaN
2018Q3    NaN
2018Q4    NaN
2019Q1    2.0
2019Q2    NaN
2019Q3    NaN
2019Q4    NaN
Freq: Q-DEC, dtype: float64