<img width=200 src="https://camo.githubusercontent.com/903f3cc51db134b8c9faed2ba2b18ffedff67ff2aafe75259cbde477b27d9b4f/68747470733a2f2f75706c6f61642e77696b696d656469612e6f72672f77696b6970656469612f636f6d6d6f6e732f7468756d622f652f65642f50616e6461735f6c6f676f2e7376672f3132303070782d50616e6461735f6c6f676f2e7376672e706e673f7261773d74727565"></img>

# Day-17 Pandas 時間序列

* 範例目標：
  1. 實做時間序列資料操作
  2. 實做時間上的四則運算與操作
* 範例重點：
  1. 時間序列的資料非常注重時間的間隔(年、月、日、時、分、秒)
  2. 時間也有分不同資料型態，在這邊使用 timestamps 的資料型態，須注意不同資料型態是不可以一起運算的

## 匯入套件

In [None]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from 'D:\\anaconda3\\lib\\site-packages\\numpy\\__init__.py'>
1.19.2
<module 'pandas' from 'D:\\anaconda3\\lib\\site-packages\\pandas\\__init__.py'>
1.1.3


## 時間序列資料處理

* 因為資料之間是有時間關係的，資料之間的時間距離也不盡相同，例如下表，同樣差一個月，但是相差的天數不同
* 時間序列的資料非常注重時間的間隔

In [None]:
rng = pd.date_range('1/1/2020', periods=10, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2020-01-31   -0.749953
2020-02-29   -0.282544
2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
2020-06-30   -1.340197
2020-07-31    0.441438
2020-08-31   -0.188151
2020-09-30    0.740305
2020-10-31   -1.052646
Freq: M, dtype: float64

### `.to_period`

* 時間間隔很重要，可以藉由`.to_period()`控制時間長度，參數 freq 代表時間頻率(Y：年、M：月、D：日、H：小時)

#### 更改時間頻率：年

In [None]:
ts.to_period(freq='Y')

2020   -0.749953
2020   -0.282544
2020   -0.404671
2020   -0.562724
2020   -0.365467
2020   -1.340197
2020    0.441438
2020   -0.188151
2020    0.740305
2020   -1.052646
Freq: A-DEC, dtype: float64

#### 更改時間頻率：月

In [None]:
ts.to_period(freq='M')

2020-01   -0.749953
2020-02   -0.282544
2020-03   -0.404671
2020-04   -0.562724
2020-05   -0.365467
2020-06   -1.340197
2020-07    0.441438
2020-08   -0.188151
2020-09    0.740305
2020-10   -1.052646
Freq: M, dtype: float64

#### 更改時間頻率：日

In [None]:
ts.to_period(freq='D')

2020-01-31   -0.749953
2020-02-29   -0.282544
2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
2020-06-30   -1.340197
2020-07-31    0.441438
2020-08-31   -0.188151
2020-09-30    0.740305
2020-10-31   -1.052646
Freq: D, dtype: float64

#### 更改時間頻率:小時

In [None]:
ts.to_period(freq='H')

2020-01-31 00:00   -0.749953
2020-02-29 00:00   -0.282544
2020-03-31 00:00   -0.404671
2020-04-30 00:00   -0.562724
2020-05-31 00:00   -0.365467
2020-06-30 00:00   -1.340197
2020-07-31 00:00    0.441438
2020-08-31 00:00   -0.188151
2020-09-30 00:00    0.740305
2020-10-31 00:00   -1.052646
Freq: H, dtype: float64

* 更改時間頻率如果從年轉成季該怎麼做?可以運用 resample 函數將年轉成季，如沒有值的填上 nan。

In [None]:
s = pd.Series([1, 2], index=pd.period_range('2018-01-01',freq='Y',periods=2))
s

2018    1
2019    2
Freq: A-DEC, dtype: int64

In [None]:
s.resample('Q', convention='start').asfreq()

2018Q1    1.0
2018Q2    NaN
2018Q3    NaN
2018Q4    NaN
2019Q1    2.0
2019Q2    NaN
2019Q3    NaN
2019Q4    NaN
Freq: Q-DEC, dtype: float64

### 索引的方式

#### 取出需要的時間點

In [None]:
ts['2020-03-31': '2020-07-31']

2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
2020-06-30   -1.340197
2020-07-31    0.441438
Freq: M, dtype: float64

#### 以月為單位

In [None]:
ts['2020-02': '2020-05']

2020-02-29   -0.282544
2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
Freq: M, dtype: float64

### 移動 (shifting)

* 沿著時間軸將資料前移或後移
* Series 和 DataFrame 都有一個`.shift()`方法用於執行單純的移動操作

In [None]:
ts

2020-01-31   -1.005002
2020-02-29   -0.515248
2020-03-31   -0.904410
2020-04-30   -0.437373
2020-05-31    0.236148
2020-06-30    0.822777
2020-07-31    1.166426
2020-08-31   -0.303415
2020-09-30   -0.252626
2020-10-31   -0.727255
Freq: M, dtype: float64

In [None]:
ts.shift(2, freq='D')

2020-02-02   -0.749953
2020-03-02   -0.282544
2020-04-02   -0.404671
2020-05-02   -0.562724
2020-06-02   -0.365467
2020-07-02   -1.340197
2020-08-02    0.441438
2020-09-02   -0.188151
2020-10-02    0.740305
2020-11-02   -1.052646
dtype: float64

### 分時間資料以及字串差別

* 時間需要使用`pd.Timestamp()`做設定，並不是只使用字串就可以代表時間

In [None]:
str_date = '2020-10-10'
date = pd.Timestamp(2020,10,10)

* type是字串

In [None]:
str_date, type(str_date)

('2020-10-10', str)

* type是Timestamp

In [None]:
date, type(date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

#### 時間轉字串

In [None]:
date2str = date.strftime('%Y-%m-%d')
date2str, type(date2str)

('2020-10-10', str)

#### 字串轉時間

In [None]:
str2date = pd.to_datetime(str_date)
str2date, type(str2date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

## 日期時間處理

#### timestamps 常用函數

* 呼叫出年月日：在 timestamps 後面加上回傳的 year，month，day 即可

In [None]:
date.year, date.month, date.day

(2020, 10, 10)

* 呼叫星期與周數

In [None]:
date.day_name(), date.weekofyear

('Saturday', 41)

In [None]:
date1 = pd.Timestamp(2020,10,10)
date2 = pd.Timestamp(2020,11,10)

* Timestamps 可以直接加時間或是計算時間差距

In [None]:
date2 - date1

Timedelta('31 days 00:00:00')

In [None]:
date1 + pd.Timedelta(days=1)

Timestamp('2020-10-11 00:00:00')

* 可以加工作日天數，語法：two_business_days = 2 * pd.offsets.BDay() 
* 注意：因為 pd.offsets.BDay() 是工作日，所以在六、日套上這個函數不能直接往後算我們所指定的天數，如下範例，原本日期為星期六，但後兩個工作日是星期二不是星期一 (加上一天)

In [None]:
two_business_days = 2 * pd.offsets.BDay()
date1_add_two_business_days = date1 + two_business_days
date1.day_name(), date1_add_two_business_days.day_name()

('Saturday', 'Tuesday')

## 補充：轉換各種期間的函數

In [None]:
import pandas as pd
import numpy as np

### 創建一個日期範圍

* 以月為區間

In [None]:
date_rng = pd.date_range('2021-01-01', freq='M', periods=12)
print(f'month date_range()：\n{date_rng}')

month date_range()：
DatetimeIndex(['2021-01-31', '2021-02-28', '2021-03-31', '2021-04-30',
               '2021-05-31', '2021-06-30', '2021-07-31', '2021-08-31',
               '2021-09-30', '2021-10-31', '2021-11-30', '2021-12-31'],
              dtype='datetime64[ns]', freq='M')


In [None]:
period_rng = pd.period_range('2021/01/01', freq='M', periods=12)
print(f'month period_range()：\n{period_rng}')

month period_range()：
PeriodIndex(['2021-01', '2021-02', '2021-03', '2021-04', '2021-05', '2021-06',
             '2021-07', '2021-08', '2021-09', '2021-10', '2021-11', '2021-12'],
            dtype='period[M]')


* 以週為區間



In [None]:
date_rng = pd.date_range('2021-01-01', freq='W-SUN', periods=12)
print(f'week date_range()：\n{date_rng}')

week date_range()：
DatetimeIndex(['2021-01-03', '2021-01-10', '2021-01-17', '2021-01-24',
               '2021-01-31', '2021-02-07', '2021-02-14', '2021-02-21',
               '2021-02-28', '2021-03-07', '2021-03-14', '2021-03-21'],
              dtype='datetime64[ns]', freq='W-SUN')


In [None]:
period_rng = pd.period_range('2021-01-01', freq='W-SUN',  periods=12)
print(f'week period_range()：\n{period_rng}')

week period_range()：
PeriodIndex(['2020-12-28/2021-01-03', '2021-01-04/2021-01-10',
             '2021-01-11/2021-01-17', '2021-01-18/2021-01-24',
             '2021-01-25/2021-01-31', '2021-02-01/2021-02-07',
             '2021-02-08/2021-02-14', '2021-02-15/2021-02-21',
             '2021-02-22/2021-02-28', '2021-03-01/2021-03-07',
             '2021-03-08/2021-03-14', '2021-03-15/2021-03-21'],
            dtype='period[W-SUN]')


* 以小時為區間

In [None]:
date_rng = pd.date_range('2021-01-01 00:00:00', freq='H', periods=12)
print(f'hour date_range()：\n{date_rng}')

hour date_range()：
DatetimeIndex(['2021-01-01 00:00:00', '2021-01-01 01:00:00',
               '2021-01-01 02:00:00', '2021-01-01 03:00:00',
               '2021-01-01 04:00:00', '2021-01-01 05:00:00',
               '2021-01-01 06:00:00', '2021-01-01 07:00:00',
               '2021-01-01 08:00:00', '2021-01-01 09:00:00',
               '2021-01-01 10:00:00', '2021-01-01 11:00:00'],
              dtype='datetime64[ns]', freq='H')


In [None]:
period_rng = pd.period_range('2021-01-01 00:00:00', freq='H', periods=12)
print(f'hour period_range()：\n{period_rng}')

hour period_range()：
PeriodIndex(['2021-01-01 00:00', '2021-01-01 01:00', '2021-01-01 02:00',
             '2021-01-01 03:00', '2021-01-01 04:00', '2021-01-01 05:00',
             '2021-01-01 06:00', '2021-01-01 07:00', '2021-01-01 08:00',
             '2021-01-01 09:00', '2021-01-01 10:00', '2021-01-01 11:00'],
            dtype='period[H]')


* timestamp

In [None]:
print(pd.Timedelta(days=5, minutes=50, seconds=20, milliseconds=10, microseconds=10, nanoseconds=10))

5 days 00:50:20.010010010


In [None]:
now = pd.datetime.now()
dt = now + pd.Timedelta(days=50)
print(f'目前時間是{now}，50天後時間是{dt}')
print(dt.strftime('%Y-%m-%d'))

目前時間是2023-04-11 03:30:29.441748，50天後時間是2023-05-31 03:30:29.441748
2023-05-31


  now = pd.datetime.now()


### 定義 timestamp

In [None]:
t1 = pd.Timestamp('2019-01-10')
t2 = pd.Timestamp('2018-12-10')
print(f't1 = {t1}')
print(f't2 = {t2}')
print(f't1 與 t2 時間間隔：{(t1-t2).days}天')

t1 = 2019-01-10 00:00:00
t2 = 2018-12-10 00:00:00
t1 與 t2 時間間隔：31天


In [None]:
per = pd.Period('2019')
print(f'pd.Period()：{per}')
per_del = pd.Period('2019') - pd.Period('2018')
print(f'2019 和 2018 間隔 {per_del} 年')
#可以直接+、-整数（代表年）

#期間轉換為時間戳記
print(per.to_timestamp(how='end'))
print(per.to_timestamp(how='start'))

pd.Period()：2019
2019 和 2018 間隔 <YearEnd: month=12> 年
2019-12-31 23:59:59.999999999
2019-01-01 00:00:00


In [None]:
date = pd.date_range('1/1/2018', periods=20, freq='D')
tsdat_series = pd.Series(range(20), index=date)
tsp_series = tsdat_series.to_period('D')
print(tsp_series.index.asfreq('Q'))

PeriodIndex(['2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1',
             '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1',
             '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1',
             '2018Q1', '2018Q1'],
            dtype='period[Q-DEC]')


In [None]:
date = pd.date_range('1/1/2018', periods=20, freq='M')
tsdat_series = pd.Series(range(20), index=date)
tsp_series = tsdat_series.to_period('M')
print(tsp_series.index.asfreq('Q'))

PeriodIndex(['2018Q1', '2018Q1', '2018Q1', '2018Q2', '2018Q2', '2018Q2',
             '2018Q3', '2018Q3', '2018Q3', '2018Q4', '2018Q4', '2018Q4',
             '2019Q1', '2019Q1', '2019Q1', '2019Q2', '2019Q2', '2019Q2',
             '2019Q3', '2019Q3'],
            dtype='period[Q-DEC]')


In [None]:
date = pd.period_range('1/1/2018', periods=20, freq='D')
tsper_series = pd.Series(range(20), index=date)
print(tsper_series.index.asfreq('Q'))

PeriodIndex(['2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1',
             '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1',
             '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1', '2018Q1',
             '2018Q1', '2018Q1'],
            dtype='period[Q-DEC]')


## 參考資料

* [pandas.Series.df.to_period](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.to_period.html)
* [datetime](https://docs.python.org/3/library/datetime.html)
* [pandas.Series.dt.day_name](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.day_name.html)
* [時間序列處理](https://zhuanlan.zhihu.com/p/68950456)
* [pandas 處理時間序列](https://www.cnblogs.com/nxf-rabbit75/p/10660317.html)
* [Pandas 必備技能之「時間序列資料處理」](https://www.gushiciku.cn/pl/2DOo/zh-tw)
* [Pandas 日期功能](https://www.yiibai.com/pandas/python_pandas_date_functionality.html)
* [Pandas 時間差(Timedelta)](https://www.yiibai.com/pandas/python_pandas_timedelta.html)