# 重要知識點
● 時間序列資料處理<br>
● 日期時間處理

# 時間序列資料處理
● 所有資料中只要有時間關係就需要使用到時間序列的資料型態，因為資料之間是有時間關係的，資料之間的時間距離也不盡相同，例如右表，紅框內同樣差一個月，但是相差的天數不同<br>
● 以每個月月底資料來檢視，這組資料並無缺值，但是以日資料來看，就缺了很多筆資料了<br>
● 時間序列的資料非常注重時間的間隔

範例目標:
1. 實作時間序列操作
2. 實作時間上的四則運算操作

範例重點:
1. 時間序列的資料非常注重時間的的間隔(年、月、日、時、分、秒)
2. 時間也有分不同資料型態，在這邊使用 timestamps 的資料型態，須注意不同資料型態是不可以一起運算的。

In [2]:
import pandas as pd
import numpy as np

In [4]:
# 同樣差一個月，但是相差的天數不同
# 所以時間序六的資料非常注重時間的間隔
rng = pd.date_range('1/1/2020', periods = 10, freq = 'M')
ts = pd.Series(np.random.randn(len(rng)), index = rng)
ts

2020-01-31   -0.275307
2020-02-29    1.113069
2020-03-31   -1.703043
2020-04-30   -0.875124
2020-05-31    0.485793
2020-06-30   -2.015748
2020-07-31    0.150981
2020-08-31    0.318921
2020-09-30    0.357636
2020-10-31   -0.957785
Freq: M, dtype: float64

既然時間間隔重要，那首先必須介紹控制時間長度的函數.to_period(), 參數 freq 代表時間頻率(Y:年、M:月、D:日、H:小時)

In [5]:
# 更改時間頻率:年
ts.to_period(freq = 'Y')

2020   -0.275307
2020    1.113069
2020   -1.703043
2020   -0.875124
2020    0.485793
2020   -2.015748
2020    0.150981
2020    0.318921
2020    0.357636
2020   -0.957785
Freq: A-DEC, dtype: float64

In [6]:
# 更改時間頻率:月
ts.to_period(freq = "M")

2020-01   -0.275307
2020-02    1.113069
2020-03   -1.703043
2020-04   -0.875124
2020-05    0.485793
2020-06   -2.015748
2020-07    0.150981
2020-08    0.318921
2020-09    0.357636
2020-10   -0.957785
Freq: M, dtype: float64

In [7]:
# 更改時間頻率: 月
ts.to_period(freq = "D")

2020-01-31   -0.275307
2020-02-29    1.113069
2020-03-31   -1.703043
2020-04-30   -0.875124
2020-05-31    0.485793
2020-06-30   -2.015748
2020-07-31    0.150981
2020-08-31    0.318921
2020-09-30    0.357636
2020-10-31   -0.957785
Freq: D, dtype: float64

In [8]:
# 更改時間頻率: 日
ts.to_period(freq = "H")

2020-01-31 00:00   -0.275307
2020-02-29 00:00    1.113069
2020-03-31 00:00   -1.703043
2020-04-30 00:00   -0.875124
2020-05-31 00:00    0.485793
2020-06-30 00:00   -2.015748
2020-07-31 00:00    0.150981
2020-08-31 00:00    0.318921
2020-09-30 00:00    0.357636
2020-10-31 00:00   -0.957785
Freq: H, dtype: float64

更改時間頻率如果從年轉成季該怎麼做?<br>
● 可以運用 resample 函數將年轉成季，如沒有值的填上 nan。

In [10]:
s = pd.Series([1, 2], index = pd.period_range('2018-01-01', freq = 'Y', periods = 2))
s

2018    1
2019    2
Freq: A-DEC, dtype: int64

In [12]:
s.resample('Q', convention= 'start').asfreq()

2018Q1    1.0
2018Q2    NaN
2018Q3    NaN
2018Q4    NaN
2019Q1    2.0
2019Q2    NaN
2019Q3    NaN
2019Q4    NaN
Freq: Q-DEC, dtype: float64

可以用先前學到的索引操作找到特定時間點的資料。

In [13]:
ts['2020-03-31': '2020-07-31']

2020-03-31   -1.703043
2020-04-30   -0.875124
2020-05-31    0.485793
2020-06-30   -2.015748
2020-07-31    0.150981
Freq: M, dtype: float64