<img width=150 src="https://upload.wikimedia.org/wikipedia/commons/thumb/1/1a/NumPy_logo.svg/200px-NumPy_logo.svg.png"></img>

* 範例目標：
  1. 實做時間序列資料操作
  2. 實做時間上的四則運算與操作
* 範例重點：
  1. 時間序列的資料非常注重時間的間隔(年、月、日、時、分、秒)
  2. 時間也有分不同資料型態，在這邊使用 timestamps 的資料型態，須注意不同資料型態是不可以一起運算的

In [1]:
# 載入 NumPy, Pandas 套件
import numpy as np
import pandas as pd

# 檢查正確載入與版本
print(np)
print(np.__version__)
print(pd)
print(pd.__version__)

<module 'numpy' from 'D:\\anaconda3\\lib\\site-packages\\numpy\\__init__.py'>
1.19.2
<module 'pandas' from 'D:\\anaconda3\\lib\\site-packages\\pandas\\__init__.py'>
1.1.3


# 【基礎17=進階16】

* 因為資料之間是有時間關係的，資料之間的時間距離也不盡相同，例如下表，同樣差一個月，但是相差的天數不同
* 時間序列的資料非常注重時間的間隔

In [2]:
rng = pd.date_range('1/1/2020', periods=10, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
ts

2020-01-31   -0.749953
2020-02-29   -0.282544
2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
2020-06-30   -1.340197
2020-07-31    0.441438
2020-08-31   -0.188151
2020-09-30    0.740305
2020-10-31   -1.052646
Freq: M, dtype: float64

* 時間間隔很重要，可以藉由.to_period()控制時間長度，參數freq代表時間頻率(Y：年、M：月、D：日、H：小時)
* 更改時間頻率：年

In [3]:
ts.to_period(freq="Y")

2020   -0.749953
2020   -0.282544
2020   -0.404671
2020   -0.562724
2020   -0.365467
2020   -1.340197
2020    0.441438
2020   -0.188151
2020    0.740305
2020   -1.052646
Freq: A-DEC, dtype: float64

* 更改時間頻率：月

In [4]:
ts.to_period(freq="M")

2020-01   -0.749953
2020-02   -0.282544
2020-03   -0.404671
2020-04   -0.562724
2020-05   -0.365467
2020-06   -1.340197
2020-07    0.441438
2020-08   -0.188151
2020-09    0.740305
2020-10   -1.052646
Freq: M, dtype: float64

* 更改時間頻率：日

In [5]:
ts.to_period(freq="D")

2020-01-31   -0.749953
2020-02-29   -0.282544
2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
2020-06-30   -1.340197
2020-07-31    0.441438
2020-08-31   -0.188151
2020-09-30    0.740305
2020-10-31   -1.052646
Freq: D, dtype: float64

* 更改時間頻率:小時

In [6]:
ts.to_period(freq="H")

2020-01-31 00:00   -0.749953
2020-02-29 00:00   -0.282544
2020-03-31 00:00   -0.404671
2020-04-30 00:00   -0.562724
2020-05-31 00:00   -0.365467
2020-06-30 00:00   -1.340197
2020-07-31 00:00    0.441438
2020-08-31 00:00   -0.188151
2020-09-30 00:00    0.740305
2020-10-31 00:00   -1.052646
Freq: H, dtype: float64

* 更改時間頻率如果從年轉成季該怎麼做?可以運用 resample 函數將年轉成季，如沒有值的填上 nan。

In [7]:
s = pd.Series([1, 2], index=pd.period_range('2018-01-01',freq='Y',periods=2))
s

2018    1
2019    2
Freq: A-DEC, dtype: int64

In [8]:
s.resample('Q', convention='start').asfreq()

2018Q1    1.0
2018Q2    NaN
2018Q3    NaN
2018Q4    NaN
2019Q1    2.0
2019Q2    NaN
2019Q3    NaN
2019Q4    NaN
Freq: Q-DEC, dtype: float64

## 索引的方式
* 取出需要的時間點

In [9]:
ts['2020-03-31': '2020-07-31']

2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
2020-06-30   -1.340197
2020-07-31    0.441438
Freq: M, dtype: float64

* 以月為單位

In [10]:
ts['2020-02': '2020-05']

2020-02-29   -0.282544
2020-03-31   -0.404671
2020-04-30   -0.562724
2020-05-31   -0.365467
Freq: M, dtype: float64

## 移動 (shifting)
* 沿著時間軸將資料前移或後移
* Series 和 DataFrame 都有一個 .shift() 方法用於執行單純的移動操作

In [14]:
ts

2020-01-31   -1.005002
2020-02-29   -0.515248
2020-03-31   -0.904410
2020-04-30   -0.437373
2020-05-31    0.236148
2020-06-30    0.822777
2020-07-31    1.166426
2020-08-31   -0.303415
2020-09-30   -0.252626
2020-10-31   -0.727255
Freq: M, dtype: float64

In [11]:
ts.shift(2, freq='D')

2020-02-02   -0.749953
2020-03-02   -0.282544
2020-04-02   -0.404671
2020-05-02   -0.562724
2020-06-02   -0.365467
2020-07-02   -1.340197
2020-08-02    0.441438
2020-09-02   -0.188151
2020-10-02    0.740305
2020-11-02   -1.052646
dtype: float64

## 分時間資料以及字串差別
* 時間需要使用pd.Timestamp()做設定，並不是只使用字串就可以代表時間

In [9]:
str_date = '2020-10-10'
date = pd.Timestamp(2020,10,10)

* type是字串

In [10]:
str_date, type(str_date)

('2020-10-10', str)

* type是Timestamp

In [11]:
date, type(date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

* 時間轉字串

In [12]:
date2str = date.strftime('%Y-%m-%d')
date2str, type(date2str)

('2020-10-10', str)

* 字串轉時間

In [13]:
str2date = pd.to_datetime(str_date)
str2date, type(str2date)

(Timestamp('2020-10-10 00:00:00'), pandas._libs.tslibs.timestamps.Timestamp)

## 日期時間處理

* 呼叫出年月日：在timestamps後面加上回傳的year, month, day即可

In [None]:
date.year, date.month, date.day

(2020, 10, 10)

* 呼叫星期與周數

In [None]:
date.day_name(), date.weekofyear

('Saturday', 41)

In [None]:
date1 = pd.Timestamp(2020,10,10)
date2 = pd.Timestamp(2020,11,10)

* Timestamps可以直接加時間或是計算時間差距

In [None]:
date2 - date1

Timedelta('31 days 00:00:00')

In [None]:
date1 + pd.Timedelta(days=1)

Timestamp('2020-10-11 00:00:00')

* 可以加工作日天數 two_business_days = 2 * pd.offsets.BDay() 表示工作天

In [None]:
two_business_days = 2 * pd.offsets.BDay()
date1_add_two_business_days = date1 + two_business_days
date1.day_name(), date1_add_two_business_days.day_name()

('Saturday', 'Tuesday')