# Chap10 时序数据

In [1]:
import numpy as np
import pandas as pd

## 时序中的基本对象

In [3]:
ts_dict = {'概念':['时间戳Date times','时间差Time deltas','时间段Time spans','日期偏置Date offsets'],
           '单元素类型':['Timestamp','Timedelta','Period','DateOffset'],
           '数组类型':['DatetimeIndex','TimedeltaIndex','PeriodIndex','None'],
           'pandas数据类型':['datetime64[ns]','timedelta64[ns]','period[freq]','None']}
ts_df = pd.DataFrame(ts_dict)
ts_df

Unnamed: 0,概念,单元素类型,数组类型,pandas数据类型
0,时间戳Date times,Timestamp,DatetimeIndex,datetime64[ns]
1,时间差Time deltas,Timedelta,TimedeltaIndex,timedelta64[ns]
2,时间段Time spans,Period,PeriodIndex,period[freq]
3,日期偏置Date offsets,DateOffset,,


## 时间戳
### Timestamp的构造与属性
1. 单个时间戳的生成利用`pd.Timestamp`实现
2. 通过`year/month/day/hour/min/second`可以获取具体的数值
### Datetime序列的生成
1. 一组时间戳可以组成时间序列，可利用`to_datetime`和`date_range`生成，`to_datetime`能够把一列时间戳格式的对象转换为datetime64[ns]类型的时间序列
2. `DatetimeIndex`要转为`datetime64[ns]`的序列，需使用`pd.Series`
3. `to_datetime`还可以把表的多列时间属性拼接转为时间序列
4. `date_range`是一种生成连续间隔时间的方法
   - `start`开始时间
   - `end`结束时间
   - `freq`时间间隔
   - `periods`时间戳个数
   - 四个中的三个参数决定了，剩下的一个就随之决定了，开始或结束日期如果作为端点则会被包含
5. 一种改变序列采样频率的方法`asfreq`，能够根据给定的`freq`对序列进行类似于`reindex`的操作
6. datetime64[ns]本质上可以理解为一个大整数，对于一个该类型的序列，可以使用max，min，mean来取得最大时间戳，最小时间戳和“平均”时间戳
### dt对象
1. 

In [4]:
ts = pd.Timestamp('2020/1/1')
ts

Timestamp('2020-01-01 00:00:00')

In [5]:
ts.hour

0

In [2]:
pd.to_datetime(['2020-1-1', '2020-1-3'])

DatetimeIndex(['2020-01-01', '2020-01-03'], dtype='datetime64[ns]', freq=None)

In [3]:
df = pd.read_csv('./data/learn_pandas.csv')
s = pd.to_datetime(df.Test_Date)
s.head()

0   2019-10-05
1   2019-09-04
2   2019-09-12
3   2020-01-03
4   2019-11-06
Name: Test_Date, dtype: datetime64[ns]

In [7]:
temp = pd.to_datetime(['2020--1\\1','2020--1\\3'], format='%Y--%m\\%d')
temp

DatetimeIndex(['2020-01-01', '2020-01-03'], dtype='datetime64[ns]', freq=None)

In [9]:
df_date_cols = pd.DataFrame({'year':[2020,2020],
                             'month':[1,1],
                             'day':[1,2],
                             'hour':[10,20],
                             'minute':[30,50],
                             'second':[20,40]})
pd.to_datetime(df_date_cols)

0   2020-01-01 10:30:20
1   2020-01-02 20:50:40
dtype: datetime64[ns]

In [2]:
pd.date_range('2020-1-1','2020-1-21',freq='10D')

DatetimeIndex(['2020-01-01', '2020-01-11', '2020-01-21'], dtype='datetime64[ns]', freq='10D')

In [3]:
pd.date_range('2020-1-1','2020-2-28',periods=6)

DatetimeIndex(['2020-01-01 00:00:00', '2020-01-12 14:24:00',
               '2020-01-24 04:48:00', '2020-02-04 19:12:00',
               '2020-02-16 09:36:00', '2020-02-28 00:00:00'],
              dtype='datetime64[ns]', freq=None)

In [4]:
s = pd.Series(np.random.rand(5), index = pd.to_datetime(['2020-1-%d'%i for i in range(1,10,2)]))
s

2020-01-01    0.805718
2020-01-03    0.331448
2020-01-05    0.340497
2020-01-07    0.977192
2020-01-09    0.441622
dtype: float64

In [5]:
s.asfreq('D')

2020-01-01    0.805718
2020-01-02         NaN
2020-01-03    0.331448
2020-01-04         NaN
2020-01-05    0.340497
2020-01-06         NaN
2020-01-07    0.977192
2020-01-08         NaN
2020-01-09    0.441622
Freq: D, dtype: float64

In [6]:
s.asfreq('12H').head()

2020-01-01 00:00:00    0.805718
2020-01-01 12:00:00         NaN
2020-01-02 00:00:00         NaN
2020-01-02 12:00:00         NaN
2020-01-03 00:00:00    0.331448
Freq: 12H, dtype: float64