In [7]:
'''
    Pandas时间戳索引：DatetimeIndex

    核心：pd.date_range()
'''
import pandas as pd
import numpy as np

In [64]:
    
# pd.DatetimeIndex()直接生成时间戳索引，支持str、datetime.datetime
# 单个时间戳为Timestamp，多个时间戳为DatetimeIndex

date_lst = ['2018-1-1','2019-11-13','2019-5-29',pd.datetime(2020,1,1)]
dt_index = pd.DatetimeIndex(date_lst)
print('dt_index:',dt_index)
print('type(dt_index):',type(dt_index))  # 类型为时间戳索引 DatetimeIndex

# 以DatetimeIndex为index的Series，为TimeSries，时间序列

dt_series = pd.Series(np.random.rand(len(dt_index)),index=dt_index)
print('dt_series:',dt_series,sep='\n')
print('type(dt_series):',type(dt_series))
print('dt_series.index:',dt_series.index,sep='\n')  # 结果为时间戳索引DatetimeIndex


dt_index: DatetimeIndex(['2018-01-01', '2019-11-13', '2019-05-29', '2020-01-01'], dtype='datetime64[ns]', freq=None)
type(dt_index): <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
dt_series:
2018-01-01    0.364854
2019-11-13    0.238635
2019-05-29    0.162703
2020-01-01    0.521823
dtype: float64
type(dt_series): <class 'pandas.core.series.Series'>
dt_series.index:
DatetimeIndex(['2018-01-01', '2019-11-13', '2019-05-29', '2020-01-01'], dtype='datetime64[ns]', freq=None)


In [67]:
# pd.date_range()-日期范围：生成日期范围
# 2种生成方式：1.start + end  2.start/end + periods
# 默认频率：day
'''
    pd.date_range(start=None, end=None, periods=None, freq='D', tz=None, normalize=False, name=None, closed=None, **kwargs)
    start：开始时间
    end：结束时间
    periods：偏移量
    freq：频率，默认天，pd.date_range()默认频率为日历日，pd.bdate_range()默认频率为工作日
    tz：时区
    normalize：bool, default False将开始/结束日期标准化为午夜，然后再生成日期范围
    closed:None, 'left', 'right'}, optional
        Make the interval closed with respect to the given frequency to
        the 'left', 'right', or both sides (None, the default).
'''

dt_rng1 = pd.date_range('2019-12-15','2019-12-20',normalize=True)  
print('dt_rng1:',dt_rng1)  # 结果为DatetimeIndex
print('type(dt_rng1):',type(dt_rng1))

# 使用start periods参数
dt_rng2 = pd.date_range(start='2019/12/15',periods=5)  # 识别多种时间格式
print('dt_rng2:',dt_rng2)

# 使用end periods参数
dt_rng3 = pd.date_range(end='20191220',periods=5)  # 识别多种时间格式
print('dt_rng3:',dt_rng3)

# 增减DatetimeIndex名称
dt_rng4 = pd.date_range(start='2019-12-15 09:11',periods=5,name='2019年12月',normalize=True)
print('dt_rng4:',dt_rng4)  # normalize=True时,时间格式只有年月日

dt_rng5 = pd.date_range(end='2019-11-15 09:11',periods=5,name='2019年11月',normalize=False)
print('dt_rng5:',dt_rng5)  # normalize=False时,时间格式只有年月日时分秒  

# closed：默认为None的情况下，左闭右闭,即([date1,date2]), right则左开右闭,left则左闭右开
# 可以理解为:加了closed关键字参数,区间情况就变为一开一闭  
print('closed_right,',pd.date_range('20191215','20191220',closed = 'right'))
print('closed_left,',pd.date_range('20191215','20191220',closed = 'left'))

# 直接转化为list，元素为Timestamp
print('直接转化为list，元素为Timestamp:',list(pd.date_range(start = '1/1/2018', periods = 3)))

# pd.bdate_range()默认频率为工作日
print('bdate_range()工作日:',pd.bdate_range('20200101','20200107'),sep='\n')


dt_rng1: DatetimeIndex(['2019-12-15', '2019-12-16', '2019-12-17', '2019-12-18',
               '2019-12-19', '2019-12-20'],
              dtype='datetime64[ns]', freq='D')
type(dt_rng1): <class 'pandas.core.indexes.datetimes.DatetimeIndex'>
dt_rng2: DatetimeIndex(['2019-12-15', '2019-12-16', '2019-12-17', '2019-12-18',
               '2019-12-19'],
              dtype='datetime64[ns]', freq='D')
dt_rng3: DatetimeIndex(['2019-12-16', '2019-12-17', '2019-12-18', '2019-12-19',
               '2019-12-20'],
              dtype='datetime64[ns]', freq='D')
dt_rng4: DatetimeIndex(['2019-12-15', '2019-12-16', '2019-12-17', '2019-12-18',
               '2019-12-19'],
              dtype='datetime64[ns]', name='2019年12月', freq='D')
dt_rng5: DatetimeIndex(['2019-11-11 09:11:00', '2019-11-12 09:11:00',
               '2019-11-13 09:11:00', '2019-11-14 09:11:00',
               '2019-11-15 09:11:00'],
              dtype='datetime64[ns]', name='2019年11月', freq='D')
closed_right, DatetimeIndex(['201

In [42]:
# pd.date_range()-日期范围：频率(1)  freq参数

print("默认freq = 'D'：每日历日:",pd.date_range('2020/1/1','2020/1/4'),sep='\n')  # 默认freq = 'D'：每日历日
print('B：每工作日:',pd.date_range('2020/1/1','2020/1/4', freq = 'B'),sep='\n')  # B：每工作日
print('H：每小时:',pd.date_range('2020/1/1','2020/1/2', freq = 'H'),sep='\n')  # H：每小时
print('T/MIN：每分',pd.date_range('2020/1/1 12:00','2020/1/1 12:10', freq = 'T'),sep='\n')  # T/MIN：每分 10T/每10分
print('S：每秒:',pd.date_range('2020/1/1 12:00:00','2020/1/1 12:00:10', freq = 'S'),sep='\n')  # S：每秒
print('L：每毫秒（千分之一秒）:',pd.date_range('2020/1/1 12:00:00','2020/1/1 12:00:01', freq = 'L'),sep='\n')  # L：每毫秒（千分之一秒）
print('U：每微秒（百万分之一秒）:',pd.date_range('2020/1/1 12:00:00','2020/1/1 12:00:01', freq = 'U'),sep='\n')  # U：每微秒（百万分之一秒）

print('W-MON：指定星期几开始算起，每周:',pd.date_range('2020/1/1','2020/2/1', freq = 'W-MON'),sep='\n')  
# W-MON：从指定星期几开始算起，每周
# 星期几缩写：MON/TUE/WED/THU/FRI/SAT/SUN

print('WOM-2MON：每月的第几个星期几开始算，这里是每月第二个星期一:',pd.date_range('2020/1/1','2020/5/1', freq = 'WOM-2MON'),sep='\n')  
# WOM-2MON：每月的第几个星期几开始算，这里是每月第二个星期一

默认freq = 'D'：每日历日:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], dtype='datetime64[ns]', freq='D')
B：每工作日:
DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03'], dtype='datetime64[ns]', freq='B')
H：每小时:
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 01:00:00',
               '2020-01-01 02:00:00', '2020-01-01 03:00:00',
               '2020-01-01 04:00:00', '2020-01-01 05:00:00',
               '2020-01-01 06:00:00', '2020-01-01 07:00:00',
               '2020-01-01 08:00:00', '2020-01-01 09:00:00',
               '2020-01-01 10:00:00', '2020-01-01 11:00:00',
               '2020-01-01 12:00:00', '2020-01-01 13:00:00',
               '2020-01-01 14:00:00', '2020-01-01 15:00:00',
               '2020-01-01 16:00:00', '2020-01-01 17:00:00',
               '2020-01-01 18:00:00', '2020-01-01 19:00:00',
               '2020-01-01 20:00:00', '2020-01-01 21:00:00',
               '2020-01-01 22:00:00', '2020-01-01 23:00:00',
               '2020-01-02 00:00:00'

In [49]:
# pd.date_range()-日期范围：频率(2)

print(pd.date_range('2019','2020', freq = 'M'))  
print(pd.date_range('2019','2020', freq = 'Q-DEC'))  
print(pd.date_range('2019','2020', freq = 'A-DEC')) 
print('---------------------------------------------')
# M：每月最后一个日历日
# Q-月：指定月为季度末，每个季度末最后一月的最后一个日历日
# A-月：每年指定月份的最后一个日历日
# 月缩写：JAN/FEB/MAR/APR/MAY/JUN/JUL/AUG/SEP/OCT/NOV/DEC
# 所以Q-月只有三种情况：1-4-7-10,2-5-8-11,3-6-9-12

print(pd.date_range('2019','2020', freq = 'BM'))  
print(pd.date_range('2019','2020', freq = 'BQ-DEC'))  
print(pd.date_range('2019','2020', freq = 'BA-DEC')) 
print('---------------------------------------------')
# BM：每月最后一个工作日
# BQ-月：指定月为季度末，每个季度末最后一月的最后一个工作日
# BA-月：每年指定月份的最后一个工作日

print(pd.date_range('2019','2020', freq = 'MS'))  
print(pd.date_range('2019','2020', freq = 'QS-DEC'))  
print(pd.date_range('2019','2020', freq = 'AS-DEC')) 
print('---------------------------------------------')
# MS：每月第一个日历日
# QS-月：指定月为季度末，每个季度末最后一月的第一个日历日
# AS-月：每年指定月份的第一个日历日

print(pd.date_range('2019','2020', freq = 'BMS'))  
print(pd.date_range('2019','2020', freq = 'BQS-DEC'))  
print(pd.date_range('2019','2020', freq = 'BAS-DEC')) 
print('---------------------------------------------')
# BMS：每月第一个工作日
# BQS-月：指定月为季度末，每个季度末最后一月的第一个工作日
# BAS-月：每年指定月份的第一个工作日

DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30',
               '2019-05-31', '2019-06-30', '2019-07-31', '2019-08-31',
               '2019-09-30', '2019-10-31', '2019-11-30', '2019-12-31'],
              dtype='datetime64[ns]', freq='M')
DatetimeIndex(['2019-03-31', '2019-06-30', '2019-09-30', '2019-12-31'], dtype='datetime64[ns]', freq='Q-DEC')
DatetimeIndex(['2019-12-31'], dtype='datetime64[ns]', freq='A-DEC')
---------------------------------------------
DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-29', '2019-04-30',
               '2019-05-31', '2019-06-28', '2019-07-31', '2019-08-30',
               '2019-09-30', '2019-10-31', '2019-11-29', '2019-12-31'],
              dtype='datetime64[ns]', freq='BM')
DatetimeIndex(['2019-03-29', '2019-06-28', '2019-09-30', '2019-12-31'], dtype='datetime64[ns]', freq='BQ-DEC')
DatetimeIndex(['2019-12-31'], dtype='datetime64[ns]', freq='BA-DEC')
---------------------------------------------
DatetimeIndex(['2019-01-0

In [53]:
# pd.date_range()-日期范围：复合频率
print('7D:',pd.date_range('2019-12-15','2019-12-31',freq='7D'))  # 7天
print('2小时30分钟:',pd.date_range('2019-12-15','2019-12-16',freq='2h30min'))  # 2小时30分钟
print('7D:',pd.date_range('2019','2020',freq='12M'))  # 12月，每月最后一个日历日


7D: DatetimeIndex(['2019-12-15', '2019-12-22', '2019-12-29'], dtype='datetime64[ns]', freq='7D')
2小时30分钟: DatetimeIndex(['2019-12-15 00:00:00', '2019-12-15 02:30:00',
               '2019-12-15 05:00:00', '2019-12-15 07:30:00',
               '2019-12-15 10:00:00', '2019-12-15 12:30:00',
               '2019-12-15 15:00:00', '2019-12-15 17:30:00',
               '2019-12-15 20:00:00', '2019-12-15 22:30:00'],
              dtype='datetime64[ns]', freq='150T')
7D: DatetimeIndex(['2019-01-31'], dtype='datetime64[ns]', freq='12M')


In [70]:
# asfreq：时期频率转换

ts = pd.Series(np.random.rand(4),
              index = pd.date_range('20191215','20191218'))
print('ts:',ts,sep='\n')
print('------------------------')
print("method = 'ffill',用之前值填充:",ts.asfreq('4H',method = 'ffill'))
# 改变频率，这里是D改为4H
# method：插值模式，None不插值，ffill用之前值填充，bfill用之后值填充
print('----------------------------')
print("method = 'bfill',用之后值填充:",ts.asfreq('4H',method = 'bfill'))  # TODO 如何实践?

ts:
2019-12-15    0.400722
2019-12-16    0.369833
2019-12-17    0.597290
2019-12-18    0.649591
Freq: D, dtype: float64
------------------------
method = 'ffill',用之前值填充No: 2019-12-15 00:00:00    0.400722
2019-12-15 04:00:00    0.400722
2019-12-15 08:00:00    0.400722
2019-12-15 12:00:00    0.400722
2019-12-15 16:00:00    0.400722
2019-12-15 20:00:00    0.400722
2019-12-16 00:00:00    0.369833
2019-12-16 04:00:00    0.369833
2019-12-16 08:00:00    0.369833
2019-12-16 12:00:00    0.369833
2019-12-16 16:00:00    0.369833
2019-12-16 20:00:00    0.369833
2019-12-17 00:00:00    0.597290
2019-12-17 04:00:00    0.597290
2019-12-17 08:00:00    0.597290
2019-12-17 12:00:00    0.597290
2019-12-17 16:00:00    0.597290
2019-12-17 20:00:00    0.597290
2019-12-18 00:00:00    0.649591
Freq: 4H, dtype: float64
----------------------------
method = 'bfill',用之后值填充: 2019-12-15 00:00:00    0.400722
2019-12-15 04:00:00    0.369833
2019-12-15 08:00:00    0.369833
2019-12-15 12:00:00    0.369833
2019-12-15 16

In [85]:
# pd.date_range()-日期范围：超前/滞后数据 shift()

ts = pd.Series(np.random.rand(4),
              index = pd.date_range('20170101','20170104'))
print('时间序列:',ts,sep='\n')

# 正数：数值后移（滞后）   负数：数值前移（超前）
print('正数：数值后移（滞后）:',ts.shift(2),sep='\n')  # 默认是操作values
print('负数：数值前移（超前）',ts.shift(-2),sep='\n')
print('------------------------')

# 计算变化百分比，这里计算：该时间戳与上一个时间戳相比，变化百分比
per = ts/ts.shift(1) - 1
print('变化百分比:',per,sep='\n')
print('------------------------')

# 加上freq参数：对时间戳进行位移，而不是对数值进行位移
print('对时间戳进行滞后,滞后2天:',ts.shift(2, freq = 'D'),sep='\n')
print('滞后10分钟:',ts.shift(10, freq = 'T'),sep='\n')  # 滞后10分钟

时间序列:
2017-01-01    0.403244
2017-01-02    0.989120
2017-01-03    0.029793
2017-01-04    0.130652
Freq: D, dtype: float64
正数：数值后移（滞后）:
2017-01-01         NaN
2017-01-02         NaN
2017-01-03    0.403244
2017-01-04    0.989120
Freq: D, dtype: float64
负数：数值前移（超前）
2017-01-01    0.029793
2017-01-02    0.130652
2017-01-03         NaN
2017-01-04         NaN
Freq: D, dtype: float64
------------------------
变化百分比:
2017-01-01         NaN
2017-01-02    1.452905
2017-01-03   -0.969879
2017-01-04    3.385271
Freq: D, dtype: float64
------------------------
对时间戳进行滞后,滞后2天:
2017-01-03    0.403244
2017-01-04    0.989120
2017-01-05    0.029793
2017-01-06    0.130652
Freq: D, dtype: float64
滞后10分钟: 2017-01-01 00:10:00    0.403244
2017-01-02 00:10:00    0.989120
2017-01-03 00:10:00    0.029793
2017-01-04 00:10:00    0.130652
Freq: D, dtype: float64
