# 时间序列数据分析处理


In [1]:
# 时间生成
import datetime

datetime.datetime.now()  # 获取当前时间

datetime.datetime(2025, 11, 27, 10, 44, 12, 261635)

In [2]:
# 时间计算
datetime.datetime(2018, 10, 1) - datetime.datetime(2017, 10, 1)  # 计算时间间隔

datetime.timedelta(days=365)

In [3]:
# 时间格式转化
datetime.datetime.now().strftime("%Y-%m-%d")  # 转换为自定义样式

'2025-11-27'

strftime支持的占位符包括：

%y 两位数的年份表示（00-99）

%Y 四位数的年份表示（000-9999）

%m 月份（01 - 12）

%d 月内中的一天（0 - 31）

%H 24 小时制小时数（0 - 23）

%I 12 小时制小时数（01 - 12）

%M 分钟数（00 - 59）

%S 秒（00 - 59）

%a 本地简化星期名称

%A 本地完整星期名称

%b 本地简化的月份名称

%B 本地完整的月份名称

%c 本地相应的日期表示和时间表示

%j 年内的一天（001 - 366）

%p 本地 A.M. 或 P.M. 的等价符

%U 一年中的星期数（00 - 53）星期天为星期的开始

%w 星期（0 - 6），星期天为星期的开始

%W 一年中的星期数（00 - 53）星期一为星期的开始

%x 本地相应的日期表示

%X 本地相应的时间表示

%Z 当前时区的名称

In [4]:
# 时区
utc = datetime.datetime.utcnow()  # 获取 UTC 时间
tzutc_8 = datetime.timezone(datetime.timedelta(hours=8))  # + 8 小时
utc_8 = utc.astimezone(tzutc_8)  # 添加到时区中
print(utc_8)

2025-11-27 02:47:35.160828+08:00


  utc = datetime.datetime.utcnow()  # 获取 UTC 时间


In [6]:
# 时间戳
import pandas as pd

pd.Timestamp("2018-10-1")

# to_datatime()
pd.to_datetime("1-10-2018", dayfirst=True)

Timestamp('2018-10-01 00:00:00')

In [7]:
# 时间索引Datetimeindex
# 时间索引就是由一系列时间戳组成，不过在 Pandas 中的数据类型为 DatetimeIndex
pd.to_datetime(["2018-10-1", "2018-10-2", "2018-10-3"])  # 生成时间索引

DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03'], dtype='datetime64[ns]', freq=None)

In [9]:
# 更常用的生成Datetimeindex的方法是pandas.date_range
'''
pandas.date_range(start=None, end=None, periods=None, freq=’D’, tz=None, normalize=False, name=None, closed=None, **kwargs)
    start: 起始时间
    end: 截止时间
    periods: 时间区间
    freq: 间隔周期
    tz: 时区
'''
pd.date_range("2018-10-1", "2018-10-2", freq="h")  # 按小时间隔生成时间索引

DatetimeIndex(['2018-10-01 00:00:00', '2018-10-01 01:00:00',
               '2018-10-01 02:00:00', '2018-10-01 03:00:00',
               '2018-10-01 04:00:00', '2018-10-01 05:00:00',
               '2018-10-01 06:00:00', '2018-10-01 07:00:00',
               '2018-10-01 08:00:00', '2018-10-01 09:00:00',
               '2018-10-01 10:00:00', '2018-10-01 11:00:00',
               '2018-10-01 12:00:00', '2018-10-01 13:00:00',
               '2018-10-01 14:00:00', '2018-10-01 15:00:00',
               '2018-10-01 16:00:00', '2018-10-01 17:00:00',
               '2018-10-01 18:00:00', '2018-10-01 19:00:00',
               '2018-10-01 20:00:00', '2018-10-01 21:00:00',
               '2018-10-01 22:00:00', '2018-10-01 23:00:00',
               '2018-10-02 00:00:00'],
              dtype='datetime64[ns]', freq='h')

In [10]:
# 从 2018-10-1 开始，以天为间隔，向后推 10 次
pd.date_range("2018-10-1", periods=10, freq="D")

DatetimeIndex(['2018-10-01', '2018-10-02', '2018-10-03', '2018-10-04',
               '2018-10-05', '2018-10-06', '2018-10-07', '2018-10-08',
               '2018-10-09', '2018-10-10'],
              dtype='datetime64[ns]', freq='D')

In [11]:
# 从 2018-10-1 开始，以 1H20min 为间隔，向后推 10 次
pd.date_range("2018-10-1", periods=10, freq="1H20min")

  pd.date_range("2018-10-1", periods=10, freq="1H20min")


DatetimeIndex(['2018-10-01 00:00:00', '2018-10-01 01:20:00',
               '2018-10-01 02:40:00', '2018-10-01 04:00:00',
               '2018-10-01 05:20:00', '2018-10-01 06:40:00',
               '2018-10-01 08:00:00', '2018-10-01 09:20:00',
               '2018-10-01 10:40:00', '2018-10-01 12:00:00'],
              dtype='datetime64[ns]', freq='80min')

In [13]:
# offset对象
time_index = pd.date_range("2018-10-1", periods=10, freq="1D1h")
time_index

DatetimeIndex(['2018-10-01 00:00:00', '2018-10-02 01:00:00',
               '2018-10-03 02:00:00', '2018-10-04 03:00:00',
               '2018-10-05 04:00:00', '2018-10-06 05:00:00',
               '2018-10-07 06:00:00', '2018-10-08 07:00:00',
               '2018-10-09 08:00:00', '2018-10-10 09:00:00'],
              dtype='datetime64[ns]', freq='25h')

In [14]:
# 使用 offset 对象让 time_index 依次增加 1 个月 + 2 天 + 3 小时
from pandas import offsets

time_index + offsets.DateOffset(months=1, days=2, hours=3)

DatetimeIndex(['2018-11-03 03:00:00', '2018-11-04 04:00:00',
               '2018-11-05 05:00:00', '2018-11-06 06:00:00',
               '2018-11-07 07:00:00', '2018-11-08 08:00:00',
               '2018-11-09 09:00:00', '2018-11-10 10:00:00',
               '2018-11-11 11:00:00', '2018-11-12 12:00:00'],
              dtype='datetime64[ns]', freq=None)

In [None]:
# 时间间隔Periods
# 年跨度
pd.Period("2018")
# Periods 代表是 2018-01-01 这一天
# 而 Timestamp 仅代表 2018-01-01 00:00:00 这一时刻

Period('2018', 'Y-DEC')

In [16]:
# 时间间隔索引PeriodIndex
p = pd.period_range("2018", "2019", freq="M")  # 生成 2018-1 到 2019-1 序列，按月分布
p

PeriodIndex(['2018-01', '2018-02', '2018-03', '2018-04', '2018-05', '2018-06',
             '2018-07', '2018-08', '2018-09', '2018-10', '2018-11', '2018-12',
             '2019-01'],
            dtype='period[M]')

In [21]:
# 时序数据选择、切片、偏移
# 尝试生成包含时间索引的 Series 示例，并对数据进行选择
import numpy as np

timeindex = pd.date_range("2018-1-1", periods=20, freq="ME")
s = pd.Series(np.random.randn(len(timeindex)), index=timeindex)
s

2018-01-31    0.665565
2018-02-28    1.992839
2018-03-31    0.504738
2018-04-30   -0.847179
2018-05-31   -0.254765
2018-06-30   -1.144731
2018-07-31   -0.279768
2018-08-31   -0.154299
2018-09-30   -1.111499
2018-10-31   -0.064642
2018-11-30   -0.138954
2018-12-31    0.341200
2019-01-31   -1.006590
2019-02-28    0.340054
2019-03-31   -1.756344
2019-04-30   -0.043538
2019-05-31   -0.804027
2019-06-30    0.107911
2019-07-31   -0.787074
2019-08-31   -1.185628
Freq: ME, dtype: float64

In [26]:
# 时序数据重采样
# Resample 的目的是提升或降低一个时间索引序列的频率。
# 例如：当时间序列数据量非常大时，我们可以通过低频率采样的方法得到规模较小到时间覆盖依然较为全面的新数据集
dateindex = pd.period_range("2018-10-1", periods=20, freq="D")
s = pd.Series(np.random.randn(len(dateindex)), index=dateindex)
s

2018-10-01    0.056809
2018-10-02   -0.662207
2018-10-03   -3.283262
2018-10-04   -1.088577
2018-10-05   -0.136902
2018-10-06   -0.602049
2018-10-07    1.017209
2018-10-08   -0.860825
2018-10-09    1.807162
2018-10-10   -0.442950
2018-10-11   -0.633505
2018-10-12   -0.498597
2018-10-13   -1.049797
2018-10-14   -0.809699
2018-10-15    0.856464
2018-10-16    1.134978
2018-10-17   -0.993117
2018-10-18   -1.042112
2018-10-19   -0.770174
2018-10-20   -0.424748
Freq: D, dtype: float64

In [29]:
# 对 Series 按照 2 天进行降采样
# 并对 2 天对应的数据求和作为新数据
s.resample("2D").sum()  # 降采样，并将删去的数据依次合并到保留数据中

s.resample("2D").asfreq()  # 降采样，直接舍去数据

s.resample("2D").ohlc()

  s.resample("2D").sum()  # 降采样，并将删去的数据依次合并到保留数据中
  s.resample("2D").asfreq()  # 降采样，直接舍去数据
  s.resample("2D").ohlc()


Unnamed: 0,open,high,low,close
2018-10-01,0.056809,0.056809,-0.662207,-0.662207
2018-10-03,-3.283262,-1.088577,-3.283262,-1.088577
2018-10-05,-0.136902,-0.136902,-0.602049,-0.602049
2018-10-07,1.017209,1.017209,-0.860825,-0.860825
2018-10-09,1.807162,1.807162,-0.44295,-0.44295
2018-10-11,-0.633505,-0.498597,-0.633505,-0.498597
2018-10-13,-1.049797,-0.809699,-1.049797,-0.809699
2018-10-15,0.856464,1.134978,0.856464,1.134978
2018-10-17,-0.993117,-0.993117,-1.042112,-1.042112
2018-10-19,-0.770174,-0.424748,-0.770174,-0.424748


In [30]:
s.resample("H").ffill()  # 升采样，使用相同的数据对新增加行填充

  s.resample("H").ffill()  # 升采样，使用相同的数据对新增加行填充
  s.resample("H").ffill()  # 升采样，使用相同的数据对新增加行填充


2018-10-01 00:00    0.056809
2018-10-01 01:00    0.056809
2018-10-01 02:00    0.056809
2018-10-01 03:00    0.056809
2018-10-01 04:00    0.056809
                      ...   
2018-10-20 19:00   -0.424748
2018-10-20 20:00   -0.424748
2018-10-20 21:00   -0.424748
2018-10-20 22:00   -0.424748
2018-10-20 23:00   -0.424748
Freq: h, Length: 480, dtype: float64