# 金融量化中的数据格式

在金融量化分析中，正确处理数据格式至关重要。本教程将介绍金融量化中常见的数据格式，特别是日期时间处理。

---

## 1. 日期时间处理 - datetime 模块

Python 的 `datetime` 模块是处理日期和时间的基础模块

---

datetime下面有最常用的四个类别  
类名,负责什么,包含的信息
date,纯日期,年、月、日
time,纯时间,时、分、秒、微秒
datetime,完整日期时间,年、月、日 + 时、分、秒...
timedelta,时间差（跨度）,天数、秒、微秒（用于加减计算）


In [4]:
from datetime import datetime, date, time, timedelta
import time as time_module

# 创建当前日期时间
now = datetime.now()
print("当前时间:", now)
print("类型:", type(now))

# 创建指定日期时间
specific_date = datetime(2024, 1, 15, 14, 30, 0)
print("指定日期时间:", specific_date)

# 只创建日期
today = date.today()
print("今天日期:", today)

# 只创建时间
specific_time = time(14, 30, 0)
print("指定时间:", specific_time)

当前时间: 2026-01-13 16:04:10.877798
类型: <class 'datetime.datetime'>
指定日期时间: 2024-01-15 14:30:00
今天日期: 2026-01-13
指定时间: 14:30:00


### 日期时间格式化

---

In [5]:
# 日期时间格式化
now = datetime.now()

# 转换为字符串
date_str = now.strftime("%Y-%m-%d %H:%M:%S")
print("格式化字符串:", date_str)

# 常用格式
formats = {
    "标准格式": now.strftime("%Y-%m-%d %H:%M:%S"),
    "日期": now.strftime("%Y-%m-%d"),
    "时间": now.strftime("%H:%M:%S"),
    "中文格式": now.strftime("%Y年%m月%d日"),
    "ISO格式": now.isoformat(),
    "时间戳": now.timestamp()
}

for key, value in formats.items():
    print(f"{key}: {value}")

格式化字符串: 2026-01-13 16:04:10
标准格式: 2026-01-13 16:04:10
日期: 2026-01-13
时间: 16:04:10
中文格式: 2026年01月13日
ISO格式: 2026-01-13T16:04:10.883336
时间戳: 1768291450.883336


In [6]:
# 从字符串解析日期时间
date_strings = [
    "2024-01-15",
    "2024-01-15 14:30:00",
    "15/01/2024",
    "2024-01-15T14:30:00"
]

for date_str in date_strings:
    try:
        if "T" in date_str:
            dt = datetime.fromisoformat(date_str)
        elif "/" in date_str:
            dt = datetime.strptime(date_str, "%d/%m/%Y")
        elif " " in date_str:
            dt = datetime.strptime(date_str, "%Y-%m-%d %H:%M:%S")
        else:
            dt = datetime.strptime(date_str, "%Y-%m-%d")
        print(f"{date_str} -> {dt}")
    except ValueError as e:
        print(f"解析失败: {date_str}, 错误: {e}")

2024-01-15 -> 2024-01-15 00:00:00
2024-01-15 14:30:00 -> 2024-01-15 14:30:00
15/01/2024 -> 2024-01-15 00:00:00
2024-01-15T14:30:00 -> 2024-01-15 14:30:00


### 日期时间计算

---

In [7]:
# 日期时间加减
base_date = datetime(2024, 1, 15)
print("基准日期:", base_date)

# 加一天
next_day = base_date + timedelta(days=1)
print("加一天:", next_day)

# 加一周
next_week = base_date + timedelta(weeks=1)
print("加一周:", next_week)

# 加一个月（约30天）
next_month = base_date + timedelta(days=30)
print("加30天:", next_month)

# 计算时间差
date1 = datetime(2024, 1, 15)
date2 = datetime(2024, 2, 15)
diff = date2 - date1
print(f"时间差: {diff.days} 天")
print(f"时间差: {diff.total_seconds()} 秒")

基准日期: 2024-01-15 00:00:00
加一天: 2024-01-16 00:00:00
加一周: 2024-01-22 00:00:00
加30天: 2024-02-14 00:00:00
时间差: 31 天
时间差: 2678400.0 秒


## 2. Pandas 日期时间处理

在金融量化中，pandas 是最常用的数据处理库

---

In [10]:
weekdate=pd.date_range(start="2024-01-01",periods=5,freq="W")
weekdate

DatetimeIndex(['2024-01-07', '2024-01-14', '2024-01-21', '2024-01-28',
               '2024-02-04'],
              dtype='datetime64[ns]', freq='W-SUN')

In [None]:
import pandas as pd
import numpy as np

# 创建日期范围
date_range = pd.date_range('2024-01-01', periods=10, freq='D')
print("日期范围:")
print(date_range)

# 不同的频率
frequencies = {
    '日': pd.date_range('2024-01-01', periods=5, freq='D'),
    '周': pd.date_range('2024-01-01', periods=5, freq='W'),
    '月': pd.date_range('2024-01-01', periods=5, freq='M'),
    '工作日': pd.date_range('2024-01-01', periods=5, freq='B'),
    '小时': pd.date_range('2024-01-01', periods=5, freq='H'),
    '分钟': pd.date_range('2024-01-01', periods=5, freq='T')
}

for freq_name, dates in frequencies.items():
    print(f"\n{freq_name}频率:")
    print(dates)

#DatetimeIndex 是pandas的日期时间索引类型

日期范围:
DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05', '2024-01-06', '2024-01-07', '2024-01-08',
               '2024-01-09', '2024-01-10'],
              dtype='datetime64[ns]', freq='D')

日频率:
DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05'],
              dtype='datetime64[ns]', freq='D')

周频率:
DatetimeIndex(['2024-01-07', '2024-01-14', '2024-01-21', '2024-01-28',
               '2024-02-04'],
              dtype='datetime64[ns]', freq='W-SUN')

月频率:
DatetimeIndex(['2024-01-31', '2024-02-29', '2024-03-31', '2024-04-30',
               '2024-05-31'],
              dtype='datetime64[ns]', freq='ME')

工作日频率:
DatetimeIndex(['2024-01-01', '2024-01-02', '2024-01-03', '2024-01-04',
               '2024-01-05'],
              dtype='datetime64[ns]', freq='B')

小时频率:
DatetimeIndex(['2024-01-01 00:00:00', '2024-01-01 01:00:00',
               '2024-01-01 02:00:00', '2024-01-01 03:00:00',
    

  '月': pd.date_range('2024-01-01', periods=5, freq='M'),
  '小时': pd.date_range('2024-01-01', periods=5, freq='H'),
  '分钟': pd.date_range('2024-01-01', periods=5, freq='T')


In [None]:
# 创建带日期索引的 DataFrame
dates = pd.date_range('2024-01-01', periods=10, freq='D')# 先创建一个date的索引，用pandas的DatetimeIndex数据类型
prices = np.random.uniform(100, 200, 10).round(2)

df = pd.DataFrame({
    'date': dates,
    'price': prices
})

print("原始 DataFrame:")
print(df.head())

# 将日期设置为索引
df_indexed = df.set_index('date')
print("\n设置日期为索引:")
print(df_indexed.head())

原始 DataFrame:
        date   price
0 2024-01-01  117.49
1 2024-01-02  101.33
2 2024-01-03  176.27
3 2024-01-04  188.17
4 2024-01-05  152.33

设置日期为索引:
             price
date              
2024-01-01  117.49
2024-01-02  101.33
2024-01-03  176.27
2024-01-04  188.17
2024-01-05  152.33
