# datetime

在数据分析中，日期和时间是常见的数据类型，本小节将讲解DataFrame中使用datetime包处理日期和时间数据

## pd.to_datetime()将字符串日期转为 datetime 类型

在DataFrame中，日期通常以字符串格式存储。需要先将这些字符串转换为 datetime 类型，才能进行时间运算和其他操作

**pd.to_datetime(arg, format)**：
- arg: 要转换为 datetime 的对象
- format: 指定日期字符串的格式

In [1]:
import pandas as pd

# 创建一个示例 DataFrame，日期以字符串表示
data = {'Date': ['2023-01-01', '2023-01-02', '2023-01-03'], 'Value': [100, 200, 300]}
df = pd.DataFrame(data)
df['Date']

0    2023-01-01
1    2023-01-02
2    2023-01-03
Name: Date, dtype: object

In [2]:
# 将 'Date' 列转换为 datetime 类型
df['Date'] = pd.to_datetime(df['Date'])
df['Date']

0   2023-01-01
1   2023-01-02
2   2023-01-03
Name: Date, dtype: datetime64[ns]

**format指定日期字符串的格式**

- `%Y`：四位年份（例如2024）
- `%m`：月份（01到12）
- `%d`：日（01到31）
- `%H`：小时（00到23）
- `%M`：分钟（00到59）
- `%S`：秒（00到59）

In [3]:
pd.to_datetime("31-01-2023", format="%d-%m-%Y")

Timestamp('2023-01-31 00:00:00')

## .dt提取日期和时间信息

转换为 datetime 类型后，可以提取年、月、日、时等信息，用于后续分析

In [4]:
data = {'Date': ['2023-01-01 10:30:00', '2023-01-02 15:45:00', '2023-01-03 08:15:00']}
df = pd.DataFrame(data)
df

Unnamed: 0,Date
0,2023-01-01 10:30:00
1,2023-01-02 15:45:00
2,2023-01-03 08:15:00


In [5]:
# 转换为 datetime 类型
df['Date'] = pd.to_datetime(df['Date'])

# 提取年、月、日信息
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day

# 提取时间部分
df['Hour'] = df['Date'].dt.hour
df['Minute'] = df['Date'].dt.minute
df['Second'] = df['Date'].dt.second

df

Unnamed: 0,Date,Year,Month,Day,Hour,Minute,Second
0,2023-01-01 10:30:00,2023,1,1,10,30,0
1,2023-01-02 15:45:00,2023,1,2,15,45,0
2,2023-01-03 08:15:00,2023,1,3,8,15,0


## 按日期过滤数据

可以使用布尔索引或日期范围过滤数据

In [6]:
# 示例数据
data = {'Date': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
        'Value': [100, 200, 300, 400]}
df = pd.DataFrame(data)

# 转换为 datetime 类型
df['Date'] = pd.to_datetime(df['Date'])

df

Unnamed: 0,Date,Value
0,2023-01-01,100
1,2023-01-02,200
2,2023-01-03,300
3,2023-01-04,400


In [7]:
# 过滤日期范围为 2023-01-02 至 2023-01-03 的数据
filtered_df = df[(df['Date'] >= '2023-01-02') & (df['Date'] <= '2023-01-03')]
filtered_df

Unnamed: 0,Date,Value
1,2023-01-02,200
2,2023-01-03,300


## 日期计算与时间差

Pandas 支持基于 datetime 类型进行加减操作（依赖 timedelta）

### +-计算时间差

In [8]:
# 示例数据
data = {'Start': ['2023-01-01', '2023-01-02'], 'End': ['2023-01-03', '2023-01-05']}
df = pd.DataFrame(data)

# 转换为 datetime 类型
df['Start'] = pd.to_datetime(df['Start'])
df['End'] = pd.to_datetime(df['End'])

df

Unnamed: 0,Start,End
0,2023-01-01,2023-01-03
1,2023-01-02,2023-01-05


In [9]:
# 计算时间差
df['Duration'] = df['End'] - df['Start']
df

Unnamed: 0,Start,End,Duration
0,2023-01-01,2023-01-03,2 days
1,2023-01-02,2023-01-05,3 days


### pd.Timedelta()向日期加减时间

* `weeks`：周
* `days`：日
* `hours`：小时
* `minutes`：分钟
* `seconds`：秒

In [10]:
# 添加或减去天数
df['Start_plus_5days'] = df['Start'] + pd.Timedelta(weeks=1, days=2, hours=5,minutes=10)
df

Unnamed: 0,Start,End,Duration,Start_plus_5days
0,2023-01-01,2023-01-03,2 days,2023-01-10 05:10:00
1,2023-01-02,2023-01-05,3 days,2023-01-11 05:10:00


## 按日期分组

可以使用日期的年月日等信息对数据分组

In [11]:
# 示例数据
data = {'Date': ['2023-01-01', '2023-01-02', '2023-02-01', '2023-02-03'],
        'Value': [100, 200, 300, 400]}
df = pd.DataFrame(data)

# 转换为 datetime 类型
df['Date'] = pd.to_datetime(df['Date'])
df

Unnamed: 0,Date,Value
0,2023-01-01,100
1,2023-01-02,200
2,2023-02-01,300
3,2023-02-03,400


In [12]:
# 提取月份并按月份分组
df['Month'] = df['Date'].dt.month
grouped = df.groupby('Month')['Value'].sum()

grouped

Month
1    300
2    700
Name: Value, dtype: int64

## 设置和操作时间索引

Pandas 支持将日期设置为索引，用于高效的时间序列操作

In [13]:
# 示例数据
data = {'Date': ['2023-01-01', '2023-01-02', '2023-01-03'], 'Value': [100, 200, 300]}
df = pd.DataFrame(data)
df

Unnamed: 0,Date,Value
0,2023-01-01,100
1,2023-01-02,200
2,2023-01-03,300


In [14]:
# 将日期列设置为索引
df['Date'] = pd.to_datetime(df['Date'])
df.set_index('Date', inplace=True)
df

Unnamed: 0_level_0,Value
Date,Unnamed: 1_level_1
2023-01-01,100
2023-01-02,200
2023-01-03,300


In [15]:
# 将日期列设置为索引
# 筛选 2023 年 1 月 2 日的数据
filtered = df.loc['2023-01-02']
filtered

Value    200
Name: 2023-01-02 00:00:00, dtype: int64

## strptime与strftime

### 格式化字符串

- `%Y`：四位年份（例如2024）
- `%m`：月份（01到12）
- `%d`：日（01到31）
- `%H`：小时（00到23）
- `%M`：分钟（00到59）
- `%S`：秒（00到59）
- `%I`：12 小时制的小时
- `%p`：AM 或 PM

### strptime

strptime 用于将 时间字符串 转换为 datetime 对象

In [16]:
import pandas as pd
from datetime import datetime

# 将时间字符串解析为 datetime
data = {
    'date_str': ['2025-01-01 10:00:00', '2025-01-02 12:30:00', '2025-01-03 15:45:00']
}
df = pd.DataFrame(data)
df

Unnamed: 0,date_str
0,2025-01-01 10:00:00
1,2025-01-02 12:30:00
2,2025-01-03 15:45:00


In [17]:
# 使用 strptime 将时间字符串解析为 datetime 对象
df['parsed_date'] = df['date_str'].apply(lambda x: datetime.strptime(x, '%Y-%m-%d %H:%M:%S'))
df

Unnamed: 0,date_str,parsed_date
0,2025-01-01 10:00:00,2025-01-01 10:00:00
1,2025-01-02 12:30:00,2025-01-02 12:30:00
2,2025-01-03 15:45:00,2025-01-03 15:45:00


In [18]:
df.dtypes

date_str               object
parsed_date    datetime64[ns]
dtype: object

### strftime

strftime 用于将 datetime 对象 转换为指定格式的 时间字符串

In [19]:
# 使格式化时间为指定字符串
df['formatted_date'] = df['parsed_date'].apply(lambda x: x.strftime('%d/%m/%Y %I:%M %p'))
df

Unnamed: 0,date_str,parsed_date,formatted_date
0,2025-01-01 10:00:00,2025-01-01 10:00:00,01/01/2025 10:00 AM
1,2025-01-02 12:30:00,2025-01-02 12:30:00,02/01/2025 12:30 PM
2,2025-01-03 15:45:00,2025-01-03 15:45:00,03/01/2025 03:45 PM


In [20]:
df.dtypes

date_str                  object
parsed_date       datetime64[ns]
formatted_date            object
dtype: object

## datetime.now()获取当前时间

In [21]:
from datetime import datetime
now = datetime.now()
now

datetime.datetime(2025, 2, 11, 20, 53, 47, 740885)

In [22]:
# 格式化日期和时间
formatted_now = now.strftime("%Y-%m-%d %H:%M:%S")
print("格式化后的日期和时间：", formatted_now)

格式化后的日期和时间： 2025-02-11 20:53:47
