### 日期格式的转换

In [1]:
import pandas as pd

# 基本用法
date_str = '2022-01-01'
datetime_obj = pd.to_datetime(date_str)
print(datetime_obj)
# 输出：2022-01-01 00:00:00

# 处理多个日期字符串
date_str_list = ['2022-01-01', '2022-02-01', '2022-03-01']
datetime_series = pd.to_datetime(date_str_list)
print(datetime_series)
# 输出：
# 0   2022-01-01
# 1   2022-02-01
# 2   2022-03-01
# dtype: datetime64[ns]

# 指定日期格式
date_str_custom = '01-01-2022'
datetime_obj_custom = pd.to_datetime(date_str_custom, format='%m-%d-%Y')
print(datetime_obj_custom)
# 输出：2022-01-01 00:00:00

# 错误处理
date_str_error = '2022-01-01-INVALID'
datetime_obj_error = pd.to_datetime(date_str_error, errors='coerce')
print(datetime_obj_error)
# 输出：NaT（Not a Time）

# 处理 Unix 时间戳
unix_timestamp = 1642492800
datetime_from_unix = pd.to_datetime(unix_timestamp, unit='s')
print(datetime_from_unix)
# 输出：2022-01-19 00:00:00

# 处理时区
datetime_with_tz = pd.to_datetime('2022-01-01 00:00:00').tz_localize('UTC')
print(datetime_with_tz)
# 输出：2022-01-01 00:00:00+00:00


2022-01-01 00:00:00
DatetimeIndex(['2022-01-01', '2022-02-01', '2022-03-01'], dtype='datetime64[ns]', freq=None)
2022-01-01 00:00:00
NaT
2022-01-18 08:00:00
2022-01-01 00:00:00+00:00


In [5]:
# 将各种日期字符串转换成日期格式
import pandas as pd

df = pd.DataFrame({
    'Date': ['31-Jan-2024', '01/31/2024', '2024.01.31', '2024/01/31', '20240131']
    })

def convert_to_datetime(date_str):
    try:
        return pd.to_datetime(date_str)
    except ValueError:
        pass

date_series = df['Date'].apply(convert_to_datetime)
df['After Conversion'] = date_series
print(df)



          Date After Conversion
0  31-Jan-2024       2024-01-31
1   01/31/2024       2024-01-31
2   2024.01.31       2024-01-31
3   2024/01/31       2024-01-31
4     20240131       2024-01-31


In [9]:
# 从多列中组合成一个日期

import pandas as pd

df = pd.DataFrame({
    'Year':[2018, 2019, 2020],
    'Month':[1,2,3],
    'Day':[10, 20, 30],
    'Hour':[13, 14, 15],
    'Minute':[19, 30, 40],
    'Second':[15, 30, 45]
})

df['组合后的日期'] = pd.to_datetime(df)
df

Unnamed: 0,Year,Month,Day,Hour,Minute,Second,组合后的日期
0,2018,1,10,13,19,15,2018-01-10 13:19:15
1,2019,2,20,14,30,30,2019-02-20 14:30:30
2,2020,3,30,15,40,45,2020-03-30 15:40:45


### dt对象的基本使用

In [18]:
import pandas as pd 

df=pd.read_excel('data/原日期.xlsx')
df['日期'] = pd.to_datetime(df['原日期'])
# df.info()

df['年'] = df['日期'].dt.year
df['月'] = df['日期'].dt.month
df['日'] = df['日期'].dt.day

# 提取星期
df['星期几'] = df['日期'].dt.day_name()

# 提取季度
df['季度'] = df['日期'].dt.quarter 

# 判断
df['是否年底'] = df['日期'].dt.is_year_end
df['润年'] = df['日期'].dt.is_leap_year

df

Unnamed: 0,原日期,日期,年,月,日,星期几,季度,是否年底,润年
0,2020.1.12,2020-01-12,2020,1,12,Sunday,1,False,True
1,2020.6.15,2020-06-15,2020,6,15,Monday,2,False,True
2,2020.7.14,2020-07-14,2020,7,14,Tuesday,3,False,True
3,2020.12.31,2020-12-31,2020,12,31,Thursday,4,True,True
4,2021.1.16,2021-01-16,2021,1,16,Saturday,1,False,False
5,2021.2.14,2021-02-14,2021,2,14,Sunday,1,False,False
6,2021.3.18,2021-03-18,2021,3,18,Thursday,1,False,False
7,2021.4.24,2021-04-24,2021,4,24,Saturday,2,False,False


### 获取指定区间的数据

In [32]:
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('data/msb课程销售记录.xlsx')

df = df[['订单付款时间', '会员名', '实际支付金额', '联系手机', '学员姓名']]
df = df.sort_values('订单付款时间', ascending=True)

# 将日期设置为索引
df.set_index('订单付款时间', inplace=True)
# print(df.loc['2020'])   # 求2020年数据
# print(df.loc['2020-05'])   # 求2020年5月数据

# df['2020-05-25':'2020-05-25'] # 用切片来检索 2020-05-25 的数据

df['2020-06-01':'2020-06-30'] # 用切片来检索 2020-06 的数据

Unnamed: 0_level_0,会员名,实际支付金额,联系手机,学员姓名
订单付款时间,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2020-06-03 08:15:00,8q0vey1,12480,1***********,郭先生
2020-06-05 10:22:00,2cvkogn,2980,1***********,李先生
2020-06-06 10:38:00,al57mqn,15480,1***********,刘先生
2020-06-09 14:21:00,ksajlku,12480,1***********,车先生
2020-06-09 22:42:00,9p04wyh,12480,1***********,陈先生
2020-06-10 08:22:00,9t70iwk,15480,1***********,张先生
2020-06-11 01:56:00,kzynh5c,12480,1***********,范先生
2020-06-13 16:45:00,ivl58bm,2980,1***********,t先生
2020-06-21 18:35:00,1qyoqb5,15480,1***********,许先生
2020-06-21 22:36:00,5b0bycj,15480,1***********,颜先生


### 按不同时期统计数据

In [43]:
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('data/msb课程销售记录.xlsx')

df = df[['订单付款时间', '实际支付金额']]
# 将日期设置为索引
df = df.set_index('订单付款时间')

# 按照年统计求和
df1 = df.resample('YS').sum()

# 按照季度统计求和
df2 = df.resample('QE').sum()

# 按照月统计求和
df3 = df.resample('ME').sum()

# 按照星期统计求和
df4 = df.resample('W').sum()

# 按照天统计求和
df5 = df.resample('D').sum()
df5



Unnamed: 0_level_0,实际支付金额
订单付款时间,Unnamed: 1_level_1
2020-05-09,14480
2020-05-10,0
2020-05-11,0
2020-05-12,0
2020-05-13,0
...,...
2020-10-21,0
2020-10-22,0
2020-10-23,0
2020-10-24,0


### 按不同日期统计并显示数据

In [49]:
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('data/msb课程销售记录.xlsx')


# 将日期设置为索引
df = df.set_index('订单付款时间')

df.to_period('Y').head()    # Y 表示 年
df.to_period('Q').head()    # Q 表示 季度
df.to_period('M').head()    # M 表示 月份
df.to_period('W').head()    # W 表示 周


Unnamed: 0_level_0,会员名,实际支付金额,课程名称,学员姓名,联系手机
订单付款时间,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-06-15/2020-06-21,5b0bycj,15480,Java高级互联网架构师,颜先生,1***********
2020-06-15/2020-06-21,1qyoqb5,15480,Java高级互联网架构师,许先生,1***********
2020-06-01/2020-06-07,al57mqn,15480,Java高级互联网架构师,刘先生,1***********
2020-06-08/2020-06-14,9t70iwk,15480,Java高级互联网架构师,张先生,1***********
2020-07-13/2020-07-19,oycih87,15480,Java高级互联网架构师,陈某某,1**********


In [56]:
import pandas as pd
pd.set_option('display.unicode.east_asian_width', True)
df = pd.read_excel('data/msb课程销售记录.xlsx')


# 将日期设置为索引
df = df.set_index('订单付款时间')
df.resample('YS').sum().to_period('Y')
'''  
resample('YS'): 这部分使用 resample 函数来按年进行重新采样。'YS' 表示按年开始(Year Start)的频率。
也可以使用其他频率，例如 'MS'（月开始）等。

.sum(): 这表示对每个重新采样的时间窗口进行求和操作。在这里，它对每一年的数据进行了求和。

.to_period('Y'): 最后，使用 .to_period 将时间索引转换为 Period 类型，表示每一年的总和。
'''

# 按季度统计 并显示数据
df.resample('QS').sum().to_period('Q')

# 按月统计 并显示数据
df.resample('ME').sum().to_period('M')

# 按周统计 并显示数据
df.resample('W').sum().to_period('W')

Unnamed: 0_level_0,会员名,实际支付金额,课程名称,学员姓名,联系手机
订单付款时间,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2020-05-04/2020-05-10,xrd1h82,14480,大数据全栈工程师,杨某某,1**********
2020-05-11/2020-05-17,xf142eh4jnqh8641mk55a,26340,从零基础开始学Python大数据多线程与高并发第二版大数据全栈工程师...,杜某某黄某某周某某,1**********1**********1**********
2020-05-18/2020-05-24,5ax69ek,8880,从零基础开始学Python大数据,张某某,1**********
2020-05-25/2020-05-31,j7dnasa9gxur51,11860,多线程与高并发第二版从零基础开始学Python大数据,刘某某高某某,1**********1**********
2020-06-01/2020-06-07,8q0vey12cvkognal57mqn,30940,Java零基础后端工程师多线程与高并发第二版Java高级互联网架构师...,郭先生李先生刘先生,1***********1***********1***********
2020-06-08/2020-06-14,ksajlku9p04wyh9t70iwkkzynh5civl58bm,55900,Java零基础后端工程师Java零基础后端工程师Java高级互联网架构师Java零基础后端工...,车先生陈先生张先生范先生t先生,1***********1***********1***********1*********...
2020-06-15/2020-06-21,1qyoqb55b0bycj,30960,Java高级互联网架构师Java高级互联网架构师,许先生颜先生,1***********1***********
2020-06-22/2020-06-28,0,0,0,0,0
2020-06-29/2020-07-05,0,0,0,0,0
2020-07-06/2020-07-12,h73ahuxhql0x4h,24960,Java零基础后端工程师Java零基础后端工程师,吴某某张某某,1**********1**********
