In [1]:
# datetime 数据类型学习目标
# 1、应用Pandas来处理日期时间类型数据

In [121]:
# 导入datatime包
from datetime import datetime

# 导入Pandas包
import pandas as pd

# 导入matplotlib包
import matplotlib.pyplot as plt

In [5]:
# 获取当前时间
datetime.now()

In [6]:
# 创建一个时间对象
datetime(2021, 1, 1)

In [11]:
# 将Pandas中数据类型转换为datetime类型
ebola = pd.read_csv('../data/country_timeseries.csv')
ebola
# 122列、18行，除Date、Day外其他字段都有缺失值

In [10]:
# 将Date列转换为datetime
ebola['Date'] = pd.to_datetime(ebola['Date'])
ebola

In [16]:
# 在加载的时候，通过parse_dates参数指定日期时间列
ebola = pd.read_csv('../data/country_timeseries.csv', parse_dates = [0]).iloc[:5, :5]
ebola.info()

In [17]:
# 提取日期的各个部分
d = pd.to_datetime('2020-06-20')
d # Timestamp('2020-06-20 00:00:00')

In [18]:
d.year
d.month
d.day

In [19]:
ebola['year'] = ebola['Date'].dt.year
ebola['year']

In [20]:
# 日期范围 date_range
head_range = pd.date_range(start='2014-12-31',end='2015-01-05')
head_range

In [23]:
# 2020年1月1日这周所有的工作日(使用date_range函数创建日期序列时，可以传入一个参数freq，默认情况下freq取值为D，表示日期范围内的值是逐日递增的。)
# Alias	        Description
# B	            工作日
# C	            自定义工作日
# D	            日历日
# W	            每周
# M	            月末
# SM	        月中和月末（每月第15天和月末）
# BM	        月末工作日
# CBM	        自定义月末工作日
# MS	        月初
# SMS	        月初和月中（每月第1天和第15天）
# BMS	        月初工作日
# CBMS	        自定义月初工作日
# Q	            季度末
# BQ	        季度末工作日
# QS	        季度初
# BQS	        季度初工作日
# A,Y	        年末
# BA,BY	        年末工作日
# AS,YS	        年初
# BAS,BYS	    年初工作日
# BH	        工作时间
# H	            小时
# T,min	        分钟
# S	            秒
# L,ms	        毫秒
# U,us	        microseconds
# N	            纳秒


pd.date_range('2020-01-01','2020-01-07',freq='B')

In [24]:
# 隔一个工作日取一个工作日
pd.date_range('2020-01-01','2020-01-07',freq='2B')


In [25]:
# freq传入的参数可以传入多个

#2020年每个月的第一个星期四
# 星期几缩写：MON/TUE/WED/THU/FRI/SAT/SUN
# W-MON：从指定星期几开始算起，每周
pd.date_range('2020-01-01','2020-12-31',freq='WOM-1THU')

In [26]:
#每个月的第三个星期五
pd.date_range('2020-01-01','2020-12-31',freq='WOM-3FRI')


In [114]:
# datetime类型案例

# 某城市报警记录
crime = pd.read_csv('../data/crime.csv', parse_dates=['REPORTED_DATE'])

In [118]:
#设置报警时间为索引
crime = crime.set_index('REPORTED_DATE')
crime.head()


In [108]:
# 查看某一天的报警记录
print(crime.loc['2016-05-12'])

In [116]:
# 查看某一段时间的犯罪记录
print(crime.loc['2015-03-04':'2016-01-01'])

In [117]:
#  时间段可以包括小时分钟
crime.loc['2015-03-04 22':'2016-01-01 23:45:00'].sort_index()

In [74]:
# 查询凌晨两点到五点的报警记录
crime.between_time('2:00', '5:00')

In [72]:
# 查看发生在某个时刻的犯罪记录
crime.at_time('5:47')

In [82]:
# 分析每周报警记录(可以按照指定时间周期分组)
crime.resample('W')
# size查看分组大小
weekly_crimes = crime.resample('W').size()
weekly_crimes.info()

In [95]:
len(crime.loc[:'2012-01-08'])

In [97]:

crime.loc['2012-01-09':'2012-01-15']


In [98]:
crime.resample('W-THU').size()


In [123]:
# 设置正常显示汉字和负号
plt.rcParams['font.sans-serif'] = ['SimHei']  # 正常显示汉字
plt.rcParams['axes.unicode_minus'] = False  # 正常显示负号

weekly_crimes.plot(figsize=(16,4),title='丹佛犯罪情况')


In [124]:
# 小结
# 1、Pandas中，datetime64用来表示时间序列类型
# 2、时间序列类型的数据可以作为行索引，对应的数据类型是DatetimeIndex类型
# 3、转换成时间序列类型后，可以按照时间的特点对数据进行处理
# 4、提取日期的各个部分（月，日，星期...)
# 5、进行日期运算
# 6、按照日期范围取值