## datetime 模块

时间可以做运算，时间之间的间隔叫 timedelta。

In [1]:
import datetime

date = datetime.date(2018, 3, 2)
date

datetime.date(2018, 3, 2)

In [2]:
date.year

2018

In [3]:
date.month

3

In [4]:
date.day

2

In [5]:
# 创建一个时间，注意，这不是日期
time = datetime.time(9, 10, 34)
time

datetime.time(9, 10, 34)

In [6]:
time.hour

9

In [7]:
time.minute

10

In [8]:
time.second

34

In [9]:
now = datetime.datetime.now()
now

datetime.datetime(2019, 2, 24, 10, 8, 41, 56281)

## 时间 - 时间 = timedelta

注意下面这个类型 `timedelta`。

In [11]:
delta = now - datetime.datetime(2018, 1, 1, 0, 0)
delta

datetime.timedelta(419, 36521, 56281)

In [12]:
now

datetime.datetime(2019, 2, 24, 10, 8, 41, 56281)

In [19]:
now + datetime.timedelta(10)

datetime.datetime(2018, 11, 19, 13, 12, 50, 111644)

## 数据转换

### 时间变成字符串，直接 str 就可以了

In [14]:
from datetime import datetime

stamp = datetime(2018, 2, 24)
stamp

datetime.datetime(2018, 2, 24, 0, 0)

使用 str 方法可以直接转换

In [15]:
str(stamp)

'2018-02-24 00:00:00'

### 要格式化的话，使用 `strftime` 函数

f 表示 formater，时间转成字符串。

In [16]:
stamp.strftime('%Y/%m/%d')

'2018/02/24'

In [17]:
# 每年的第几周，星期一为每周的第一天，W 表示 week
stamp.strftime('%W')

'08'

### 字符串转成时间 strptime

p 表示 parse，把字符串解析成时间。

In [20]:
value = '2018-4-12'

In [21]:
datetime.strptime(value, '%Y-%m-%d')

datetime.datetime(2018, 4, 12, 0, 0)

In [23]:
import pandas as pd

salary = pd.read_csv('./Baltimore_City_Employee_Salaries_FY2016.csv')
salary.head()

Unnamed: 0,Name,JobTitle,AgencyID,Agency,HireDate,AnnualSalary,GrossPay
0,"Aaron,Patricia G",Facilities/Office Services II,A03031,OED-Employment Dev (031),10/24/1979 12:00:00 AM,$56705.00,$54135.44
1,"Aaron,Petra L",ASSISTANT STATE'S ATTORNEY,A29045,States Attorneys Office (045),09/25/2006 12:00:00 AM,$75500.00,$72445.87
2,"Abbey,Emmanuel",CONTRACT SERV SPEC II,A40001,M-R Info Technology (001),05/01/2013 12:00:00 AM,$60060.00,$59602.58
3,"Abbott-Cole,Michelle",Operations Officer III,A90005,TRANS-Traffic (005),11/28/2014 12:00:00 AM,$70000.00,$59517.21
4,"Abdal-Rahim,Naim A",EMT Firefighter Suppression,A64120,Fire Department (120),03/30/2011 12:00:00 AM,$64365.00,$74770.82


<span class="burk">HireDate 是日期时间类型，但是实际上是字符串，我们要把它转成日期时间类型。</span>

In [24]:
type(salary['HireDate'][0])

str

## pd.to_datetime 可以将一列字符串数据转换为时间数据

In [25]:
salary['HireDate'] = pd.to_datetime(salary['HireDate'])
salary.head()

Unnamed: 0,Name,JobTitle,AgencyID,Agency,HireDate,AnnualSalary,GrossPay
0,"Aaron,Patricia G",Facilities/Office Services II,A03031,OED-Employment Dev (031),1979-10-24,$56705.00,$54135.44
1,"Aaron,Petra L",ASSISTANT STATE'S ATTORNEY,A29045,States Attorneys Office (045),2006-09-25,$75500.00,$72445.87
2,"Abbey,Emmanuel",CONTRACT SERV SPEC II,A40001,M-R Info Technology (001),2013-05-01,$60060.00,$59602.58
3,"Abbott-Cole,Michelle",Operations Officer III,A90005,TRANS-Traffic (005),2014-11-28,$70000.00,$59517.21
4,"Abdal-Rahim,Naim A",EMT Firefighter Suppression,A64120,Fire Department (120),2011-03-30,$64365.00,$74770.82


In [26]:
# 变成了时间戳类型
type(salary['HireDate'][0])  

pandas._libs.tslibs.timestamps.Timestamp

## 时间序列基础

In [28]:
import datetime

import numpy as np
import pandas as pd

In [29]:
date = [datetime.datetime(2018, 4, 1), 
        datetime.datetime(2018, 4, 5),
        datetime.datetime(2018, 4, 7), 
        datetime.datetime(2018, 4, 9),
        datetime.datetime(2018, 4, 10), 
        datetime.datetime(2018, 4, 15)]

### 可以给 Series 数据添加日期索引

In [30]:
s = pd.Series(np.arange(6), index=date)
s

2018-04-01    0
2018-04-05    1
2018-04-07    2
2018-04-09    3
2018-04-10    4
2018-04-15    5
dtype: int64

In [31]:
type(s)

pandas.core.series.Series

### DatetimeIndex 对象

In [32]:
s.index

DatetimeIndex(['2018-04-01', '2018-04-05', '2018-04-07', '2018-04-09',
               '2018-04-10', '2018-04-15'],
              dtype='datetime64[ns]', freq=None)

### 切片，索引的间隔是 2

In [33]:
s[::2]

2018-04-01    0
2018-04-07    2
2018-04-10    4
dtype: int64

In [27]:
s + s[::2]

2018-04-01    0.0
2018-04-05    NaN
2018-04-07    4.0
2018-04-09    NaN
2018-04-10    8.0
2018-04-15    NaN
dtype: float64

### Timestamp 类型

In [28]:
s.index[0]

Timestamp('2018-04-01 00:00:00')

In [34]:
s

2018-04-01    0
2018-04-05    1
2018-04-07    2
2018-04-09    3
2018-04-10    4
2018-04-15    5
dtype: int64

In [35]:
s[0]

0

In [30]:
s[2]

2

### 如果设置了日期索引，只要这个字符串可以被解析，就能被索引到

In [36]:
s['20180415']

5

In [37]:
s['2018/4/1']

0

In [38]:
s

2018-04-01    0
2018-04-05    1
2018-04-07    2
2018-04-09    3
2018-04-10    4
2018-04-15    5
dtype: int64

In [39]:
s[2:5]

2018-04-07    2
2018-04-09    3
2018-04-10    4
dtype: int64

### 还可以完成切片

In [40]:
s['2018/4/5':'2018/4/11']

2018-04-05    1
2018-04-07    2
2018-04-09    3
2018-04-10    4
dtype: int64

In [42]:
s[datetime.datetime(2018, 4, 7):]

2018-04-07    2
2018-04-09    3
2018-04-10    4
2018-04-15    5
dtype: int64

In [43]:
date2 = [
    datetime.datetime(2018, 4, 1),
    datetime.datetime(2018, 4, 5),
    datetime.datetime(2018, 4, 13),
    datetime.datetime(2018, 4, 27),
    datetime.datetime(2018, 9, 4),
    datetime.datetime(2018, 9, 8),
    datetime.datetime(2018, 9, 12),
    datetime.datetime(2018, 9, 23),
    datetime.datetime(2019, 3, 12),
    datetime.datetime(2019, 3, 27),
    datetime.datetime(2019, 6, 7),
    datetime.datetime(2019, 6, 17)
]

In [44]:
long_s = pd.Series(np.arange(12), index=date2)
long_s

2018-04-01     0
2018-04-05     1
2018-04-13     2
2018-04-27     3
2018-09-04     4
2018-09-08     5
2018-09-12     6
2018-09-23     7
2019-03-12     8
2019-03-27     9
2019-06-07    10
2019-06-17    11
dtype: int64

### 时间序列的切片，可以输入“年，月”进行切片。

In [50]:
long_s['2019']

2019-03-12     8
2019-03-27     9
2019-06-07    10
2019-06-17    11
dtype: int64

In [51]:
long_s['2018-9']

2018-09-04    4
2018-09-08    5
2018-09-12    6
2018-09-23    7
dtype: int64

### DatetimeIndex 对象

In [45]:
date3 = pd.DatetimeIndex([
    '2018/4/14', 
    '2018/4/14', 
    '2018/5/23', 
    '2018/5/23', 
    '2018/6/13',
    '2018/6,13'
])

In [46]:
dup_s = pd.Series(np.arange(6), index=date3)
dup_s

2018-04-14    0
2018-04-14    1
2018-05-23    2
2018-05-23    3
2018-06-13    4
2018-06-13    5
dtype: int64

判断是否有重复。

In [48]:
dup_s.index.is_unique

False

In [49]:
dup_s['20180523']

2018-05-23    2
2018-05-23    3
dtype: int64

In [50]:
dup_s.groupby(level=0).mean()

2018-04-14    0.5
2018-05-23    2.5
2018-06-13    4.5
dtype: float64

In [54]:
dup_s

2018-04-14    0
2018-04-14    1
2018-05-23    2
2018-05-23    3
2018-06-13    4
2018-06-13    5
dtype: int64

In [58]:
# level > 0 or level < -1 only valid with  MultiIndex
dup_s.groupby(level=0).sum()

2018-04-14    1
2018-05-23    5
2018-06-13    9
dtype: int64

In [60]:
dup_s.groupby(dup_s.index).sum()

2018-04-14    1
2018-05-23    5
2018-06-13    9
dtype: int64

## 日期

### 日期范围

`pd.date_range` 可以创建指定长度的 DatetimeIndex 索引对象。

In [64]:
index = pd.date_range('2019/2/1', '2019/2/28')
index

DatetimeIndex(['2019-02-01', '2019-02-02', '2019-02-03', '2019-02-04',
               '2019-02-05', '2019-02-06', '2019-02-07', '2019-02-08',
               '2019-02-09', '2019-02-10', '2019-02-11', '2019-02-12',
               '2019-02-13', '2019-02-14', '2019-02-15', '2019-02-16',
               '2019-02-17', '2019-02-18', '2019-02-19', '2019-02-20',
               '2019-02-21', '2019-02-22', '2019-02-23', '2019-02-24',
               '2019-02-25', '2019-02-26', '2019-02-27', '2019-02-28'],
              dtype='datetime64[ns]', freq='D')

### 以每个月最后一天作为起点

In [71]:
index = pd.date_range('2019/1/31', '2019/4/30', freq='M')
index

DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-31', '2019-04-30'], dtype='datetime64[ns]', freq='M')

### 设置 start 顺延 20 天

In [72]:
pd.date_range(start='2018/4/1', periods=20)

DatetimeIndex(['2018-04-01', '2018-04-02', '2018-04-03', '2018-04-04',
               '2018-04-05', '2018-04-06', '2018-04-07', '2018-04-08',
               '2018-04-09', '2018-04-10', '2018-04-11', '2018-04-12',
               '2018-04-13', '2018-04-14', '2018-04-15', '2018-04-16',
               '2018-04-17', '2018-04-18', '2018-04-19', '2018-04-20'],
              dtype='datetime64[ns]', freq='D')

### 设置 end 往前数 20 天

In [74]:
pd.date_range(end='2018/6/1', periods=20)

DatetimeIndex(['2018-05-13', '2018-05-14', '2018-05-15', '2018-05-16',
               '2018-05-17', '2018-05-18', '2018-05-19', '2018-05-20',
               '2018-05-21', '2018-05-22', '2018-05-23', '2018-05-24',
               '2018-05-25', '2018-05-26', '2018-05-27', '2018-05-28',
               '2018-05-29', '2018-05-30', '2018-05-31', '2018-06-01'],
              dtype='datetime64[ns]', freq='D')

### 可以细致到 时分秒

In [51]:
pd.date_range(start='2018/6/1 15:11:34', periods=10)

DatetimeIndex(['2018-06-01 15:11:34', '2018-06-02 15:11:34',
               '2018-06-03 15:11:34', '2018-06-04 15:11:34',
               '2018-06-05 15:11:34', '2018-06-06 15:11:34',
               '2018-06-07 15:11:34', '2018-06-08 15:11:34',
               '2018-06-09 15:11:34', '2018-06-10 15:11:34'],
              dtype='datetime64[ns]', freq='D')

### normalize 表示规范化

In [52]:
pd.date_range(start='2018/6/1 15:11:34', periods=10, normalize=True)

DatetimeIndex(['2018-06-01', '2018-06-02', '2018-06-03', '2018-06-04',
               '2018-06-05', '2018-06-06', '2018-06-07', '2018-06-08',
               '2018-06-09', '2018-06-10'],
              dtype='datetime64[ns]', freq='D')

### 频率与移动

查表，知道这些复杂的字符串表示的频率的含义。

In [53]:
# 每隔 4 个小时
pd.date_range(start='2018/4/1', periods=10, freq='4H')

DatetimeIndex(['2018-04-01 00:00:00', '2018-04-01 04:00:00',
               '2018-04-01 08:00:00', '2018-04-01 12:00:00',
               '2018-04-01 16:00:00', '2018-04-01 20:00:00',
               '2018-04-02 00:00:00', '2018-04-02 04:00:00',
               '2018-04-02 08:00:00', '2018-04-02 12:00:00'],
              dtype='datetime64[ns]', freq='4H')

In [54]:
# 这个频率字符串可以很复杂
pd.date_range(start='2018/4/1', periods=20, freq='2H20min38S')

DatetimeIndex(['2018-04-01 00:00:00', '2018-04-01 02:20:38',
               '2018-04-01 04:41:16', '2018-04-01 07:01:54',
               '2018-04-01 09:22:32', '2018-04-01 11:43:10',
               '2018-04-01 14:03:48', '2018-04-01 16:24:26',
               '2018-04-01 18:45:04', '2018-04-01 21:05:42',
               '2018-04-01 23:26:20', '2018-04-02 01:46:58',
               '2018-04-02 04:07:36', '2018-04-02 06:28:14',
               '2018-04-02 08:48:52', '2018-04-02 11:09:30',
               '2018-04-02 13:30:08', '2018-04-02 15:50:46',
               '2018-04-02 18:11:24', '2018-04-02 20:32:02'],
              dtype='datetime64[ns]', freq='8438S')

In [77]:
date4 = pd.date_range('2018/4/1', periods=5)
s = pd.Series(np.arange(5), index=date4)
s

2018-04-01    0
2018-04-02    1
2018-04-03    2
2018-04-04    3
2018-04-05    4
Freq: D, dtype: int64

### 数据移动，移动不会改变数据的索引，而是使得部分数据被丢弃

In [78]:
s.shift(2)

2018-04-01    NaN
2018-04-02    NaN
2018-04-03    0.0
2018-04-04    1.0
2018-04-05    2.0
Freq: D, dtype: float64

In [81]:
# 返回是新数据，不修改原始数据
s.shift(-2)

2018-04-01    2.0
2018-04-02    3.0
2018-04-03    4.0
2018-04-04    NaN
2018-04-05    NaN
Freq: D, dtype: float64

In [82]:
s

2018-04-01    0
2018-04-02    1
2018-04-03    2
2018-04-04    3
2018-04-05    4
Freq: D, dtype: int64

### 传入频率参数，才是修改索引

<span class="burk">注意体会下面修改索引的含义。</span>

In [83]:
s.shift(2, freq='D')

2018-04-03    0
2018-04-04    1
2018-04-05    2
2018-04-06    3
2018-04-07    4
Freq: D, dtype: int64

In [84]:
s.shift(2, freq='M')

2018-05-31    0
2018-05-31    1
2018-05-31    2
2018-05-31    3
2018-05-31    4
Freq: D, dtype: int64

## <span class="burk">时期，表示的是一个“时间区间”</span> 不太好懂是什么

In [60]:
# 表示 2018 年 1 月 到 12 月
p = pd.Period(2018, freq='A-DEC')
p

Period('2018', 'A-DEC')

In [61]:
p + 2 # 加 2 年

Period('2020', 'A-DEC')

In [62]:
p - 5 # 加 5 年

Period('2013', 'A-DEC')

In [63]:
pd.Period(2025, freq='A-DEC') - p

7

### 频率转换

In [64]:
date5 = pd.period_range('2018/4/1', '2018/10/5', freq='M')
date5

PeriodIndex(['2018-04', '2018-05', '2018-06', '2018-07', '2018-08', '2018-09',
             '2018-10'],
            dtype='period[M]', freq='M')

In [65]:
pd.Series(np.arange(7), index=date5)

2018-04    0
2018-05    1
2018-06    2
2018-07    3
2018-08    4
2018-09    5
2018-10    6
Freq: M, dtype: int32

In [85]:
p = pd.Period(2018, freq='A-DEC')
p

Period('2018', 'A-DEC')

In [86]:
# 年改成月
p.asfreq('M', how='start')

Period('2018-01', 'M')

In [87]:
# 年改成月
p.asfreq('M', how='end')

Period('2018-12', 'M')

In [88]:
# 表示 2017 年 7 月 1 日 到 2018 年 6 月 30 日
p = pd.Period(2018, freq='A-JUN')
p

Period('2018', 'A-JUN')

In [89]:
p.asfreq('M', how='start')

Period('2017-07', 'M')

In [90]:
p.asfreq('M', how='end')

Period('2018-06', 'M')

In [92]:
date6 = pd.period_range('2014', '2018', freq='A-DEC')
date6

PeriodIndex(['2014', '2015', '2016', '2017', '2018'], dtype='period[A-DEC]', freq='A-DEC')

In [93]:
date6.asfreq('M', how='start')

PeriodIndex(['2014-01', '2015-01', '2016-01', '2017-01', '2018-01'], dtype='period[M]', freq='M')

In [94]:
date6.asfreq('M', how='end')

PeriodIndex(['2014-12', '2015-12', '2016-12', '2017-12', '2018-12'], dtype='period[M]', freq='M')

In [95]:
ps = pd.Series(np.arange(5), index=date6)
ps

2014    0
2015    1
2016    2
2017    3
2018    4
Freq: A-DEC, dtype: int64

In [74]:
ps.asfreq('M', how='start')

2014-01    0
2015-01    1
2016-01    2
2017-01    3
2018-01    4
Freq: M, dtype: int32

In [96]:
ps.asfreq('M', how='end')

2014-12    0
2015-12    1
2016-12    2
2017-12    3
2018-12    4
Freq: M, dtype: int64

### 时期数据转换

In [97]:
date7 = pd.date_range('2018/4/1', periods=4, freq='M')
s = pd.Series(np.arange(4), index=date7)
s

2018-04-30    0
2018-05-31    1
2018-06-30    2
2018-07-31    3
Freq: M, dtype: int64

In [76]:
ps = s.to_period()
ps

2018-04    0
2018-05    1
2018-06    2
2018-07    3
Freq: M, dtype: int32

In [77]:
ps = s.to_period('A-DEC')
ps

2018    0
2018    1
2018    2
2018    3
Freq: A-DEC, dtype: int32

In [78]:
ps = s.to_period()
ps

2018-04    0
2018-05    1
2018-06    2
2018-07    3
Freq: M, dtype: int32

In [79]:
ps.to_timestamp(how='start')

2018-04-01    0
2018-05-01    1
2018-06-01    2
2018-07-01    3
Freq: MS, dtype: int32

In [81]:
date = pd.date_range(start='2018/4/1', periods=100, freq='D')
s = pd.Series(np.arange(100), index=date)
s.head(10)

2018-04-01    0
2018-04-02    1
2018-04-03    2
2018-04-04    3
2018-04-05    4
2018-04-06    5
2018-04-07    6
2018-04-08    7
2018-04-09    8
2018-04-10    9
Freq: D, dtype: int32

## 重采样

In [83]:
s.resample('M').mean()

2018-04-30    14.5
2018-05-31    45.0
2018-06-30    75.5
2018-07-31    95.0
Freq: M, dtype: float64

In [60]:
date = pd.date_range(start='2018/4/1', periods=12, freq='D')
s = pd.Series(np.arange(12), index=date)
s

2018-04-01     0
2018-04-02     1
2018-04-03     2
2018-04-04     3
2018-04-05     4
2018-04-06     5
2018-04-07     6
2018-04-08     7
2018-04-09     8
2018-04-10     9
2018-04-11    10
2018-04-12    11
Freq: D, dtype: int64

In [69]:
s.resample('5D', closed='right', label='right').sum()

2018-04-01     0
2018-04-06    15
2018-04-11    40
2018-04-16    11
dtype: int64

In [93]:
s.resample('5D', closed='left', label='left').sum()

2018-04-01    10
2018-04-06    35
2018-04-11    21
Freq: 5D, dtype: int32

In [94]:
s.resample('5D', closed='right', label='right', loffset='-1D').sum()

2018-03-31     0
2018-04-05    15
2018-04-10    40
2018-04-15    11
Freq: 5D, dtype: int32

In [101]:
date = [datetime(2018, 4, 3), datetime(2018, 4, 13)]
s = pd.Series([2, 5], index=date)
s

2018-04-03    2
2018-04-13    5
dtype: int64

In [103]:
s.resample('D').ffill()

2018-04-03    2
2018-04-04    2
2018-04-05    2
2018-04-06    2
2018-04-07    2
2018-04-08    2
2018-04-09    2
2018-04-10    2
2018-04-11    2
2018-04-12    2
2018-04-13    5
Freq: D, dtype: int64

In [105]:
s.resample('D').ffill(2)

2018-04-03    2.0
2018-04-04    2.0
2018-04-05    2.0
2018-04-06    NaN
2018-04-07    NaN
2018-04-08    NaN
2018-04-09    NaN
2018-04-10    NaN
2018-04-11    NaN
2018-04-12    NaN
2018-04-13    5.0
Freq: D, dtype: float64