# 06 炒菜计时器-时间序列

In [2]:
import pandas as pd
import numpy as np
from datetime import datetime
# 一个cell输出多行语句
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## 一、获取当前时刻的时间
获取当前时刻的时间就是获取**此时此刻与时间相关**的数据

除了具体的**年、月、日、时、分、秒**，还会单独看**年、月、周、日**等指标

### 1.1 返回当前时刻的日期与时间
Excel和Python实现：**now()**函数

In [3]:
datetime.now()

datetime.datetime(2020, 3, 4, 10, 14, 37, 497992)

### 1.2 返回当前时刻的年、月、日
Excel和Python实现：**year**、**month**、**day**

In [4]:
datetime.now().year
datetime.now().month
datetime.now().day

2020

3

4

### 1.3 返回当前时刻的周数
与当前时刻的周相关的数据有两个：

* 当前时刻是一周中的周几
* 当前所在的周在全年的周里面是第几周

#### 1.3.1 返回周几
Excel实现：**weekday(now() - 1)**函数，减1是因为Excel把周日作为一周中的第一天

python实现：**weekday()**函数

In [5]:
datetime.now().weekday() + 1
# python从0开始计算，周日返回6，所以在后面加1

3

#### 1.3.2 返回周数

Excel实现：**weeknum(now() - 1)**函数

python实现：**isocalendar()**函数

In [6]:
datetime.now().isocalendar()
# 2020年，第10周，第2天（周二）
datetime.now().isocalendar()[1]

(2020, 10, 3)

10

## 二、指定日期和时间的格式

Excel实现：右键-》设置单元格格式

In [7]:
datetime.now().date()
datetime.now().time()

datetime.date(2020, 3, 4)

datetime.time(10, 14, 37, 529903)

借助**strftime()**函数自定义日期和时间的格式

<img src='./image/strftime.jpg' width='80%' />

In [8]:
datetime.now().strftime('%Y-%m-%d')
datetime.now().strftime('%Y-%m-%d %H:%M:%S')

'2020-03-04'

'2020-03-04 10:14:37'

## 三、字符串和时间格式相互转换

### 3.1 将时间格式转换为字符串格式

In [9]:
now = datetime.now()
now
type(now)
type(str(now))

datetime.datetime(2020, 3, 4, 10, 14, 37, 542143)

datetime.datetime

str

### 3.2 将字符串格式转换为时间格式

In [10]:
from dateutil.parser import parse
str_now = '2020-03-03'
type(str_now)

# 将字符串解析为时间
parse(str_now)
type(parse(str_now))

str

datetime.datetime(2020, 3, 3, 0, 0)

datetime.datetime

## 四、时间索引
时间索引是根据时间来对**时间格式的字段**进行**数据选取**的一种索引方式

Excel实现：**日期筛选**

In [11]:
index = pd.DatetimeIndex(['2020-01-01', '2020-01-02', '2020-01-03', 
                          '2020-01-04', '2020-01-05', '2020-01-06', 
                          '2020-01-07', '2020-01-08', '2020-01-09', 
                          '2020-01-10'])
data = pd.DataFrame(np.arange(1, 11), columns=['num'], index=index)
data

Unnamed: 0,num
2020-01-01,1
2020-01-02,2
2020-01-03,3
2020-01-04,4
2020-01-05,5
2020-01-06,6
2020-01-07,7
2020-01-08,8
2020-01-09,9
2020-01-10,10


In [12]:
# 获取2020年的数据
data['2020']
# 获取2020年1月的数据
data['2020-01']
# 获取2020年1月1日到2020年1月5日的数据，包含1月1日和1月5日
data['2020-01-01':'2020-01-05']
# 获取2020年1月1日的数据
data['2020-01-01':'2020-01-01']

Unnamed: 0,num
2020-01-01,1
2020-01-02,2
2020-01-03,3
2020-01-04,4
2020-01-05,5
2020-01-06,6
2020-01-07,7
2020-01-08,8
2020-01-09,9
2020-01-10,10


Unnamed: 0,num
2020-01-01,1
2020-01-02,2
2020-01-03,3
2020-01-04,4
2020-01-05,5
2020-01-06,6
2020-01-07,7
2020-01-08,8
2020-01-09,9
2020-01-10,10


Unnamed: 0,num
2020-01-01,1
2020-01-02,2
2020-01-03,3
2020-01-04,4
2020-01-05,5


Unnamed: 0,num
2020-01-01,1


In [13]:
# 以上方法适用于索引是时间的情况下。当时并不是所有情况，时间都可以做索引。
# 比如：一个订单表中的客户姓名是索引，成交时间是一个普通列。
# 解决办法：时间也是有大小关系的，通过布尔索引来对非索引列的时间进行选取。
df = pd.read_excel('./data/sort_one.xlsx')
df
# 选取成交时间在2018年8月8日的订单
df[df['成交时间'] == datetime(2018, 8, 8)]
# 8月9日之后的订单
df[df['成交时间'] > datetime(2018, 8, 9)]
# 8月10日之前的订单
df[df['成交时间'] < datetime(2018, 8, 10)]
# 8月8日到8月11日之间的订单
df[(df['成交时间'] > datetime(2018, 8, 8)) & (df['成交时间'] < datetime(2018, 8, 11))]

Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
2,A3,孙凤,103,23,2018-08-10,1
3,A4,赵恒,104,240,2018-08-11,2
4,A5,赵恒,104,260,2018-08-12,3
5,A6,王丹,105,280,2018-08-12,4


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
0,A1,张 通,101,31,2018-08-08,1
1,A2,李谷,102,45,2018-08-09,2


Unnamed: 0,订单编号,客户姓名,唯一识别码,年龄,成交时间,销售ID
1,A2,李谷,102,45,2018-08-09,2
2,A3,孙凤,103,23,2018-08-10,1


## 五、时间运算
### 5.1 两个时间之差
计算时间之差的场景：计算一个用户在某个平台上的生命周期=用户最后一次登录时间-用户首次登录时间

Excel实现

<img src='./image/excel_time_diff.jpg' width='60%' />

In [14]:
cha = datetime(2020, 5, 21, 19, 50) - datetime(2020, 5, 18, 20, 32)
cha
cha.days
cha.seconds
# 小时
cha.seconds/3600

datetime.timedelta(days=2, seconds=83880)

2

83880

23.3

### 5.1 时间偏移
时间偏移是将时间往前推或往后推一段时间，即**加减一段时间**

Excel实现

<img src='./image/excel_time_offset.jpg' width='60%' />

* Python实现一：timedelta，但是只支持偏移天、秒、微妙单位的时间
* Python实现二：Pandas的偏移量（date offset）

#### 5.1.1 timedelta
只支持天、秒、微妙单位的时间运算，如果是其他时间，需要换算成以上三种中的一种方可进行偏移

In [17]:
from datetime import timedelta
date = datetime(2020, 5, 18, 20, 32)
# 往后推1天
date + timedelta(days=1)
# 往后推60秒
date + timedelta(seconds=60)
# 往前推1天
date - timedelta(days=1)
# 往前推60秒
date - timedelta(seconds=60)

datetime.datetime(2020, 5, 19, 20, 32)

datetime.datetime(2020, 5, 18, 20, 33)

datetime.datetime(2020, 5, 17, 20, 32)

datetime.datetime(2020, 5, 18, 20, 31)

#### 5.1.2 date offset
date offset可直接实现天、小时、分钟单位的时间偏移，不需要换算，相比timedelta要方便些

In [19]:
from pandas.tseries.offsets import Day,Hour,Minute
date = datetime(2020, 5, 18, 20, 32)

# 往后推1天
date + Day(1)
# 往后推1小时
date + Hour(1)
# 往后推10分钟
date + Minute(1)
# 往前推1天
date - Day(1)
# 往前推1小时
date - Hour(1)
# 往前推10分钟
date - Minute(1)

Timestamp('2020-05-19 20:32:00')

Timestamp('2020-05-18 21:32:00')

Timestamp('2020-05-18 20:33:00')

Timestamp('2020-05-17 20:32:00')

Timestamp('2020-05-18 19:32:00')

Timestamp('2020-05-18 20:31:00')