# 课程介绍    
在金融、经济、物理学等领域，都需要在多个时间点观测或者测量数据，这样就产生了关于时间序列的数据。
时间序列数据（Time Series Data）是在不同时间上收集到的数据，这类数据是按时间顺序收集到的，用于描述现象随时间变化的情况。
学会如何对时间序列数据进行巧妙的处理非常重要，Pandas为我们提供了强大的时间序列数据处理的方法，本节小K将带你入门时间序列。
![本节知识点](./picture/8-1.png)
## 日期和时间数据类型
Python标准库包含了日期和时间数据的数据类型，datetime模块是开始处理时间数据最广泛的。
下面我们先简单的了解下python日期和时间数据类型。
datetime是一个关于时间的库，常用的类有：
![Datetime常用类](./picture/8-2.jpg)
datetime各个类型的创建和获取
日期(date)类型的使用：

In [2]:
# 导入datetime模块
import datetime
# 创建日期
date = datetime.date(2019, 9, 9)
print(date)
# 获取年
print(date.year)
# 获取月
print(date.month)
# 获取日
print(date.day)

2019-09-09
2019
9
9


时间(time)类型的使用:

In [3]:
# 创建时间
import datetime
time = datetime.time(13, 14, 20)
print(time)
# 获取小时
print(time.hour)
# 获取分钟
print(time.minute)
# 获取秒
print(time.second)

13:14:20
13
14
20


日期和时间的结合体--日期时间(datetime)：

In [4]:
import datetime
# 创建日期时间
datetime = datetime.datetime(2019, 9, 9, 13, 14, 20)
print(datetime)
# 获取年
print(datetime.year)
# 获取月
print(datetime.month)
# 获取日
print(datetime.day)
# 获取小时
print(datetime.hour)
# 获取分钟
print(datetime.minute)
# 获取秒
print(datetime.second)

2019-09-09 13:14:20
2019
9
9
13
14
20


datetime的time方法可以创建时间，date方法可以创建日期，datetime方法则是日期和时间的结合体。

通过year、month、day、hour、minute、second属性，可以获取到相应的日期或者时间的值。

同样，使用datetime.now()方法可以获取到当前时间：

In [8]:
import datetime
datetime.datetime.now()

datetime.datetime(2020, 5, 21, 21, 53, 13, 369403)

现在我们知道如何使用datetime模块创建时间，但是有些时候我们可能需要将datetime类型转成字符串样式。

例如：将datetime.datetime(2019, 9, 9, 13, 14, 20)转换成2019-9-9 13:14:20样式的字符串。

有的同学会问道：“datetime.datetime(2019, 9, 9, 13, 14, 20)输出的的结果不就是2019-9-9 13:14:20吗？为什么还需要变？”。

没错，它的结果就是我们想要的样式，但是，需要注意的是它的类型是datetime，并不是str。

如果我们只是单一的想改变类型，就可以使用强制类型转换：



In [9]:
import datetime
date_time = datetime.datetime(2019, 9, 9, 13, 14, 20)
print(type(date_time))
str_date_time = str(date_time)
print(str_date_time)
print(type(str_date_time))

<class 'datetime.datetime'>
2019-09-09 13:14:20
<class 'str'>


将datetime.datetime(2019, 9, 9, 13, 14, 20)转换成9/9/2019 13:14样式的字符串。

莫慌，使用strftime()方法便可破解此需求。


In [13]:
import datetime
date_time = datetime.datetime(2019, 9, 9, 13, 14, 20)
str_time = date_time.strftime('%Y-%m-%d %H:%M:%S')
str_time

'2019-09-09 13:14:20'

strftime()方法的作用是将时间格式转化为自定义字符串格式，格式可以完全自定义。

%m/%d/%Y %H:%M就是格式化以后的样式，%m、%d等是时间格式化占位符。

关于时间格式的汇总如下图：
![时间格式](./picture/8-3.png)
利用这些格式符，我们就可以随意的破解将datetime转化成str这类的要求。

你以为这就结束了？
请将str类型转化成datetime类型。

例如：将字符串类型的Aug-23-19 20:13转化成2019-08-23 20:13:00样式的datetime类型。

同理，使用strptime()方法便可破解此需求。
strptime()方法的作用是字符串时间转化为datetime格式，需要注意的是按一定的格式输出时间。

例如：第二个参数不可写成%B-%d-%Y %H:%M ，或者%b / %d / %Y %H:%M

In [14]:
import datetime
strp = datetime.datetime.strptime('Aug-23-19 20:13', '%b-%d-%y %H:%M')
print(strp)

2019-08-23 20:13:00


## Pandas时间序列基础
前面我们了解了Python内置的datetime模块对时间和日期的处理方法，接下来我们看一下Pandas处理时间上有哪些方法。

使用Pandas的date_range()方法可以快速创建出一个日期范围。

### 代码片段
```
pd.date_range(start=None,end=None,periods=None,freq="D")
```
start:日期范围的开始；end:日期范围的结束；periods:固定日期的个数；freq:日期偏移量，取值为string, 默认为'D'，即：一天为日期偏移量

接下来，我们看一下date_range()的几种使用方式。

使用start和end以及默认的freq参数创建：

### 代码片段

```
   date= pd.date_range(start='20190505',end='20190606')
```

使用start和end以及频率参数freq为10天创建：

### 代码片段
```
date= pd.date_range(start='20190505',end='20190606',freq="10D")
```
使用start和periods以及默认的频率参数创建：

### 代码片段
```
date= pd.date_range(start='20190505',periods=10,freq="D")
```
分别复制上面的带码到代码框运行，观察结果：



In [18]:
import pandas as pd

date= pd.date_range(start='20190505',end='20190606')
print(date)
date= pd.date_range(start='20190505',end='20190606',freq="10D")
print(date)
date= pd.date_range(start='20190505',periods=10,freq="D")
print(date)

DatetimeIndex(['2019-05-05', '2019-05-06', '2019-05-07', '2019-05-08',
               '2019-05-09', '2019-05-10', '2019-05-11', '2019-05-12',
               '2019-05-13', '2019-05-14', '2019-05-15', '2019-05-16',
               '2019-05-17', '2019-05-18', '2019-05-19', '2019-05-20',
               '2019-05-21', '2019-05-22', '2019-05-23', '2019-05-24',
               '2019-05-25', '2019-05-26', '2019-05-27', '2019-05-28',
               '2019-05-29', '2019-05-30', '2019-05-31', '2019-06-01',
               '2019-06-02', '2019-06-03', '2019-06-04', '2019-06-05',
               '2019-06-06'],
              dtype='datetime64[ns]', freq='D')
DatetimeIndex(['2019-05-05', '2019-05-15', '2019-05-25', '2019-06-04'], dtype='datetime64[ns]', freq='10D')
DatetimeIndex(['2019-05-05', '2019-05-06', '2019-05-07', '2019-05-08',
               '2019-05-09', '2019-05-10', '2019-05-11', '2019-05-12',
               '2019-05-13', '2019-05-14'],
              dtype='datetime64[ns]', freq='D')


start和end以及freq配合能够生成start和end范围内以频率freq的一组时间索引。

start和periods以及freq配合能够生成从start开始的频率为freq的periods个时间索引。

上面我们提到时间索引，是因为date_range()方法生成的对象类型是DatetimeIndex，这个类型就是pandas中的时间索引类型。

关于频率的更多缩写：
![频率的缩写](./picture/8-4.png)
有时候我们会对一天或者一个月的数据进行分析，这就需要我们将时间设置成数据的索引，然后通过时间索引获取到一定时间范围内的数据进行分析。

现在我们创建一个以时间序列为索引的Series数据。

首先，使用pd.date_range()来创建从2019-01-01开始的时间索引：

In [24]:
import pandas as pd
time_index = pd.date_range('2019-01-01', periods=365)
pd.DataFrame(time_index)


Unnamed: 0,0
0,2019-01-01
1,2019-01-02
2,2019-01-03
3,2019-01-04
4,2019-01-05
...,...
360,2019-12-27
361,2019-12-28
362,2019-12-29
363,2019-12-30


然后，使用numpy的随机数创建365个随机整数：

In [33]:
import pandas as pd
import numpy as np
time_data = np.random.randint(100,size=365)
time_index = pd.date_range('2020-01-01', periods=365)

data_time = pd.Series(data=time_data, index=time_index)
print(data_time["2020"])
print(data_time["2020-04"])
print(data_time["2020-05-20"])

2020-01-01    25
2020-01-02    10
2020-01-03    24
2020-01-04    11
2020-01-05    19
              ..
2020-12-26    59
2020-12-27    95
2020-12-28    94
2020-12-29    95
2020-12-30    25
Freq: D, Length: 365, dtype: int32
2020-04-01    63
2020-04-02    76
2020-04-03    33
2020-04-04    27
2020-04-05    32
2020-04-06    12
2020-04-07    23
2020-04-08    42
2020-04-09    79
2020-04-10    78
2020-04-11    61
2020-04-12     4
2020-04-13    69
2020-04-14    94
2020-04-15    53
2020-04-16     1
2020-04-17    10
2020-04-18    37
2020-04-19    86
2020-04-20     9
2020-04-21    44
2020-04-22    25
2020-04-23    22
2020-04-24    79
2020-04-25     7
2020-04-26    96
2020-04-27    14
2020-04-28    70
2020-04-29    53
2020-04-30    43
Freq: D, dtype: int32
76


有的时候用csv导入到时间数据时，默认的是字符串的数据类型 ，当可视化的时候，会出现没有按时间先后顺序的方式绘图 ，所以需要将字符串解析为时间类型的数据类型。   
使用Pandas的to_datetime()方法可以将字符串形式的日期转换成时间格式。   
```
    pd.to_datetime(arg,format=None)
```
arg：需要修改的数据   
format：数据的格式   
to_datetime()方法会将字符串类型的是时间转换成Timestamp('2019-10-05 00:00:00')时间戳类型。   
如果想对时间格式修改，还可以使用to_pydatetime()方法将Timestamp类型转换成datetime类型。   
```
d.to_datetime('2019-10-05').to_pydatetime()   
```
需要注意的是字符串日期中包含中文，我们可以这样处理：   
```
pd.to_datetime('2019年10月10日',format='%Y年%m月%d日')
```


In [38]:
import pandas as pd
print(pd.to_datetime("2020-10-01",format=None))
print(pd.to_datetime('2019-10-05').to_pydatetime())
print(pd.to_datetime('2019年10月10日',format='%Y年%m月%d日'))

2020-10-01 00:00:00
2019-10-05 00:00:00
2019-10-10 00:00:00


# 练习
## 题目要求
现在我们有一份某电商超市从2016年到2019年的部分销售数据，路径为：./data/Commerce.xls 我们的字段有订单 ID，客户对象，订单日期，邮寄方式，地区，地区经理，销售额，数量，退回，折扣等，在这些字段下面，一共有近一万条数据。   
## 题目讲解
请根据数据完成下面的需求： 1. 分别算出2016年到2019年，每年5月份的总销售额。 2. 2018年各地区的5月份的总销售额对比。   
## 书写代码

In [6]:
import pandas as pd
data = pd.read_excel('./data/Commerce.xls')
# 了解数据基本情况
# data.head()

# 将订单日期设置为数据的索引
data.index = data['订单日期']

# 分别计算每年5月份的销售额
sales16 = data['2016-05']['销售额'].sum()
sales17 = data['2017-05']['销售额'].sum()
sales18 = data['2018-05']['销售额'].sum()
sales19 = data['2019-05']['销售额'].sum()

# 获取2018年五月份数据
sales18 = data['2018-05']
# 根据地区分组
groups = sales18.groupby('地区')
# 分别计算各地区销售总额
for group_name,group_df in groups:
    sales_all = group_df['销售额'].sum()
    print('{}地区5月份总销售额是{}'.format(group_name,sales_all))

 东北地区5月份总销售额是58698.97600000001
 中南地区5月份总销售额是80690.21200000001
 华东地区5月份总销售额是153767.852
 华北地区5月份总销售额是70674.69400000002
 西北地区5月份总销售额是15043.156
 西南地区5月份总销售额是29359.399999999998


## 题目要求
本练习继续使用某电商超市从2016年到2019年的部分销售数据，路径为：/data/course_data/data_analysis/Commerce.xls。
## 题目讲解
1. 计算出2018年各个季度的总销售额（1-3月为第一季度，4-6为第二季度，7-9为第三季度，10-12为第四季度）。   
2. 计算出2018年各季度各地区的总销售额。   
## 书写代码

In [7]:
import pandas as pd
data = pd.read_excel('./data/Commerce.xls')

# 将订单日期设置为数据的索引
data.index = data['订单日期']

# 根据本节课知识点，分别获取每个季度销售总额
Q1 = data['2018-01':'2018-03']['销售额'].sum()
Q2 = data['2018-04':'2018-06']['销售额'].sum()
Q3 = data['2018-07':'2018-09']['销售额'].sum()
Q4 = data['2018-10':'2018-12']['销售额'].sum()
print('2018年Q1总销售额{},Q2总销售额{},Q3总销售额{},Q4总销售额{}'.format(Q1,Q2,Q3,Q4))

# 2018年各季度各地区的总销售额
# 获取每个季度的数据
Q1_area = data['2018-01':'2018-03'].groupby('地区')['销售额'].sum()
Q2_area = data['2018-04':'2018-06'].groupby('地区')['销售额'].sum()
Q3_area = data['2018-07':'2018-09'].groupby('地区')['销售额'].sum()
Q4_area = data['2018-10':'2018-12'].groupby('地区')['销售额'].sum()

print("""
2018年各季度各地区的总销售额:
Q1:{}
Q2:{}
Q3:{}
Q4:{}
""".format(Q1_area,Q2_area,Q3_area,Q4_area))

2018年Q1总销售额588269.651,Q2总销售额1084969.656,Q3总销售额1155180.633,Q4总销售额1505355.92

2018年各季度各地区的总销售额:
Q1:地区
 东北    179643.353
 中南     84444.402
 华东    143707.440
 华北     78643.176
 西北     42066.024
 西南     59765.256
Name: 销售额, dtype: float64
Q2:地区
 东北    149468.096
 中南    275229.727
 华东    370572.171
 华北    185044.910
 西北     26896.188
 西南     77758.564
Name: 销售额, dtype: float64
Q3:地区
 东北    204187.616
 中南    283578.345
 华东    369739.215
 华北    136339.921
 西北     63392.432
 西南     97943.104
Name: 销售额, dtype: float64
Q4:地区
 东北    236502.685
 中南    350783.303
 华东    478426.016
 华北    215142.952
 西北     72989.032
 西南    151511.932
Name: 销售额, dtype: float64

