## pandas时间操作

pandas 可以做的时间操作有：
- 生成指定日期区间
- 统一不同的日期格式
- 提取指定日期的数据

-----

**常用的方法有**
- pd.date_range(start, end, freq) 生成一个日期区间
- pd.to_datetime(data)  将data数据转换为datetime类型。

----

**参数解读**
- start 开始日期
- end 结束日期
- freq参数由英文(M D H Min 。。。)、英文数字结合。D表示一天，M表示一月如20D表示20天，5M表示5个月。
- data  时间序列型数据

### 生成一个日期区间

In [2]:
import pandas as pd

pd.date_range('20171011', '20171030', freq='3D') 

DatetimeIndex(['2017-10-11', '2017-10-14', '2017-10-17', '2017-10-20',
               '2017-10-23', '2017-10-26', '2017-10-29'],
              dtype='datetime64[ns]', freq='3D')

### 统一日期格式
把不规则的日期序列series转化为统一日期格式的日期数据

pd.to_datetime(data)  将data数据转换为datetime类型。

In [6]:
import pandas as pd

data = pd.Series(['May 20, 2015 08:00',
                  '2017-05-12 11:38',
                  '20170530 18:22',
                  '2017/10/11 23:01',
                  '2017 12 11 03:00'])

#统一日期格式
output = pd.to_datetime(data)
output

0   2015-05-20 08:00:00
1   2017-05-12 11:38:00
2   2017-05-30 18:22:00
3   2017-10-11 23:01:00
4   2017-12-11 03:00:00
dtype: datetime64[ns]

pd.Series是时间序列

In [2]:
#DatetimeProperties
output.dt

<pandas.core.indexes.accessors.DatetimeProperties object at 0x127415e10>

### datatime.dt可以使用year、month、day、hour属性

In [8]:
#得到年series
output.dt.year

In [7]:
##得到月份series
output.dt.month

In [10]:
#得到 天 series
output.dt.day

In [9]:
#得到小时series
output.dt.hour

In [11]:
#得到分钟series
output.dt.minute

In [12]:
#按照小时统计
output.dt.month.value_counts()

### 提取指定日期的数据
如下tm_rng是以10小时时间间隔，生成了10个数据。我们只要2018-01-02的数据。

- **注意当日期数据作为index时，可以提取指定日期**
- **提取方法：使用日期字符串操作，选取指定时间范围的数据。**

In [14]:
import pandas as pd
import numpy as np

#使用pd.date_range生成的是datetime类型，注意当日期数据作为index时，可以提取指定日期
tm_rng = pd.date_range('2017-12-31 12:00:00',periods=10, freq='10H')

tm_series = pd.Series(np.random.randn(len(tm_rng)), 
                      index=tm_rng)  #日期数据作为index时，可以提取指定日期

print(type(tm_series))
print(tm_series)

<class 'pandas.core.series.Series'>
2017-12-31 12:00:00    0.502666
2017-12-31 22:00:00   -0.286884
2018-01-01 08:00:00    0.272272
2018-01-01 18:00:00   -0.918555
2018-01-02 04:00:00   -1.030750
2018-01-02 14:00:00   -1.265136
2018-01-03 00:00:00   -0.371972
2018-01-03 10:00:00   -1.849510
2018-01-03 20:00:00    0.543425
2018-01-04 06:00:00    1.777583
Freq: 10H, dtype: float64


In [15]:
#我们只要tm_series中是2018-01-02的数据
tm_series['2018-01-02']

2018-01-02 04:00:00   -1.030750
2018-01-02 14:00:00   -1.265136
Freq: 10H, dtype: float64

In [51]:
#我们要2017年的数据，结果全保留
tm_series['2017']

2017-12-31 12:00:00   -0.926347
2017-12-31 17:00:00    0.298299
2017-12-31 22:00:00    0.120255
Freq: 5H, dtype: float64

# 练习

In [19]:
import pandas as pd

#df = pd.read_excel('data/sample-salesv3.xlsx')

#查看前5条数据
#df.head(10)