# Python数据分析实战

## pandas处理时间序列

### 本周课程目标
- 时间序列的基本知识

        日期和时间数据类型以及工具的使用
        时间序列基础
        日期范围、频率、移动
        时区处理
        日期与算术运算
       

In [None]:
'''
时间序列的分类：
1.时间戳
2.固定周期
3.时间间隔
'''

### 日期和时间数据类型以及工具的使用

#### Python的日期和时间处理及操作

In [40]:
import pandas as pd
import numpy as np

In [41]:
from datetime import datetime
#显示下当前本地的时间
now = datetime.now()
now

datetime.datetime(2021, 5, 26, 11, 33, 8, 193216)

In [42]:
now.year

2021

In [43]:
now.month

5

In [44]:
now.day

26

In [45]:
#查看下他的数据类型
type(now)

datetime.datetime

In [46]:
#实现两个时间段的差值计算
delta = datetime(2021,3,18,12) - datetime(2021,3,22,12)
print(type(delta))
print(delta)
print('经历了{}天，{}秒'.format(delta.days,delta.seconds))

<class 'datetime.timedelta'>
-4 days, 0:00:00
经历了-4天，0秒


In [47]:
'''
同样可以给datetime对象加上或者减去一个/多个timedelta,这样会产生一个新的对象。
'''
from datetime import timedelta
start = datetime(2021,3,15)
start + timedelta(10)

datetime.datetime(2021, 3, 25, 0, 0)

In [48]:
start - 2 * timedelta(2)

datetime.datetime(2021, 3, 11, 0, 0)

#### String和datetime的相互转换

In [51]:
dt_obj = datetime(2021,3,15)
print(type(dt_obj))
str_obj = str(dt_obj)#强制转换
print(type(str_obj))
print(str_obj)

<class 'datetime.datetime'>
<class 'str'>
2021-03-15 00:00:00


In [52]:
str_obj2 = dt_obj.strftime('%d/%m/%Y')#%Y-%m-%d
print(str_obj2)

15/03/2021


In [54]:
#strftime
dt_str = '2021-03-15'
dt_obj = datetime.strptime(dt_str,'%Y-%m-%d')
print(type(dt_obj))
print(dt_obj)

<class 'datetime.datetime'>
2021-03-15 00:00:00


In [56]:
#dateutil.parser.parse
'''
parse函数同样可以解决这个数据类型转换的问题
'''
from dateutil.parser import parse
dt_str2 = '2021-03-15'
dt_obj2 = parse(dt_str2)
print(type(dt_obj2))
print(dt_obj2)

<class 'datetime.datetime'>
2021-03-15 00:00:00


In [57]:
import pandas as pd
#定义一个一维数组
s_obj = pd.Series(['2021/03/15','2021/03/16','2021/03/17'],name='course_time')
print(s_obj)

0    2021/03/15
1    2021/03/16
2    2021/03/17
Name: course_time, dtype: object


In [58]:
#如何将上面这个一列结果数据转换成datetime数据类型呢？

s_obj2 = pd.to_datetime(s_obj)
print(s_obj2)

0   2021-03-15
1   2021-03-16
2   2021-03-17
Name: course_time, dtype: datetime64[ns]


In [59]:
#而且他还有一个更加实用的功能，处理缺失值（None,空字符串）
s_obj3 = pd.Series(['2021/03/15','2021/03/16','2021/03/17'] + [None],name='course_time')
print(s_obj3)

0    2021/03/15
1    2021/03/16
2    2021/03/17
3          None
Name: course_time, dtype: object


In [60]:
#在对这样一个有缺失值的数据进行to_datetime操作下
s_obj3 = pd.to_datetime(s_obj3)
print(s_obj3)

0   2021-03-15
1   2021-03-16
2   2021-03-17
3          NaT
Name: course_time, dtype: datetime64[ns]


#### 时间序列基础

In [61]:
import random
from datetime import datetime
#首先定义一个以datetime为元素的list
date_list = [datetime(2021,3,15),datetime(2021,3,16),
             datetime(2021,3,17),datetime(2021,3,18),
             datetime(2021,3,19),datetime(2021,3,20)]
#在来创建一个Series，指定index为datetime的list
time_s = pd.Series(np.random.randn(6),index = date_list)
print(time_s)
print(type(time_s))
#索引对应的数据类型
print(type(time_s.index))


2021-03-15    0.418077
2021-03-16   -1.672639
2021-03-17   -0.318196
2021-03-18    0.221311
2021-03-19    0.245561
2021-03-20    0.076087
dtype: float64
<class 'pandas.core.series.Series'>
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [16]:
#跟其他Series一样，不同索引的时间序列之间的运算术运算会自动按照日期对齐。
time_s+time_s[::2]

2021-03-15   -2.040669
2021-03-16         NaN
2021-03-17   -2.789220
2021-03-18         NaN
2021-03-19    2.811834
2021-03-20         NaN
dtype: float64

In [62]:
dates = pd.date_range('2021-03-16',periods=5,freq='W-SAT')
print(dates)

#当然是要上面的方式也是可以的
print(pd.Series(np.random.randn(5),index = dates))

#看下数据类型
print(type(dates))

DatetimeIndex(['2021-03-20', '2021-03-27', '2021-04-03', '2021-04-10',
               '2021-04-17'],
              dtype='datetime64[ns]', freq='W-SAT')
2021-03-20   -0.976694
2021-03-27   -1.051520
2021-04-03    0.937054
2021-04-10   -0.698448
2021-04-17   -1.638513
Freq: W-SAT, dtype: float64
<class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [63]:
#索引位置
time_s[0]

0.41807696117681564

In [64]:
#索引值
time_s[datetime(2021,3,15)]

0.41807696117681564

In [65]:
#可以被解析的日期字符串
time_s['2021/3/15']

0.41807696117681564

In [66]:
time_s['2021-3-16']

-1.6726389212760604

In [67]:
#按年份、月份索引
time_s['2021-03']

2021-03-15    0.418077
2021-03-16   -1.672639
2021-03-17   -0.318196
2021-03-18    0.221311
2021-03-19    0.245561
2021-03-20    0.076087
dtype: float64

In [68]:
#拿整年数据
time_s['2021']

2021-03-15    0.418077
2021-03-16   -1.672639
2021-03-17   -0.318196
2021-03-18    0.221311
2021-03-19    0.245561
2021-03-20    0.076087
dtype: float64

In [69]:
#切片操作
# time_s['2021-3-15':]
time_s['2021-3-17':]

2021-03-17   -0.318196
2021-03-18    0.221311
2021-03-19    0.245561
2021-03-20    0.076087
dtype: float64

In [26]:
'''
过滤
'''
time_s.truncate(before='2021-3-18')

2021-03-18   -0.253077
2021-03-19    1.405917
2021-03-20    1.421750
dtype: float64

In [27]:
time_s.truncate(after='2021-3-18')

2021-03-15   -1.020334
2021-03-16   -0.032143
2021-03-17   -1.394610
2021-03-18   -0.253077
dtype: float64

In [70]:
'''
生成日期范围
'''
date_index = pd.date_range('2021-03-15','2021-03-19')
date_index

DatetimeIndex(['2021-03-15', '2021-03-16', '2021-03-17', '2021-03-18',
               '2021-03-19'],
              dtype='datetime64[ns]', freq='D')

In [71]:
#只传入开始或者结束日期，还需要传入时间段
pd.date_range(start='2021-03-17',periods=10)

DatetimeIndex(['2021-03-17', '2021-03-18', '2021-03-19', '2021-03-20',
               '2021-03-21', '2021-03-22', '2021-03-23', '2021-03-24',
               '2021-03-25', '2021-03-26'],
              dtype='datetime64[ns]', freq='D')

In [72]:
pd.date_range(end='2021-03-17',periods=10)

DatetimeIndex(['2021-03-08', '2021-03-09', '2021-03-10', '2021-03-11',
               '2021-03-12', '2021-03-13', '2021-03-14', '2021-03-15',
               '2021-03-16', '2021-03-17'],
              dtype='datetime64[ns]', freq='D')

In [73]:
#规范化时间戳
pd.date_range(start='2021-03-17 12:00:00',periods=10)

DatetimeIndex(['2021-03-17 12:00:00', '2021-03-18 12:00:00',
               '2021-03-19 12:00:00', '2021-03-20 12:00:00',
               '2021-03-21 12:00:00', '2021-03-22 12:00:00',
               '2021-03-23 12:00:00', '2021-03-24 12:00:00',
               '2021-03-25 12:00:00', '2021-03-26 12:00:00'],
              dtype='datetime64[ns]', freq='D')

In [75]:
#自动屏蔽掉后面的时分秒，以年月日的形式展示
pd.date_range(start='2021-03-17 12:00:00',periods=10,normalize=True)

DatetimeIndex(['2021-03-17', '2021-03-18', '2021-03-19', '2021-03-20',
               '2021-03-21', '2021-03-22', '2021-03-23', '2021-03-24',
               '2021-03-25', '2021-03-26'],
              dtype='datetime64[ns]', freq='D')

In [76]:
#设置倍数，比如2D/3D等
pd.date_range(start='2021-03-17 12:00:00',periods=10,freq='2D')

DatetimeIndex(['2021-03-17 12:00:00', '2021-03-19 12:00:00',
               '2021-03-21 12:00:00', '2021-03-23 12:00:00',
               '2021-03-25 12:00:00', '2021-03-27 12:00:00',
               '2021-03-29 12:00:00', '2021-03-31 12:00:00',
               '2021-04-02 12:00:00', '2021-04-04 12:00:00'],
              dtype='datetime64[ns]', freq='2D')

In [77]:
'''
偏移量
'''
sum_offset = pd.tseries.offsets.Week(2) + pd.tseries.offsets.Hour(12)
sum_offset

Timedelta('14 days 12:00:00')

In [36]:
#可以将上面freq设置的值直接使用偏移量也是可以的
pd.date_range(start='2021-03-17 12:00:00',periods=10,freq=sum_offset)

DatetimeIndex(['2021-03-17 12:00:00', '2021-04-01 00:00:00',
               '2021-04-15 12:00:00', '2021-04-30 00:00:00',
               '2021-05-14 12:00:00', '2021-05-29 00:00:00',
               '2021-06-12 12:00:00', '2021-06-27 00:00:00',
               '2021-07-11 12:00:00', '2021-07-26 00:00:00'],
              dtype='datetime64[ns]', freq='348H')

#### 时期的频率转换

In [78]:
p = pd.Period('2021',freq='A-DEC')
p.asfreq('M',how='start')

Period('2021-01', 'M')

In [79]:
p.asfreq('M',how='end')

Period('2021-12', 'M')

In [80]:
p = pd.Period('2021',freq='A-JUN')
p.asfreq('M','start')

Period('2020-07', 'M')