In [1]:
import numpy as np
import pandas as pd
from datetime import datetime

# datetime数据类型
*  专有名词
    1. 时间戳 timestamp
    2. 固定时期 period
    3. 时间间隔 interval
    4. python标准库
* 数据类型
    1. datetime.date，以公历形式存储日历日期：年、月、日
    2. datetime.time，将时间存储为时、分、秒、毫秒
    3. datetime.datetime，存储日期和时间，简写为datetime
    4. datetime.timedelta，两个datetime对象之间的时间差（日、秒、毫秒）

In [2]:
datetime(2018,1,2)

datetime.datetime(2018, 1, 2, 0, 0)

In [3]:
datetime(2018,1,2,11,15)# 年、月、日、时、分、秒、毫秒

datetime.datetime(2018, 1, 2, 11, 15)

In [4]:
stamp = datetime(2018,1,2)
type(stamp)

datetime.datetime

In [5]:
# now
now = datetime.now()
now.year

2018

In [6]:
now.month

11

In [7]:
now.day

2

## datetime格式化为字符串

In [8]:
str(stamp)

'2018-01-02 00:00:00'

In [9]:
stamp.strftime('%Y-%m-%d')

'2018-01-02'

## 字符串转换为日期
* datetime.strptime 字符串转换为日期
* datetime.strptime 通过已知格式进行日期解析的**最佳方式**

In [10]:
# 单个
datestr = '2018-11-2'
datetime.strptime(datestr,'%Y-%m-%d')

datetime.datetime(2018, 11, 2, 0, 0)

In [11]:
# 多个
datestrs = ['1-20-2018','1-21-2018']
# 列表推导式
[datetime.strptime(x,'%m-%d-%Y') for x in datestrs]

[datetime.datetime(2018, 1, 20, 0, 0), datetime.datetime(2018, 1, 21, 0, 0)]

In [12]:
# 多个
datestrs_1 = ['2018/1/2','2018/1/3']
# 注意'%=%-%','%/%/%'与列表中日期字符串格式统一，位置一一对应
[datetime.strptime(x,'%Y/%m/%d') for x in datestrs_1]

[datetime.datetime(2018, 1, 2, 0, 0), datetime.datetime(2018, 1, 3, 0, 0)]

# datetime格式定义
* %Y  4位数的年
* %y  2位数的年
* %m  2位数的月【01,12】
* %d  2位数的日【01,31】
* %w  用整数表示星期几【0，星期天】【6，星期六】
* %U  每年的第几周，星期天认为是每周的第一天，每年第一个星期天之前的那几天被认识是第0周
* %W  每年的第几周，星期一认为是每周的第一天，每年第一个星期一之前的那几天被认识是第0周
* %F  %Y-%m-%d
* %D  %m/%d/%y

# pandas处理成组日期

* **pd.to_datetime**(df._col_1)，列转换为datetime数据类型
* pd.DatetimeIndex(df.index)，索引转化为DatetimeIndex类型

In [13]:
datestrs

['1-20-2018', '1-21-2018']

In [14]:
pd.to_datetime(datestrs)

DatetimeIndex(['2018-01-20', '2018-01-21'], dtype='datetime64[ns]', freq=None)

In [15]:
idx = pd.to_datetime(datestrs + [None]) 
idx

DatetimeIndex(['2018-01-20', '2018-01-21', 'NaT'], dtype='datetime64[ns]', freq=None)

* NaT Not a Time
* NaT是pandas中时间戳timestamp数据的NA值

In [16]:
pd.isnull(idx)

array([False, False,  True])

## pd.date_range()

In [17]:
pd.date_range('20181102','20181111')

DatetimeIndex(['2018-11-02', '2018-11-03', '2018-11-04', '2018-11-05',
               '2018-11-06', '2018-11-07', '2018-11-08', '2018-11-09',
               '2018-11-10', '2018-11-11'],
              dtype='datetime64[ns]', freq='D')

In [18]:
pd.date_range(end='20181111',periods=11)

DatetimeIndex(['2018-11-01', '2018-11-02', '2018-11-03', '2018-11-04',
               '2018-11-05', '2018-11-06', '2018-11-07', '2018-11-08',
               '2018-11-09', '2018-11-10', '2018-11-11'],
              dtype='datetime64[ns]', freq='D')

In [19]:
pd.date_range(start='20181101',periods=11)

DatetimeIndex(['2018-11-01', '2018-11-02', '2018-11-03', '2018-11-04',
               '2018-11-05', '2018-11-06', '2018-11-07', '2018-11-08',
               '2018-11-09', '2018-11-10', '2018-11-11'],
              dtype='datetime64[ns]', freq='D')

In [20]:
pd.date_range('20181101',periods=11,freq='W')

DatetimeIndex(['2018-11-04', '2018-11-11', '2018-11-18', '2018-11-25',
               '2018-12-02', '2018-12-09', '2018-12-16', '2018-12-23',
               '2018-12-30', '2019-01-06', '2019-01-13'],
              dtype='datetime64[ns]', freq='W-SUN')

## 时间序列的基础频率 base frequency
* **freq=''**
* D，Day，每个日历日
* B，BusinessDay，每个工作日
* BMS，BusinessMonthBegin，每月第一个工作日
* BM，business end of month，每月最后一个工作日组成的日期索引
* MS，MonthBegin，每月1号
***
* W-MON，对每周一，开始采样，只记录每周一
    * W-MON
    * W-TUE
    * W-WED
    * W-THU
    * W-FRI
    * W-SAT
    * W-SUN

* WOM-1MON，WeekOfMonth，对每月第一个星期一
    * WOM-2TUE，对每月第二个星期二，采样

***
* Q-FEB，QuarterEnd，每季度最后一月的，最后一个日历日，以指定月份结束的年度
* BQ-OCT，BusinessQuarterEnd，每季度最后一月的，最后一个个工作日，以指定月份结束的年度
    * JAN
    * FEB
    * MAR
    * APR
    * MAY
    * JUN
    * JUL
    * AUG
    * SEP
    * OCT
    * NOV
    * DEC


* QS-FEB，QuarterEnd，每季度最后一月的，第一个日历日，以指定月份结束的年度
* BQS-FEB，QuarterEnd，每季度最后一月的，第一个工作日，以指定月份结束的年度
***
* H，Hour，每小时
* T或min，Minute，每分
* S，Second，每秒
* L或ms，Milli，每毫秒
* U，Micro，每微妙
***
* A-JAN，YearEnd，每年指定月份的最后一个日历日
* BA-JAN，BusinessYearEnd，每年制定月份的最后一个工作日


* AS-JAN，YearBegin，每年指定月份的第一个日历日
* BAS-JAN，BusinessYearBegin，每指定月份的第一个工作日

In [21]:
lts = pd.date_range('20181102','20190102',freq='B')# 每个工作日
lts

DatetimeIndex(['2018-11-02', '2018-11-05', '2018-11-06', '2018-11-07',
               '2018-11-08', '2018-11-09', '2018-11-12', '2018-11-13',
               '2018-11-14', '2018-11-15', '2018-11-16', '2018-11-19',
               '2018-11-20', '2018-11-21', '2018-11-22', '2018-11-23',
               '2018-11-26', '2018-11-27', '2018-11-28', '2018-11-29',
               '2018-11-30', '2018-12-03', '2018-12-04', '2018-12-05',
               '2018-12-06', '2018-12-07', '2018-12-10', '2018-12-11',
               '2018-12-12', '2018-12-13', '2018-12-14', '2018-12-17',
               '2018-12-18', '2018-12-19', '2018-12-20', '2018-12-21',
               '2018-12-24', '2018-12-25', '2018-12-26', '2018-12-27',
               '2018-12-28', '2018-12-31', '2019-01-01', '2019-01-02'],
              dtype='datetime64[ns]', freq='B')

In [22]:
pd.date_range('20190101','20200102',freq='BMS')# 每月第一个工作日

DatetimeIndex(['2019-01-01', '2019-02-01', '2019-03-01', '2019-04-01',
               '2019-05-01', '2019-06-03', '2019-07-01', '2019-08-01',
               '2019-09-02', '2019-10-01', '2019-11-01', '2019-12-02',
               '2020-01-01'],
              dtype='datetime64[ns]', freq='BMS')

In [23]:
pd.date_range('20190101','20191231',freq='BM')# 每月最后一个工作日

DatetimeIndex(['2019-01-31', '2019-02-28', '2019-03-29', '2019-04-30',
               '2019-05-31', '2019-06-28', '2019-07-31', '2019-08-30',
               '2019-09-30', '2019-10-31', '2019-11-29', '2019-12-31'],
              dtype='datetime64[ns]', freq='BM')

In [24]:
pd.date_range('20190101','20190102',freq='4H30min')

DatetimeIndex(['2019-01-01 00:00:00', '2019-01-01 04:30:00',
               '2019-01-01 09:00:00', '2019-01-01 13:30:00',
               '2019-01-01 18:00:00', '2019-01-01 22:30:00'],
              dtype='datetime64[ns]', freq='270T')

In [25]:
pd.date_range('20181102','20191102',freq='MS')#每月1号

DatetimeIndex(['2018-12-01', '2019-01-01', '2019-02-01', '2019-03-01',
               '2019-04-01', '2019-05-01', '2019-06-01', '2019-07-01',
               '2019-08-01', '2019-09-01', '2019-10-01', '2019-11-01'],
              dtype='datetime64[ns]', freq='MS')

In [26]:
pd.date_range('20181102','20191102',freq='W-FRI')#对每周五采样

DatetimeIndex(['2018-11-02', '2018-11-09', '2018-11-16', '2018-11-23',
               '2018-11-30', '2018-12-07', '2018-12-14', '2018-12-21',
               '2018-12-28', '2019-01-04', '2019-01-11', '2019-01-18',
               '2019-01-25', '2019-02-01', '2019-02-08', '2019-02-15',
               '2019-02-22', '2019-03-01', '2019-03-08', '2019-03-15',
               '2019-03-22', '2019-03-29', '2019-04-05', '2019-04-12',
               '2019-04-19', '2019-04-26', '2019-05-03', '2019-05-10',
               '2019-05-17', '2019-05-24', '2019-05-31', '2019-06-07',
               '2019-06-14', '2019-06-21', '2019-06-28', '2019-07-05',
               '2019-07-12', '2019-07-19', '2019-07-26', '2019-08-02',
               '2019-08-09', '2019-08-16', '2019-08-23', '2019-08-30',
               '2019-09-06', '2019-09-13', '2019-09-20', '2019-09-27',
               '2019-10-04', '2019-10-11', '2019-10-18', '2019-10-25',
               '2019-11-01'],
              dtype='datetime64[ns]', freq='W-F

In [27]:
pd.date_range('20181102','20191111',freq='WOM-2SAT')# 对每月第二个周六采样

DatetimeIndex(['2018-11-10', '2018-12-08', '2019-01-12', '2019-02-09',
               '2019-03-09', '2019-04-13', '2019-05-11', '2019-06-08',
               '2019-07-13', '2019-08-10', '2019-09-14', '2019-10-12',
               '2019-11-09'],
              dtype='datetime64[ns]', freq='WOM-2SAT')

In [28]:
pd.date_range('2018','2020',freq='Q-JAN')

DatetimeIndex(['2018-01-31', '2018-04-30', '2018-07-31', '2018-10-31',
               '2019-01-31', '2019-04-30', '2019-07-31', '2019-10-31'],
              dtype='datetime64[ns]', freq='Q-JAN')

In [29]:
pd.date_range('2018','2020',freq='Q-FEB')

DatetimeIndex(['2018-02-28', '2018-05-31', '2018-08-31', '2018-11-30',
               '2019-02-28', '2019-05-31', '2019-08-31', '2019-11-30'],
              dtype='datetime64[ns]', freq='Q-FEB')

In [30]:
pd.date_range('2018','2020',freq='Q-OCT')

DatetimeIndex(['2018-01-31', '2018-04-30', '2018-07-31', '2018-10-31',
               '2019-01-31', '2019-04-30', '2019-07-31', '2019-10-31'],
              dtype='datetime64[ns]', freq='Q-OCT')

In [31]:
pd.date_range('2018','2020',freq='BQ-OCT')

DatetimeIndex(['2018-01-31', '2018-04-30', '2018-07-31', '2018-10-31',
               '2019-01-31', '2019-04-30', '2019-07-31', '2019-10-31'],
              dtype='datetime64[ns]', freq='BQ-OCT')

## 时间序列 timeSeries

* pandas最基本的时间序列类型，以时间戳为index的Series
* pd.date_range(start=,end=,periods=,freq=,normalize=)

In [32]:
timeindex = pd.date_range('20181102',periods=6)
ts = pd.Series(np.random.randn(6),index = timeindex)
ts

2018-11-02   -1.602316
2018-11-03    2.307768
2018-11-04   -0.976703
2018-11-05   -0.527777
2018-11-06    0.125793
2018-11-07   -0.025519
Freq: D, dtype: float64

In [33]:
df = pd.DataFrame(np.random.randn(6,3),index=timeindex)
df

Unnamed: 0,0,1,2
2018-11-02,-0.449482,0.947044,1.340471
2018-11-03,0.108835,-1.499982,0.401297
2018-11-04,0.524984,0.461541,0.612619
2018-11-05,-0.668273,-1.220822,-1.537954
2018-11-06,-1.070256,0.536603,1.617108
2018-11-07,0.095821,-1.10444,-0.014713


* DatetimeIndex

In [34]:
ts.index

DatetimeIndex(['2018-11-02', '2018-11-03', '2018-11-04', '2018-11-05',
               '2018-11-06', '2018-11-07'],
              dtype='datetime64[ns]', freq='D')

In [35]:
ts.index.dtype

dtype('<M8[ns]')

In [36]:
df.index

DatetimeIndex(['2018-11-02', '2018-11-03', '2018-11-04', '2018-11-05',
               '2018-11-06', '2018-11-07'],
              dtype='datetime64[ns]', freq='D')

In [37]:
df.index.dtype

dtype('<M8[ns]')

In [38]:
type(df)

pandas.core.frame.DataFrame

In [39]:
type(ts)

pandas.core.series.Series

# 切片、索引
* 和Series一样的数据选取

In [40]:
# 索引
stamp = ts.index[1]
stamp

Timestamp('2018-11-03 00:00:00', freq='D')

In [41]:
ts[stamp]#传入时间戳

2.3077684162679035

In [42]:
ts['2018-11-03 00:00:00']# 传入可被解释为日期的字符串

2.3077684162679035

In [43]:
longer_ts = pd.Series(np.random.randn(1000),index=pd.date_range('20181102',periods=1000))
longer_ts['2019'] #长时间序列的索引，选取数据切片

2019-01-01    0.055231
2019-01-02   -0.489285
2019-01-03    0.644331
2019-01-04   -0.561307
2019-01-05   -0.940848
2019-01-06   -0.779632
2019-01-07   -0.272890
2019-01-08    0.560907
2019-01-09    0.253580
2019-01-10   -1.122858
2019-01-11   -0.452866
2019-01-12    0.641078
2019-01-13   -0.304365
2019-01-14    0.477206
2019-01-15   -0.324065
2019-01-16   -0.062778
2019-01-17    0.613034
2019-01-18   -0.345285
2019-01-19    0.473493
2019-01-20   -0.233947
2019-01-21    0.017067
2019-01-22   -0.334349
2019-01-23   -0.400958
2019-01-24    1.790941
2019-01-25   -0.635101
2019-01-26   -1.839446
2019-01-27    0.335772
2019-01-28    0.130215
2019-01-29    0.012593
2019-01-30    0.954772
                ...   
2019-12-02   -0.102505
2019-12-03   -0.113272
2019-12-04   -0.889632
2019-12-05    0.635173
2019-12-06    0.098169
2019-12-07    1.115568
2019-12-08    0.012114
2019-12-09    0.721762
2019-12-10    1.813529
2019-12-11   -0.343580
2019-12-12   -1.445977
2019-12-13    2.055750
2019-12-14 

In [44]:
longer_ts[:3]#切片

2018-11-02    0.699765
2018-11-03    0.327841
2018-11-04   -0.293638
Freq: D, dtype: float64

In [45]:
longer_ts[:datetime(2018,11,5)]# 切片

2018-11-02    0.699765
2018-11-03    0.327841
2018-11-04   -0.293638
2018-11-05    0.121648
Freq: D, dtype: float64

In [46]:
ts

2018-11-02   -1.602316
2018-11-03    2.307768
2018-11-04   -0.976703
2018-11-05   -0.527777
2018-11-06    0.125793
2018-11-07   -0.025519
Freq: D, dtype: float64

In [47]:
ts['2018-1-1':'2019-1-1']

2018-11-02   -1.602316
2018-11-03    2.307768
2018-11-04   -0.976703
2018-11-05   -0.527777
2018-11-06    0.125793
2018-11-07   -0.025519
Freq: D, dtype: float64

* 截取两个日期之间
* .truncate

In [48]:
ts.truncate(before='20181105')

2018-11-05   -0.527777
2018-11-06    0.125793
2018-11-07   -0.025519
Freq: D, dtype: float64

In [49]:
df

Unnamed: 0,0,1,2
2018-11-02,-0.449482,0.947044,1.340471
2018-11-03,0.108835,-1.499982,0.401297
2018-11-04,0.524984,0.461541,0.612619
2018-11-05,-0.668273,-1.220822,-1.537954
2018-11-06,-1.070256,0.536603,1.617108
2018-11-07,0.095821,-1.10444,-0.014713


In [50]:
df.loc[:'2018-11-03']

Unnamed: 0,0,1,2
2018-11-02,-0.449482,0.947044,1.340471
2018-11-03,0.108835,-1.499982,0.401297


# 重复索引的时间序列

* 检查索引**is_unique属性**

In [51]:
df.index.is_unique

True

## 时间戳聚合
* .groupby(level=0)

In [52]:
ts.groupby(level=0).count()

2018-11-02    1
2018-11-03    1
2018-11-04    1
2018-11-05    1
2018-11-06    1
2018-11-07    1
Freq: D, dtype: int64