## 把数据移动指定位数

df.shift(periods=1, freq=None, axis=0)

periods : int
    Number of periods to move, can be positive or negative

freq : DateOffset, timedelta, or time rule string, optional
    Increment to use from the tseries module or time rule (e.g. 'EOM').
    See Notes.

axis : {0 or 'index', 1 or 'columns'}

period：表示移动的幅度，可以是正数，也可以是负数，默认值是1,1就表示移动一次，注意这里移动的都是数据，而索引是不移动的，移动之后没有对应值的，就赋值为NaN。

freq： DateOffset, timedelta, or time rule string，可选参数，默认值为None，只适用于时间序列，如果这个参数存在，那么会按照参数值移动时间索引，而数据值没有发生变化。

axis： 轴向。



In [21]:
import pandas as pd
import numpy as np
import datetime

In [3]:
data1 = pd.DataFrame({
    'a': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
    'b': [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]
})

In [4]:
data1

Unnamed: 0,a,b
0,0,9
1,1,8
2,2,7
3,3,6
4,4,5
5,5,4
6,6,3
7,7,2
8,8,1
9,9,0


### a和b数据往个方向移动一位

In [8]:
data2 = data1.shift(axis= 0) # 向下
data3 = data1.shift(axis= 1) # 向右
data4 = data1.shift(periods= -1,axis=0) #向上
data5 = data1.shift(periods= -1,axis=1) #向左

## 例子：
#### 这里有一组某车站各个小时的总进站人数和总出站人数的数据:
要求计算每个小时该车站进出站人数

思路: 把第n+1小时的总人数-第n小时的总人数,就是这个小时里的进出站人数

In [10]:
entries_and_exits = pd.DataFrame({
    'ENTRIESn': [3144312, 3144335, 3144353, 3144424, 3144594,
                 3144808, 3144895, 3144905, 3144941, 3145094],
    'EXITSn': [1088151, 1088159, 1088177, 1088231, 1088275,
               1088317, 1088328, 1088331, 1088420, 1088753]
})

In [11]:
entries_and_exits_hourly = entries_and_exits - entries_and_exits.shift(axis=0)
print(entries_and_exits_hourly.fillna(0))   #最后用0来填补NaN

   ENTRIESn  EXITSn
0       0.0     0.0
1      23.0     8.0
2      18.0    18.0
3      71.0    54.0
4     170.0    44.0
5     214.0    42.0
6      87.0    11.0
7      10.0     3.0
8      36.0    89.0
9     153.0   333.0


### period进阶

In [14]:
df = pd.DataFrame(np.arange(16).reshape(4,4),columns=['AA','BB','CC','DD'],index =['a','b','c','d'])
df

Unnamed: 0,AA,BB,CC,DD
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11
d,12,13,14,15


In [15]:
#当period为正时，默认是axis = 0轴的设定，向下移动
df.shift(2)

Unnamed: 0,AA,BB,CC,DD
a,,,,
b,,,,
c,0.0,1.0,2.0,3.0
d,4.0,5.0,6.0,7.0


In [16]:
#当axis=1，沿水平方向进行移动，正数向右移，负数向左移
df.shift(2,axis = 1)

Unnamed: 0,AA,BB,CC,DD
a,,,0.0,1.0
b,,,4.0,5.0
c,,,8.0,9.0
d,,,12.0,13.0


In [17]:
#当period为负时，默认是axis = 0轴的设定，向上移动
df.shift(-1)

Unnamed: 0,AA,BB,CC,DD
a,4.0,5.0,6.0,7.0
b,8.0,9.0,10.0,11.0
c,12.0,13.0,14.0,15.0
d,,,,


### freq进阶

In [20]:
df = pd.DataFrame(np.arange(16).reshape(4,4),columns=['AA','BB','CC','DD'],index =pd.date_range('6/1/2012','6/4/2012'))
df

Unnamed: 0,AA,BB,CC,DD
2012-06-01,0,1,2,3
2012-06-02,4,5,6,7
2012-06-03,8,9,10,11
2012-06-04,12,13,14,15


In [22]:
df.shift(freq=datetime.timedelta(1))

Unnamed: 0,AA,BB,CC,DD
2012-06-02,0,1,2,3
2012-06-03,4,5,6,7
2012-06-04,8,9,10,11
2012-06-05,12,13,14,15


In [23]:
df.shift(freq=datetime.timedelta(-2))

Unnamed: 0,AA,BB,CC,DD
2012-05-30,0,1,2,3
2012-05-31,4,5,6,7
2012-06-01,8,9,10,11
2012-06-02,12,13,14,15
