# 原始数据预置

In [1]:
import pandas as pd
import numpy as np

# 创建时间格式数组

In [2]:
dates = pd.date_range('20180607',periods=6)

In [3]:
dates

DatetimeIndex(['2018-06-07', '2018-06-08', '2018-06-09', '2018-06-10',
               '2018-06-11', '2018-06-12'],
              dtype='datetime64[ns]', freq='D')

# 创建DataFrame格式

In [4]:
df = pd.DataFrame(np.arange(24).reshape((6,4)),index=dates,columns=['A','B','C','D'])

In [5]:
df

Unnamed: 0,A,B,C,D
2018-06-07,0,1,2,3
2018-06-08,4,5,6,7
2018-06-09,8,9,10,11
2018-06-10,12,13,14,15
2018-06-11,16,17,18,19
2018-06-12,20,21,22,23


# 选择单列A，等价于df.A

In [6]:
df['A']

2018-06-07     0
2018-06-08     4
2018-06-09     8
2018-06-10    12
2018-06-11    16
2018-06-12    20
Freq: D, Name: A, dtype: int32

In [7]:
df.A

2018-06-07     0
2018-06-08     4
2018-06-09     8
2018-06-10    12
2018-06-11    16
2018-06-12    20
Freq: D, Name: A, dtype: int32

# 选择行切片

In [8]:
df[0:3]

Unnamed: 0,A,B,C,D
2018-06-07,0,1,2,3
2018-06-08,4,5,6,7
2018-06-09,8,9,10,11


In [9]:
df['20180611':'20180612']

Unnamed: 0,A,B,C,D
2018-06-11,16,17,18,19
2018-06-12,20,21,22,23


# 标签式选择--横向选择

In [10]:
df.loc['20180609']

A     8
B     9
C    10
D    11
Name: 2018-06-09 00:00:00, dtype: int32

# 多列选择

In [11]:
df.loc[:,list('AB')]

Unnamed: 0,A,B
2018-06-07,0,1
2018-06-08,4,5
2018-06-09,8,9
2018-06-10,12,13
2018-06-11,16,17
2018-06-12,20,21


# 行与列同时过滤

In [12]:
df.loc['20180609':,list('AB')]

Unnamed: 0,A,B
2018-06-09,8,9
2018-06-10,12,13
2018-06-11,16,17
2018-06-12,20,21


# 位置选择

In [13]:
df.iloc[3] #第3行

A    12
B    13
C    14
D    15
Name: 2018-06-10 00:00:00, dtype: int32

In [14]:
df.iloc[3,1] #第3行第1列

13

In [15]:
df.iloc[3:5,1:3] #第3行到第5行，第1列到第5列

Unnamed: 0,B,C
2018-06-10,13,14
2018-06-11,17,18


# 使用列值筛选数据

In [17]:
df.A>4

2018-06-07    False
2018-06-08    False
2018-06-09     True
2018-06-10     True
2018-06-11     True
2018-06-12     True
Freq: D, Name: A, dtype: bool

In [18]:
df[df.A>4] 

Unnamed: 0,A,B,C,D
2018-06-09,8,9,10,11
2018-06-10,12,13,14,15
2018-06-11,16,17,18,19
2018-06-12,20,21,22,23


In [19]:
df[dates[0]:]>12

Unnamed: 0,A,B,C,D
2018-06-07,False,False,False,False
2018-06-08,False,False,False,False
2018-06-09,False,False,False,False
2018-06-10,False,True,True,True
2018-06-11,True,True,True,True
2018-06-12,True,True,True,True


In [20]:
df[df[dates[0]:]>12] 

Unnamed: 0,A,B,C,D
2018-06-07,,,,
2018-06-08,,,,
2018-06-09,,,,
2018-06-10,,13.0,14.0,15.0
2018-06-11,16.0,17.0,18.0,19.0
2018-06-12,20.0,21.0,22.0,23.0
