## 0. 准备

In [None]:
import pandas as pd

In [86]:
# 准备数据
df = pd.read_excel('https://www.gairuo.com/file/data/dataset/team.xlsx').head()
df

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Liver,E,89,21,24,64
1,Arry,C,36,37,37,57
2,Ack,A,57,60,18,84
3,Eorge,C,93,96,71,78
4,Oah,D,65,49,61,86


## 1. 逻辑运算

In [11]:
# 1.单列逻辑，返回对应位置是否满足逻辑表达式
df['Q1'] > 30 

0    True
1    True
2    True
3    True
4    True
Name: Q1, dtype: bool

In [12]:
# 索引参与逻辑运算
df.index <= 5

array([ True,  True,  True,  True,  True])

In [13]:
# 2.多列逻辑，返回对应数据块中每个元素是否满足逻辑表达式
df.loc[:, 'Q1':'Q4'] > 60

Unnamed: 0,Q1,Q2,Q3,Q4
0,True,False,False,True
1,False,False,False,False
2,False,False,False,True
3,True,True,True,True
4,True,False,True,True


In [16]:
# 3.多条件组合
(df['Q1'] > 60) & (df['Q2'] > 60) & (df['Q3'] > 60) & (df['Q4'] > 60)

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [15]:
# 上述结果利布尔序列拥有的all()方法实现，any()是只要有一个True则结果为True
(df.loc[:, 'Q1':'Q4'] > 60).all(axis=1)

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [17]:
# 或（|）、与（&）、非（~）运算
~((df.loc[:, 'Q1':'Q4'] > 60).all(axis=1))

0     True
1     True
2     True
3    False
4     True
dtype: bool

In [19]:
### 逻辑运算中常用的几个字符串方法
# 1.name列是否包含A：.str.contains()
df['name'].str.contains('A')

0    False
1     True
2     True
3    False
4    False
Name: name, dtype: bool

In [20]:
# 2.name列是否出现在列表['Arry','Ack']中
df['name'].isin(['Arry','Ack'])

0    False
1     True
2     True
3    False
4    False
Name: name, dtype: bool

## 2. 基于上述逻辑筛选数据  

In [71]:
# 1.df[]、df.loc[]、df.iloc[]的方括号内均支持上述逻辑表达式
df[df['name'].str.contains('ge')]  

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
3,Eorge,C,93,96,71,78


In [26]:
# 2.[]内的逻辑表达式输出结果可以是"一个布尔序列"或者"符合格式要求的数据形式"
df[(df.loc[:, 'Q1':'Q4'] > 60).all(axis=1)]

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
3,Eorge,C,93,96,71,78


In [28]:
# 第2行
df.iloc[1+1]

name    Ack
team      A
Q1       57
Q2       60
Q3       18
Q4       84
Name: 2, dtype: object

In [32]:
df.iloc[1+1:3]

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
2,Ack,A,57,60,18,84


In [40]:
# 3.[]内的逻辑表达式输出结果也可以是"数据块"
df[df.loc[:, 'Q1':'Q4'] > 60]

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,,,89.0,,,64.0
1,,,,,,
2,,,,,,84.0
3,,,93.0,96.0,71.0,78.0
4,,,65.0,,61.0,86.0


## 3. 函数筛选

In [42]:
### 1. 使用lambda函数
# 查询最大索引值对应的那一行，只显示'Q1'至'Q4'列
df.loc[lambda x: x.index == max(df.index), 'Q1':'Q4']

Unnamed: 0,Q1,Q2,Q3,Q4
4,65,49,61,86


In [43]:
# 列筛选：列名中包含Q的列
df.loc[:, lambda x: x.columns.str.contains('Q')]

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,24,64
1,36,37,37,57
2,57,60,18,84
3,93,96,71,78
4,65,49,61,86


## 5. 数据查询 df.query()

In [55]:
# df.query()内传入的是字符串形式的逻辑表达式，类似SQL中where从句，因而不支持 df.query('df.name.str.contains('A')')
df.query('name!="Eorge" and Q1>60') 

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Liver,E,89,21,24,64
4,Oah,D,65,49,61,86


In [59]:
# 还支持使用@符号引入变量
a = df.Q1.mean()
df.query('Q1>@a') # @千万不可省略

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Liver,E,89,21,24,64
3,Eorge,C,93,96,71,78


In [60]:
# df.eval() 输出字符串内逻辑表达式的结果
df.eval('Q1>Q2')

0     True
1    False
2    False
3    False
4     True
dtype: bool

## 6. 筛选df.filter()，支持正则表达式、模糊匹配

In [62]:
# 传入行名、列名
df.filter(items=['name','Q4'])

Unnamed: 0,name,Q4
0,Liver,64
1,Arry,57
2,Ack,84
3,Eorge,78
4,Oah,86


In [63]:
# 正则表达式
df.filter(regex='Q', axis=1) #列名包含Q的列，axis=1传入的列名，regex='Q$'以Q结尾，regex='^Q'以Q开头

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,24,64
1,36,37,37,57
2,57,60,18,84
3,93,96,71,78
4,65,49,61,86


In [66]:
df.filter(regex='2', axis=0) #索引中含2的行，axis=0传入的索引

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
2,Ack,A,57,60,18,84


In [72]:
# name中包含ge的行
df.set_index('name').filter(regex='ge', axis=0)  #.reset_index() 推荐2中的方法

Unnamed: 0_level_0,team,Q1,Q2,Q3,Q4
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Eorge,C,93,96,71,78


## 7. 按数据类型筛选

In [88]:
df.dtypes

name    object
team    object
Q1       int64
Q2       int64
Q3       int64
Q4       int64
dtype: object

In [89]:
# 只取数值型
df.select_dtypes(include='int64')

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,24,64
1,36,37,37,57
2,57,60,18,84
3,93,96,71,78
4,65,49,61,86


In [90]:
# 排除数值型
df.select_dtypes(exclude='int64')

Unnamed: 0,name,team
0,Liver,E
1,Arry,C
2,Ack,A
3,Eorge,C
4,Oah,D
