数据分析中筛选是一个很重要的操作，在pandas.DataFrame中如何进行筛选，今天简单分享一下。

<br>

## 一、读入数据

In [33]:
import pandas as pd

df = pd.read_excel('data.xlsx')
df.to_markdown()

'|    | birthday   | name    | text                               |   age | gender   |   height |   weight |\n|---:|:-----------|:--------|:-----------------------------------|------:|:---------|---------:|---------:|\n|  0 | 1985/10/08 | Alice   | 我很开心，每天都这么快乐，我很幸福 |    35 | female   |      175 |       55 |\n|  1 | 95.07.07   | Mary    | 我很难过                           |    25 | female   |      165 |       50 |\n|  2 | 01-11-10   | Mike    | 唉，真难受                         |    19 | male     |      180 |       75 |\n|  3 | 90/2/8     | Smith   | 无所谓开心还是难过                 |    30 | male     |      175 |       70 |\n|  4 | 93-1-5     | Henry   | 每天赚一万，真爽！                 |    27 | male     |      185 |       80 |\n|  5 | 1988/2/9   | William | 爽歪歪                             |    32 | male     |      177 |       76 |\n|  6 | 1986-03-21 | Will    | 天气很凉爽，很舒服                 |    34 | male     |      180 |       85 |\n|  7 | 1984.06.9  | Qunique | 每天开心                           |    36 | fem

In [8]:
#字段的数据类型
df.dtypes

birthday    object
name        object
text        object
age          int64
gender      object
height       int64
weight       int64
dtype: object

<br><br>

## 二、筛选
查询符合条件的记录, 有两种实现方法

- 方法1 ``逻辑布尔值直接传入df[]``
- 方法2 ``在query方法中传入字段表达式``

<br>

### 2.1 方法1

``逻辑布尔值直接传入df[]``

筛选出年龄大于25岁，身高165以上, **且** 为女性的记录

In [23]:
#df[(df['age'] > 25) & (df['height'] > 165) & (df['gender'] == 'female')]
df[(df.age > 25) & (df.height > 165) & (df.gender=='female')]

Unnamed: 0,birthday,name,text,age,gender,height,weight
0,1985/10/08,Alice,我很开心，每天都这么快乐，我很幸福,35,female,175,55
7,1984.06.9,Qunique,每天开心,36,female,168,62
8,1993.07.09,Sara,难过悲伤,27,female,175,66


<br>

### 2.2 方法2

``在query方法中传入字段表达式``

筛选出年龄大于25岁，身高165以上, **且** 为女性的记录

In [25]:
df.query('(age > 25) & (height > 165) & (gender == "female")')

Unnamed: 0,birthday,name,text,age,gender,height,weight
0,1985/10/08,Alice,我很开心，每天都这么快乐，我很幸福,35,female,175,55
7,1984.06.9,Qunique,每天开心,36,female,168,62
8,1993.07.09,Sara,难过悲伤,27,female,175,66


可见query让查询和筛选代码变的很简洁，代码更具可阅读性和理解性。

但如果条件中使用了变量该如何撰写？

<br>

## 三、query表达式中的变量

query字符串表达式中如果含有变量 ``var``， 需要在该变量前加 ``@``, 

即在query字符串表达式中 ``@var`` 可以调用表达式字符串外的变量var

In [32]:
min_age = 25

#年龄大于25
df.query('age > @min_age').to_markdown()

'|    | birthday   | name    | text                               |   age | gender   |   height |   weight |\n|---:|:-----------|:--------|:-----------------------------------|------:|:---------|---------:|---------:|\n|  0 | 1985/10/08 | Alice   | 我很开心，每天都这么快乐，我很幸福 |    35 | female   |      175 |       55 |\n|  3 | 90/2/8     | Smith   | 无所谓开心还是难过                 |    30 | male     |      175 |       70 |\n|  4 | 93-1-5     | Henry   | 每天赚一万，真爽！                 |    27 | male     |      185 |       80 |\n|  5 | 1988/2/9   | William | 爽歪歪                             |    32 | male     |      177 |       76 |\n|  6 | 1986-03-21 | Will    | 天气很凉爽，很舒服                 |    34 | male     |      180 |       85 |\n|  7 | 1984.06.9  | Qunique | 每天开心                           |    36 | female   |      168 |       62 |\n|  8 | 1993.07.09 | Sara    | 难过悲伤                           |    27 | female   |      175 |       66 |\n|  9 | 92/08/09   | Hillary | 美满幸福                           |    28 | ma

In [31]:
g = 'female'
min_age = 25
min_height = 165

#筛选出年龄大于25岁，身高165以上, **且** 为女性的记录
df.query('(age > @min_age) & (height > @min_height) & (gender == @g)').to_markdown()

'|    | birthday   | name    | text                               |   age | gender   |   height |   weight |\n|---:|:-----------|:--------|:-----------------------------------|------:|:---------|---------:|---------:|\n|  0 | 1985/10/08 | Alice   | 我很开心，每天都这么快乐，我很幸福 |    35 | female   |      175 |       55 |\n|  7 | 1984.06.9  | Qunique | 每天开心                           |    36 | female   |      168 |       62 |\n|  8 | 1993.07.09 | Sara    | 难过悲伤                           |    27 | female   |      175 |       66 |'