# 基于Python的数据分析
**工具：**jupyter notebook   **第三方库：**Pandas  
  
**Pandas简介：**  
- Pandas是一个开源的第三方`Python`库，从`Numpy`和`Matplotlib`的基础上构建而来，享有数据分析“三剑客之一”的盛名（`NumPy`、`Matplotlib`、`Pandas`）。
- Pandas这个名字来源于面板数据（Panel Data）与数据分析（data analysis）这两个名词的组合；
- Pandas 已经成为`Python`数据分析的必备高级工具，它的目标是成为强大、灵活、可以支持任何编程语言的数据分析工具。
---
## 导入pandas库
由于一般都会用到numpy库，所以，我们也一起导入。

In [1]:
import pandas as pd  # 导入pandas库
import numpy as np   # 导入numpy库

## 数据筛选
数据筛选就是从大量纷繁复杂的数据中选出有价值的数据，这样可以有效提高数据的可用性，有利于以后的数据分析；

本笔记主要记录了以下四种数据筛选方法：
- 关系筛选
- 逻辑筛选
- 函数筛选

接下来，将进行详细讲解；

---

## 关系筛选
Pandas数据关系筛选主要是使用**关系运算符**对两个量进行比较；    
在Pandas中，有6种关系运算符及意义，如下所示：
- `==` --- 等于，比较对象是否相等；
- `!=` --- 不等于，比较两个对象是否不相等；
- `>` ---- 大于，返回$x$是否大于$y$；
- `<` ---- 小于，返回$x$是否小于$y$；
- `>=` --- 大于等于，返回$x$是否大于等于$y$；
- `<=` --- 小于等于，返回$x$是否小于等于$y$；

`df[]`和`df.loc[]`都可以使用关系运算符进行数据的关系筛选；    
接下来，将使用`==`进行实例演示，其他关系运算符，大家可以自行练习看看效果；

In [2]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '武器':['长剑','双剑','长鞭','毛笔','长剑','法杖']
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
1,赵灵儿,女,16,双剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑
5,阿奴,女,14,法杖


In [3]:
# 使用df.loc[]进行筛选，筛选条件：性别为男
df1 = df.loc[df['性别'] == '男']
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑


In [4]:
# 使用df[]进行筛选，筛选条件：性别为女
df1 = df[df['性别'] == '女']
df1

Unnamed: 0,姓名,性别,年龄,武器
1,赵灵儿,女,16,双剑
2,林月如,女,18,长鞭
5,阿奴,女,14,法杖


In [5]:
# 使用df.loc[]进行筛选，筛选条件：年龄小于18
df1 = df.loc[df['年龄'] < 18]
df1

Unnamed: 0,姓名,性别,年龄,武器
1,赵灵儿,女,16,双剑
4,唐钰小宝,男,17,长剑
5,阿奴,女,14,法杖


In [6]:
# 使用df[]进行筛选，筛选条件：年龄大于等于18
df1 = df[df['年龄'] >= 18]
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔


## 逻辑筛选
Pandas数据逻辑筛选主要是使用**逻辑运算符**来实现更复杂的关系筛选；
在Pandas中，有3个逻辑运算符及意义，如下所示：

| 逻辑运算符 | 表达式 | 意义 |
| :---: | :---: | :---: |
| & | $x$ & $y$ | 布尔“与”，如果$x$为False，则$x$ & $y$返回False，否则返回$y$的计算值 |
| &#124; | $x$ &#124; $y$ | 布尔“或”，如果$x$为True，则返回$x$的值，否则返回$y$的计算值 |
| ~ | ~$x$ | 布尔“非”，如果$x$为True，则返回False；如果$x$为False，则返回True |

接下来，将进行实例演示；

In [7]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '武器':['长剑','双剑','长鞭','毛笔','长剑','法杖']
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
1,赵灵儿,女,16,双剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑
5,阿奴,女,14,法杖


In [8]:
# 使用df.loc[]进行“与”运算，筛选条件：年龄小于18岁，武器是双剑
df1 = df.loc[(df['年龄'] < 18) & (df['武器'] == '双剑')]
df1

Unnamed: 0,姓名,性别,年龄,武器
1,赵灵儿,女,16,双剑


In [9]:
# 使用df[]进行“或”运算，筛选条件: 武器为长剑，或年龄大于等于18的
df1 = df[(df['武器'] == '长剑') | (df['年龄'] >= 18)]
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑


In [10]:
# 使用df.loc[]进行“非”运算，筛选条件：年龄不小于18的
df1 = df.loc[~(df['年龄'] < 18)]
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔


## 函数筛选


### query()函数筛选
函数语法格式：`df.query(expression, inplace=False, **kwargs)`
- `expr` : 表示查询条件的**字符串表达式**。
- `inplace` : 一个布尔值，表示是否在原始DataFrame上进行就地修改，默认为False。
- `**kwargs` : 其他可选参数，用于传递给查询表达式中使用的变量。

query()函数将返回从DataFrame数据中筛选出满足expression的数据子集或记录。

In [11]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '武器':['长剑','双剑','长鞭','毛笔','长剑','法杖']
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
1,赵灵儿,女,16,双剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑
5,阿奴,女,14,法杖


In [12]:
# 筛选条件：姓名是赵灵儿
df1 = df.query(" 姓名 == '赵灵儿' ")
df1

Unnamed: 0,姓名,性别,年龄,武器
1,赵灵儿,女,16,双剑


In [13]:
# 筛选条件：使用长剑，且年龄大于18的
df1 = df.query(" 武器 == '长剑' & 年龄 > 18 ")
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑


In [14]:
# 筛选条件：使用长剑或长鞭，且年龄大于等于18
df1 = df.query(" 武器 in ['长剑','长鞭'] & 年龄 >= 18 ")
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
2,林月如,女,18,长鞭


In [15]:
# 通过@实现使用变量进行筛选；
person_name = '李逍遥'
df1 = df.query(" 姓名 == @person_name ")
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑


### filter()函数筛选
函数语法格式：`df.filter(items=None, like=None, regex=None, axis=None)`
- `items`：表示对应轴的标签名列表(list)。
- `like`：可以实现对应轴的标签名模糊查询。
- `regex`：使用正则表达式查询标签名。
- `axis`：表示对行或列进行查询操作，在默认情况下，其值为1，即查询列标签（列名）；
    - 如果其值为0，则表示查询行标签；
    - 如果其值为1，则表示查询列标签。

注意:items、like和regex是互相排斥的，即只能出现一个。

In [16]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '武器':['长剑','双剑','长鞭','毛笔','长剑','法杖']
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
1,赵灵儿,女,16,双剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑
5,阿奴,女,14,法杖


In [17]:
# items参数演示；筛选“姓名”和“年龄”两列数据
# 下面的表达式中“items=”可省略；
df1 = df.filter(items=['姓名','年龄'])
df1

Unnamed: 0,姓名,年龄
0,李逍遥,19
1,赵灵儿,16
2,林月如,18
3,刘晋元,20
4,唐钰小宝,17
5,阿奴,14


In [18]:
# axis参数演示：筛选“李逍遥”和“赵灵儿”两行数据
# 首先，需要将“姓名”设置为索引列
df1 = df.set_index('姓名')
df2 = df1.filter(['李逍遥','赵灵儿'], axis=0)
df2

Unnamed: 0_level_0,性别,年龄,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
李逍遥,男,19,长剑
赵灵儿,女,16,双剑


In [19]:
# like参数演示；筛选列名中有“武”的字段
df1 = df.filter(like='武')
df1

Unnamed: 0,武器
0,长剑
1,双剑
2,长鞭
3,毛笔
4,长剑
5,法杖


In [20]:
# like参数演示；筛选行索引里有“灵”的数据
# 首先，需要将“姓名”设置为索引列
df1 = df.set_index('姓名')
df2 = df1.filter(like='灵', axis=0)
df2

Unnamed: 0_level_0,性别,年龄,武器
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
赵灵儿,女,16,双剑


In [21]:
# regex参数演示；筛选列名最后一个字是“器”的
df1 = df.filter(regex='器$')
df1

Unnamed: 0,武器
0,长剑
1,双剑
2,长鞭
3,毛笔
4,长剑
5,法杖


### 比较函数
Pandas还提供了一些比较函数，可以将**关系运算符**替换为**函数筛选**；
- `df.eq()` --- 等于(==)，比较对象是否相等；
- `df.ne()` --- 不等于(!=)，比较两个对象是否不相等；
- `df.gt()` --- 大于(>)，返回$x$是否大于$y$；
- `df.lt()` --- 小于(<)，返回$x$是否小于$y$；
- `df.ge()` --- 大于等于(>=)，返回$x$是否大于等于$y$；
- `df.le()` --- 小于等于(<=)，返回$x$是否小于等于$y$；

接下来，将进行实例演示；

In [22]:
# 创建数据
data = { '姓名':['李逍遥','赵灵儿','林月如','刘晋元','唐钰小宝','阿奴'],
         '性别':['男','女','女','男','男','女'],
         '年龄':[19,16,18,20,17,14],
         '武器':['长剑','双剑','长鞭','毛笔','长剑','法杖']
        }
df = pd.DataFrame(data)
df

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑
1,赵灵儿,女,16,双剑
2,林月如,女,18,长鞭
3,刘晋元,男,20,毛笔
4,唐钰小宝,男,17,长剑
5,阿奴,女,14,法杖


In [23]:
# 筛选条件：姓名为李逍遥的
df1 = df[df['姓名'].eq('李逍遥')]
df1

Unnamed: 0,姓名,性别,年龄,武器
0,李逍遥,男,19,长剑


In [24]:
# 筛选条件：男性，年龄小于18的
df1 = df[(df['性别'].eq('男')) & (df['年龄'].lt(18))]
df1

Unnamed: 0,姓名,性别,年龄,武器
4,唐钰小宝,男,17,长剑
