In [1]:
print("""
@File         : ch07_filtering_rows.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2024-08-05 19:20:26
@Email        : cuixuanstephen@gmail.com
@Description  : 过滤行
""")


@File         : ch07_filtering_rows.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2024-08-05 19:20:26
@Email        : cuixuanstephen@gmail.com
@Description  : 过滤行



In [2]:
import pandas as pd
import numpy as np

In [3]:
%cd ../

d:\Data-Analysis-and-Science\P1XC2E


从数据集中过滤数据是最常见和最基本的操作之一。使用布尔索引，有多种方法可以在 Pandas 中过滤（或子集化）数据。布尔索引（也称为布尔选择）可能是一个令人困惑的术语，但在 Pandas 领域，**它指的是通过提供布尔数组来选择行**， Pandas Series 具有相同的索引，但每行都有一个 True 或 False。这个名字来自 NumPy，其中有类似的过滤逻辑，因此虽然它实际上是一个包含布尔值的 Series，但它也被称为布尔数组。

## 计算布尔统计数据

In [4]:
movie = pd.read_csv('data/movie.csv', index_col='movie_title')
movie[['duration']].head()

Unnamed: 0_level_0,duration
movie_title,Unnamed: 1_level_1
Avatar,178.0
Pirates of the Caribbean: At World's End,169.0
Spectre,148.0
The Dark Knight Rises,164.0
Star Wars: Episode VII - The Force Awakens,


In [5]:
movie_2_hours = movie['duration'] > 120
movie_2_hours.head()

movie_title
Avatar                                         True
Pirates of the Caribbean: At World's End       True
Spectre                                        True
The Dark Knight Rises                          True
Star Wars: Episode VII - The Force Awakens    False
Name: duration, dtype: bool

In [6]:
movie_2_hours.sum()

1039

In [7]:
movie_2_hours.mean() * 100

21.13506916192026

有个小问题，是否要排除那些不具有市场的影片？

In [8]:
movie['duration'].dropna().gt(120).mean().__mul__(100)

21.199755152009793

In [9]:
movie_2_hours.describe()

count      4916
unique        2
top       False
freq       3877
Name: duration, dtype: object

pandas 将 `.describe` 方法应用于布尔数组的方式与应用于对象或字符串列的方式相同，即显示频率信息。这是考虑布尔数组的自然方式，而不是显示分位数。

In [10]:
movie_2_hours.astype(int).describe()

count    4916.000000
mean        0.211351
std         0.408308
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max         1.000000
Name: duration, dtype: float64

In [11]:
actors = movie[
    ["actor_1_facebook_likes", "actor_2_facebook_likes"]
].dropna()

(
    actors['actor_1_facebook_likes'] > actors['actor_2_facebook_likes']
).mean()

0.9777687130328371

## 构造多个布尔条件

在 Python 中，布尔表达式使用内置逻辑运算符 `and`、`or` 和 `not`。这些关键字不适用于 pandas 中的布尔索引，因此分别替换为 `&`、`|` 和 `~`。此外，在组合表达式时，每个表达式都必须括在括号中，否则会引发错误（由于运算符优先级）。

In [12]:
criterial1 = movie.imdb_score > 8
criterial2 = movie.content_rating == "PG-13"
criterial3 = (movie.title_year < 2000) | (movie.title_year > 2009)

In [13]:
criteria_final = criterial1 & criterial2 & criterial3
criteria_final.head()

movie_title
Avatar                                        False
Pirates of the Caribbean: At World's End      False
Spectre                                       False
The Dark Knight Rises                          True
Star Wars: Episode VII - The Force Awakens    False
dtype: bool