<!--NAVIGATION-->
< [Computation on Arrays: Broadcasting](02.05-Computation-on-arrays-broadcasting.ipynb) | [Contents](Index.ipynb) | [Fancy Indexing](02.07-Fancy-Indexing.ipynb) >

# 比较、 掩码和布尔逻辑(Comparisons, Masks, and Boolean Logic)

本节将介绍如何用布尔掩码来查看和操作NumPy数组中的值。

当你想基于某些准则来抽取、修改、计数或对一个数组中的值进行其他操作时，**掩码**就可以派上用场了。

例如你可能希望统计数组中有多少值大于某一个给定值，或者删除所有超出某些阈值的异常点。在NumPy中，布尔掩码通常是完成这类任务的**最高效方式**。

## 一个例子： 统计下雨天数

假设你有一系列西雅图一年内日降水量的数据，这里将用Pandas加载该数据：

In [7]:
import numpy as np
import pandas as pd

# 利用Pandas抽取降雨量，放入一个NumPy数组
rainfall = pd.read_csv('data/Seattle2014.csv')['PRCP'].values
inches = rainfall / 254.0  # 1/10mm -> inches
inches.shape

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 5: invalid continuation byte

这个数组包含365个值，给出了从2014年1月1日至2014年12月31日每天的降水量。

这里降水量的单位是英寸。

首先做一个快速的可视化，用Matplotlib生成下雨天数的直方图，如下图所示：

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()  # 设置绘图风格

In [None]:
plt.hist(inches, bins=40);
plt.xlabel('Precipitation(inches)')
plt.ylabel('number of precipitation days')

该直方图表明了这些数据的大意：尽管人们对西雅图市有刻板印象，但是2014年它大多数时间的降水量都是接近0的。

但是这样做并没有很好地传递出我们希望看到的某些信息，例如一年中有多少天在下雨，这些下雨天的平均降水量是多少，有多少天的降水量超过了半英寸？

### 深入数据

回答以上问题的一种方法是通过传统的统计方式，即对所有数据进行循环，当碰到数据落在我们希望的区间时计数器便加1。这种方法在本章节中多次讨论过，但无论从编写代码的角度看，还是从计算结果的角度看，这都是一种**浪费时间、非常低效**的方法。

NumPy的通用函数可以用来替代循环，以快速实现数组的**逐元素（element wise）**运算。同样，我们也可以用其他通用函数实现数组的逐元素**比较**，然后利用计算结果回答之前提出的问题。

先将数据放在一边，来介绍一下NumPy中有哪些用**掩码**来快速回答这类问题的通用工具。

## 和通用函数类似的比较操作

2.3 节介绍了通用函数，并且特别关注了算术运算符。我们看到用``+``, ``-``, ``*``, ``/``,和其他一些运算符实现了数组的逐元素操作。

NumPy还实现了如``<``（小于）和``>``（大于）的逐元素比较的通用函数。这些比较运算的结果是一个**布尔数据类型**的数组。一共有6种标准的比较操作：

In [None]:
x = np.array([1, 2, 3, 4, 5])

In [None]:
x < 3  # 小于

In [None]:
x > 3  # 大于

In [None]:
x <= 3  # 小于等于

In [None]:
x >= 3  # 大于等于

In [None]:
x != 3  # 不等于

In [None]:
x == 3  # 等于

另外，利用复合表达式实现对两个数组的逐元素比较也是可行的：

In [None]:
(2 * x) == (x ** 2)

和算术运算符一样，比较运算操作在NumPy中也是借助通用函数来实现的。例如当你写``x < 3``时，NumPy内部会使用``np.less(x, 3)``。这些比较运算符和其对应的通用函数如下表所示：

| 运算符  	     | 对应的通用函数      ||运算符  	      | 对应的通用函数      |
|---------------|---------------------||---------------|---------------------|
|``==``         |``np.equal``         ||``!=``         |``np.not_equal``     |
|``<``          |``np.less``          ||``<=``         |``np.less_equal``    |
|``>``          |``np.greater``       ||``>=``         |``np.greater_equal`` |

和算术运算通用函数一样，这些比较运算通用函数也可以用于任意形状、大小的数组。

下面是一个二维数组的示例：

In [None]:
rng = np.random.RandomState(0) #设置随机数处理器的产生状态
x = rng.randint(10, size=(3, 4))
x

In [None]:
x < 6

这样每次计算的结果都是布尔数组了。NumPy提供了一些简明的模式来操作这些布尔
结果。

## 操作布尔数组

给定一个布尔数组，你可以实现很多有用的操作。首先打印出此前生成的二维数组``x``：

In [None]:
print(x)

### 1. 统计记录的个数

如果需要统计布尔数组中``True``记录的个数，可以使用``np.count_nonzero``函数：

In [None]:
# 有多少值小于6？
np.count_nonzero(x < 6)

我们看到有8个数组记录是小于6的。在这个例子中，``False``会被解释成``0``，``True``会被解释成``1``。

另外一种实现方式是利用``np.sum``：

In [None]:
np.sum(x < 6)

``sum()``的好处是：和其他NumPy聚合函数一样，这个求和也可以**沿着行或列进行**：

In [None]:
# 每行有多少值小于6？ 
np.sum(x < 6, axis=1) #axis=0是沿列进行，axis=1是沿行进行

如要快速检查**任意**或者**所有**这些值是否为``True``，可以用``np.any``或``np.all``：

In [None]:
# 有没有值大于8？
np.any(x > 8)

In [None]:
# 有没有值小于0？ 
np.any(x < 0)

In [None]:
# 是否所有值都小于10？ 
np.all(x < 10)

In [None]:
# 是否所有值都等于6？ 
np.all(x == 6)

``np.all``和``np.any``也可以用于沿着特定的坐标轴，例如：

In [None]:
#  是否每行的所有值都小于8？
np.all(x < 8, axis=1)

最后需要提醒的是：Python 有内置的``sum()``, ``any()``和 ``all()``函数，这些函数在 NumPy中有不同的语法版本。如果在多维数组上混用这两个版本，会导致失败或产生不可预知的错误结果。因此，确保在以上的示例中用的都是``np.sum()``, ``np.any()``和``np.all()``函数。

### 2. 布尔运算符

我们已经看到该如何统计所有降水量小于4英寸或者大于2英寸的天数，但是如果我们想统计降水量小于4英寸且大于2英寸的天数该如何操作呢？

这可以通过Python的**逐位逻辑运算符（bitwise logic operator）**``&``, ``|``, ``^``和``~``来实现。同标准的算术运算符一样，NumPy用通用函数重载了这些逻辑运算符，这样可以实现数组的逐位运算（通常是布尔运算）。

例如，可以写如下的复合表达式：

In [None]:
np.sum((inches > 0.5) & (inches < 1))

可以看到，降水量在0.5英寸~1 英寸间的天数是 29 天。
请注意，这些**括号**是非常重要的，因为有运算优先级规则。如果去掉这些括号，该表达式会变成以下形式，这会导致运行错误：

``` python
inches > (0.5 & inches) < 1
```
利用*A AND B*和*NOT (NOT A OR NOT B)*的等价原理（你应该在基础逻辑课程中学习过），可以用另外一种形式实现同样的结果：

In [None]:
np.sum(~( (inches <= 0.5) | (inches >= 1) ))

将比较运算符和布尔运算符合并起来用在数组上，可以实现更多有效的逻辑运算操作。

以下表格总结了逐位的布尔运算符和其对应的通用函数。

| 运算符 	     | 对应通用函数        || 运算符 	   | 对应通用函数        |
|---------------|---------------------||---------------|---------------------|
|``&``          |``np.bitwise_and``   ||&#124;         |``np.bitwise_or``    |
|``^``          |``np.bitwise_xor``   ||``~``          |``np.bitwise_not``   |

利用这些工具，就可以回答那些关于天气数据的问题了。

以下的示例是结合使用掩码和聚合实现的结果计算：

In [None]:
print("Number days without rain:      ", np.sum(inches == 0))
print("Number days with rain:         ", np.sum(inches != 0))
print("Days with more than 0.5 inches:", np.sum(inches > 0.5))
print("Rainy days with < 0.2 inches  :", np.sum((inches > 0) &
                                                (inches < 0.2)))

## 将布尔数组作为掩码

在前面的小节中，我们看到了如何直接对布尔数组进行聚合计算。一种更强大的模式是**使用布尔数组作为掩码**，通过该掩码选择数据的子数据集。

以前面小节用过的``x``数组为例，假设我们希望抽取出数组中所有小于5的元素：

In [None]:
x

如前面介绍过的方法，利用比较运算符可以得到一个布尔数组：

In [None]:
x < 5

现在为了将这些值从数组中选出，可以进行简单的索引，即**掩码**操作：

In [None]:
x[x < 5]

现在返回的是一个一维数组，它包含了所有满足条件的值。换句话说，所有的这些值是掩码数组对应位置为``True``的值。

现在，可以对这些值做任意操作，例如可以根据西雅图降水数据进行一些相关统计：

In [None]:
# 为所有下雨天创建一个掩码 
rainy = (inches > 0)

# 构建一个包含整个夏季日期的掩码（6月21日是第172天） 
days = np.arange(365)
summer = (days > 172) & (days < 262)

print("Median precip on rainy days in 2014 (inches):   ",
      np.median(inches[rainy]))
print("Median precip on summer days in 2014 (inches):  ",
      np.median(inches[summer]))
print("Maximum precip on summer days in 2014 (inches): ",
      np.max(inches[summer]))
print("Median precip on non-summer rainy days (inches):",
      np.median(inches[rainy & ~summer]))

通过将布尔操作、掩码操作和聚合结合，可以快速回答对数据集提出的这类问题。

## 使用关键字 and/or 与使用逻辑操作运算符 &/|

人们经常困惑于关键字``and``和``or``，以及逻辑操作运算符``&``和``|``的区别是什么，什么时
候该选择哪一种？

它们的区别是：``and``和``or``判断整个对象**是真或假**，而``&``和``|``是指每个对象中的**比特位**。

当你使用``and``或``or``时，就等于让 Python 将这个对象当作整个布尔实体。在 Python中，所有**非零的整数**都会被当作是``True``：

In [None]:
bool(42), bool(0)

In [None]:
bool(42 and 0)

In [None]:
bool(42 or 0)

当你对整数使用``&``和``|``时，表达式操作的是**元素的比特**，将``and``或``or``应用于组成该数字的**每个比特**：

In [None]:
bin(42)

In [None]:
bin(59)

In [None]:
bin(42 & 59)

In [None]:
bin(42 | 59)

请注意，``&``和``|``运算时，对应的二进制比特位进行比较以得到最终结果。

当你在NumPy中有一个布尔数组时，该数组可以被当作是由比特字符组成的，其中``1 = True、0 = False``。这样的数组可以用上面介绍的方式进行``&``和``|``的操作：

In [None]:
A = np.array([1, 0, 1, 0, 1, 0], dtype=bool)
B = np.array([1, 1, 1, 0, 1, 1], dtype=bool)
A | B

而用``or``来计算这两个数组时，Python会计算整个数组对象的真或假，这会导致程序出错：

In [None]:
A or B

同样，对给定数组进行逻辑运算时，你也应该使用``|``或``&``，而不是``or``或``and``：

In [None]:
x = np.arange(10)
(x > 4) & (x < 8)

如果试图计算整个数组的真或假，程序也同样会给出``ValueError``的错误：

In [None]:
(x > 4) and (x < 8)

因此可以记住：``and``和``or``对整个对象执行单个布尔运算，而``&``和``|``对一个对象的内容（单个比特或字节）执行多个布尔运算。

对于NumPy布尔数组，后者是常用的操作。

<!--NAVIGATION-->
< [Computation on Arrays: Broadcasting](02.05-Computation-on-arrays-broadcasting.ipynb) | [Contents](Index.ipynb) | [Fancy Indexing](02.07-Fancy-Indexing.ipynb) >