## 1. 比较、掩码和布尔逻辑

### 1.1 示例：统计下雨天数

In [15]:
import numpy as np
import pandas as pd

# 利用Pandas抽取降雨量，放入一个Numpy数组
rainfall = pd.read_csv('/home/mw/input/datascience8949/Seattle2014.csv')['PRCP'].values # values转化为numpy数组
inches = rainfall / 254 # 从英寸inches转化为毫米mm, 1英寸=25.4毫米
print('inches.shape: ', inches.shape)

import matplotlib.pyplot as plt
import seaborn; seaborn.set() # 设置绘图风格

plt.hist(inches, 40)

inches.shape:  (365,)


(array([245.,  14.,  13.,  17.,   8.,   6.,   5.,   6.,   4.,   3.,   7.,
          6.,   3.,   3.,   3.,   4.,   4.,   2.,   4.,   0.,   0.,   1.,
          1.,   1.,   0.,   0.,   0.,   2.,   1.,   1.,   0.,   0.,   0.,
          0.,   0.,   0.,   0.,   0.,   0.,   1.]),
 array([0.        , 0.04596457, 0.09192913, 0.1378937 , 0.18385827,
        0.22982283, 0.2757874 , 0.32175197, 0.36771654, 0.4136811 ,
        0.45964567, 0.50561024, 0.5515748 , 0.59753937, 0.64350394,
        0.6894685 , 0.73543307, 0.78139764, 0.8273622 , 0.87332677,
        0.91929134, 0.96525591, 1.01122047, 1.05718504, 1.10314961,
        1.14911417, 1.19507874, 1.24104331, 1.28700787, 1.33297244,
        1.37893701, 1.42490157, 1.47086614, 1.51683071, 1.56279528,
        1.60875984, 1.65472441, 1.70068898, 1.74665354, 1.79261811,
        1.83858268]),
 <a list of 40 Patch objects>)

### 6.2 和通用函数类似的比较操作

Numpy实现小于和大于的逐元素比较的通用函数，比较运算的结果返回的是一个布尔数据类型的数组，一共有6种标准的比较操作

In [16]:
x = np.array([1, 2, 3, 4, 5])
print('x =      ', x)
print('x < 3  : ', x < 3, np.less(x, 3))
print('x > 3  : ', x > 3, np.greater(x, 3))
print('x <= 3 : ', x <= 3, np.less_equal(x, 3))
print('x >= 3 : ', x >= 3, np.greater_equal(x, 3))
print('x != 3 : ', x != 3, np.not_equal(x, 3))
print('x == 3 : ', x == 3, np.equal(x, 3))

# 利用复合表达式实现对两个数组逐元素比较
print(2 * x)
print(x ** 2)
print((2 * x) == (x ** 2))

# 比较运算通用函数可以用于任意形状、大小的数组
rng = np.random.RandomState(0)
x = rng.randint(10, size = (3, 4))
print(x)
print(x < 6)

x =       [1 2 3 4 5]
x < 3  :  [ True  True False False False] [ True  True False False False]
x > 3  :  [False False False  True  True] [False False False  True  True]
x <= 3 :  [ True  True  True False False] [ True  True  True False False]
x >= 3 :  [False False  True  True  True] [False False  True  True  True]
x != 3 :  [ True  True False  True  True] [ True  True False  True  True]
x == 3 :  [False False  True False False] [False False  True False False]
[ 2  4  6  8 10]
[ 1  4  9 16 25]
[False  True False False False]
[[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]
[[ True  True  True  True]
 [False False  True  True]
 [ True  True False False]]


### 1.3 操作布尔数组

1. 统计记录的个数

In [17]:
# 使用np.count_nonzero函数统计布尔数组中True记录的个数
print('x: \n', x)
print('x < 6 : \n', x < 6)
print('x < 6 的个数：', np.count_nonzero(x < 6))

# np.sum(x < 6)中False被解释为0， True解释为1, 好处是可以指定行或者列方向
print('x < 6 的个数：', np.sum(x < 6))
print('每列 x < 6的个数：', np.sum(x < 6, axis = 0))
print('每行 x < 6的个数：', np.sum(x < 6, axis = 1))

# 快速检查所有值或者任意值是否为True，可以沿指定轴方向
print('有没有值大于8：', np.any(x > 8))
print('有没有值小于0：', np.any(x < 0))
print('是否所有值都小于10：', np.all(x < 10))
print('是否每行所以值都小于8：', np.all(x < 8, axis = 1))

x: 
 [[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]
x < 6 : 
 [[ True  True  True  True]
 [False False  True  True]
 [ True  True False False]]
x < 6 的个数： 8
x < 6 的个数： 8
每列 x < 6的个数： [2 2 2 2]
每行 x < 6的个数： [4 2 2]
有没有值大于8： True
有没有值小于0： False
是否所有值都小于10： True
是否每行所以值都小于8： [ True False  True]


2. 布尔运算符：逐位逻辑运算符 与& 或| ^ 非~  

& = np.bitwise_and  

| = np.bitwise_or  

~ = np.bitwise_not  

^ = np.bitwise_xor

In [18]:
print('统计降水量大于0.5英寸 且 小于1英寸的天数：', np.sum((inches > 0.5) & (inches < 1)))
print('统计降水量大于0.5英寸 且 小于1英寸的天数：', np.sum(~((inches <= 0.5) | (inches >= 1))))
print('统计降水量大于0.5英寸 且 小于1英寸的天数：', np.sum(np.bitwise_and(inches > 0.5, inches < 1)))

统计降水量大于0.5英寸 且 小于1英寸的天数： 29
统计降水量大于0.5英寸 且 小于1英寸的天数： 29
统计降水量大于0.5英寸 且 小于1英寸的天数： 29


### 1.4 将布尔数组作为掩码

通过简单的索引，将满足条件的True值取出，即掩码操作，原布尔数组就是作为了一个掩码

In [19]:
print('x: \n', x)
print('x < 5: \n', x < 5)
# 取出x中x<5的值，返回一个一维数组，掩码数组是（x < 5）生成的布尔数组
x[x < 5]

x: 
 [[5 0 3 3]
 [7 9 3 5]
 [2 4 7 6]]
x < 5: 
 [[False  True  True  True]
 [False False  True False]
 [ True  True False False]]


array([0, 3, 3, 3, 2, 4])

In [20]:
# 将所有下雨天创建一个掩码，标记下雨天
rainy = (inches > 0)

# 构建一个包含整个夏季日期的掩码（6月21是第172天）标记这一天为起始天0，则夏季为0-90天这段时间为True
summer = (np.arange(365) - 172 < 90) & (np.arange(365) - 172 > 0)

print('Medina precip on rainy days in 2014(inches) 所有降雨天的中位数: ', np.median(inches[rainy]))
print('Medina precip on rainy days in 2014(inches) 整个夏季降雨中位数: ', np.median(inches[summer]))
print('Medina precip on rainy days in 2014(inches): 整个夏季最大降雨值', np.max(inches[summer]))
print('Medina precip on rainy days in 2014(inches): 非夏季时期的下雨天的降雨中位数', np.median(inches[rainy & ~summer]))

Medina precip on rainy days in 2014(inches) 所有降雨天的中位数:  0.19488188976377951
Medina precip on rainy days in 2014(inches) 整个夏季降雨中位数:  0.0
Medina precip on rainy days in 2014(inches): 整个夏季最大降雨值 0.8503937007874016
Medina precip on rainy days in 2014(inches): 非夏季时期的下雨天的降雨中位数 0.20078740157480315


关键字and/or 与逻辑运算符&/|的区别：  

and/or 判断整个对象是真是假，0是False，非0整数均为True  

&/| 判断每个对象中的比特位，即将整数转化为二进制判断每个位，&：两个都为1则为1，有一个为0则为0；|：两个都为0则为0，有一个为1则为1  

布尔数组可以被当作是由比特字符组成，其中True =1 , False = 0, 因此数组通常用逻辑运算符而不用and/or

In [21]:
print('bool(0), bool(1):', bool(0), bool(1))
print('bool(1 and 0): ', bool(1 and 0))
print('bool(1 or 0): ', bool(1 or 0))
print('二进制3：', bin(42))
print('二进制4：', bin(59))
print('42 & 59 :', bin(42 & 59), 42 & 59)
print('42 | 59 :', bin(42 | 59), 42 | 59)

bool(0), bool(1): False True
bool(1 and 0):  False
bool(1 or 0):  True
二进制3： 0b101010
二进制4： 0b111011
42 & 59 : 0b101010 42
42 | 59 : 0b111011 59


## 2. 花哨的索引

### 2.1 探索花哨的索引

之前介绍了利用简单的索引值arr[0], 切片arr[:5]和布尔掩码arr[arr > 0]获得并修改部分数组，以下介绍花哨的索引arr[arr]快速获得并修改负责数组值的子数据集。

In [22]:
# 花哨的索引意味着传递一个索引数组来一次性获得多个数组元素
import numpy as np
rand = np.random.RandomState(42)
x = rand.randint(100, size = 10)
print('x:', x)
print('获得三个不同的元素：[x[3], x[7], x[2]:', [x[3], x[7], x[2]])
# 通过传递索引的单个列表或数组获得三个不同的元素
ind = [3, 7, 2]
print(x[ind])

# 利用花哨的索引获得的结果形状与索引数组的形状一致，而不是与被索引数据的形状一致
ind = np.array([[3, 7], 
                [4, 5]])
print(x[ind])
print('--------------')
# 对多个维度适用，和标准的索引一样，第一个索引指的是行，第二个索引指的是列
X = np.arange(12).reshape(3, 4)
print('X:\n', X)
row = np.array([0, 1, 2])
col = np.array([2, 1, 3])
print('row, col', row, col)
print('X[0, 2]:', X[0, 2])
print('X[1, 1]:', X[1, 1])
print('X[2, 3]:', X[2, 3])
# 结果的第一个值是X[0, 2]，第二个值是X[1, 1]，第三个值是X[2, 3]
print('X[row, col]:', X[row, col])
print('--------------')
# 索引数组[row, col]的配对遵循广播的规则
print(row[:, np.newaxis])
print(X[row[:, np.newaxis], col])
print(X[[[0, 0, 0],
  [1, 1, 1],
  [2, 2, 2]]
,
[[2, 1, 3],
 [2, 1, 3],
 [2, 1, 3]]])

x: [51 92 14 71 60 20 82 86 74 74]
获得三个不同的元素：[x[3], x[7], x[2]: [71, 86, 14]
[71 86 14]
[[71 86]
 [60 20]]
--------------
X:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
row, col [0 1 2] [2 1 3]
X[0, 2]: 2
X[1, 1]: 5
X[2, 3]: 11
X[row, col]: [ 2  5 11]
--------------
[[0]
 [1]
 [2]]
[[ 2  1  3]
 [ 6  5  7]
 [10  9 11]]
[[ 2  1  3]
 [ 6  5  7]
 [10  9 11]]


### 2.2 组合索引

In [23]:
print('X: \n', X)
print('---------')

# 花哨索引和简单索引组合使用
print('X[2, [2, 0, 1]]: ', X[2, [2, 0, 1]])

# 花哨索引和切片组合使用
# 选择了X第2行到最后一行，索引2,0,1列对应的一个2X3的数组
print('X[1:, [2, 0, 1]: \n', X[1:, [2, 0, 1]])

# 花哨索引和掩码组合使用，1=True表示选择该列，0=False表示不选择
mask = np.array([1, 0, 1, 0], dtype = bool)
print('布尔数组掩码：', mask)
print('X[row[:, np.newaxis], mask]: \n', X[row[:, np.newaxis], mask])

X: 
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
---------
X[2, [2, 0, 1]]:  [10  8  9]
X[1:, [2, 0, 1]: 
 [[ 6  4  5]
 [10  8  9]]
布尔数组掩码： [ True False  True False]
X[row[:, np.newaxis], mask]: 
 [[ 0  2]
 [ 4  6]
 [ 8 10]]


### 2.3 示例：选择随机点

花哨的索引一个常见用途是从一个矩阵中选择行的子集。例如有一个N X D的矩阵，表示在D个维度的N个点，以下是一个二维正态分布的点组成的数组：  

rand.multivariate_normal: 这个函数生成多元正态分布的随机数，也被称为多维高斯分布。生成的随机数是多维的，通常用于生成多维数据，如多维特征的数据集。接受均值向量和协方差矩阵作为参数，用于定义多维正态分布的性质。成的随机数是一个二维数组，其中每一行代表一个多维随机数据点。  

np.random.normal: 这个函数生成单变量正态分布（univariate normal distribution）的随机数，也被称为高斯分布。生成的随机数是单个值，通常用于生成一维数据或单个随机变量的值。接受均值和标准差作为参数，用于定义单变量正态分布的性质。生成的随机数是一个一维数组，包含单变量随机数值。

In [24]:
mean = [0, 0] # 均值
cov = [[1, 2], [2, 5]]  # 协方差矩阵
X = rand.multivariate_normal(mean, cov, 100)
print('X.shape: ', X.shape)

import matplotlib.pyplot as plt
import seaborn; seaborn.set # 设置绘图风格

# 第一列做X, 第二列做y，做散点图
plt.scatter(X[:, 0], X[:, 1])
plt.show()

# 从X.shape[0]=100个数据中，随机选取20个数据，replace = False不允许重复选取同一个元素，即选取20个随机的不重复的索引值
indices = np.random.choice(X.shape[0], 20, replace = False)
print('indices: ', indices)
selection = X[indices] # 花哨的索引
print('selection.shape: ', selection.shape)

# alpha参数控制散点的透明度，取值范围通常在0到1之间。在这里，alpha = 0.3表示散点的透明度为30%，这可以使散点图中的重叠点更容易识别，因为重叠的区域会显示更深的颜色
plt.scatter(X[:, 0], X[:, 1], alpha = 0.3)

# facecolor = 'none' 表示散点的填充颜色是无色（透明），因此散点不会被填充。
# edgecolor = 'b' 表示散点的边框颜色为蓝色。 s = 200表示散点大小
plt.scatter(selection[:, 0], selection[:, 1], 
            facecolor = 'none', edgecolor = 'b', s = 200)
plt.show()

X.shape:  (100, 2)


indices:  [87 27  8 70 82 35 25 69 96 11 64  4 91 68 14 34 45 17 57 46]
selection.shape:  (20, 2)


这种方法通常用于快速分割数据，即需要分割训练/测试数据集以验证统计模型时，以及在解答统计问题时的抽样方法中使用

### 2.4 用花哨的索引修改值

In [25]:
x = np.arange(10)
print('x:', x)
i = np.array([2, 1, 8, 4])
x[i] = 99
print('x[i] = 99, x:', x)
x[i] -= 10
print('x[i] -= 10, x:', x)
x[i] = [10, 100, 1000, 10000]
print('x[i] = [10, 100, 1000, 10000], x:', x)
y = np.zeros(10)
i = [0, 1, 1, 2]
y[i] = y[i] + 1
print(y[i], y)


# 累加，at()函数给定操作，给定索引i，给定值365，相类似函数reduceat()
x = np.zeros(10)
np.add.at(x, i, 365)
print(x)

x: [0 1 2 3 4 5 6 7 8 9]
x[i] = 99, x: [ 0 99 99  3 99  5  6  7 99  9]
x[i] -= 10, x: [ 0 89 89  3 89  5  6  7 89  9]
x[i] = [10, 100, 1000, 10000], x: [    0   100    10     3 10000     5     6     7  1000     9]
[1. 1. 1. 1.] [1. 1. 1. 0. 0. 0. 0. 0. 0. 0.]
[365. 730. 365.   0.   0.   0.   0.   0.   0.   0.]


### 2.5 示例：数据区间划分，手动创建直方图

In [26]:
# 用ufun.c.at,假定有1000个值，快速统计分布在各个区间中的数据频次
np.random.seed(42)
x = np.random.randn(100)

# 手动计算直方图，生成一个[-5, 5]之间均匀生成的20个数据点，划分成20个均匀的小区间
bins = np.linspace(-5, 5, 20)
counts = np.zeros_like(bins) # 生成一个和bins数组形状一样的全零数组
print('bins:', bins)
print('counts:', counts)

# 为每个x找到合适的区间
"""
np.searchsorted(bins, x): 这是调用NumPy中的np.searchsorted函数，该函数接受两个参数：
第一个参数 bins 是已排序的数组，表示被查找的范围。
第二个参数 x 是要查找的数值。
np.searchsorted函数返回的结果是一个整数，表示在将 x 插入到 bins 数组中时，应该插入的位置。具体来说：
如果 x 小于 bins 中的所有值，那么返回值将是0，表示 x 应该插入到 bins 数组的开头。
如果 x 大于 bins 中的所有值，那么返回值将是 len(bins)，表示 x 应该插入到 bins 数组的末尾。
如果 x 介于 bins 中的两个值之间，那么返回值将是介于它们之间的位置，以保持 bins 的升序顺序。
"""
i = np.searchsorted(bins, x)

# 为每个区间加上1, 计数数组counts反映的是在各个区间中的点的个数
np.add.at(counts, i, 1)

# 画出结果
plt.plot(bins, counts, linestyle = '-')
plt.show()

# 用plt.hist()一步实现上述效果
plt.hist(x, bins, histtype = 'step')

bins: [-5.         -4.47368421 -3.94736842 -3.42105263 -2.89473684 -2.36842105
 -1.84210526 -1.31578947 -0.78947368 -0.26315789  0.26315789  0.78947368
  1.31578947  1.84210526  2.36842105  2.89473684  3.42105263  3.94736842
  4.47368421  5.        ]
counts: [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


(array([ 0.,  0.,  0.,  0.,  1.,  3.,  7.,  9., 23., 22., 17., 10.,  7.,
         1.,  0.,  0.,  0.,  0.,  0.]),
 array([-5.        , -4.47368421, -3.94736842, -3.42105263, -2.89473684,
        -2.36842105, -1.84210526, -1.31578947, -0.78947368, -0.26315789,
         0.26315789,  0.78947368,  1.31578947,  1.84210526,  2.36842105,
         2.89473684,  3.42105263,  3.94736842,  4.47368421,  5.        ]),
 <a list of 1 Patch objects>)

## 3. 闯关题

### STEP1：根据要求完成题目  

#### 第一部分：布尔  
利用0号随机种子创建一个 8x8 的随机整数数组 A，元素范围从 10 到 99。完成以下任务：  


In [27]:
np.random.seed(0)
A = np.random.randint(10, 100, size=(8, 8))
print("原始数组 A:\n", A)

原始数组 A:
 [[54 57 74 77 77 19 93 31]
 [46 97 80 98 98 22 68 75]
 [49 97 56 98 91 47 35 87]
 [82 19 30 90 79 89 57 74]
 [92 98 59 39 29 29 24 49]
 [42 75 19 67 42 41 84 33]
 [45 85 65 38 44 10 10 46]
 [63 15 48 27 89 14 52 68]]


##### Q1: 数组中大于 50 的元素的个数为：  
A、33  
B、34  
C、35  
D、36 

In [28]:
#输入你的代码，并运行
print(np.count_nonzero(np.greater(A,50)))

35


In [29]:
#填入你的答案并运行,注意大小写
a1 = 'C'  # 如 a1= 'A'

##### Q2: 将这些大于50的元素在原矩阵中替换为 -1，替换后的矩阵中第6行和为：  
A、232  
B、230  
C、188  
D、174

In [30]:
#输入你的代码，并运行
A[A>50] = -1 

In [31]:
#填入你的答案并运行,注意大小写
a2 = 'D'  # 如 a2= 'A'

##### Q3: 判断数组中是否至少有一个元素大于 75，布尔结果为：  
A、True  
B、False

In [32]:
#输入你的代码，并运行
np.any(A>75)

False

In [33]:
#填入你的答案并运行,注意大小写
a3 = 'B'  # 如 a3= 'A'

#### Q4：索引的进阶用法  
数组 locations是一个形状为 (200, 2)，均值为[0, 0]，协方差矩阵为[[1, 0.5], [0.5, 1]]的二维位置坐标，第一列为x坐标，第二列为y坐标。  
将第一个点（注意这里索引应该为0），第30个点，第51个点，第130个点，第181个点利用索引的方式提取出来并保存为selected_locations。  
selected_locations中的点的x坐标求平均值为( )。  
A、0.731  
B、-0.299  
C、-0.172  
D、0.343  

In [34]:
# 创建位置数组
np.random.seed(0)
mean = [0, 0]
cov = [[1, 0.5], [0.5, 1]]
locations = np.random.multivariate_normal(mean, cov, 200)
print('前5个位置坐标为：',locations[:5,:])

前5个位置坐标为： [[-1.72779275 -1.32763554]
 [-1.96805856  0.27283464]
 [-1.12871372 -2.1059916 ]
 [-0.7471221  -0.89847931]
 [-0.1159091   0.2946894 ]]


In [35]:
#填入你的答案并运行,注意大小写
a4 = 'B'  # 如 a4= 'B'

### STEP2：将结果保存为 csv 文件  
csv 需要有两列，列名：id、answer。其中，id 列为题号，如 q1、q2；answer 列为 STEP1 中各题你计算出来的结果。💡 这一步的代码你不用做任何修改，直接运行即可。

In [36]:
# 生成 csv 作业答案文件
def save_csv(a1,a2,a3,a4):
    import pandas as pd
    df = pd.DataFrame({"id": ["q1", "q2", "q3","q4"], "answer": [a1, a2, a3,a4]})
    df.to_csv("answer_3.csv", index=None)

save_csv(a1,a2,a3,a4)  # 运行这个cell,生成答案文件；该文件在左侧文件树project工作区下，你可以自行右击下载或者读取查看

### STEP3: 提交 csv 文件，获取分数结果  
你的 csv 答案文件已经准备完毕了，最后让我们提交答案文件，看看是否正确。  
提交方法：  
1、拷贝提交 token  
去对应关卡的 [提交页面](https://www.heywhale.com/home/competition/667278de2c79f2f6c008995b/submit)，找到对应关卡，看到了你的 token 嘛？  
拷贝它。  
记得：每个关卡的 token 不一样。  
2、下方 cell 里，拿你拷贝的 token 替换掉 XXXXXXX， 然后 Ctrl+Enter 运行 

In [37]:
#运行这个Cell 下载提交工具

!wget -nv -O heywhale_submit https://cdn.kesci.com/submit_tool/v4/heywhale_submit&&chmod +x heywhale_submit

# 运行提交工具
# 把下方XXXXXXX替换为你的 Token
# 改完看起来像是：!./heywhale_submit -token 586eeef71cb92941 -file answer_3.csv

!./heywhale_submit -token 6f83a3ef11d94502 -file answer_3.csv  # 替换XXXXXXX；注意不可增减任何空格或其他字符

wget: /opt/conda/lib/libcrypto.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
2025-10-26 13:35:50 URL:https://cdn.kesci.com/submit_tool/v4/heywhale_submit [22020102/22020102] -> "heywhale_submit" [1]
Heywhale Submit Tool: v5.0.1 
> 已验证Token
> 开始上传文件
30 / 30 [||||||||||||||||||||||||||||||||||||||||||||||||||||||||] ? p/s 100.00%
> 文件已上传        
> 服务器响应: 200 提交成功，请等待评审完成
> 提交完成
