
[![Image Name](https://cdn.kesci.com/upload/sfbho31f1n.png?imageView2/0/w/960/h/960)](https://www.heywhale.com/home/competition/667278de2c79f2f6c008995b)  


## 1. 聚合：最大值、最小值和其他值

### 1.1 数组值求和

In [105]:
import numpy as np

In [106]:
# np.sum(array)与sum(array)并不等同，np.sum速度更快且知道数组维度
# np.sum和sum一维数组结果相同，np.sum二维数组默认对所有元素求和，必要时可以指定，sum二维数组沿着行方向求和
L = np.random.random(100)
print('sum(一维)', sum(L))
print('np.sum(一维)', np.sum(L))
# %timeit sum(L)
# %timeit np.sum(L)
# %timeit L.sum()

m = np.array([[1, 2, 3],
               [4, 5, 6]])
print('sum(二维)', sum(m))
print('np.sum(二维)', np.sum(m))
print('np.sum(二维, 沿着行方向每列求和，axis = 0)', np.sum(m, axis = 0))
print('np.sum(二维, 沿着列方向每行求和，axis = 1)', np.sum(m, axis = 1))

sum(一维) 47.802793407387156
np.sum(一维) 47.80279340738717
sum(二维) [5 7 9]
np.sum(二维) 21
np.sum(二维, 沿着行方向每列求和，axis = 0) [5 7 9]
np.sum(二维, 沿着列方向每行求和，axis = 1) [ 6 15]


### 1.2 最小值和最大值

axis指定的是数组将会被折叠的维度，而不是将要返回的维度，因此axis=0意味着沿着行方向的轴会被折叠，得到的是每列的聚合

In [107]:
n = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])
print('np.sum        计算元素的和', np.sum(n))
print('np.prod       计算元素的积', np.prod(n))
print('np.mean       计算元素的平均值', np.mean(n))
print('np.std        计算元素的标准差', np.std(n))
print('np.var        计算元素的方差', np.var(n))
print('np.min        找出最小值', np.min(n))
print('np.max        找出最大值', np.max(n))
print('np.argmin     找出最小值的索引', np.argmin(n))
print('np.argmax     找出最大值的索引', np.argmax(n))
print('np.median     计算元素的中位数', np.median(n))
print('np.percentile 计算各分位数', np.percentile(n, 25))
print('np.any        验证是否存在元素为真', np.any(n))
print('np.all        验证所有元素是否为真', np.all(n))

np.sum        计算元素的和 45
np.prod       计算元素的积 362880
np.mean       计算元素的平均值 5.0
np.std        计算元素的标准差 2.581988897471611
np.var        计算元素的方差 6.666666666666667
np.min        找出最小值 1
np.max        找出最大值 9
np.argmin     找出最小值的索引 0
np.argmax     找出最大值的索引 8
np.median     计算元素的中位数 5.0
np.percentile 计算各分位数 3.0
np.any        验证是否存在元素为真 True
np.all        验证所有元素是否为真 True


### 1.3 示例：美国总统的身高是多少

In [108]:
import pandas as pd
data = pd.read_csv('/home/mw/input/datascience8949/president_heights.csv')
heights = np.array(data['height(cm)'])
print(heights)

print('Mean height:        ', heights.mean())
print('Standard deviation: ', heights.std())
print('Minimum height:     ', heights.min())
print('Maximum height:     ', heights.max())
# 计算身高分位值
print('25分位:             ', np.percentile(heights, 25))
print('Median:             ', np.median(heights))
print('75分位:             ', np.percentile(heights, 75))
# 直方图可视化
import matplotlib.pyplot as plt
import seaborn; seaborn.set()  # 设置绘图风格
plt.hist(heights)
plt.title('Height Distribution of US Presidents')
plt.xlabel('height(cm)')
plt.ylabel('number')

[189 170 189 163 183 171 185 168 173 183 173 173 175 178 183 193 178 173
 174 183 183 168 170 178 182 180 183 178 182 188 175 179 183 193 182 183
 177 185 188 188 182 185 191 182]
Mean height:         180.04545454545453
Standard deviation:  6.983599441335736
Minimum height:      163
Maximum height:      193
25分位:              174.75
Median:              182.0
75分位:              183.5


Text(0, 0.5, 'number')

## 2. 广播

广播可以简单理解为用于不同大小数组的二元通用函数（加、减、乘等）的一组规则，同之前的常用通用函数一样，都是通过向量化的操作减少缓慢的python循环

### 2.1 广播介绍

In [109]:
# 对于同样大小的数组，二元运算符是对相应元素逐个计算
a = np.array([0, 1, 2])
b = np.array([5, 5, 5])
print(a + b)
# 广播允许二元运算符用于不同大小的数组，例如简单将一个标量（可以理解为一个零维的数组）和一个数组相加
# 可以理解为先将数值5扩展为数组[5, 5, 5]然后执行加法
print(a + 5)

[5 6 7]
[5 6 7]


In [110]:
# 将一维数组array([0, 1, 2])扩展成匹配3x3的二维数组array([[0, 1, 2],[0, 1, 2],[0, 1, 2]])
M = np.ones((3, 3))
print(M)
print(a)
M + a

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
[0 1 2]


array([[1., 2., 3.],
       [1., 2., 3.],
       [1., 2., 3.]])

In [111]:
# 两个数组同时广播
a = np.arange(3)
b = np.arange(3)[:, np.newaxis]
print(a)
print(b)
a + b

[0 1 2]
[[0]
 [1]
 [2]]


array([[0, 1, 2],
       [1, 2, 3],
       [2, 3, 4]])

### 2.2 广播规则

规则1：如果两个数组的维度数不同，那么小维度数组的形状将会在最左边补1

规则2：如果两个数组的形状在任何一个维度上都不匹配，那么数组的维度会沿着维度为1的维度扩展以匹配另外一个数组的形状

规则3：如果两个数组的形状在任何一个维度上都不匹配并且没有任何一个维度等于1，那么就会引发异常

In [112]:
# 广播示例 1 ：将一个二维数组和一个一维数组相加
M = np.ones((2, 3))
a = np.arange(3)
print(M, a)
print(M.shape, a.shape)
print('根据规则1，数组a的维度更小，所以在其左边补1，m.shape(2, 3) a.shape(1, 3)')
print('根据规则2，两个数组第一个维度不匹配，扩展数组a以匹配数组，a.shape(2, 3)')
M + a

[[1. 1. 1.]
 [1. 1. 1.]] [0 1 2]
(2, 3) (3,)
根据规则1，数组a的维度更小，所以在其左边补1，m.shape(2, 3) a.shape(1, 3)
根据规则2，两个数组第一个维度不匹配，扩展数组a以匹配数组，a.shape(2, 3)


array([[1., 2., 3.],
       [1., 2., 3.]])

In [113]:
# 广播示例 2：两个数组均需要广播
a = np.arange(3).reshape(3, 1)
b = np.arange(3)
print(a, b)
print(a.shape, b.shape)
print('根据规则1，数组b的维度更小，所以在其左边补1，a.shape(3, 1) b.shape(1, 3)')
print('根据规则2，两个数组维度不匹配，扩展两个数组，a.shape(3, 3) b.shape(3, 3)')
print('''
[[0, 0, 0],
 [1, 1, 1],
 [2, 2, 2]] + [[0, 1, 2],
               [0, 1, 2],
               [0, 1, 2]] = \n''', a + b)

[[0]
 [1]
 [2]] [0 1 2]
(3, 1) (3,)
根据规则1，数组b的维度更小，所以在其左边补1，a.shape(3, 1) b.shape(1, 3)
根据规则2，两个数组维度不匹配，扩展两个数组，a.shape(3, 3) b.shape(3, 3)

[[0, 0, 0],
 [1, 1, 1],
 [2, 2, 2]] + [[0, 1, 2],
               [0, 1, 2],
               [0, 1, 2]] = 
 [[0 1 2]
 [1 2 3]
 [2 3 4]]


### 2.3 广播实际应用

1. 数组的归一化  

数组归一化是将数组的数值范围缩放到特定范围或标准化的过程。在数据处理和机器学习中，常常需要对数据进行归一化，以便使数据具有一致的尺度和范围，从而有助于模型的训练和预测。  

常见的数组归一化方法包括：  

1. 最小-最大归一化（Min-Max Scaling）： 这是最常见的归一化方法之一。它将数据缩放到指定的范围，通常是 [0, 1]。  

2. 标准化（Standardization）： 这种方法将数据转换为均值为 0、标准差为 1 的正态分布（也叫标准正态分布）。标准化使得数据分布更符合统计假设，有助于某些机器学习算法的性能。  

为什么要进行数组归一化？  

1. 消除尺度影响： 不同的特征可能具有不同的尺度和范围，这可能会对某些机器学习算法产生负面影响。通过归一化，可以消除特征之间的尺度差异，使得算法更加稳定。  

2. 加速收敛： 对于许多优化算法（如梯度下降），归一化可以加速算法的收敛过程，使其更快地达到最优解。  

3. 提高模型性能： 在某些情况下，归一化可以提高机器学习模型的性能，因为模型更容易学习和泛化归一化后的数据。  

4. 可视化和解释性： 归一化后的数据更容易可视化和解释，因为它们具有相似的尺度。  

需要注意的是，在某些情况下，不需要进行数组归一化，特别是当数据已经在合适的尺度范围内时，或者某些特定的机器学习算法不敏感于尺度差异时。因此，在进行数组归一化之前，需要仔细考虑数据的性质和算法的要求。

In [114]:
X = np.random.random((10, 3))
print('X：', X)
Xmean = X.mean(0)
print('Xmean: ', Xmean)
print('Xmean: ', X.mean(axis = 0))
print('Xmean: ', np.mean(X, axis = 0))
print('通过从X数组的元素中减去均值实现归一化，该操作是一个广播操作：')
X_centered = X - Xmean
print('归一化数组X_centered: \n', X_centered)
print('查看归一化的数组均值是否接近0：')
X_centered.mean(0)

X： [[0.42385505 0.60639321 0.0191932 ]
 [0.30157482 0.66017354 0.29007761]
 [0.61801543 0.4287687  0.13547406]
 [0.29828233 0.56996491 0.59087276]
 [0.57432525 0.65320082 0.65210327]
 [0.43141844 0.8965466  0.36756187]
 [0.43586493 0.89192336 0.80619399]
 [0.70388858 0.10022689 0.91948261]
 [0.7142413  0.99884701 0.1494483 ]
 [0.86812606 0.16249293 0.61555956]]
Xmean:  [0.53695922 0.5968538  0.45459672]
Xmean:  [0.53695922 0.5968538  0.45459672]
Xmean:  [0.53695922 0.5968538  0.45459672]
通过从X数组的元素中减去均值实现归一化，该操作是一个广播操作：
归一化数组X_centered: 
 [[-0.11310417  0.00953942 -0.43540353]
 [-0.2353844   0.06331974 -0.16451912]
 [ 0.08105621 -0.1680851  -0.31912266]
 [-0.23867689 -0.02688889  0.13627604]
 [ 0.03736603  0.05634702  0.19750655]
 [-0.10554078  0.2996928  -0.08703485]
 [-0.10109429  0.29506956  0.35159726]
 [ 0.16692937 -0.49662691  0.46488589]
 [ 0.17728208  0.40199321 -0.30514842]
 [ 0.33116684 -0.43436086  0.16096284]]
查看归一化的数组均值是否接近0：


array([-8.88178420e-17, -1.11022302e-17,  3.33066907e-17])

2. 画一个二维函数

In [115]:
# 定义一个二维函数 z = f(x, y)，可以用广播沿着数值区间计算该函数
# x和y表示0-5区间50个步长的序列
x = np.linspace(0, 5, 50)
y = np.linspace(0, 5, 50)[:, np.newaxis]
z = np.sin(x) ** 10 + np.cos(10 + y * x) * np.cos(x)
print(z)
# 画出二维数组
"""
z：这是要显示的二维数据（通常是一个矩阵或图像）。imshow 将根据这个数据创建一个可视化呈现。
origin：这是一个可选参数，指定了图像数据的坐标原点位置。默认情况下，原点位于图像的左上角（'upper'），但在一些情况下，你可能希望将原点移到左下角（'lower'），这在处理科学数据时很常见。
extent：这是一个可选参数，用于指定数据的坐标范围。它是一个包含四个值的列表，分别表示 x 轴的起始值、结束值、y 轴的起始值和结束值。在你的代码中，extent=[0, 5, 0, 5] 意味着 x 和 y 轴的坐标范围分别从 0 到 5。
cmap：这是一个可选参数，用于指定用于渲染图像的颜色映射（colormap）。颜色映射定义了数据值如何映射到颜色。在你的代码中，cmap='viridis' 使用了名为 "viridis" 的颜色映射，这是 Matplotlib 内置的一种颜色映射。
plt.colorbar在当前图形（通常是通过 plt.imshow() 绘制的图形）旁边或下方添加一个颜色条。颜色条将显示图像中不同颜色所对应的数据值的范围。通常，颜色条的上端表示数据的最大值，下端表示数据的最小值。通过查看颜色条，用户可以快速了解图像中不同颜色所代表的数据含义，从而提高图像的可解释性。
"""
import matplotlib.pyplot as plt
plt.imshow(z, origin = 'lower', extent = [0, 5, 0, 5], cmap = 'viridis')
plt.colorbar()

[[-0.83907153 -0.83470697 -0.8216586  ...  0.8956708   0.68617261
   0.41940746]
 [-0.83907153 -0.82902677 -0.8103873  ...  0.92522407  0.75321348
   0.52508175]
 [-0.83907153 -0.82325668 -0.79876457 ...  0.96427357  0.84172689
   0.66446403]
 ...
 [-0.83907153 -0.48233077 -0.01646558 ...  0.96449925  0.75196531
   0.41982581]
 [-0.83907153 -0.47324558  0.00392612 ...  0.92542163  0.68540362
   0.37440839]
 [-0.83907153 -0.46410908  0.02431613 ...  0.89579384  0.65690314
   0.40107702]]


<matplotlib.colorbar.Colorbar at 0x7f714d8c0518>

## 3. 闯关题

### STEP1：根据要求完成题目

#### Q1: 利用数组广播计算  
利用数组广播计算A+B，保存为C  
数组C第三列的平均值为（）  
A、12  
B、24  
C、36  
D、48  

In [116]:
#输入你的代码，并运行
A = np.arange(1, 10).reshape(3, 3)
B = np.array([10, 20, 30])
C = A+B
C.mean(axis=0)[2]

36.0

#### Q2: 利用广播机制进行数据归一化  
归一化公式如下：  


$$  
\text{归一化数据} = \frac{原数据 - \text{min}}{\text{max} - \text{min}}  
$$  

其中，`min` 和 `max` 分别为该列数据的最小值和最大值。  
要求利用广播以及聚合函数，对数组D的每一列进行归一化。  
提示：可以参考***广播实际应用***部分代码，推荐自己编写，加深印象哦～  
归一化后，第三行的平均数为（）  
A、0.633  
B、0.753  
C、0.537  
D、0.612  


In [117]:
#输入你的代码，并运行
np.random.seed(0)
D= np.random.rand(6,4)
D_new = (D-np.min(D,axis=0))/(np.max(D,axis=0) - np.min(D,axis=0))
D_new.mean(axis=1)[2]

0.6333538570904163

#### Q3: 求二维数组最大值  
参考***广播实际应用***中二维函数部分完成下列四个步骤。  
第一步：利用linspace生成两个范围为 [0, 2] 的 60 个等间距数组，分别保存为u、v。

In [118]:
#输入你的代码，并运行
u = np.linspace(0,2,60)
u = np.reshape(u,(1,60))
v = np.linspace(0,2,60)

第二部：将v转化为列向量，可使用[:, np.newaxis]方法

In [119]:
#输入你的代码，并运行
v=v[:,np.newaxis]

第三步，计算二维数组 w，公式如下（不需要理解公式的具体含义，只需要利用np.sin( ),np.cos( )，简单的加减乘除以及numpy的广播计算机制就可轻松完成）：  

 $$  
 w = \sin(u^2) \cdot \cos(v) + \cos(5 + u \cdot v) \cdot \sin(u)  
 $$  


In [120]:
#输入你的代码，并运行
w = w = np.sin(u**2) * np.cos(v) + np.cos(5 + u * v) * np.sin(u)

第四步：w的最大值为（）  
A、1.22  
B、2.24  
C、1.66  
D、3.32  

In [121]:
#输入你的代码，并运行
np.max(np.max(w))

1.6679932011717007

In [122]:
#填入你的答案并运行,注意大小写
a1 = 'C'  # 如 a1= 'A'
a2 = 'A'  # 如 a2= 'B'
a3 = 'C'  # 如 a3= 'B'

### STEP2：将结果保存为 csv 文件  
csv 需要有两列，列名：id、answer。其中，id 列为题号，如 q1、q2；answer 列为 STEP1 中各题你计算出来的结果。💡 这一步的代码你不用做任何修改，直接运行即可。

In [123]:
# 生成 csv 作业答案文件
def save_csv(a1,a2,a3):
    import pandas as pd
    df = pd.DataFrame({"id": ["q1", "q2", "q3"], "answer": [a1, a2, a3]})
    df.to_csv("answer_2.csv", index=None)

save_csv(a1,a2,a3)  # 运行这个cell,生成答案文件；该文件在左侧文件树project工作区下，你可以自行右击下载或者读取查看

### STEP3: 提交 csv 文件，获取分数结果  
你的 csv 答案文件已经准备完毕了，最后让我们提交答案文件，看看是否正确。  
提交方法：  
1、拷贝提交 token  
去对应关卡的 [提交页面](https://www.heywhale.com/home/competition/667278de2c79f2f6c008995b/submit)，找到对应关卡，看到了你的 token 嘛？  
拷贝它。  
记得：每个关卡的 token 不一样。  
2、下方 cell 里，拿你拷贝的 token 替换掉 XXXXXXX， 然后 Ctrl+Enter 运行 

In [124]:
#运行这个Cell 下载提交工具

!wget -nv -O heywhale_submit https://cdn.kesci.com/submit_tool/v4/heywhale_submit&&chmod +x heywhale_submit

# 运行提交工具
# 把下方XXXXXXX替换为你的 Token
# 改完看起来像是：!./heywhale_submit -token 586eeef71cb92941 -file answer_2.csv

!./heywhale_submit -token f5d27cea0286b22d -file answer_2.csv  # 替换XXXXXXX；注意不可增减任何空格或其他字符

wget: /opt/conda/lib/libcrypto.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
2025-10-26 13:15:08 URL:https://cdn.kesci.com/submit_tool/v4/heywhale_submit [22020102/22020102] -> "heywhale_submit" [1]
Heywhale Submit Tool: v5.0.1 
> 已验证Token
> 开始上传文件
25 / 25 [||||||||||||||||||||||||||||||||||||||||||||||||||||||] 587 p/s 100.00%
> 文件已上传        
> 服务器响应: 200 提交成功，请等待评审完成
> 提交完成
