本节我们从 array 的基本统计属性入手，对刚刚创建的 array 进一步的了解。主要包括以下几个方面：

+ 尺寸相关
+ 最大、最小、中位、分位值
+ 平均、求和、标准差等
都是描述性统计相关的指标，对于我们从整体了解一个 array 很有帮助。其中，用到最多的是尺寸相关的「shape」，最大、最小值，平均值、求和等。

本节的内容非常简单，您只需要特别关注（记住）两个重要的特性：

+ 按维度（指定 axis）求结果。一般0表示列1表示行，可以用「沿着行/列操作」这样理解，不确定时可以拿个例子试一下。
+ 计算后保持维度（keepdims=True）
另外，为了便于操作，我们使用一个随机生成的 array 作为操作对象；同时，我们指定了 seed，这样每次运行，每个人看到的结果都是一样的。一般我们在训练模型时，往往需要指定 seed，这样才能在「同等条件」下进行调参。

In [1]:
import numpy as np
#  先创建一个 Generator
rng = np.random.default_rng(seed=12345)
#  再生成一个均匀分布
arr = rng.uniform(0, 1, (3, 4))
arr

array([[0.22733602, 0.31675834, 0.79736546, 0.67625467],
       [0.39110955, 0.33281393, 0.59830875, 0.18673419],
       [0.67275604, 0.94180287, 0.24824571, 0.94888115]])

# 尺寸相关⭐⭐ 



这一小节主要包括：维度、形状和数据量，其中形状 shape 我们用到的最多。

⚠️ 需要注意的是：size 不是 shape，ndim 表示有几个维度。

In [2]:
# 维度，array 是二维的（两个维度）
arr.ndim

2

In [3]:
# 形状，返回一个 Tuple
arr.shape

(3, 4)

In [4]:
# 数据量
arr.size

12

# 最值分位 ⭐⭐⭐

这一小节主要包括：最大值、最小值、中位数、其他分位数，其中『最大值和最小值』我们平时用到的最多。

⚠️ 需要注意的是：分位数可以是 0-1 的任意小数（表示对应分位），而且分位数并不一定在原始的 array 中。

In [5]:
arr

array([[0.22733602, 0.31675834, 0.79736546, 0.67625467],
       [0.39110955, 0.33281393, 0.59830875, 0.18673419],
       [0.67275604, 0.94180287, 0.24824571, 0.94888115]])

In [6]:
# 所有元素中最大的
arr.max()

0.9488811518333182

In [7]:
# 按维度（列）最大值
arr.max(axis=0)

array([0.67275604, 0.94180287, 0.79736546, 0.94888115])

In [8]:
# 同理，按行
arr.max(axis=1)

array([0.79736546, 0.59830875, 0.94888115])

In [9]:
# 是否保持原来的维度
# 这个需要特别注意下，很多深度学习模型中都需要保持原有的维度进行后续计算
# shape 是 (3,1)，array 的 shape 是 (3,4)，按行，同时保持了行的维度
arr.min(axis=1, keepdims=True)

array([[0.22733602],
       [0.18673419],
       [0.24824571]])

In [10]:
# 保持维度：（1，4），原始array是（3，4）
arr.min(axis=0, keepdims=True)

array([[0.22733602, 0.31675834, 0.24824571, 0.18673419]])

In [11]:
# 一维了
arr.min(axis=0, keepdims=False)

array([0.22733602, 0.31675834, 0.24824571, 0.18673419])

***

In [12]:
# 另一种用法，不过我们一般习惯使用上面的用法，其实两者一回事
np.amax(arr, axis=0)

array([0.67275604, 0.94180287, 0.79736546, 0.94888115])

In [13]:
# 同 amax
np.amin(arr, axis=1)

array([0.22733602, 0.18673419, 0.24824571])

In [14]:
# 中位数
# 其他用法和 max，min 是一样的
np.median(arr)

0.4947091520945494

In [15]:
# 分位数，按列取1/4数
np.quantile(arr, q=0.25, axis=0)

array([0.30922279, 0.32478613, 0.42327723, 0.43149443])

In [16]:
# 分位数，按行取 3/4，同时保持维度
np.quantile(arr, q=0.75, axis=1, keepdims=True)

array([[0.70653237],
       [0.44290935],
       [0.94357244]])

In [17]:
# 分位数，注意，分位数可以是 0-1 之间的任何数字（分位）
# 如果是 1/2 分位，那正好是中位数
np.quantile(arr, q=1/2, axis=1)

array([0.49650651, 0.36196174, 0.80727945])

# 平均求和标准差 ⭐⭐⭐

这一小节主要包括：平均值、累计求和、方差、标准差等进一步的统计指标。其中使用最多的是「平均值」。

In [18]:
arr

array([[0.22733602, 0.31675834, 0.79736546, 0.67625467],
       [0.39110955, 0.33281393, 0.59830875, 0.18673419],
       [0.67275604, 0.94180287, 0.24824571, 0.94888115]])

In [19]:
# 平均值
np.average(arr)

0.5281972236389397

In [21]:
# 按维度平均（列）
np.average(arr, axis=0)

array([0.43040054, 0.53045838, 0.54797331, 0.60395667])

***

In [22]:
# 另一个计算平均值的 API
# 它与 average 的主要区别是，np.average 可以指定权重，即可以用于计算加权平均
# 一般建议使用 average，忘掉 mean 吧！
np.mean(arr, axis=0)

array([0.43040054, 0.53045838, 0.54797331, 0.60395667])

In [23]:
# 求和，不多说了，类似
np.sum(arr, axis=1)

array([2.01771449, 1.50896642, 2.81168578])

In [24]:
np.sum(arr, axis=1, keepdims=True)

array([[2.01771449],
       [1.50896642],
       [2.81168578]])

***

In [25]:
# 按列累计求和
np.cumsum(arr, axis=0)

array([[0.22733602, 0.31675834, 0.79736546, 0.67625467],
       [0.61844557, 0.64957227, 1.39567421, 0.86298886],
       [1.29120162, 1.59137513, 1.64391993, 1.81187001]])

In [26]:
# 按行累计求和
np.cumsum(arr, axis=1)

array([[0.22733602, 0.54409436, 1.34145982, 2.01771449],
       [0.39110955, 0.72392348, 1.32223223, 1.50896642],
       [0.67275604, 1.61455891, 1.86280462, 2.81168578]])

In [27]:
# 标准差，用法类似
np.std(arr)

0.26698804579973995

In [28]:
# 按列求标准差
np.std(arr, axis=0)

array([0.18395214, 0.29093832, 0.22698512, 0.31531704])

In [29]:
# 方差
np.var(arr, axis=1)

array([0.05683416, 0.02183247, 0.08130012])