# 2.统计和属性

本节我们从 array 的基本统计属性入手，对刚刚创建的 array 进一步的了解。主要包括以下几个方面：

- 尺寸相关
- 最大、最小、中位、分位值
- 平均、求和、标准差等

都是描述性统计相关的指标，对于我们从整体了解一个 array 很有帮助。其中，用到最多的是尺寸相关的「shape」，最大、最小值，平均值、求和等。



本节的内容非常简单，您只需要特别关注（记住）两个重要的特性：

- 按维度（指定 axis）求结果。一般0表示列1表示行，可以用「沿着行/列操作」这样理解，不确定时可以拿个例子试一下。
- 计算后保持维度（keepdims=True）

另外，为了便于操作，我们使用一个随机生成的 array 作为操作对象；同时，我们指定了 seed，这样每次运行，每个人看到的结果都是一样的。一般我们在训练模型时，往往需要指定 seed，这样才能在「同等条件」下进行调参。

In [1]:
import numpy as np

In [3]:
#  先创建一个 Generator(种子为1992) 
rng = np.random.default_rng(seed=1992)
# 再生成一个均匀分布
arr = rng.uniform(0,1,(3,4))
arr

array([[0.1551921 , 0.52222051, 0.07895339, 0.50853081],
       [0.27397813, 0.17381014, 0.75297312, 0.31594008],
       [0.35579943, 0.4450397 , 0.10593694, 0.73634411]])

## 2.1 尺寸相关

这一小节主要包括：
- 维度、
- 形状
- 数据量

其中形状 shape 我们用到的最多。

⚠️ 需要注意的是：size 不是 shape，ndim 表示有几个维度

In [5]:
# 维度:arr是二维的(两个维度)
print("arr's ndim is {}".format(arr.ndim))

arr's ndim is 2


In [7]:
# 形状,返回一个tuple
print("arr's shape is {}".format(arr.shape))


arr's shape is (3, 4)


In [8]:
# 数据量
print("arr's size is {}".format(arr.size))

arr's size is 12


## 2.2尺寸相关

这一小节主要包括：
- 最大值、
- 最小值、
- 中位数、
- 其他分位数，
- 其中『最大值和最小值』我们平时用到的最多。

⚠️ 需要注意的是：分位数可以是 0-1 的任意小数（表示对应分位），而且分位数并不一定在原始的 array 中

In [9]:
print(arr)

[[0.1551921  0.52222051 0.07895339 0.50853081]
 [0.27397813 0.17381014 0.75297312 0.31594008]
 [0.35579943 0.4450397  0.10593694 0.73634411]]


In [10]:
# 所有元素里面最大值
arr.max()

0.7529731218876907

In [11]:
# 按维度(列)取最大值
arr.max(axis = 0)

array([0.35579943, 0.52222051, 0.75297312, 0.73634411])

In [12]:
# 按维度（行）取最大值
arr.max(axis = 1)

array([0.52222051, 0.75297312, 0.73634411])

In [13]:
# 另一种用法，不过我们一般习惯使用上面的用法，其实两者一回事
np.amax(arr, axis=0)

array([0.35579943, 0.52222051, 0.75297312, 0.73634411])

In [16]:
# 是否保持原来的维度
# 这个需要特别注意下，很多深度学习模型中都需要保持原有的维度进行后续计算
# shape 是 (3,1)，array 的 shape 是 (3,4)，按行，同时保持了行的维度
arr.min(axis=1, keepdims=True).shape

(3,)

In [17]:
# 中位数
# 其他用法和 max，min 是一样的
np.median(arr)

0.3358697541117531

In [19]:
np.quantile(arr, q=0.25, axis=0)

array([0.21458511, 0.30942492, 0.09244517, 0.41223545])

In [20]:
# 分位数，按行取 3/4，同时保持维度
np.quantile(arr, q=0.75, axis=1, keepdims=True)

array([[0.51195324],
       [0.42519834],
       [0.5178658 ]])

In [21]:
# 分位数，注意，分位数可以是 0-1 之间的任何数字（分位）
# 如果是 1/2 分位，那正好是中位数
np.quantile(arr, q=1/2, axis=1)

array([0.33186145, 0.2949591 , 0.40041956])

## 2.3平均求和标准差

这一小节主要包括：
- 平均值、
- 累计求和、
- 方差、
- 标准差等进一步的统计指标。

其中使用最多的是「平均值」。

In [22]:
# 求去整个array中的平均值
np.average(arr)

0.36872653870468475

In [23]:
# 按维度平均
np.average(arr,axis=0)

array([0.26165655, 0.38035678, 0.31262115, 0.52027167])

In [26]:
# 另一个计算平均值的 API
# 它与 average 的主要区别是，np.average 可以指定权重，即可以用于计算加权平均
# 一般建议使用 average，忘掉 mean 吧！
np.mean(arr,axis=0)

array([0.26165655, 0.38035678, 0.31262115, 0.52027167])

In [27]:
# 求和，不多说了，类似
np.sum(arr)

4.424718464456217

In [28]:
np.sum(arr, axis=1)

array([1.26489682, 1.51670147, 1.64312018])

In [29]:
np.sum(arr, axis=1, keepdims=True)

array([[1.26489682],
       [1.51670147],
       [1.64312018]])

In [36]:
arr

array([[0.1551921 , 0.52222051, 0.07895339, 0.50853081],
       [0.27397813, 0.17381014, 0.75297312, 0.31594008],
       [0.35579943, 0.4450397 , 0.10593694, 0.73634411]])

In [30]:
# 按列累计求和
np.cumsum(arr, axis=0)

array([[0.1551921 , 0.52222051, 0.07895339, 0.50853081],
       [0.42917023, 0.69603065, 0.83192652, 0.82447089],
       [0.78496966, 1.14107035, 0.93786346, 1.560815  ]])

In [31]:
# 按行累计求和
np.cumsum(arr, axis=1)

array([[0.1551921 , 0.67741261, 0.756366  , 1.26489682],
       [0.27397813, 0.44778827, 1.20076139, 1.51670147],
       [0.35579943, 0.80083913, 0.90677607, 1.64312018]])

In [33]:
# 标准差，用法类似
np.std(arr)

0.21989854545586984

In [34]:
# 按列求标准差
np.std(arr, axis=0)

array([0.08235975, 0.14941075, 0.31157067, 0.1718299 ])

In [35]:
# 方差
np.var(arr, axis=1)

array([0.04041127, 0.0492412 , 0.05077947])