In [1]:
import numpy as np

## Numpy的基本操作

在本节中，我们将从数组的基本统计属性入手，进一步了解Numpy数组的特性。主要内容包括以下几个方面：

- 尺寸相关
- 最大值、最小值、中位数和分位数
- 平均值、求和和标准差等

这些都是描述性统计相关的指标，对于整体了解一个数组非常有帮助。其中，我们经常使用的是尺寸相关的"shape"属性，以及最大值、最小值、平均值和求和等。

在本节中，我们将使用一个随机生成的数组作为操作对象，并指定种子(seed)，以确保每次运行时结果都是一样的。在训练模型时，通常需要指定种子(seed)，以便在相同的条件下进行调参。

首先，让我们创建一个随机数生成器(generator)：

In [2]:
# 创建一个随机数生成器
rng = np.random.default_rng(seed=42)

然后，我们使用均匀分布生成一个3行4列的数组：

In [3]:
# 生成一个均匀分布的数组
arr = rng.uniform(0, 1, (3, 4))
arr

array([[0.77395605, 0.43887844, 0.85859792, 0.69736803],
       [0.09417735, 0.97562235, 0.7611397 , 0.78606431],
       [0.12811363, 0.45038594, 0.37079802, 0.92676499]])

### 尺寸相关

在本小节中，我们将介绍数组的维度、形状和数据量等尺寸相关的属性。其中，形状(`shape`)属性是我们经常使用的。

首先，让我们看看数组的维度：

In [5]:
# 维度，数组是二维的（两个维度）
arr.ndim

2

In [6]:
# 形状，返回一个元组
arr.shape

(3, 4)

In [8]:
# 数据量
arr.size

12

### 最值和分位数

在本小节中，我们将介绍数组的最大值、最小值、中位数和其他分位数等属性。其中，最大值和最小值是我们经常使用的。

首先，让我们查看数组的最大值：

In [9]:
arr

array([[0.77395605, 0.43887844, 0.85859792, 0.69736803],
       [0.09417735, 0.97562235, 0.7611397 , 0.78606431],
       [0.12811363, 0.45038594, 0.37079802, 0.92676499]])

In [10]:
arr.max()

0.9756223516367559

我们还可以按指定的维度查找最大值，比如按列查找：

In [11]:
arr.max(axis=0)

array([0.77395605, 0.97562235, 0.85859792, 0.92676499])

类似地，我们也可以按行查找最大值：

In [10]:
arr.max(axis=1)

array([0.85859792, 0.97562235, 0.92676499])

在进行计算时，有时我们需要保持原有的维度。例如，如果我们按行查找最小值，并保持行的维度不变：

In [12]:
arr.min(axis=1, keepdims=True)

array([[0.43887844],
       [0.09417735],
       [0.12811363]])

同样地，我们也可以按列查找最小值并保持维度不变：

In [12]:
arr.min(axis=0, keepdims=True)

array([[0.09417735, 0.43887844, 0.37079802, 0.69736803]])

如果我们不保持维度不变，可以使用`keepdims=False`：

In [13]:
arr.min(axis=0, keepdims=False)

array([0.09417735, 0.43887844, 0.37079802, 0.69736803])

### 平均值、求和和标准差

在本小节中，我们将介绍数组的平均值、累计求和、方差和标准差等统计指标。其中，平均值是我们经常使用的。

首先，让我们查看数组的平均值：

In [13]:
arr

array([[0.77395605, 0.43887844, 0.85859792, 0.69736803],
       [0.09417735, 0.97562235, 0.7611397 , 0.78606431],
       [0.12811363, 0.45038594, 0.37079802, 0.92676499]])

In [14]:
np.average(arr) #np.mean()

0.6051555606435642

我们还可以按指定的维度计算平均值，例如按列计算：

In [15]:
np.average(arr, axis=0)

array([0.33208234, 0.62162891, 0.66351188, 0.80339911])

接下来，让我们计算数组的求和：

In [16]:
np.sum(arr, axis=1)

array([2.76880044, 2.61700371, 1.87606258])

如果我们想保持维度不变，可以使用`keepdims=True`：

In [17]:
np.sum(arr, axis=1, keepdims=True)

array([[2.76880044],
       [2.61700371],
       [1.87606258]])

In [15]:
arr

array([[0.77395605, 0.43887844, 0.85859792, 0.69736803],
       [0.09417735, 0.97562235, 0.7611397 , 0.78606431],
       [0.12811363, 0.45038594, 0.37079802, 0.92676499]])

我们还可以按列进行累计求和：

In [18]:
np.cumsum(arr, axis=0)

array([[0.77395605, 0.43887844, 0.85859792, 0.69736803],
       [0.8681334 , 1.41450079, 1.61973762, 1.48343233],
       [0.99624703, 1.86488673, 1.99053565, 2.41019732]])

同样地，我们也可以按行进行累计求和：

In [19]:
np.cumsum(arr, axis=1)

array([[0.77395605, 1.21283449, 2.07143241, 2.76880044],
       [0.09417735, 1.0697997 , 1.8309394 , 2.61700371],
       [0.12811363, 0.57849957, 0.94929759, 1.87606258]])

最后，让我们计算数组的标准差：

In [20]:
np.std(arr)

0.28783096517727075

我们还可以按列计算标准差：

In [21]:
np.std(arr, axis=0)

array([0.3127589 , 0.25035525, 0.21076935, 0.09444968])

另外，我们还可以计算数组的方差：

In [22]:
np.var(arr, axis=1)

array([0.02464271, 0.1114405 , 0.0839356 ])