In [2]:
import numpy as np

# 创建和生成 NumPy 数组

在数据科学和机器学习的工作中，我们常常需要创建和操作数组（array）。NumPy 是 Python 中处理数组的标准库，它提供了丰富的函数和方法来创建和操作数组。掌握如何快速创建数组是非常重要的，因为：

- 我们需要创建数组来验证算法、测试函数，或者是进行数据分析。
- 在使用诸如 scikit-learn、matplotlib、PyTorch、TensorFlow 等工具库时，我们经常需要构造简单的数据来进行实验或测试。

本教程将介绍 NumPy 数组的几种常用创建方式，帮助你快速上手。

## 从 Python 列表或元组创建

使用 `np.array()` 函数，我们可以将 Python 的列表（list）或元组（tuple）转换成 NumPy 数组。这是最直接的创建方式。的类型。

In [4]:
# 从列表创建
list_array = np.array([1, 2, 3])
print("从列表创建的数组：\n", list_array)

从列表创建的数组：
 [1 2 3]


In [5]:
type(list_array)

numpy.ndarray

In [3]:
# 从列表创建二维数组
list_2d_array = np.array([[1, 2., 3], [4, 5, 6]])
print("从列表创建的二维数组：\n", list_2d_array)

从列表创建的二维数组：
 [[1. 2. 3.]
 [4. 5. 6.]]


> `2.` 就是 `2.0`，即浮点数类型。

In [3]:
# 指定数据类型
typed_array = np.array([1, 2, 3], dtype=np.float16)
print("指定数据类型的数组：\n", typed_array)

指定数据类型的数组：
 [1. 2. 3.]


> shift+tab：查看函数文档。

In [5]:
# 从元组创建
tuple_array = np.array((1.1, 2.2))
print("从元组创建的数组：\n", tuple_array)

从元组创建的数组：
 [1.1 2.2]


In [6]:
# 从元组创建二维数组
tuple_2d_array = np.array([(1.1, 2.2, 3.3), (4.4, 5.5, 6.6)])
print("从元组创建的二维数组：\n", tuple_2d_array)

从元组创建的二维数组：
 [[1.1 2.2 3.3]
 [4.4 5.5 6.6]]


注意事项：

- 当列表或元组中的元素类型不一致时，NumPy 会尝试将它们转换成一个公共的类型，通常是更宽泛的类型（如整数会被转换为浮点数）。
- 您可以通过指定 `dtype` 参数来设置数组元素的数据类型。

## 使用 `arange` 生成数组

NumPy 的 `arange` 函数类似于 Python 的 `range` 函数，但它返回的是一个数组而不是列表。这个函数在需要创建数值范围时非常有用。

In [29]:
# 创建一个 0 到 11 的数组
arange_array = np.arange(12)
print("使用 arange 创建的数组：\n", arange_array)

使用 arange 创建的数组：
 [ 1  2  3  4  5  6  7  8  9 10 11]


In [20]:
# 创建一个步长为 2 的数组
stepped_array = np.arange(100, 124, 2)
print("步长为 2 的数组：\n", stepped_array)

步长为 2 的数组：
 [100 102 104 106 108 110 112 114 116 118 120 122]


## 使用 `linspace` 和 `logspace` 生成数组

`linspace` 和 `logspace` 函数生成的是线性间隔和对数间隔的数组，常用于数值分析和图形绘制。

In [32]:
# 使用 linspace 创建等间隔数值数组
linear_space = np.linspace(0, 9, 10)
print("使用 linspace 创建的数组：\n", linear_space)

使用 linspace 创建的数组：
 [0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]


In [24]:
# 使用 logspace 创建对数间隔数值数组
logarithmic_space = np.logspace(0, 9, 10, base=np.e)
print("使用 logspace 创建的数组：\n", logarithmic_space)

使用 logspace 创建的数组：
 [1.00000000e+00 2.71828183e+00 7.38905610e+00 2.00855369e+01
 5.45981500e+01 1.48413159e+02 4.03428793e+02 1.09663316e+03
 2.98095799e+03 8.10308393e+03]


In [33]:
np.exp(linear_space)

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

注意事项：

- `linspace` 的第三个参数是数组中的元素数量，而不是步长。
- `logspace` 的 `base` 参数默认为 10，可以生成不同基数的对数间隔数组。

## 使用 `ones` 和 `zeros` 创建特殊数组

`ones` 和 `zeros` 函数可以快速创建元素全为 1 或 0 的数组。这些函数在初始化参数或重置数据时特别有用。

In [12]:
# 创建全 1 的数组
ones_array = np.ones((2, 3))
print("全 1 的数组：\n", ones_array)

全 1 的数组：
 [[1. 1. 1.]
 [1. 1. 1.]]


In [13]:
# 创建全 0 的三维数组
zeros_array = np.zeros((2, 3, 4))
print("全 0 的三维数组：\n", zeros_array)

全 0 的三维数组：
 [[[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]

 [[0. 0. 0. 0.]
  [0. 0. 0. 0.]
  [0. 0. 0. 0.]]]


In [14]:
# 创建与另一个数组形状相同的全 0 数组
zeros_like_array = np.zeros_like(np.ones((2, 3, 3)))
print("与给定数组形状相同的全 0 数组：\n", zeros_like_array)

与给定数组形状相同的全 0 数组：
 [[[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]

 [[0. 0. 0.]
  [0. 0. 0.]
  [0. 0. 0.]]]


注意事项：

- 默认情况下，`ones` 和 `zeros` 创建的数组类型为浮点数。您可以通过 `dtype` 参数指定其他类型。

## 使用 `random` 生成随机数数组

NumPy 的 `random` 模块包含了多种产生随机数的函数，非常适合生成测试数据或进行随机化操作。

In [9]:
# 创建一个 2x3 的随机数组，元素值介于 0 到 1 之间
np.random.rand(2, 3)

array([[0.67985834, 0.69086849, 0.86309392],
       [0.41802867, 0.90849351, 0.07485814]])

In [5]:
# 创建一个随机整数数组，元素值介于 0 到 10 之间
np.random.randint(0, 10, (2, 3))

array([[2, 8, 3],
       [1, 6, 5]])

In [6]:
# 创建一个符合标准正态分布的数组
np.random.randn(2, 4)

array([[ 0.07952517,  0.05225985, -0.22883803, -0.23406145],
       [-0.67722348,  0.05377112,  0.46357518, -0.34303437]])

In [7]:
# 从 1.17 版本后推荐使用 Generator 的方法来生成随机数
# rng 是个 Generator，可用于生成各种分布
rng = np.random.default_rng(42)
rng

Generator(PCG64) at 0x29232992820

In [11]:
# 连续均匀分布用法
rng.random((2, 3))

array([[0.64386512, 0.82276161, 0.4434142 ],
       [0.22723872, 0.55458479, 0.06381726]])

In [34]:
# 可以指定上下界
rng.uniform(0, 5, (2, 3))

array([[3.82499429, 3.1735916 , 2.767897  ],
       [2.7960358 , 1.51975049, 0.15408917]])

In [18]:
# 指定大小和上界
rng.integers(10, size=2)

array([0, 4], dtype=int64)

In [19]:
# 指定上下界
rng.integers(0, 10, (2, 3))

array([[7, 1, 4],
       [1, 6, 4]], dtype=int64)

In [20]:
# 标准正态分布用法
rng.standard_normal((2, 4))

array([[-0.82448122,  0.65059279,  0.74325417,  0.54315427],
       [-0.66550971,  0.23216132,  0.11668581,  0.2186886 ]])

In [21]:
# 高斯分布用法
rng.normal(0, 1, (3, 5))

array([[ 0.87142878,  0.22359555,  0.67891356,  0.06757907,  0.2891194 ],
       [ 0.63128823, -1.45715582, -0.31967122, -0.47037265, -0.63887785],
       [-0.27514225,  1.49494131, -0.86583112,  0.96827835, -1.68286977]])

## 从文件读取数组

NumPy 还提供了读写磁盘文件的功能。你可以将数组保存到文件中，然后在需要时再加载它们。

In [35]:
# 将数组保存到文件
np.save('./my_array', np.array([[1, 2, 3], [4, 5, 6]]))

In [36]:
# 从文件加载数组
loaded_array = np.load('my_array.npy')
print("从文件加载的数组：\n", loaded_array)

从文件加载的数组：
 [[1 2 3]
 [4 5 6]]


注意事项：

- 使用 `np.save` 保存数组时，文件扩展名 `.npy` 会自动添加。使用 `np.load` 加载数组时需要包含此扩展名。