# Numpy 基础知识之数组创建


## 介绍
在 NumPy 中，创建数组主要有以下六种通用方法：

1. **转换其他 Python 结构**  
   将列表（list）、元组（tuple）等 Python 原生数据结构转换为 NumPy 数组

2. **使用 NumPy 内置函数**  
   如 `arange()`、`ones()`、`zeros()` 等专门的数组创建函数

3. **操作现有数组**  
   通过对现有数组进行复制、连接或修改来生成新数组

4. **从文件读取**  
   从磁盘加载标准格式（如 CSV、NPY）或自定义格式的数据文件

5. **从原始字节创建**  
   通过字符串或缓冲区直接基于字节数据构建数组

6. **使用专用库函数**  
   例如利用 `random` 模块生成随机数数组

这些方法既适用于创建常规的 ndarray 数组，也适用于构建结构化数组。根据具体需求，开发者可以灵活选择最适合的数组创建方式。



### 1) 将 Python 序列转换为 NumPy 数组

NumPy 数组可以通过 Python 序列（如列表和元组）创建。列表使用方括号 `[...]` 定义，元组使用圆括号 `(...)` 定义。通过嵌套这些序列，可以创建不同维度的数组：

- **一维数组**：使用数字列表创建  
  ```python
  a1D = np.array([1, 2, 3, 4])
  ```
- **二维数组**：使用嵌套列表创建  
  ```python
  a2D = np.array([[1, 2], [3, 4]])
  ```
- **高维数组**：通过进一步嵌套列表创建  
  ```python
  a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
  ```

在 NumPy 中，所有数组对象均称为 `ndarray`。

#### 数据类型（`dtype`）的重要性  
在创建数组时，可以显式指定元素的数据类型（`dtype`），以优化内存使用和计算效率。若不指定 `dtype`，可能会导致意外的数据溢出或类型转换。  

**示例：8 位有符号整数溢出**  
```python
a = np.array([127, 128, 129], dtype=np.int8)
print(a)  
```
由于 `int8` 的范围是 -128 到 127，超出范围的赋值会导致溢出。

#### 数据类型对运算的影响  
不同数据类型的数组运算可能导致意外结果。NumPy 会根据操作数的类型自动确定结果的 `dtype`。  

**示例：无符号整数运算**  
```python
a = np.array([2, 3, 4], dtype=np.uint32)
b = np.array([5, 6, 7], dtype=np.uint32)
c_unsigned32 = a - b
print('无符号结果:', c_unsigned32, c_unsigned32.dtype)  


c_signed32 = a - b.astype(np.int32)
print('有符号结果:', c_signed32, c_signed32.dtype)  

```
- 相同 `dtype` 的运算会保持类型一致。  
- 混合 `dtype` 的运算会向上转换为更通用的类型（如 `int64`）。  

#### 默认数据类型  
NumPy 默认创建的数组类型为：  
- 32 位或 64 位有符号整数（取决于平台，与 C 的 `long` 类型一致）  
- 双精度浮点数（`float64`）  

若需特定类型，应在创建数组时显式指定 `dtype`。



In [1]:
import numpy as np
a = np.array([127, 128, 129], dtype=np.int8)
print(a) 

OverflowError: Python integer 128 out of bounds for int8

In [2]:
a = np.array([2, 3, 4], dtype=np.uint32)
b = np.array([5, 6, 7], dtype=np.uint32)
c_unsigned32 = a - b
print('无符号结果:', c_unsigned32, c_unsigned32.dtype)  

无符号结果: [4294967293 4294967293 4294967293] uint32


In [3]:
c_signed32 = a - b.astype(np.int32)
print('有符号结果:', c_signed32, c_signed32.dtype)  


有符号结果: [-3 -3 -3] int64
钟奇慧流氓


### 2) 内在的 NumPy 数组创建函数

NumPy 提供了 40 多个内置数组创建函数，可分为以下三类：

#### 1 - 一维数组创建函数

**numpy.arange** - 创建具有固定步长的数值序列：
```python
# 从0开始到10结束（不包含10），步长为1
np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 从2开始到10结束，指定float类型
np.arange(2, 10, dtype=float)
# array([2., 3., 4., 5., 6., 7., 8., 9.])

# 从2开始到3结束，步长为0.1
np.arange(2, 3, 0.1)
# array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9])
```

**numpy.linspace** - 创建指定数量的等间隔数值：
```python
# 在1.0到4.0之间生成6个等间隔数值
np.linspace(1., 4., 6)
# array([1. , 1.6, 2.2, 2.8, 3.4, 4. ])
```

#### 2 - 二维数组创建函数

**numpy.eye** - 创建单位矩阵：
```python
# 3x3单位矩阵
np.eye(3)
# array([[1., 0., 0.],
#        [0., 1., 0.],
#        [0., 0., 1.]])

# 3x5矩形单位矩阵
np.eye(3, 5)
# array([[1., 0., 0., 0., 0.],
#        [0., 1., 0., 0., 0.],
#        [0., 0., 1., 0., 0.]])
```

**numpy.diag** - 创建对角矩阵或提取对角线元素：
```python
# 创建对角矩阵
np.diag([1, 2, 3])
# array([[1, 0, 0],
#        [0, 2, 0],
#        [0, 0, 3]])

# 创建偏移对角矩阵
np.diag([1, 2, 3], 1)
# array([[0, 1, 0, 0],
#        [0, 0, 2, 0],
#        [0, 0, 0, 3],
#        [0, 0, 0, 0]])
```

**numpy.vander** - 创建范德蒙德矩阵：
```python
# 创建2阶范德蒙德矩阵
np.vander(np.linspace(0, 2, 5), 2)
# array([[0. , 1. ],
#        [0.5, 1. ],
#        [1. , 1. ],
#        [1.5, 1. ],
#        [2. , 1. ]])
```

#### 3 - 通用 ndarray 创建函数

**numpy.zeros** - 创建全零数组：
```python
# 2x3全零数组
np.zeros((2, 3))
# array([[0., 0., 0.],
#        [0., 0., 0.]])
```

**numpy.ones** - 创建全1数组：
```python
# 2x3全1数组
np.ones((2, 3))
# array([[1., 1., 1.],
#        [1., 1., 1.]])
```

**numpy.random** - 创建随机数组：
```python
# 创建2x3随机数组（0-1均匀分布）
from numpy.random import default_rng
default_rng(42).random((2,3))
# array([[0.77395605, 0.43887844, 0.85859792],
#        [0.69736803, 0.09417735, 0.97562235]])
```

**numpy.indices** - 创建网格索引数组：
```python
# 创建3x3的网格索引
np.indices((3,3))
# array([[[0, 0, 0],
#         [1, 1, 1],
#         [2, 2, 2]],
#        [[0, 1, 2],
#         [0, 1, 2],
#         [0, 1, 2]]])
```


In [4]:
import numpy as np

print("一维数组创建示例:")
print("1. arange函数 - 创建固定步长的数值序列:")
print("从0开始到10(不含)的整数序列:", np.arange(10))
print("从2开始到10(不含)的浮点数序列:", np.arange(2, 10, dtype=float))
print("从2开始到3(不含)，步长0.1的序列:", np.arange(2, 3, 0.1))

print("\n2. linspace函数 - 创建等间隔数值序列:")
print("在1.0到4.0之间生成6个等距数:", np.linspace(1., 4., 6))

print("\n二维数组创建示例:")
print("1. eye函数 - 创建单位矩阵:")
print("3x3单位矩阵:\n", np.eye(3))
print("3x5矩形单位矩阵:\n", np.eye(3, 5))

print("\n2. diag函数 - 创建对角矩阵:")
print("主对角线为[1,2,3]的矩阵:\n", np.diag([1, 2, 3]))
print("对角线向上偏移1位的矩阵:\n", np.diag([1, 2, 3], 1))

print("\n3. vander函数 - 创建范德蒙德矩阵:")
print("基于0-2的5个等距点的2阶范德蒙矩阵:\n", np.vander(np.linspace(0, 2, 5), 2))

print("\n通用ndarray创建示例:")
print("1. zeros函数 - 创建全零数组:")
print("2x3全零数组:\n", np.zeros((2, 3)))

print("\n2. ones函数 - 创建全1数组:")
print("2x3全1数组:\n", np.ones((2, 3)))

print("\n3. random函数 - 创建随机数组:")
from numpy.random import default_rng
print("2x3随机数组(种子42):\n", default_rng(42).random((2,3)))

print("\n4. indices函数 - 创建网格索引:")
print("3x3网格索引:\n", np.indices((3,3)))

一维数组创建示例:
1. arange函数 - 创建固定步长的数值序列:
从0开始到10(不含)的整数序列: [0 1 2 3 4 5 6 7 8 9]
从2开始到10(不含)的浮点数序列: [2. 3. 4. 5. 6. 7. 8. 9.]
从2开始到3(不含)，步长0.1的序列: [2.  2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9]

2. linspace函数 - 创建等间隔数值序列:
在1.0到4.0之间生成6个等距数: [1.  1.6 2.2 2.8 3.4 4. ]

二维数组创建示例:
1. eye函数 - 创建单位矩阵:
3x3单位矩阵:
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]
3x5矩形单位矩阵:
 [[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]]

2. diag函数 - 创建对角矩阵:
主对角线为[1,2,3]的矩阵:
 [[1 0 0]
 [0 2 0]
 [0 0 3]]
对角线向上偏移1位的矩阵:
 [[0 1 0 0]
 [0 0 2 0]
 [0 0 0 3]
 [0 0 0 0]]

3. vander函数 - 创建范德蒙德矩阵:
基于0-2的5个等距点的2阶范德蒙矩阵:
 [[0.  1. ]
 [0.5 1. ]
 [1.  1. ]
 [1.5 1. ]
 [2.  1. ]]

通用ndarray创建示例:
1. zeros函数 - 创建全零数组:
2x3全零数组:
 [[0. 0. 0.]
 [0. 0. 0.]]

2. ones函数 - 创建全1数组:
2x3全1数组:
 [[1. 1. 1.]
 [1. 1. 1.]]

3. random函数 - 创建随机数组:
2x3随机数组(种子42):
 [[0.77395605 0.43887844 0.85859792]
 [0.69736803 0.09417735 0.97562235]]

4. indices函数 - 创建网格索引:
3x3网格索引:
 [[[0 0 0]
  [1 1 1]
  [2 2 2]]

 [[0 1 2]
  [0 1 2]
  [0 1 2]]]


### 3）复制、连接或改变现有数组
创建数组后，您可以复制、连接或改变这些现有数组以创建新数组。将数组或其元素分配给新变量时，必须显式指定numpy.copy该数组，否则该变量是原始数组的视图


In [5]:
a = np.array([1, 2, 3, 4, 5, 6])
b = a[:2]
b += 1
print('a =', a, '; b =', b)

a = [2 3 3 4 5 6] ; b = [2 3]


在此示例中，您没有创建新数组。您创建了一个变量， b用于查看 的前 2 个元素a。当你加 1 到 时，b你会得到与 1 加 1 相同的结果a[:2]。如果要创建 新数组，请使用`numpy.copy`数组创建例程，如下所示：


In [6]:
a = np.array([1, 2, 3, 4])
b = a[:2].copy()
b += 1
print('a = ', a, 'b = ', b)

a =  [1 2 3 4] b =  [2 3]


有许多例程可以连接现有数组，例如numpy.vstack、 numpy.hstack和numpy.block。以下是使用以下命令将四个 2×2 数组连接成 4×4 数组的示例block：

In [7]:
A = np.ones((2, 2)) 
B = np.eye(2, 2)
C = np.zeros((2, 2))
D = np.diag((-3, -4))
np.block([[A, B], [C, D]])

array([[ 1.,  1.,  1.,  0.],
       [ 1.,  1.,  0.,  1.],
       [ 0.,  0., -3.,  0.],
       [ 0.,  0.,  0., -4.]])

### 4) 从磁盘读取数组，无论是标准格式还是自定义格式
这是大型数组创建的最常见情况。详细信息很大程度上取决于磁盘上数据的格式。本节提供有关如何处理各种格式的一般指导。


#### 标准二进制格式
各种字段都有数组数据的标准格式。下面列出了已知的 Python 库来读取它们并返回 NumPy 数组  
HDF5: h5py  
FITS: Astropy  
无法直接读取但不难转换的格式示例是 PIL 等库支持的格式（能够读写许多图像格式，例如 jpg、png 等）。


#### 常见的 ASCII 格式
逗号分隔值 (csv) 和制表符分隔值 (tsv) 文件等分隔文件用于 Excel 和 LabView 等程序。 Python函数可以逐行读取和解析这些文件。 NumPy 有两个标准例程，用于导入带有分隔数据的文件numpy.loadtxt 和numpy.genfromtxt.这些函数更多地涉及 读写文件的用例。


可以使用 Pandas 读取更通用的scipy.ioASCII文件。