# 第2章：NumPy基础

NumPy是Python中用于科学计算的核心库，提供了高性能的多维数组对象（ndarray）以及用于处理这些数组的工具。本章将详细介绍NumPy的基础知识。

## 2.1 NumPy数组的创建

### 2.1.1 什么是NumPy数组？

NumPy数组（ndarray）是一个多维的容器，用于存储同一类型的元素。与Python列表相比，NumPy数组具有以下优势：

- 更紧凑的存储空间
- 更快的计算速度
- 支持向量化操作
- 丰富的数学函数

### 2.1.2 创建数组的多种方法

In [1]:
import numpy as np

# 方法1：从Python列表创建
arr1 = np.array([1, 2, 3, 4, 5])
print("从列表创建一维数组：", arr1)

# 方法2：创建二维数组
arr2 = np.array([[1, 2, 3], [4, 5, 6]])
print("二维数组：\n", arr2)

# 方法3：使用内置函数创建
# 创建全零数组
zeros_arr = np.zeros((3, 4))  # 3行4列的全零数组
print("全零数组：\n", zeros_arr)

# 创建全一数组
ones_arr = np.ones((2, 3))  # 2行3列的全一数组
print("全一数组：\n", ones_arr)

# 创建单位矩阵
eye_arr = np.eye(4)  # 4x4的单位矩阵
print("单位矩阵：\n", eye_arr)

# 创建指定值填充的数组
full_arr = np.full((3, 3), 7)  # 3x3的数组，所有元素为7
print("填充数组：\n", full_arr)

# 创建序列数组
# arange: 类似于Python的range
range_arr = np.arange(0, 10, 2)  # 从0到10（不包含），步长为2
print("序列数组：", range_arr)

# linspace: 创建均匀分布的数组
linspace_arr = np.linspace(0, 1, 5)  # 从0到1，生成5个均匀分布的数
print("均匀分布数组：", linspace_arr)

# 创建随机数组
random_arr = np.random.random((2, 3))  # 2x3的随机数组，值在[0,1)之间
print("随机数组：\n", random_arr)

# 创建正态分布的随机数组
normal_arr = np.random.normal(0, 1, (3, 3))  # 均值0，标准差1的3x3数组
print("正态分布数组：\n", normal_arr)

从列表创建一维数组： [1 2 3 4 5]
二维数组：
 [[1 2 3]
 [4 5 6]]
全零数组：
 [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
全一数组：
 [[1. 1. 1.]
 [1. 1. 1.]]
单位矩阵：
 [[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
填充数组：
 [[7 7 7]
 [7 7 7]
 [7 7 7]]
序列数组： [0 2 4 6 8]
均匀分布数组： [0.   0.25 0.5  0.75 1.  ]
随机数组：
 [[0.05374135 0.03959567 0.48021626]
 [0.60406182 0.08179761 0.45488598]]
正态分布数组：
 [[ 0.6119149   0.38303161 -1.20718058]
 [ 0.38184292 -0.88824782 -1.52983761]
 [ 0.45249045  1.61223914 -0.62375413]]


### 2.1.3 数组的数据类型

NumPy支持多种数据类型，可以在创建数组时指定：

In [4]:
# 指定数据类型
int_arr = np.array([1, 2, 3], dtype=np.int32)
float_arr = np.array([1, 2, 3], dtype=np.float64)
complex_arr = np.array([1+2j, 3+4j], dtype=np.complex64)

print("整型数组：", int_arr, "类型：", int_arr.dtype)
print("浮点型数组：", float_arr, "类型：", float_arr.dtype)
print("复数数组：", complex_arr, "类型：", complex_arr.dtype)

# 类型转换
converted_arr = int_arr.astype(np.float32)
print("转换后的数组：", converted_arr, "类型：", converted_arr.dtype)

整型数组： [1 2 3] 类型： int32
浮点型数组： [1. 2. 3.] 类型： float64
复数数组： [1.+2.j 3.+4.j] 类型： complex64
转换后的数组： [1. 2. 3.] 类型： float32


## 2.2 数组的属性

了解数组的属性是掌握NumPy的基础：

In [6]:
type(float_arr)

numpy.ndarray

In [7]:
# 创建一个示例数组
arr = np.array([[1, 2, 3, 4],
                [5, 6, 7, 8],
                [9, 10, 11, 12]])

# 基本属性
print("数组形状 (shape)：", arr.shape)  # (3, 4) 表示3行4列
print("数组维度 (ndim)：", arr.ndim)   # 2 表示二维数组
print("数组元素总数 (size)：", arr.size)  # 12 个元素
print("数组数据类型 (dtype)：", arr.dtype)  # 数据类型
print("每个元素字节大小 (itemsize)：", arr.itemsize)  # 字节数

# 内存相关信息
print("数组总字节数 (nbytes)：", arr.nbytes)  # size * itemsize
print("数组内存信息：", arr.flags)  # 显示内存布局等信息

数组形状 (shape)： (3, 4)
数组维度 (ndim)： 2
数组元素总数 (size)： 12
数组数据类型 (dtype)： int64
每个元素字节大小 (itemsize)： 8
数组总字节数 (nbytes)： 96
数组内存信息：   C_CONTIGUOUS : True
  F_CONTIGUOUS : False
  OWNDATA : True
  WRITEABLE : True
  ALIGNED : True
  WRITEBACKIFCOPY : False



## 2.3 数组的索引和切片

### 2.3.1 一维数组的索引和切片

In [8]:
# 创建一维数组
arr_1d = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90])

# 基本索引
print("第一个元素：", arr_1d[0])
print("最后一个元素：", arr_1d[-1])
print("第三个元素：", arr_1d[2])

# 切片操作
print("前三个元素：", arr_1d[:3])
print("从第三个到第六个：", arr_1d[2:6])
print("从第三个到最后：", arr_1d[2:])
print("倒数三个元素：", arr_1d[-3:])
print("步长为2的切片：", arr_1d[::2])
print("逆序：", arr_1d[::-1])

# 修改元素
arr_1d[0] = 100
print("修改后的数组：", arr_1d)

# 批量修改
arr_1d[3:6] = 999
print("批量修改后：", arr_1d)

第一个元素： 10
最后一个元素： 90
第三个元素： 30
前三个元素： [10 20 30]
从第三个到第六个： [30 40 50 60]
从第三个到最后： [30 40 50 60 70 80 90]
倒数三个元素： [70 80 90]
步长为2的切片： [10 30 50 70 90]
逆序： [90 80 70 60 50 40 30 20 10]
修改后的数组： [100  20  30  40  50  60  70  80  90]
批量修改后： [100  20  30 999 999 999  70  80  90]


2.3.2 二维数组的索引和切片

In [9]:
# 创建二维数组
arr_2d = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12],
                   [13, 14, 15, 16]])

# 基本索引
print("第一行第二列：", arr_2d[0, 1])  # 或 arr_2d[0][1]
print("第三行第四列：", arr_2d[2, 3])

# 行切片
print("第一行：", arr_2d[0])
print("第一行和第二行：\n", arr_2d[0:2])

# 列切片
print("第一列：", arr_2d[:, 0])
print("第二列和第三列：\n", arr_2d[:, 1:3])

# 区域切片
print("左上角2x2区域：\n", arr_2d[:2, :2])
print("右下角2x2区域：\n", arr_2d[2:, 2:])

# 步长切片
print("隔行隔列选取：\n", arr_2d[::2, ::2])

# 修改区域
arr_2d[1:3, 1:3] = 0
print("修改后的数组：\n", arr_2d)

第一行第二列： 2
第三行第四列： 12
第一行： [1 2 3 4]
第一行和第二行：
 [[1 2 3 4]
 [5 6 7 8]]
第一列： [ 1  5  9 13]
第二列和第三列：
 [[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]
左上角2x2区域：
 [[1 2]
 [5 6]]
右下角2x2区域：
 [[11 12]
 [15 16]]
隔行隔列选取：
 [[ 1  3]
 [ 9 11]]
修改后的数组：
 [[ 1  2  3  4]
 [ 5  0  0  8]
 [ 9  0  0 12]
 [13 14 15 16]]


2.3.3 布尔索引

In [10]:
# 创建示例数组
arr = np.array([10, 15, 20, 25, 30, 35, 40])

# 创建布尔条件
mask = arr > 25
print("布尔掩码：", mask)

# 使用布尔索引选择元素
print("大于25的元素：", arr[mask])
print("大于25的元素（直接写法）：", arr[arr > 25])

# 复合条件
print("大于20且小于35的元素：", arr[(arr > 20) & (arr < 35)])

# 布尔索引修改值
arr[arr > 30] = 999
print("修改后的数组：", arr)

# 二维数组的布尔索引
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# 选择大于5的元素
print("二维数组中大于5的元素：", arr_2d[arr_2d > 5])

# 条件修改
arr_2d[arr_2d % 2 == 0] = 0  # 将偶数改为0
print("修改后的二维数组：\n", arr_2d)

布尔掩码： [False False False False  True  True  True]
大于25的元素： [30 35 40]
大于25的元素（直接写法）： [30 35 40]
大于20且小于35的元素： [25 30]
修改后的数组： [ 10  15  20  25  30 999 999]
二维数组中大于5的元素： [6 7 8 9]
修改后的二维数组：
 [[1 0 3]
 [0 5 0]
 [7 0 9]]


2.3.4 花式索引（Fancy Indexing）

In [11]:
# 创建示例数组
arr = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90])

# 使用整数数组索引
indices = [1, 3, 5, 7]
print("指定位置的元素：", arr[indices])

# 多个索引数组
arr_2d = np.arange(16).reshape(4, 4)
print("原始数组：\n", arr_2d)

# 选择特定的行和列
rows = [0, 1, 3]
cols = [1, 2, 3]
print("选择的元素：", arr_2d[rows, cols])  # 选择(0,1), (1,2), (3,3)

# 使用ix_函数创建网格
rows = np.array([0, 2])
cols = np.array([1, 3])
print("网格选择：\n", arr_2d[np.ix_(rows, cols)])

指定位置的元素： [20 40 60 80]
原始数组：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
选择的元素： [ 1  6 15]
网格选择：
 [[ 1  3]
 [ 9 11]]


## 2.4 数组的形状操作

### 2.4.1 改变数组形状

In [8]:
# 创建一维数组
arr = np.arange(12)
print("原始数组：", arr)

# reshape：改变形状（不修改原数组）
reshaped = arr.reshape(3, 4)
print("改变为3x4：\n", reshaped)

# 自动推断维度
auto_shape = arr.reshape(2, -1)  # -1表示自动计算
print("自动推断列数：\n", auto_shape)

# resize：改变形状（修改原数组）
arr_copy = arr.copy()
arr_copy.resize(2, 6)
print("resize后的数组：\n", arr_copy)

# ravel：展平数组
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
flattened = arr_2d.ravel()
print("展平后：", flattened)

# flatten：展平数组（返回副本）
flattened_copy = arr_2d.flatten()
print("flatten结果：", flattened_copy)

原始数组： [ 0  1  2  3  4  5  6  7  8  9 10 11]
改变为3x4：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
自动推断列数：
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
resize后的数组：
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
展平后： [1 2 3 4 5 6]
flatten结果： [1 2 3 4 5 6]


2.4.2 转置和轴交换

In [12]:
# 创建二维数组
arr_2d = np.array([[1, 2, 3],
                   [4, 5, 6]])
print("原始数组：\n", arr_2d)

# 转置
transposed = arr_2d.T
print("转置后：\n", transposed)

# 使用transpose方法
transposed2 = np.transpose(arr_2d)
print("transpose方法：\n", transposed2)

# 三维数组的轴交换
arr_3d = np.arange(24).reshape(2, 3, 4)
print("原始三维数组形状：", arr_3d.shape)

# 交换轴
swapped = np.swapaxes(arr_3d, 0, 2)
print("交换第0轴和第2轴后的形状：", swapped.shape)

# 使用transpose指定轴顺序
reordered = arr_3d.transpose(1, 2, 0)
print("重新排列轴后的形状：", reordered.shape)

原始数组：
 [[1 2 3]
 [4 5 6]]
转置后：
 [[1 4]
 [2 5]
 [3 6]]
transpose方法：
 [[1 4]
 [2 5]
 [3 6]]
原始三维数组形状： (2, 3, 4)
交换第0轴和第2轴后的形状： (4, 3, 2)
重新排列轴后的形状： (3, 4, 2)


2.4.3 数组的合并和分割

In [13]:
# 合并操作
# 创建示例数组
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

# 垂直合并（沿着行）
v_stack = np.vstack((a, b))
print("垂直合并：\n", v_stack)

# 水平合并（沿着列）
h_stack = np.hstack((a, b))
print("水平合并：\n", h_stack)

# concatenate：通用合并函数
concat_axis0 = np.concatenate((a, b), axis=0)  # 沿着第0轴（行）
concat_axis1 = np.concatenate((a, b), axis=1)  # 沿着第1轴（列）
print("沿axis=0合并：\n", concat_axis0)
print("沿axis=1合并：\n", concat_axis1)

# 分割操作
arr = np.arange(16).reshape(4, 4)
print("原始数组：\n", arr)

# 垂直分割
v_split = np.vsplit(arr, 2)  # 分成2部分
print("垂直分割结果：")
for i, sub_arr in enumerate(v_split):
    print(f"部分{i+1}：\n", sub_arr)

# 水平分割
h_split = np.hsplit(arr, 2)  # 分成2部分
print("水平分割结果：")
for i, sub_arr in enumerate(h_split):
    print(f"部分{i+1}：\n", sub_arr)

# 指定位置分割
split_indices = np.split(arr, [1, 3], axis=0)  # 在第1行和第3行处分割
print("指定位置分割：")
for i, sub_arr in enumerate(split_indices):
    print(f"部分{i+1}：\n", sub_arr)

垂直合并：
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
水平合并：
 [[1 2 5 6]
 [3 4 7 8]]
沿axis=0合并：
 [[1 2]
 [3 4]
 [5 6]
 [7 8]]
沿axis=1合并：
 [[1 2 5 6]
 [3 4 7 8]]
原始数组：
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]
垂直分割结果：
部分1：
 [[0 1 2 3]
 [4 5 6 7]]
部分2：
 [[ 8  9 10 11]
 [12 13 14 15]]
水平分割结果：
部分1：
 [[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
部分2：
 [[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]
指定位置分割：
部分1：
 [[0 1 2 3]]
部分2：
 [[ 4  5  6  7]
 [ 8  9 10 11]]
部分3：
 [[12 13 14 15]]


## 2.5 数组的复制与视图

理解NumPy中的视图和副本非常重要，这关系到内存效率和数据安全：

In [14]:
# 创建原始数组
original = np.array([1, 2, 3, 4, 5])

# 赋值操作（创建引用）
reference = original
reference[0] = 999
print("修改引用后的原始数组：", original)  # 原始数组也被修改

# 视图（浅拷贝）
original = np.array([1, 2, 3, 4, 5])
view = original.view()
view[0] = 888
print("修改视图后的原始数组：", original)  # 原始数组被修改
print("视图的id：", id(view))
print("原始数组的id：", id(original))

# 切片创建视图
original = np.array([1, 2, 3, 4, 5])
slice_view = original[1:4]
slice_view[0] = 777
print("修改切片后的原始数组：", original)  # 原始数组被修改

# 副本（深拷贝）
original = np.array([1, 2, 3, 4, 5])
copy = original.copy()
copy[0] = 666
print("修改副本后的原始数组：", original)  # 原始数组不变
print("副本：", copy)

# 检查是否共享内存
print("视图共享内存：", np.shares_memory(original, view))
print("副本共享内存：", np.shares_memory(original, copy))

修改引用后的原始数组： [999   2   3   4   5]
修改视图后的原始数组： [888   2   3   4   5]
视图的id： 4592718192
原始数组的id： 5370607056
修改切片后的原始数组： [  1 777   3   4   5]
修改副本后的原始数组： [1 2 3 4 5]
副本： [666   2   3   4   5]
视图共享内存： False
副本共享内存： False


In [16]:
original = np.array([1, 2, 3, 4, 5])

# 赋值操作（创建引用）
reference = original
reference[0] = 999
print("修改引用后的原始数组：", original)  # 原始数组也被修改

修改引用后的原始数组： [999   2   3   4   5]
