# NumPy - 数值计算基础

NumPy (Numerical Python) 是Python科学计算的基础库，提供了高性能的多维数组对象和相关工具。

## 为什么学习NumPy？

- 🚀 **高性能**: C语言实现，比原生Python快10-100倍
- 📊 **数组计算**: 提供强大的N维数组对象ndarray
- 🔧 **广泛应用**: 几乎所有Python科学计算库的基础
- 🧮 **数学函数**: 丰富的数学函数库
- 🎯 **向量化操作**: 避免显式循环，代码简洁高效

## 学习内容

1. NumPy基础 - 数组创建和属性
2. 数组索引和切片
3. 数组运算和广播
4. 数学和统计函数
5. 数组变形和合并
6. 实际应用示例

In [None]:
# 导入NumPy库
import numpy as np
import matplotlib.pyplot as plt

# 检查NumPy版本
print(f"NumPy版本: {np.__version__}")

# 1. 数组创建
print("=== 数组创建 ===")

# 从列表创建
arr1 = np.array([1, 2, 3, 4, 5])
arr2 = np.array([[1, 2, 3], [4, 5, 6]])

print(f"一维数组: {arr1}")
print(f"二维数组:\n{arr2}")

# 特殊数组创建
zeros = np.zeros((3, 4))  # 全0数组
ones = np.ones((2, 3))    # 全1数组
eye = np.eye(3)           # 单位矩阵
arange = np.arange(0, 10, 2)  # 等差数列
linspace = np.linspace(0, 1, 5)  # 等间距数列

print(f"全0数组:\n{zeros}")
print(f"全1数组:\n{ones}")
print(f"单位矩阵:\n{eye}")
print(f"等差数列: {arange}")
print(f"等间距: {linspace}")

# 随机数组
np.random.seed(42)  # 设置随机种子
random_arr = np.random.random((2, 3))  # 0-1随机数
normal_arr = np.random.normal(0, 1, (2, 3))  # 正态分布

print(f"随机数组:\n{random_arr}")
print(f"正态分布:\n{normal_arr}")

### 数组属性和信息

NumPy数组有很多有用的属性，帮助我们了解数组的结构。

In [None]:
# 2. 数组属性详解
print("=== 数组属性详解 ===")

# 创建多维数组用于演示
arr_2d = np.array([[1, 2, 3, 4], 
                   [5, 6, 7, 8], 
                   [9, 10, 11, 12]])

print(f"2D数组:\n{arr_2d}")
print(f"形状 (shape): {arr_2d.shape}")          # (行数, 列数)
print(f"维度数 (ndim): {arr_2d.ndim}")          # 维度数
print(f"元素总数 (size): {arr_2d.size}")        # 总元素数
print(f"数据类型 (dtype): {arr_2d.dtype}")      # 数据类型
print(f"每个元素字节数 (itemsize): {arr_2d.itemsize}")  # 每个元素占用字节
print(f"数组总字节数 (nbytes): {arr_2d.nbytes}")  # 总内存使用

# 不同数据类型的比较
print("\n=== 数据类型对比 ===")
int_arr = np.array([1, 2, 3], dtype=np.int32)
float_arr = np.array([1.0, 2.0, 3.0], dtype=np.float64)
bool_arr = np.array([True, False, True])

print(f"int32数组: {int_arr}, 字节/元素: {int_arr.itemsize}")
print(f"float64数组: {float_arr}, 字节/元素: {float_arr.itemsize}")
print(f"bool数组: {bool_arr}, 字节/元素: {bool_arr.itemsize}")

# 数组维度操作
print("\n=== 数组维度操作 ===")
arr_3d = np.arange(24).reshape(2, 3, 4)  # 创建3D数组
print(f"3D数组形状: {arr_3d.shape}")
print(f"第一层:\n{arr_3d[0]}")
print(f"第二层:\n{arr_3d[1]}")

# 数组内存布局
print(f"\n数组是否连续存储: {arr_2d.flags.c_contiguous}")
print(f"数组是否可写: {arr_2d.flags.writeable}")

## 2. 数组索引和切片

数组索引和切片是NumPy的核心功能，用于访问和修改数组元素。

In [None]:
# 基本索引和切片
print("=== 一维数组索引 ===")
arr_1d = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
print(f"原数组: {arr_1d}")
print(f"第一个元素: {arr_1d[0]}")
print(f"最后一个元素: {arr_1d[-1]}")
print(f"前三个元素: {arr_1d[:3]}")
print(f"后三个元素: {arr_1d[-3:]}")
print(f"每隔2个元素: {arr_1d[::2]}")
print(f"反向数组: {arr_1d[::-1]}")

print("\n=== 二维数组索引 ===")
# 创建一个机器学习中常见的数据矩阵示例
# 假设这是5个样本，4个特征的数据
data_matrix = np.array([
    [1.2, 2.1, 3.0, 4.5],  # 样本1
    [2.3, 1.9, 2.8, 3.9],  # 样本2
    [3.1, 3.5, 4.2, 5.1],  # 样本3
    [1.8, 2.7, 3.3, 4.0],  # 样本4
    [2.9, 3.2, 3.8, 4.8]   # 样本5
])

print(f"数据矩阵 (5样本 × 4特征):\n{data_matrix}")
print(f"第一个样本: {data_matrix[0]}")
print(f"第一个特征列: {data_matrix[:, 0]}")
print(f"前3个样本: \n{data_matrix[:3]}")
print(f"前3个样本的前2个特征: \n{data_matrix[:3, :2]}")
print(f"特定元素 (第2行第3列): {data_matrix[1, 2]}")

print("\n=== 高级索引 ===")
# 布尔索引
scores = np.array([85, 92, 78, 96, 88, 73, 91, 87])
print(f"成绩: {scores}")
print(f"优秀成绩 (>90): {scores[scores > 90]}")
print(f"需要补考 (<80): {scores[scores < 80]}")
print(f"及格率: {np.sum(scores >= 80) / len(scores):.2%}")

# 花式索引
print("\n=== 花式索引 ===")
student_names = np.array(['Alice', 'Bob', 'Charlie', 'David', 'Eve', 'Frank', 'Grace', 'Henry'])
selected_indices = [0, 2, 4, 6]  # 选择偶数位置的学生
print(f"所有学生: {student_names}")
print(f"选中的学生: {student_names[selected_indices]}")
print(f"对应成绩: {scores[selected_indices]}")

# 条件索引的实际应用
print("\n=== 实际应用：数据筛选 ===")
# 模拟股票数据
stock_prices = np.array([100, 105, 98, 102, 110, 95, 108, 112, 99, 106])
trading_volume = np.array([1000, 1200, 800, 900, 1500, 700, 1100, 1300, 850, 950])

# 找出价格上涨且交易量大的日子
price_up = stock_prices > 100
high_volume = trading_volume > 1000
good_days = price_up & high_volume

print(f"股价: {stock_prices}")
print(f"交易量: {trading_volume}")
print(f"好的交易日: 第{np.where(good_days)[0] + 1}天")
print(f"对应股价: {stock_prices[good_days]}")
print(f"对应交易量: {trading_volume[good_days]}")

## 3. 数组运算和广播

NumPy的向量化运算是其核心优势，避免了Python循环的低效问题。

In [None]:
# 基本数学运算
print("=== 基本数学运算 ===")
a = np.array([1, 2, 3, 4, 5])
b = np.array([10, 20, 30, 40, 50])

print(f"数组a: {a}")
print(f"数组b: {b}")
print(f"加法: a + b = {a + b}")
print(f"减法: b - a = {b - a}")
print(f"乘法: a * b = {a * b}")
print(f"除法: b / a = {b / a}")
print(f"幂运算: a ** 2 = {a ** 2}")
print(f"取模: b % 7 = {b % 7}")

# 比较运算
print(f"\n比较运算: a > 3 = {a > 3}")
print(f"逻辑运算: (a > 2) & (a < 5) = {(a > 2) & (a < 5)}")

print("\n=== 性能对比：NumPy vs Python ===")
import time

# 大数组运算性能对比
size = 1000000
np_array = np.random.random(size)
python_list = list(np_array)

# NumPy运算
start_time = time.time()
np_result = np_array ** 2 + 2 * np_array + 1
numpy_time = time.time() - start_time

# Python列表运算
start_time = time.time()
python_result = [x**2 + 2*x + 1 for x in python_list]
python_time = time.time() - start_time

print(f"数组大小: {size:,}")
print(f"NumPy运算时间: {numpy_time:.4f}秒")
print(f"Python列表时间: {python_time:.4f}秒")
print(f"NumPy快了: {python_time/numpy_time:.1f}倍")

print("\n=== 广播机制 ===")
# 广播：不同形状数组间的运算
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])
vector = np.array([10, 20, 30])
scalar = 100

print(f"原矩阵:\n{matrix}")
print(f"向量: {vector}")
print(f"矩阵 + 向量 (广播):\n{matrix + vector}")
print(f"矩阵 + 标量:\n{matrix + scalar}")

# 机器学习中的实际应用：特征标准化
print("\n=== 实际应用：特征标准化 ===")
# 模拟机器学习数据：100个样本，3个特征
np.random.seed(42)
features = np.random.normal(loc=[10, 50, 100], scale=[2, 10, 20], size=(100, 3))

print(f"原始特征统计:")
print(f"均值: {np.mean(features, axis=0)}")
print(f"标准差: {np.std(features, axis=0)}")

# Z-score标准化
mean = np.mean(features, axis=0)
std = np.std(features, axis=0)
standardized_features = (features - mean) / std

print(f"\n标准化后统计:")
print(f"均值: {np.mean(standardized_features, axis=0)}")
print(f"标准差: {np.std(standardized_features, axis=0)}")

# Min-Max标准化
min_val = np.min(features, axis=0)
max_val = np.max(features, axis=0)
normalized_features = (features - min_val) / (max_val - min_val)

print(f"\n归一化后范围:")
print(f"最小值: {np.min(normalized_features, axis=0)}")
print(f"最大值: {np.max(normalized_features, axis=0)}")

## 4. 数学和统计函数

NumPy提供了大量的数学和统计函数，是数据分析的基础工具。

In [None]:
# 基本统计函数
print("=== 基本统计函数 ===")
# 模拟学生成绩数据
np.random.seed(42)
scores = np.random.normal(75, 15, 100).astype(int)  # 平均75分，标准差15
scores = np.clip(scores, 0, 100)  # 限制在0-100范围内

print(f"学生成绩样本 (前10个): {scores[:10]}")
print(f"总人数: {len(scores)}")
print(f"平均分: {np.mean(scores):.2f}")
print(f"中位数: {np.median(scores):.2f}")
print(f"标准差: {np.std(scores):.2f}")
print(f"方差: {np.var(scores):.2f}")
print(f"最高分: {np.max(scores)}")
print(f"最低分: {np.min(scores)}")
print(f"分数范围: {np.ptp(scores)}")  # peak to peak
print(f"25%分位数: {np.percentile(scores, 25):.2f}")
print(f"75%分位数: {np.percentile(scores, 75):.2f}")

# 多维数组的统计
print("\n=== 多维数组统计 ===")
# 模拟3个班级的成绩
class_scores = np.random.normal([70, 75, 80], [10, 12, 8], (3, 30)).astype(int)
class_scores = np.clip(class_scores, 0, 100)

print(f"三个班级成绩形状: {class_scores.shape}")
print(f"各班平均分: {np.mean(class_scores, axis=1)}")
print(f"全体平均分: {np.mean(class_scores):.2f}")
print(f"每科目平均分 (前5科): {np.mean(class_scores, axis=0)[:5]}")

# 数学函数
print("\n=== 数学函数 ===")
angles = np.array([0, 30, 45, 60, 90])
radians = np.deg2rad(angles)  # 角度转弧度

print(f"角度: {angles}°")
print(f"弧度: {radians}")
print(f"正弦值: {np.sin(radians)}")
print(f"余弦值: {np.cos(radians)}")
print(f"正切值: {np.tan(radians)}")

# 指数和对数函数
print("\n=== 指数和对数函数 ===")
x = np.array([1, 2, 3, 4, 5])
print(f"x: {x}")
print(f"e^x: {np.exp(x)}")
print(f"2^x: {np.power(2, x)}")
print(f"ln(x): {np.log(x)}")
print(f"log10(x): {np.log10(x)}")
print(f"log2(x): {np.log2(x)}")

# 金融计算示例
print("\n=== 实际应用：复利计算 ===")
# 计算不同年利率下的投资增长
principal = 10000  # 本金
rates = np.array([0.03, 0.05, 0.08, 0.10])  # 年利率
years = np.array([1, 5, 10, 20, 30])  # 投资年限

# 使用广播计算所有组合
final_amounts = principal * np.power(1 + rates[:, np.newaxis], years)

print(f"本金: ¥{principal:,}")
print(f"投资年限: {years}")
print("不同利率下的最终金额:")
for i, rate in enumerate(rates):
    print(f"{rate:.0%}年利率: {final_amounts[i]}")

# 统计分析实例
print("\n=== 实际应用：数据分析 ===")
# 模拟网站访问数据
np.random.seed(42)
daily_visitors = np.random.poisson(1000, 365)  # 泊松分布模拟日访问量
weekly_visitors = daily_visitors.reshape(52, 7)  # 按周重排

print(f"年度访问数据分析:")
print(f"总访问量: {np.sum(daily_visitors):,}")
print(f"日均访问量: {np.mean(daily_visitors):.0f}")
print(f"访问量中位数: {np.median(daily_visitors):.0f}")
print(f"最高日访问量: {np.max(daily_visitors):,}")
print(f"最低日访问量: {np.min(daily_visitors):,}")

# 周统计
weekly_totals = np.sum(weekly_visitors, axis=1)
print(f"\n周访问量统计:")
print(f"周均访问量: {np.mean(weekly_totals):.0f}")
print(f"最好的一周: {np.max(weekly_totals):,}")
print(f"最差的一周: {np.min(weekly_totals):,}")

# 工作日vs周末
weekday_avg = np.mean(weekly_visitors[:, :5])  # 周一到周五
weekend_avg = np.mean(weekly_visitors[:, 5:])  # 周六周日
print(f"工作日平均: {weekday_avg:.0f}")
print(f"周末平均: {weekend_avg:.0f}")
print(f"周末比工作日{'高' if weekend_avg > weekday_avg else '低'}{abs(weekend_avg/weekday_avg - 1):.1%}")

## 5. 数组变形和操作

数组的形状变换是数据处理中的常用操作，特别是在机器学习和深度学习中。

In [None]:
# 数组形状变换
print("=== 数组形状变换 ===")
original_array = np.arange(12)
print(f"原始数组: {original_array}")
print(f"原始形状: {original_array.shape}")

# 不同的reshape方式
reshaped_2d = original_array.reshape(3, 4)
reshaped_3d = original_array.reshape(2, 2, 3)

print(f"\n重塑为3×4矩阵:\n{reshaped_2d}")
print(f"形状: {reshaped_2d.shape}")

print(f"\n重塑为2×2×3立方体:\n{reshaped_3d}")
print(f"形状: {reshaped_3d.shape}")

# 自动推断形状
auto_reshaped = original_array.reshape(4, -1)  # -1表示自动计算
print(f"\n自动推断形状 (4, -1):\n{auto_reshaped}")
print(f"实际形状: {auto_reshaped.shape}")

# 展平数组
print("\n=== 数组展平 ===")
matrix = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print(f"原矩阵:\n{matrix}")
print(f"flatten(): {matrix.flatten()}")    # 返回拷贝
print(f"ravel(): {matrix.ravel()}")        # 返回视图（如果可能）

# 转置操作
print("\n=== 转置操作 ===")
matrix = np.array([[1, 2, 3], [4, 5, 6]])
print(f"原矩阵 (2×3):\n{matrix}")
print(f"转置后 (3×2):\n{matrix.T}")
print(f"使用transpose():\n{np.transpose(matrix)}")

# 维度交换
arr_3d = np.arange(24).reshape(2, 3, 4)
print(f"\n3D数组形状: {arr_3d.shape}")
swapped = np.transpose(arr_3d, (2, 0, 1))  # 交换轴
print(f"交换轴后形状: {swapped.shape}")

print("\n=== 数组合并 ===")
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

print(f"数组a:\n{a}")
print(f"数组b:\n{b}")

# 垂直合并
v_concat = np.vstack((a, b))  # 或 np.concatenate((a, b), axis=0)
print(f"垂直合并:\n{v_concat}")

# 水平合并
h_concat = np.hstack((a, b))  # 或 np.concatenate((a, b), axis=1)
print(f"水平合并:\n{h_concat}")

# 深度合并（沿新轴）
d_concat = np.dstack((a, b))
print(f"深度合并形状: {d_concat.shape}")

print("\n=== 数组分割 ===")
large_array = np.arange(12).reshape(4, 3)
print(f"大数组:\n{large_array}")

# 水平分割
h_splits = np.hsplit(large_array, 3)
print(f"水平分割成3部分:")
for i, part in enumerate(h_splits):
    print(f"  部分{i+1}:\n{part}")

# 垂直分割
v_splits = np.vsplit(large_array, 2)
print(f"垂直分割成2部分:")
for i, part in enumerate(v_splits):
    print(f"  部分{i+1}:\n{part}")

print("\n=== 实际应用：图像数据处理 ===")
# 模拟RGB图像数据 (高度×宽度×通道)
np.random.seed(42)
image = np.random.randint(0, 256, (100, 100, 3), dtype=np.uint8)

print(f"原始图像形状: {image.shape}")
print(f"图像数据类型: {image.dtype}")
print(f"像素值范围: {image.min()} - {image.max()}")

# 提取各颜色通道
red_channel = image[:, :, 0]
green_channel = image[:, :, 1]
blue_channel = image[:, :, 2]

print(f"红色通道形状: {red_channel.shape}")
print(f"红色通道平均值: {red_channel.mean():.1f}")

# 转换为灰度图像
grayscale = 0.299 * red_channel + 0.587 * green_channel + 0.114 * blue_channel
print(f"灰度图像形状: {grayscale.shape}")
print(f"灰度图像数据类型: {grayscale.dtype}")

# 图像批处理
batch_size = 32
reshaped_for_batch = image.reshape(-1, 3)  # 展平为 (像素数, 3)
print(f"批处理重塑形状: {reshaped_for_batch.shape}")

print("\n=== 实际应用：机器学习数据准备 ===")
# 模拟时间序列数据
time_series = np.random.randn(1000)  # 1000个时间点的数据

# 创建滑动窗口用于LSTM输入
window_size = 10
n_windows = len(time_series) - window_size + 1

# 使用广播创建窗口
windows = np.array([time_series[i:i+window_size] for i in range(n_windows)])
print(f"时间序列长度: {len(time_series)}")
print(f"滑动窗口形状: {windows.shape}")
print(f"窗口示例:\n{windows[:3]}")

# 准备训练数据
X = windows[:-1]  # 特征
y = windows[1:, -1]  # 标签（下一个时间点的值）
print(f"特征X形状: {X.shape}")
print(f"标签y形状: {y.shape}")

# 数据标准化
X_mean = np.mean(X)
X_std = np.std(X)
X_normalized = (X - X_mean) / X_std
print(f"标准化后均值: {np.mean(X_normalized):.6f}")
print(f"标准化后标准差: {np.std(X_normalized):.6f}")

## 6. 线性代数操作

线性代数是机器学习的数学基础，NumPy提供了完整的线性代数功能。

In [None]:
# 矩阵运算基础
print("=== 矩阵运算基础 ===")
A = np.array([[1, 2, 3],
              [4, 5, 6]])
B = np.array([[7, 8],
              [9, 10],
              [11, 12]])

print(f"矩阵A (2×3):\n{A}")
print(f"矩阵B (3×2):\n{B}")

# 矩阵乘法
C = np.dot(A, B)  # 或 A @ B
print(f"矩阵乘法 A @ B (2×2):\n{C}")

# 元素乘法 vs 矩阵乘法
square_A = np.array([[1, 2], [3, 4]])
square_B = np.array([[5, 6], [7, 8]])

print(f"\n正方矩阵A:\n{square_A}")
print(f"正方矩阵B:\n{square_B}")
print(f"元素级乘法 A * B:\n{square_A * square_B}")
print(f"矩阵乘法 A @ B:\n{square_A @ square_B}")

print("\n=== 特殊矩阵操作 ===")
# 矩阵的逆
matrix = np.array([[4, 2], [3, 1]], dtype=float)
print(f"原矩阵:\n{matrix}")

try:
    inverse = np.linalg.inv(matrix)
    print(f"逆矩阵:\n{inverse}")
    
    # 验证 A * A^(-1) = I
    identity_check = matrix @ inverse
    print(f"验证 A @ A^(-1):\n{identity_check}")
except np.linalg.LinAlgError:
    print("矩阵不可逆")

# 行列式
det = np.linalg.det(matrix)
print(f"行列式: {det:.4f}")

# 特征值和特征向量
print("\n=== 特征值分解 ===")
symmetric_matrix = np.array([[3, 1], [1, 3]], dtype=float)
eigenvalues, eigenvectors = np.linalg.eig(symmetric_matrix)

print(f"对称矩阵:\n{symmetric_matrix}")
print(f"特征值: {eigenvalues}")
print(f"特征向量:\n{eigenvectors}")

# 验证特征值分解
for i in range(len(eigenvalues)):
    lambda_i = eigenvalues[i]
    v_i = eigenvectors[:, i]
    Av = symmetric_matrix @ v_i
    lambda_v = lambda_i * v_i
    print(f"验证特征值{i+1}: A*v ≈ λ*v ? {np.allclose(Av, lambda_v)}")

print("\n=== 奇异值分解 (SVD) ===")
# SVD在机器学习中的应用
data_matrix = np.random.randn(5, 4)
U, s, Vt = np.linalg.svd(data_matrix, full_matrices=False)

print(f"原矩阵形状: {data_matrix.shape}")
print(f"U矩阵形状: {U.shape}")
print(f"奇异值: {s}")
print(f"V^T矩阵形状: {Vt.shape}")

# 重构矩阵
reconstructed = U @ np.diag(s) @ Vt
print(f"重构误差: {np.allclose(data_matrix, reconstructed)}")

# 降维应用
k = 2  # 保留前2个主成分
U_k = U[:, :k]
s_k = s[:k]
Vt_k = Vt[:k, :]
compressed = U_k @ np.diag(s_k) @ Vt_k

print(f"压缩后形状: {compressed.shape}")
compression_error = np.linalg.norm(data_matrix - compressed)
print(f"压缩误差: {compression_error:.4f}")

print("\n=== 线性方程组求解 ===")
# 求解 Ax = b
A_eq = np.array([[2, 1, -1],
                 [-3, -1, 2],
                 [-2, 1, 2]], dtype=float)
b_eq = np.array([8, -11, -3], dtype=float)

print(f"系数矩阵A:\n{A_eq}")
print(f"常数向量b: {b_eq}")

# 求解
x_solution = np.linalg.solve(A_eq, b_eq)
print(f"解向量x: {x_solution}")

# 验证解
verification = A_eq @ x_solution
print(f"验证 Ax: {verification}")
print(f"误差: {np.allclose(verification, b_eq)}")

print("\n=== 实际应用：线性回归 ===")
# 使用正规方程求解线性回归
np.random.seed(42)

# 生成模拟数据
n_samples = 100
X_features = np.random.randn(n_samples, 2)
true_coefficients = np.array([3, -2])
true_intercept = 1
noise = np.random.randn(n_samples) * 0.1

y_target = X_features @ true_coefficients + true_intercept + noise

# 添加偏置项（截距）
X_with_bias = np.column_stack([np.ones(n_samples), X_features])

print(f"特征矩阵形状: {X_with_bias.shape}")
print(f"目标向量形状: {y_target.shape}")
print(f"真实参数: 截距={true_intercept}, 系数={true_coefficients}")

# 使用正规方程: θ = (X^T X)^(-1) X^T y
theta = np.linalg.inv(X_with_bias.T @ X_with_bias) @ X_with_bias.T @ y_target

print(f"估计参数: 截距={theta[0]:.3f}, 系数=[{theta[1]:.3f}, {theta[2]:.3f}]")

# 计算预测和误差
y_pred = X_with_bias @ theta
mse = np.mean((y_target - y_pred) ** 2)
r_squared = 1 - np.sum((y_target - y_pred) ** 2) / np.sum((y_target - np.mean(y_target)) ** 2)

print(f"均方误差: {mse:.6f}")
print(f"R²分数: {r_squared:.6f}")

print("\n=== 实际应用：主成分分析 (PCA) ===")
# 简单的PCA实现
np.random.seed(42)

# 生成2D数据
mean = [0, 0]
cov = [[2, 1.5], [1.5, 2]]
data_2d = np.random.multivariate_normal(mean, cov, 200)

print(f"原始数据形状: {data_2d.shape}")
print(f"原始数据均值: {np.mean(data_2d, axis=0)}")
print(f"原始数据协方差:\n{np.cov(data_2d.T)}")

# 中心化数据
data_centered = data_2d - np.mean(data_2d, axis=0)

# 计算协方差矩阵的特征值和特征向量
cov_matrix = np.cov(data_centered.T)
eigenvalues_pca, eigenvectors_pca = np.linalg.eig(cov_matrix)

# 按特征值大小排序
sorted_indices = np.argsort(eigenvalues_pca)[::-1]
eigenvalues_pca = eigenvalues_pca[sorted_indices]
eigenvectors_pca = eigenvectors_pca[:, sorted_indices]

print(f"主成分方差: {eigenvalues_pca}")
print(f"方差解释比例: {eigenvalues_pca / np.sum(eigenvalues_pca)}")
print(f"主成分方向:\n{eigenvectors_pca}")

# 投影到主成分
data_pca = data_centered @ eigenvectors_pca
print(f"PCA变换后形状: {data_pca.shape}")
print(f"第一主成分方差: {np.var(data_pca[:, 0]):.4f}")
print(f"第二主成分方差: {np.var(data_pca[:, 1]):.4f}")

## 7. 高级NumPy特性

这一部分介绍NumPy的一些高级特性，在复杂的数据处理和机器学习任务中非常有用。

In [None]:
# 自定义函数向量化
print("=== 函数向量化 ===")

def sigmoid(x):
    """Sigmoid激活函数"""
    return 1 / (1 + np.exp(-np.clip(x, -500, 500)))  # 防止溢出

# 向量化函数
vectorized_sigmoid = np.vectorize(sigmoid)

# 测试单个值和数组
x_single = 2.0
x_array = np.array([-2, -1, 0, 1, 2])

print(f"单个值: sigmoid({x_single}) = {sigmoid(x_single):.4f}")
print(f"数组: sigmoid({x_array}) = {vectorized_sigmoid(x_array)}")

# 性能比较：向量化 vs 循环
large_array = np.random.randn(10000)

# 使用向量化函数
start_time = time.time()
result_vectorized = vectorized_sigmoid(large_array)
vectorized_time = time.time() - start_time

# 使用Python循环
start_time = time.time()
result_loop = [sigmoid(x) for x in large_array]
loop_time = time.time() - start_time

print(f"\n性能对比 (10000个元素):")
print(f"向量化时间: {vectorized_time:.6f}秒")
print(f"循环时间: {loop_time:.6f}秒")
print(f"向量化快了: {loop_time/vectorized_time:.1f}倍")

print("\n=== 通用函数 (ufunc) ===")
# 创建自定义ufunc
@np.vectorize
def relu(x):
    """ReLU激活函数"""
    return np.maximum(0, x)

@np.vectorize
def leaky_relu(x, alpha=0.01):
    """Leaky ReLU激活函数"""
    return np.where(x > 0, x, alpha * x)

test_array = np.array([-2, -1, 0, 1, 2])
print(f"输入: {test_array}")
print(f"ReLU: {relu(test_array)}")
print(f"Leaky ReLU: {leaky_relu(test_array)}")

print("\n=== 内存视图和拷贝 ===")
original = np.arange(12).reshape(3, 4)
print(f"原始数组:\n{original}")

# 视图 (view) - 共享内存
view = original[1:, 1:]
print(f"视图:\n{view}")

# 修改视图
view[0, 0] = 999
print(f"修改视图后的原数组:\n{original}")

# 拷贝 (copy) - 独立内存
original[1, 1] = 5  # 恢复
copy = original[1:, 1:].copy()
copy[0, 0] = 888
print(f"修改拷贝后的原数组:\n{original}")
print(f"拷贝:\n{copy}")

# 检查是否共享内存
print(f"view与原数组共享内存: {np.shares_memory(original, view)}")
print(f"copy与原数组共享内存: {np.shares_memory(original, copy)}")

print("\n=== 结构化数组 ===")
# 定义复合数据类型
student_dtype = np.dtype([
    ('name', 'U20'),      # 20字符的Unicode字符串
    ('age', 'i4'),        # 32位整数
    ('grade', 'f4'),      # 32位浮点数
    ('passed', '?')       # 布尔值
])

# 创建结构化数组
students = np.array([
    ('Alice', 20, 85.5, True),
    ('Bob', 19, 72.3, True),
    ('Charlie', 21, 58.7, False),
    ('Diana', 20, 91.2, True)
], dtype=student_dtype)

print(f"学生数据:\n{students}")
print(f"所有姓名: {students['name']}")
print(f"所有成绩: {students['grade']}")
print(f"及格学生: {students[students['passed']]['name']}")
print(f"平均成绩: {np.mean(students['grade']):.2f}")

print("\n=== 掩码数组 ===")
# 处理缺失数据
data_with_missing = np.array([1.0, 2.0, np.nan, 4.0, 5.0, np.nan, 7.0])
print(f"含缺失值的数据: {data_with_missing}")

# 创建掩码
mask = np.isnan(data_with_missing)
masked_array = np.ma.masked_array(data_with_missing, mask=mask)

print(f"掩码: {mask}")
print(f"掩码数组: {masked_array}")
print(f"有效数据均值: {np.ma.mean(masked_array):.2f}")
print(f"有效数据数量: {np.ma.count(masked_array)}")

print("\n=== 实际应用：图像处理 ===")
# 创建简单的图像滤波器
def apply_filter(image, kernel):
    """应用卷积滤波器"""
    from scipy import ndimage  # 实际项目中会使用scipy
    # 这里用简单的实现示意
    h, w = image.shape
    kh, kw = kernel.shape
    
    # 简化版卷积（不包含边界处理）
    result = np.zeros_like(image)
    for i in range(kh//2, h - kh//2):
        for j in range(kw//2, w - kw//2):
            result[i, j] = np.sum(image[i-kh//2:i+kh//2+1, j-kw//2:j+kw//2+1] * kernel)
    
    return result

# 创建测试图像
test_image = np.random.randint(0, 256, (10, 10), dtype=np.uint8)

# 边缘检测滤波器
edge_kernel = np.array([[-1, -1, -1],
                        [-1,  8, -1],
                        [-1, -1, -1]])

# 模糊滤波器
blur_kernel = np.ones((3, 3)) / 9

print(f"原始图像 (10x10):\n{test_image}")
print(f"边缘检测核:\n{edge_kernel}")
print(f"应用滤波器后的结果形状: {apply_filter(test_image.astype(float), edge_kernel).shape}")

print("\n=== 实际应用：数据分箱 ===")
# 将连续数据分箱
np.random.seed(42)
ages = np.random.normal(35, 10, 1000)
ages = np.clip(ages, 18, 65)  # 限制在合理范围

# 定义分箱边界
bins = np.array([18, 25, 35, 45, 55, 65])
bin_labels = ['18-25', '25-35', '35-45', '45-55', '55-65']

# 使用digitize进行分箱
bin_indices = np.digitize(ages, bins) - 1
bin_indices = np.clip(bin_indices, 0, len(bin_labels) - 1)

print(f"年龄范围: {ages.min():.1f} - {ages.max():.1f}")
print(f"分箱统计:")
for i, label in enumerate(bin_labels):
    count = np.sum(bin_indices == i)
    percentage = count / len(ages) * 100
    print(f"  {label}: {count}人 ({percentage:.1f}%)")

print("\n=== 实际应用：时间序列滑动窗口 ===")
# 高效创建滑动窗口
def sliding_window_view(arr, window_shape):
    """创建滑动窗口视图"""
    arr = np.asarray(arr)
    window_shape = np.asarray(window_shape)
    
    if arr.ndim != 1:
        raise ValueError("仅支持一维数组")
    
    n = arr.shape[0]
    w = window_shape[0]
    
    if w > n:
        raise ValueError("窗口大小不能大于数组长度")
    
    # 使用stride技巧创建视图
    shape = (n - w + 1, w)
    strides = (arr.strides[0], arr.strides[0])
    
    return np.lib.stride_tricks.as_strided(arr, shape=shape, strides=strides)

# 测试滑动窗口
time_series = np.arange(10)
window_size = 3

windowed = sliding_window_view(time_series, (window_size,))
print(f"时间序列: {time_series}")
print(f"滑动窗口 (窗口大小={window_size}):\n{windowed}")

# 计算滑动统计
rolling_mean = np.mean(windowed, axis=1)
rolling_std = np.std(windowed, axis=1)

print(f"滑动平均: {rolling_mean}")
print(f"滑动标准差: {rolling_std}")

# 检查内存效率
print(f"原数组内存: {time_series.nbytes} bytes")
print(f"窗口视图内存: {windowed.nbytes} bytes")
print(f"共享内存: {np.shares_memory(time_series, windowed)}")

## 8. 随机数生成和蒙特卡洛方法

随机数生成在机器学习中扮演重要角色，用于数据采样、参数初始化等。

In [None]:
# 随机数生成基础
print("=== 基本随机数生成 ===")

# 设置随机种子确保可重现性
np.random.seed(42)

# 各种分布的随机数
uniform_random = np.random.uniform(0, 1, 10)  # 均匀分布
normal_random = np.random.normal(0, 1, 10)    # 标准正态分布
integers = np.random.randint(1, 7, 10)        # 整数（模拟骰子）

print(f"均匀分布 [0,1): {uniform_random}")
print(f"标准正态分布: {normal_random}")
print(f"骰子结果: {integers}")

# 常用分布
print("\n=== 常用概率分布 ===")
np.random.seed(42)

# 二项分布 - 投硬币
coin_flips = np.random.binomial(n=10, p=0.5, size=1000)  # 10次投硬币，重复1000次
print(f"10次投硬币正面朝上次数 (1000次实验):")
print(f"平均值: {np.mean(coin_flips):.2f} (理论值: 5.0)")
print(f"标准差: {np.std(coin_flips):.2f} (理论值: {np.sqrt(10*0.5*0.5):.2f})")

# 泊松分布 - 事件发生次数
website_visits = np.random.poisson(lam=50, size=365)  # 网站日访问量
print(f"\n网站年度访问量统计:")
print(f"平均日访问量: {np.mean(website_visits):.1f}")
print(f"最高日访问量: {np.max(website_visits)}")
print(f"访问量>60的天数: {np.sum(website_visits > 60)}")

# 指数分布 - 等待时间
wait_times = np.random.exponential(scale=5, size=1000)  # 平均等待5分钟
print(f"\n客服等待时间分析:")
print(f"平均等待时间: {np.mean(wait_times):.2f}分钟")
print(f"等待超过10分钟的概率: {np.mean(wait_times > 10):.2%}")

print("\n=== 数据采样 ===")
# 从数组中随机采样
population = np.arange(1, 101)  # 1到100的数字
sample = np.random.choice(population, size=20, replace=False)  # 无放回采样
print(f"从1-100中随机选择20个数: {np.sort(sample)}")

# 加权采样
products = ['A', 'B', 'C', 'D']
weights = [0.1, 0.3, 0.4, 0.2]  # 产品销量权重
sales_sample = np.random.choice(products, size=1000, p=weights)
print(f"\n产品销量模拟 (1000次):")
for product in products:
    count = np.sum(sales_sample == product)
    print(f"产品{product}: {count}次 ({count/1000:.1%})")

# 随机排列
deck = np.arange(52)  # 扑克牌
shuffled_deck = np.random.permutation(deck)
print(f"\n洗牌前5张: {deck[:5]}")
print(f"洗牌后5张: {shuffled_deck[:5]}")

print("\n=== 蒙特卡洛方法：估算π ===")
def estimate_pi(n_points):
    """使用蒙特卡洛方法估算π"""
    # 在单位正方形内随机生成点
    points = np.random.uniform(-1, 1, (n_points, 2))
    
    # 计算点到原点的距离
    distances = np.sqrt(np.sum(points**2, axis=1))
    
    # 统计落在单位圆内的点
    inside_circle = np.sum(distances <= 1)
    
    # π ≈ 4 * (圆内点数 / 总点数)
    pi_estimate = 4 * inside_circle / n_points
    
    return pi_estimate, inside_circle

# 不同样本量下的估算
sample_sizes = [1000, 10000, 100000, 1000000]
print("蒙特卡洛估算π:")
for n in sample_sizes:
    np.random.seed(42)  # 确保可重现
    pi_est, inside = estimate_pi(n)
    error = abs(pi_est - np.pi)
    print(f"样本数: {n:7,}, π估算: {pi_est:.6f}, 误差: {error:.6f}")

print("\n=== 实际应用：A/B测试分析 ===")
# 模拟A/B测试数据
np.random.seed(42)

# 对照组A和实验组B的转化率
true_rate_A = 0.12  # A组真实转化率12%
true_rate_B = 0.15  # B组真实转化率15%

n_users_A = 1000
n_users_B = 1000

# 生成转化数据 (1=转化, 0=未转化)
conversions_A = np.random.binomial(1, true_rate_A, n_users_A)
conversions_B = np.random.binomial(1, true_rate_B, n_users_B)

# 计算观测转化率
observed_rate_A = np.mean(conversions_A)
observed_rate_B = np.mean(conversions_B)
improvement = (observed_rate_B - observed_rate_A) / observed_rate_A

print(f"A/B测试结果:")
print(f"对照组A: {np.sum(conversions_A)}/{n_users_A} = {observed_rate_A:.3f}")
print(f"实验组B: {np.sum(conversions_B)}/{n_users_B} = {observed_rate_B:.3f}")
print(f"相对提升: {improvement:.1%}")

# 简单的统计显著性检验 (z-test)
pooled_rate = (np.sum(conversions_A) + np.sum(conversions_B)) / (n_users_A + n_users_B)
se = np.sqrt(pooled_rate * (1 - pooled_rate) * (1/n_users_A + 1/n_users_B))
z_score = (observed_rate_B - observed_rate_A) / se

print(f"Z分数: {z_score:.3f}")
print(f"显著性: {'显著' if abs(z_score) > 1.96 else '不显著'} (95%置信度)")

print("\n=== 实际应用：金融风险模拟 ===")
# 模拟股票价格随机游走
np.random.seed(42)

# 参数设置
initial_price = 100
daily_volatility = 0.02  # 日波动率2%
n_days = 252  # 一年交易日
n_simulations = 1000

# 生成随机收益率 (正态分布)
daily_returns = np.random.normal(0, daily_volatility, (n_simulations, n_days))

# 计算累积收益率
cumulative_returns = np.cumprod(1 + daily_returns, axis=1)

# 计算最终价格
final_prices = initial_price * cumulative_returns[:, -1]

print(f"股票价格模拟 ({n_simulations}次模拟, {n_days}天):")
print(f"初始价格: ${initial_price}")
print(f"平均最终价格: ${np.mean(final_prices):.2f}")
print(f"价格中位数: ${np.median(final_prices):.2f}")
print(f"最高价格: ${np.max(final_prices):.2f}")
print(f"最低价格: ${np.min(final_prices):.2f}")

# 风险指标
returns_1year = (final_prices - initial_price) / initial_price
var_95 = np.percentile(returns_1year, 5)  # 5%分位数
var_99 = np.percentile(returns_1year, 1)  # 1%分位数

print(f"\n风险分析:")
print(f"平均年收益率: {np.mean(returns_1year):.1%}")
print(f"收益率标准差: {np.std(returns_1year):.1%}")
print(f"VaR (95%): {var_95:.1%} (95%概率下最大损失)")
print(f"VaR (99%): {var_99:.1%} (99%概率下最大损失)")
print(f"盈利概率: {np.mean(returns_1year > 0):.1%}")

print("\n=== 实际应用：机器学习数据增强 ===")
# 数据增强技术模拟
np.random.seed(42)

# 原始"图像"数据 (简化为1D信号)
original_signal = np.sin(np.linspace(0, 4*np.pi, 100)) + 0.1*np.random.randn(100)

def augment_data(signal, n_augmented=5):
    """数据增强函数"""
    augmented_signals = []
    
    for _ in range(n_augmented):
        # 添加随机噪声
        noise_level = np.random.uniform(0.05, 0.15)
        noisy_signal = signal + noise_level * np.random.randn(len(signal))
        
        # 随机缩放
        scale_factor = np.random.uniform(0.8, 1.2)
        scaled_signal = signal * scale_factor
        
        # 随机偏移
        shift = np.random.randint(-5, 6)
        shifted_signal = np.roll(signal, shift)
        
        augmented_signals.extend([noisy_signal, scaled_signal, shifted_signal])
    
    return np.array(augmented_signals)

# 生成增强数据
augmented_data = augment_data(original_signal, n_augmented=3)

print(f"原始数据形状: {original_signal.shape}")
print(f"增强数据形状: {augmented_data.shape}")
print(f"数据增强倍数: {len(augmented_data) / 1:.0f}倍")
print(f"原始数据统计: 均值={np.mean(original_signal):.3f}, 标准差={np.std(original_signal):.3f}")
print(f"增强数据统计: 均值={np.mean(augmented_data):.3f}, 标准差={np.std(augmented_data):.3f}")

## 9. 性能优化技巧

NumPy的性能优势来自于正确的使用方式，这里介绍一些关键的优化技巧。

In [None]:
# 向量化 vs 循环性能对比
print("=== 向量化优化 ===")
import time

# 大规模数据
n = 1000000
a = np.random.randn(n)
b = np.random.randn(n)

# 方法1：Python循环
start_time = time.time()
result_loop = []
for i in range(n):
    result_loop.append(a[i] * b[i] + a[i]**2)
result_loop = np.array(result_loop)
loop_time = time.time() - start_time

# 方法2：NumPy向量化
start_time = time.time()
result_vectorized = a * b + a**2
vectorized_time = time.time() - start_time

print(f"数据规模: {n:,}")
print(f"Python循环时间: {loop_time:.4f}秒")
print(f"NumPy向量化时间: {vectorized_time:.4f}秒")
print(f"加速比: {loop_time/vectorized_time:.1f}x")
print(f"结果相同: {np.allclose(result_loop, result_vectorized)}")

print("\n=== 内存布局优化 ===")
# C-order vs Fortran-order
size = (1000, 1000)

# C-order (行优先)
arr_c = np.random.randn(*size)
# Fortran-order (列优先)
arr_f = np.asfortranarray(arr_c)

print(f"C-order连续: {arr_c.flags.c_contiguous}")
print(f"Fortran-order连续: {arr_f.flags.f_contiguous}")

# 按行访问性能测试
start_time = time.time()
row_sum_c = np.sum(arr_c, axis=1)  # 按行求和
c_row_time = time.time() - start_time

start_time = time.time()
row_sum_f = np.sum(arr_f, axis=1)  # 按行求和
f_row_time = time.time() - start_time

print(f"C-order按行求和: {c_row_time:.4f}秒")
print(f"F-order按行求和: {f_row_time:.4f}秒")
print(f"C-order优势: {f_row_time/c_row_time:.1f}x")

# 按列访问性能测试
start_time = time.time()
col_sum_c = np.sum(arr_c, axis=0)  # 按列求和
c_col_time = time.time() - start_time

start_time = time.time()
col_sum_f = np.sum(arr_f, axis=0)  # 按列求和
f_col_time = time.time() - start_time

print(f"C-order按列求和: {c_col_time:.4f}秒")
print(f"F-order按列求和: {f_col_time:.4f}秒")
print(f"F-order优势: {c_col_time/f_col_time:.1f}x")

print("\n=== 数据类型优化 ===")
# 不同数据类型的内存和性能对比
data_size = 1000000

# 创建不同精度的数组
float64_arr = np.random.randn(data_size).astype(np.float64)
float32_arr = float64_arr.astype(np.float32)
int32_arr = (float64_arr * 1000).astype(np.int32)

print(f"数据量: {data_size:,}")
print(f"float64内存: {float64_arr.nbytes / 1024 / 1024:.1f} MB")
print(f"float32内存: {float32_arr.nbytes / 1024 / 1024:.1f} MB")
print(f"int32内存: {int32_arr.nbytes / 1024 / 1024:.1f} MB")

# 计算性能测试
operations = [
    ("加法", lambda x: x + x),
    ("乘法", lambda x: x * x),
    ("平方根", lambda x: np.sqrt(np.abs(x)))
]

for op_name, op_func in operations:
    # float64
    start_time = time.time()
    result64 = op_func(float64_arr)
    time64 = time.time() - start_time
    
    # float32
    start_time = time.time()
    result32 = op_func(float32_arr)
    time32 = time.time() - start_time
    
    print(f"{op_name} - float64: {time64:.4f}s, float32: {time32:.4f}s, 加速: {time64/time32:.1f}x")

print("\n=== 避免不必要的拷贝 ===")
large_array = np.random.randn(1000, 1000)

# 方法1：创建拷贝（慢）
start_time = time.time()
subset_copy = large_array[100:900, 100:900].copy()
result1 = np.sum(subset_copy)
copy_time = time.time() - start_time

# 方法2：使用视图（快）
start_time = time.time()
subset_view = large_array[100:900, 100:900]
result2 = np.sum(subset_view)
view_time = time.time() - start_time

print(f"使用拷贝: {copy_time:.4f}秒")
print(f"使用视图: {view_time:.4f}秒")
print(f"视图加速: {copy_time/view_time:.1f}x")
print(f"结果相同: {np.isclose(result1, result2)}")

print("\n=== 使用numexpr加速复杂表达式 ===")
try:
    import numexpr as ne
    
    # 复杂数学表达式
    x = np.random.randn(100000)
    y = np.random.randn(100000)
    z = np.random.randn(100000)
    
    # NumPy方式
    start_time = time.time()
    result_numpy = 2*x**2 + 3*y**3 + np.sqrt(z)
    numpy_time = time.time() - start_time
    
    # numexpr方式
    start_time = time.time()
    result_numexpr = ne.evaluate("2*x**2 + 3*y**3 + sqrt(z)")
    numexpr_time = time.time() - start_time
    
    print(f"NumPy计算: {numpy_time:.4f}秒")
    print(f"numexpr计算: {numexpr_time:.4f}秒")
    print(f"numexpr加速: {numpy_time/numexpr_time:.1f}x")
    print(f"结果相同: {np.allclose(result_numpy, result_numexpr)}")
    
except ImportError:
    print("numexpr未安装，跳过性能测试")
    print("安装命令: pip install numexpr")

print("\n=== 内存预分配 ===")
# 错误方式：动态增长数组
def inefficient_array_building(n):
    result = np.array([])
    for i in range(n):
        result = np.append(result, i**2)
    return result

# 正确方式：预分配数组
def efficient_array_building(n):
    result = np.empty(n)
    for i in range(n):
        result[i] = i**2
    return result

# 最佳方式：向量化
def vectorized_array_building(n):
    indices = np.arange(n)
    return indices**2

n = 5000

# 性能比较
start_time = time.time()
result1 = inefficient_array_building(n)
inefficient_time = time.time() - start_time

start_time = time.time()
result2 = efficient_array_building(n)
efficient_time = time.time() - start_time

start_time = time.time()
result3 = vectorized_array_building(n)
vectorized_time = time.time() - start_time

print(f"动态增长: {inefficient_time:.4f}秒")
print(f"预分配: {efficient_time:.4f}秒")
print(f"向量化: {vectorized_time:.4f}秒")
print(f"预分配加速: {inefficient_time/efficient_time:.1f}x")
print(f"向量化加速: {inefficient_time/vectorized_time:.1f}x")

print("\n=== 性能优化总结 ===")
print("1. 使用向量化操作替代Python循环")
print("2. 选择合适的数据类型（float32 vs float64）")
print("3. 注意数组的内存布局（C-order vs F-order）")
print("4. 避免不必要的数组拷贝，使用视图")
print("5. 预分配数组大小，避免动态增长")
print("6. 对复杂表达式使用numexpr")
print("7. 利用NumPy的内置函数而非自定义实现")
print("8. 合理使用广播机制")
print("9. 注意缓存友好的数据访问模式")
print("10. 考虑使用多线程库如numba进行进一步优化")

## 10. 总结和下一步

### 本教程学习内容回顾

✅ **NumPy基础**: 数组创建、属性、数据类型  
✅ **索引和切片**: 一维、多维、布尔、花式索引  
✅ **数组运算**: 向量化运算、广播机制  
✅ **数学统计**: 基本统计函数、数学函数库  
✅ **数组操作**: 形状变换、合并分割、转置  
✅ **线性代数**: 矩阵运算、特征值、SVD、线性方程组  
✅ **高级特性**: 自定义函数、结构化数组、掩码数组  
✅ **随机数生成**: 各种分布、蒙特卡洛方法  
✅ **性能优化**: 向量化、内存布局、数据类型优化  

### 关键概念总结

1. **向量化是核心**: NumPy的性能优势来自向量化运算
2. **广播机制**: 使不同形状的数组能够进行运算
3. **视图 vs 拷贝**: 理解内存管理，避免不必要的内存开销
4. **数据类型选择**: 平衡精度和性能需求
5. **轴的概念**: 理解多维数组的轴对于正确使用函数至关重要

### 实际应用场景

- **数据预处理**: 标准化、归一化、特征工程
- **机器学习**: 矩阵运算、梯度计算、损失函数
- **科学计算**: 数值积分、微分方程求解
- **图像处理**: 滤波、变换、特征提取
- **金融分析**: 风险建模、组合优化
- **信号处理**: 时频分析、滤波器设计

### 下一步学习建议

1. **深入实践**: 在实际项目中多使用NumPy
2. **学习相关库**: 
   - **Pandas**: 数据处理和分析 (`03_pandas.ipynb`)
   - **Matplotlib**: 数据可视化 (`04_matplotlib.ipynb`)
   - **Scikit-learn**: 机器学习算法 (`05_sklearn.ipynb`)
3. **性能优化**: 学习Numba、Cython等加速工具
4. **并行计算**: 了解Dask、Ray等分布式计算框架

### 常用函数速查

```python
# 数组创建
np.array(), np.zeros(), np.ones(), np.eye(), np.arange(), np.linspace()

# 数组属性
arr.shape, arr.dtype, arr.size, arr.ndim

# 数学运算  
np.add(), np.multiply(), np.dot(), np.matmul(), np.sqrt(), np.exp()

# 统计函数
np.mean(), np.median(), np.std(), np.var(), np.min(), np.max()

# 数组操作
np.reshape(), np.transpose(), np.concatenate(), np.split()

# 线性代数
np.linalg.inv(), np.linalg.det(), np.linalg.eig(), np.linalg.svd()

# 随机数
np.random.random(), np.random.normal(), np.random.choice()
```

### 推荐资源

- [NumPy官方文档](https://numpy.org/doc/stable/)
- [NumPy用户指南](https://numpy.org/doc/stable/user/index.html)
- [From Python to NumPy](https://www.labri.fr/perso/nrougier/from-python-to-numpy/)
- [100 NumPy exercises](https://github.com/rougier/numpy-100)

恭喜你完成了NumPy的学习！NumPy是Python科学计算生态系统的基石，掌握它将为后续学习机器学习和数据科学打下坚实基础。