# 第二天：NumPy进阶操作

## 今日学习目标
1. 掌握NumPy数组的高级索引和切片
2. 理解广播机制（Broadcasting）
3. 学习数组的形状操作
4. 实现矩阵运算函数库
5. 实现简单的PCA算法
6. 解决中文字体显示问题

## 预计学习时间：5-6小时
- 理论学习：2小时
- 编程实践：3-4小时


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

# 解决中文字体显示问题
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

print("NumPy版本:", np.__version__)
print("Matplotlib版本:", matplotlib.__version__)
print("第二天学习开始！🚀")


## 1. 数组索引和切片进阶

### 学习要点：
- 基本索引：`arr[0]`, `arr[:, 0]`, `arr[1, 2]`
- 布尔索引：`arr[arr > 10]`
- 花式索引：`arr[[0, 2, 3]]`
- 条件索引：`arr[arr % 2 == 0]`


In [None]:
# 创建测试数组
arr = np.arange(20).reshape(4, 5)
print("原始数组:")
print(arr)
print(f"数组形状: {arr.shape}")
print(f"数组类型: {arr.dtype}")

In [None]:
# 基本索引示例
print("\n=== 基本索引 ===")
print(f"第一行: {arr[0]}")
print(f"第一列: {arr[:, 0]}")
print(f"第二行第三列: {arr[1, 2]}")
print(f"前两行: \n{arr[:2]}")
print(f"后两列: \n{arr[:, -2:]}")
print(f"每隔一行: \n{arr[::2]}")

In [None]:
# 练习任务：请在下面完成
print("\n=== 练习任务 ===")
# 1. 获取第二行的所有元素
second_row = arr[1]
print(f"第二行: {second_row}")

# 2. 获取第三列的所有元素  
third_col = arr[:, 2]
print(f"第三列: {third_col}")

# 3. 获取前两行，后三列的子数组
sub_array = arr[:2, -3:]
print(f"前两行后三列: \n{sub_array}")

# 4. 获取所有大于10的元素
greater_than_10 = arr[arr > 10]
print(f"大于10的元素: {greater_than_10}")

# 5. 获取所有偶数
even_numbers = arr[arr % 2 == 0]
print(f"偶数: {even_numbers}")

# 6. 花式索引：获取第0行、第2行、第3行
fancy_index = arr[[0, 2, 3]]
print(f"第0,2,3行: \n{fancy_index}")

print("\n✅ 索引和切片练习完成！")

## 2. 广播机制（Broadcasting）

### 什么是广播？
广播是NumPy中一个重要概念，它允许不同形状的数组之间进行运算。

### 广播规则：
1. 从最右边的维度开始比较
2. 如果两个数组的维度不相等，较小的数组会在左边补1
3. 如果某个维度大小为1，那么该维度会被"拉伸"以匹配另一个数组
4. 如果某个维度大小不为1且不相等，则无法广播

In [None]:
# 广播机制演示
print("=== 广播机制演示 ===")

# 示例1：矩阵与向量
matrix_a = np.array([[1, 2, 3],
                     [4, 5, 6]])
vector_b = np.array([10, 20, 30])

print(f"矩阵A形状: {matrix_a.shape}")
print(f"矩阵A:\n{matrix_a}")
print(f"向量B形状: {vector_b.shape}")
print(f"向量B: {vector_b}")

# 广播相加
result_add = matrix_a + vector_b
print(f"\n广播相加结果:\n{result_add}")

# 广播相乘
result_mul = matrix_a * vector_b
print(f"\n广播相乘结果:\n{result_mul}")


In [None]:
# 示例2：更复杂的广播
print("\n=== 复杂广播示例 ===")
matrix_c = np.array([[1],
                     [2],
                     [3]])
vector_d = np.array([10, 20, 30, 40])

print(f"矩阵C形状: {matrix_c.shape}")
print(f"矩阵C:\n{matrix_c}")
print(f"向量D形状: {vector_d.shape}")
print(f"向量D: {vector_d}")

# 广播相乘
result_complex = matrix_c * vector_d
print(f"\n复杂广播结果:\n{result_complex}")

In [None]:
# 示例3：广播在实际应用中的例子
print("\n=== 实际应用示例 ===")
# 假设我们有一个图像数据（简化版）
image = np.random.randint(0, 256, (3, 4, 4))  # 3通道，4x4图像
print(f"图像数据形状: {image.shape}")

# 我们想要对每个通道应用不同的权重
weights = np.array([0.3, 0.6, 0.1])  # RGB权重
print(f"权重形状: {weights.shape}")

# 使用广播应用权重
weighted_image = image * weights[:, np.newaxis, np.newaxis]
print(f"加权后图像形状: {weighted_image.shape}")

In [None]:
# 练习任务
print("\n=== 练习任务 ===")
# 1. 创建一个5x3的矩阵和一个长度为3的向量，进行广播相加
matrix1 = np.arange(15).reshape(5,3)
print(f"5x3矩阵:\n{matrix1}")
vector1 = np.arange(3)
print(f"长度为3的向量:\n{vector1}")
print(f"5x3矩阵 和长度为3的向量 广播相加:\n{matrix1 + vector1}")

# 2. 创建一个3x1的矩阵和一个长度为4的向量，进行广播相乘
matrix2 = np.arange(3).reshape(3,1)
vector2 = np.arange(4)
print(f"3x1矩阵:\n{matrix2}")
print(f"长度为4的向量:\n{vector2}")
print(f"3x1矩阵 和长度为4的向量 广播相乘:\n{matrix2 * vector2}")

print("\n✅ 广播机制练习完成！")

## 3. 数组形状操作

### 主要函数：
- `reshape()`: 重塑数组形状
- `transpose()` 或 `.T`: 转置
- `flatten()`: 展平数组
- `ravel()`: 展平数组（返回视图）
- `vstack()` 和 `hstack()`: 数组拼接
- `concatenate()`: 通用拼接函数


In [None]:
# 数组形状操作演示
print("=== 数组形状操作 ===")

# 创建原始数组
original = np.arange(12)
print(f"原始数组: {original}")
print(f"原始形状: {original.shape}")


In [None]:
# 1. 重塑形状
reshaped_2d = original.reshape(3, 4)
print(f"\n重塑为3x4:\n{reshaped_2d}")

reshaped_3d = original.reshape(2, 2, 3)
print(f"\n重塑为2x2x3:\n{reshaped_3d}")

In [None]:
# 2. 转置
transposed = reshaped_2d.T
print(f"\n转置后:\n{transposed}")

In [None]:
# 3. 展平
flattened = reshaped_2d.flatten()
print(f"\n展平后: {flattened}")

# ravel和flatten的区别
raveled = reshaped_2d.ravel()
print(f"ravel后: {raveled}")

# 修改ravel的结果会影响原数组
raveled[0] = 999
print(f"修改ravel后，原数组:\n{reshaped_2d}")

# 重新创建数组用于后续演示
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])
print(f"\n数组1:\n{arr1}")
print(f"数组2:\n{arr2}")

In [None]:
# 4. 垂直拼接
v_concat = np.vstack((arr1, arr2))
print(f"\n垂直拼接:\n{v_concat}")

# 5. 水平拼接
h_concat = np.hstack((arr1, arr2))
print(f"\n水平拼接:\n{h_concat}")

In [None]:
# 6. 通用拼接函数
concat_axis0 = np.concatenate((arr1, arr2), axis=0)
print(f"\n沿axis=0拼接:\n{concat_axis0}")

concat_axis1 = np.concatenate((arr1, arr2), axis=1)
print(f"\n沿axis=1拼接:\n{concat_axis1}")

In [None]:
# 7. 添加维度
print(f"\n=== 添加维度 ===")
arr_1d = np.array([1, 2, 3])
print(f"1D数组: {arr_1d}, 形状: {arr_1d.shape}")

# 添加新轴
arr_2d_col = arr_1d[:, np.newaxis]
print(f"列向量:\n{arr_2d_col}, 形状: {arr_2d_col.shape}")

arr_2d_row = arr_1d[np.newaxis, :]
print(f"行向量:\n{arr_2d_row}, 形状: {arr_2d_row.shape}")

In [None]:
# 8. 删除维度
print(f"\n=== 删除维度 ===")
arr_with_single_dim = np.array([[[1, 2, 3]]])
print(f"原数组形状: {arr_with_single_dim.shape}")

squeezed = np.squeeze(arr_with_single_dim)
print(f"压缩后形状: {squeezed.shape}")
print(f"压缩后数组: {squeezed}")

In [None]:
# 练习任务
print("\n=== 练习任务 ===")
# 1. 创建一个1到24的数组，重塑为2x3x4
matrix3 = np.arange(1,25).reshape(2,3,4)
print(f"练习1 - 2x3x4数组:\n{matrix3}")

# 2. 创建两个2x3的矩阵，分别进行垂直和水平拼接
matrix4 = np.arange(6).reshape(2,3)
matrix5 = np.arange(6,12).reshape(2,3)
print(f"练习2 - 垂直拼接:\n{np.vstack((matrix4,matrix5))}")
print(f"练习2 - 水平拼接:\n{np.hstack((matrix4,matrix5))}")

print("\n✅ 数组形状操作练习完成！")

## 4. 统计和聚合函数

### 常用统计函数：
- `np.sum()`: 求和
- `np.mean()`: 平均值
- `np.median()`: 中位数
- `np.std()`: 标准差
- `np.var()`: 方差
- `np.max()`, `np.min()`: 最大值和最小值
- `np.argmax()`, `np.argmin()`: 最大值和最小值的索引
- `np.percentile()`: 百分位数


In [None]:
# 统计和聚合函数演示
print("=== 统计和聚合函数 ===")

# 创建测试数据
np.random.seed(42)
data = np.random.randint(1, 100, size=(5, 4))
print(f"测试数据:\n{data}")
print(f"数据形状: {data.shape}")

# 基本统计
print(f"\n=== 基本统计 ===")
print(f"总和: {np.sum(data)}")
print(f"平均值: {np.mean(data):.2f}")
print(f"中位数: {np.median(data)}")
print(f"最大值: {np.max(data)}")
print(f"最小值: {np.min(data)}")
print(f"标准差: {np.std(data):.2f}")
print(f"方差: {np.var(data):.2f}")

# 最大值和最小值的位置
print(f"\n=== 位置信息 ===")
print(f"最大值位置: {np.argmax(data)}")
print(f"最小值位置: {np.argmin(data)}")

# 将一维索引转换为二维索引
max_pos = np.unravel_index(np.argmax(data), data.shape)
min_pos = np.unravel_index(np.argmin(data), data.shape)
print(f"最大值位置(行,列): {max_pos}")
print(f"最小值位置(行,列): {min_pos}")

# 按轴统计
print(f"\n=== 按轴统计 ===")
print(f"按行求和 (axis=1): {np.sum(data, axis=1)}")
print(f"按列求和 (axis=0): {np.sum(data, axis=0)}")
print(f"按行求平均 (axis=1): {np.mean(data, axis=1)}")
print(f"按列求平均 (axis=0): {np.mean(data, axis=0)}")

# 累积统计
print(f"\n=== 累积统计 ===")
print(f"累积和: {np.cumsum(data.flatten())}")
print(f"累积乘积: {np.cumprod(data.flatten())}")

# 百分位数
print(f"\n=== 百分位数 ===")
print(f"25%分位数: {np.percentile(data, 25)}")
print(f"50%分位数: {np.percentile(data, 50)}")
print(f"75%分位数: {np.percentile(data, 75)}")

# 条件统计
print(f"\n=== 条件统计 ===")
print(f"大于50的元素数量: {np.sum(data > 50)}")
print(f"大于50的元素比例: {np.mean(data > 50):.2%}")
print(f"每行中大于50的元素数量: {np.sum(data > 50, axis=1)}")

# 自定义统计函数
def custom_range(arr):
    """自定义函数：计算数组的范围（最大值-最小值）"""
    return np.max(arr) - np.min(arr)

print(f"\n=== 自定义统计 ===")
print(f"数据范围: {custom_range(data)}")
print(f"每行的范围: {[custom_range(row) for row in data]}")

# 练习任务
print("\n=== 练习任务 ===")
# 1. 创建一个正态分布的数据
normal_data = np.random.normal(50,15,100)
print(f"均值: {np.mean(normal_data)}")
print(f"标准差: {np.std(normal_data)}")
print(f"最大值: {np.max(normal_data)}")
print(f"最小值: {np.min(normal_data)}")

# 2. 分析一个更复杂的数据集
complex_data = np.random.rand(2,3)
print(f"复杂数据:\n{complex_data}")
print(f"复杂数据形状: {complex_data.shape}")
# 数字越小，就越靠外边
print(f"复杂数据按 axis=0 的平均值: {np.mean(complex_data,axis=0)}")
print(f"复杂数据按 axis=1 的平均值: {np.mean(complex_data,axis=1)}")


print("\n✅ 统计和聚合函数练习完成！")


=== 统计和聚合函数 ===
测试数据:
[[52 93 15 72]
 [61 21 83 87]
 [75 75 88 24]
 [ 3 22 53  2]
 [88 30 38  2]]
数据形状: (5, 4)

=== 基本统计 ===
总和: 984
平均值: 49.20
中位数: 52.5
最大值: 93
最小值: 2
标准差: 31.57
方差: 996.86

=== 位置信息 ===
最大值位置: 1
最小值位置: 15
最大值位置(行,列): (np.int64(0), np.int64(1))
最小值位置(行,列): (np.int64(3), np.int64(3))

=== 按轴统计 ===
按行求和 (axis=1): [232 252 262  80 158]
按列求和 (axis=0): [279 241 277 187]
按行求平均 (axis=1): [58.  63.  65.5 20.  39.5]
按列求平均 (axis=0): [55.8 48.2 55.4 37.4]

=== 累积统计 ===
累积和: [ 52 145 160 232 293 314 397 484 559 634 722 746 749 771 824 826 914 944
 982 984]
累积乘积: [                  52                 4836                72540
              5222880            318595680           6690509280
         555312270240       48312167510880     3623412563316000
   271755942248700000  5467778844176048384  2099483744258299904
  6298451232774899712 -9008025468628619264  2189996079131521024
  4379992158263042048 -1942315620752883712 -2929236401457856512
  -630518813141237760 -126103762628247552

## 5. 矩阵运算函数库实现

### 学习目标：
- 创建一个自定义的矩阵运算类
- 实现常用的矩阵运算函数
- 理解线性代数在编程中的应用
- 为后续的机器学习算法打基础


In [None]:
# 创建矩阵运算函数库
class MatrixOperations:
    """矩阵运算函数库"""
    
    @staticmethod
    def matrix_multiply(A, B):
        """矩阵乘法"""
        if A.shape[1] != B.shape[0]:
            raise ValueError(f"矩阵维度不匹配: {A.shape} 和 {B.shape}")
        return np.dot(A, B)
    
    @staticmethod
    def matrix_inverse(A):
        """矩阵求逆"""
        if A.shape[0] != A.shape[1]:
            raise ValueError("必须是方阵")
        det = np.linalg.det(A)
        if abs(det) < 1e-10:
            raise ValueError("矩阵不可逆（行列式为0）")
        return np.linalg.inv(A)
    
    @staticmethod
    def matrix_determinant(A):
        """计算行列式"""
        if A.shape[0] != A.shape[1]:
            raise ValueError("必须是方阵")
        return np.linalg.det(A)
    
    @staticmethod
    def matrix_trace(A):
        """计算矩阵的迹"""
        if A.shape[0] != A.shape[1]:
            raise ValueError("必须是方阵")
        return np.trace(A)
    
    @staticmethod
    def matrix_eigenvalues(A):
        """计算特征值和特征向量"""
        if A.shape[0] != A.shape[1]:
            raise ValueError("必须是方阵")
        eigenvalues, eigenvectors = np.linalg.eig(A)
        return eigenvalues, eigenvectors
    
    @staticmethod
    def matrix_rank(A):
        """计算矩阵的秩"""
        return np.linalg.matrix_rank(A)
    
    @staticmethod
    def matrix_norm(A, ord=None):
        """计算矩阵范数"""
        return np.linalg.norm(A, ord=ord)
    
    @staticmethod
    def matrix_condition_number(A):
        """计算矩阵条件数"""
        return np.linalg.cond(A)

# 测试矩阵运算函数库
print("=== 矩阵运算函数库测试 ===")

# 创建测试矩阵
A = np.array([[1, 2], 
              [3, 4]])
B = np.array([[5, 6], 
              [7, 8]])
C = np.array([[2, 1], 
              [1, 2]])

print(f"矩阵A:\n{A}")
print(f"矩阵B:\n{B}")
print(f"矩阵C:\n{C}")

# 测试矩阵运算
mat_ops = MatrixOperations()

# 矩阵乘法
print(f"\n=== 矩阵乘法 ===")
AB = mat_ops.matrix_multiply(A, B)
print(f"A × B:\n{AB}")

# 行列式
print(f"\n=== 行列式 ===")
det_A = mat_ops.matrix_determinant(A)
det_B = mat_ops.matrix_determinant(B)
det_C = mat_ops.matrix_determinant(C)
print(f"det(A) = {det_A}")
print(f"det(B) = {det_B}")
print(f"det(C) = {det_C}")

# 矩阵的迹
print(f"\n=== 矩阵的迹 ===")
trace_A = mat_ops.matrix_trace(A)
trace_B = mat_ops.matrix_trace(B)
print(f"trace(A) = {trace_A}")
print(f"trace(B) = {trace_B}")

# 特征值和特征向量
print(f"\n=== 特征值和特征向量 ===")
eigenvals_A, eigenvecs_A = mat_ops.matrix_eigenvalues(A)
print(f"A的特征值: {eigenvals_A}")
print(f"A的特征向量:\n{eigenvecs_A}")

# 验证特征值和特征向量
print(f"\n=== 验证特征值和特征向量 ===")
for i in range(len(eigenvals_A)):
    lambda_i = eigenvals_A[i]
    v_i = eigenvecs_A[:, i]
    Av_i = A @ v_i
    lambda_v_i = lambda_i * v_i
    print(f"λ{i+1} = {lambda_i:.3f}")
    print(f"Av{i+1} = {Av_i}")
    print(f"λ{i+1}v{i+1} = {lambda_v_i}")
    print(f"误差: {np.allclose(Av_i, lambda_v_i)}")

# 矩阵求逆
print(f"\n=== 矩阵求逆 ===")
try:
    inv_C = mat_ops.matrix_inverse(C)
    print(f"C的逆矩阵:\n{inv_C}")
    
    # 验证逆矩阵
    identity = C @ inv_C
    print(f"C × C^(-1) =\n{identity}")
    print(f"是否为单位矩阵: {np.allclose(identity, np.eye(2))}")
except ValueError as e:
    print(f"错误: {e}")

# 矩阵秩
print(f"\n=== 矩阵秩 ===")
rank_A = mat_ops.matrix_rank(A)
rank_B = mat_ops.matrix_rank(B)
print(f"rank(A) = {rank_A}")
print(f"rank(B) = {rank_B}")

# 矩阵范数
print(f"\n=== 矩阵范数 ===")
norm_A_fro = mat_ops.matrix_norm(A, 'fro')  # Frobenius范数
norm_A_2 = mat_ops.matrix_norm(A, 2)        # 2-范数
print(f"A的Frobenius范数: {norm_A_fro:.3f}")
print(f"A的2-范数: {norm_A_2:.3f}")

# 条件数
print(f"\n=== 条件数 ===")
cond_A = mat_ops.matrix_condition_number(A)
cond_C = mat_ops.matrix_condition_number(C)
print(f"A的条件数: {cond_A:.3f}")
print(f"C的条件数: {cond_C:.3f}")

# 实际应用示例：解线性方程组
print(f"\n=== 线性方程组求解 ===")
# 解方程组 Cx = b
b = np.array([1, 2])
x = np.linalg.solve(C, b)
print(f"方程组 Cx = b")
print(f"C =\n{C}")
print(f"b = {b}")
print(f"解 x = {x}")

# 验证解
verification = C @ x
print(f"验证 Cx = {verification}")
print(f"是否正确: {np.allclose(verification, b)}")

print("\n✅ 矩阵运算函数库测试完成！")


In [None]:
# 实现简单的PCA主成分分析
def simple_pca(X, n_components=2):
    """
    简单的PCA实现
    
    参数:
    X: 输入数据矩阵 (n_samples, n_features)
    n_components: 主成分数量
    
    返回:
    X_pca: 降维后的数据
    components: 主成分（特征向量）
    eigenvalues: 特征值
    explained_variance_ratio: 解释方差比例
    """
    # 步骤1: 数据中心化
    X_mean = np.mean(X, axis=0)
    X_centered = X - X_mean
    
    # 步骤2: 计算协方差矩阵
    cov_matrix = np.cov(X_centered.T)
    
    # 步骤3: 计算特征值和特征向量
    eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)
    
    # 步骤4: 按特征值降序排列
    idx = np.argsort(eigenvalues)[::-1]
    eigenvalues = eigenvalues[idx]
    eigenvectors = eigenvectors[:, idx]
    
    # 步骤5: 选择前n_components个主成分
    components = eigenvectors[:, :n_components]
    
    # 步骤6: 投影数据到新空间
    X_pca = np.dot(X_centered, components)
    
    # 计算解释方差比例
    explained_variance_ratio = eigenvalues / np.sum(eigenvalues)
    
    return X_pca, components, eigenvalues, explained_variance_ratio

# 测试PCA算法
print("=== PCA算法测试 ===")

# 创建具有相关性的测试数据
np.random.seed(42)
n_samples = 300
n_features = 4

# 生成原始数据
X = np.random.randn(n_samples, n_features)

# 在特征之间创建相关性
X[:, 1] = X[:, 0] + 0.5 * np.random.randn(n_samples)  # 特征1与特征0相关
X[:, 2] = -X[:, 0] + 0.3 * np.random.randn(n_samples)  # 特征2与特征0负相关
X[:, 3] = 0.2 * X[:, 0] + 0.8 * np.random.randn(n_samples)  # 特征3与特征0弱相关

print(f"原始数据形状: {X.shape}")
print(f"原始数据前5行:\n{X[:5]}")

# 计算原始数据的协方差矩阵
orig_cov = np.cov(X.T)
print(f"\n原始数据协方差矩阵:\n{orig_cov}")

# 应用PCA
X_pca, components, eigenvalues, explained_variance_ratio = simple_pca(X, n_components=2)

print(f"\nPCA结果:")
print(f"降维后数据形状: {X_pca.shape}")
print(f"主成分（特征向量）:\n{components}")
print(f"特征值: {eigenvalues}")
print(f"解释方差比例: {explained_variance_ratio}")
print(f"前2个主成分累计解释方差比例: {np.sum(explained_variance_ratio[:2]):.3f}")

# 验证PCA的数学特性
print(f"\n=== PCA验证 ===")
# 1. 主成分应该是正交的
dot_product = np.dot(components[:, 0], components[:, 1])
print(f"前两个主成分的点积: {dot_product:.6f} (应该接近0)")

# 2. 主成分应该是单位向量
norm1 = np.linalg.norm(components[:, 0])
norm2 = np.linalg.norm(components[:, 1])
print(f"第一主成分的模长: {norm1:.6f} (应该等于1)")
print(f"第二主成分的模长: {norm2:.6f} (应该等于1)")

# 3. 降维后数据的均值应该为0
mean_pca = np.mean(X_pca, axis=0)
print(f"降维后数据的均值: {mean_pca} (应该接近0)")

# 数据重构
print(f"\n=== 数据重构 ===")
# 使用前2个主成分重构原始数据
X_reconstructed = np.dot(X_pca, components.T) + np.mean(X, axis=0)
reconstruction_error = np.mean((X - X_reconstructed)**2)
print(f"重构误差 (MSE): {reconstruction_error:.6f}")

# 比较原始数据和重构数据
print(f"原始数据前3行:\n{X[:3]}")
print(f"重构数据前3行:\n{X_reconstructed[:3]}")


In [None]:
# 数据可视化进阶
print("=== 数据可视化进阶 ===")

# 创建多子图布局
fig, axes = plt.subplots(2, 3, figsize=(15, 10))
fig.suptitle('NumPy进阶操作可视化示例', fontsize=16, fontweight='bold')

# 子图1：PCA降维结果
ax1 = axes[0, 0]
# 使用颜色区分不同区域的数据点
colors = ['red' if x > 0 else 'blue' for x in X_pca[:, 0]]
ax1.scatter(X_pca[:, 0], X_pca[:, 1], c=colors, alpha=0.6, s=30)
ax1.set_title('PCA降维结果')
ax1.set_xlabel('第一主成分')
ax1.set_ylabel('第二主成分')
ax1.grid(True, alpha=0.3)

# 子图2：特征值解释方差比例
ax2 = axes[0, 1]
components_num = np.arange(1, len(explained_variance_ratio) + 1)
ax2.bar(components_num, explained_variance_ratio, alpha=0.7, color='skyblue', edgecolor='black')
ax2.set_title('主成分解释方差比例')
ax2.set_xlabel('主成分')
ax2.set_ylabel('解释方差比例')
ax2.set_xticks(components_num)
for i, v in enumerate(explained_variance_ratio):
    ax2.text(i+1, v + 0.01, f'{v:.3f}', ha='center', va='bottom')

# 子图3：累计解释方差比例
ax3 = axes[0, 2]
cumulative_variance = np.cumsum(explained_variance_ratio)
ax3.plot(components_num, cumulative_variance, 'o-', linewidth=2, markersize=8, color='green')
ax3.set_title('累计解释方差比例')
ax3.set_xlabel('主成分数量')
ax3.set_ylabel('累计解释方差比例')
ax3.grid(True, alpha=0.3)
ax3.set_ylim(0, 1.1)
for i, v in enumerate(cumulative_variance):
    ax3.text(i+1, v + 0.02, f'{v:.3f}', ha='center', va='bottom')

# 子图4：原始数据分布（选择前两个特征）
ax4 = axes[1, 0]
ax4.scatter(X[:, 0], X[:, 1], alpha=0.6, c='purple', s=30)
ax4.set_title('原始数据分布（特征0 vs 特征1）')
ax4.set_xlabel('特征0')
ax4.set_ylabel('特征1')
ax4.grid(True, alpha=0.3)

# 子图5：协方差矩阵热力图
ax5 = axes[1, 1]
im = ax5.imshow(orig_cov, cmap='coolwarm', aspect='auto')
ax5.set_title('原始数据协方差矩阵')
ax5.set_xlabel('特征')
ax5.set_ylabel('特征')
# 添加颜色条
plt.colorbar(im, ax=ax5, fraction=0.046, pad=0.04)
# 添加数值标注
for i in range(orig_cov.shape[0]):
    for j in range(orig_cov.shape[1]):
        text = ax5.text(j, i, f'{orig_cov[i, j]:.2f}', 
                       ha="center", va="center", color="black", fontsize=10)

# 子图6：重构误差分析
ax6 = axes[1, 2]
# 计算不同主成分数量的重构误差
reconstruction_errors = []
for n_comp in range(1, n_features + 1):
    X_pca_temp, components_temp, _, _ = simple_pca(X, n_components=n_comp)
    X_reconstructed_temp = np.dot(X_pca_temp, components_temp.T) + np.mean(X, axis=0)
    error = np.mean((X - X_reconstructed_temp)**2)
    reconstruction_errors.append(error)

ax6.plot(range(1, n_features + 1), reconstruction_errors, 'o-', linewidth=2, markersize=8, color='red')
ax6.set_title('重构误差 vs 主成分数量')
ax6.set_xlabel('主成分数量')
ax6.set_ylabel('重构误差 (MSE)')
ax6.grid(True, alpha=0.3)
ax6.set_xticks(range(1, n_features + 1))

plt.tight_layout()
plt.show()

# 创建额外的可视化：3D散点图（如果有3个或更多特征）
if X.shape[1] >= 3:
    fig = plt.figure(figsize=(12, 5))
    
    # 3D原始数据
    ax1 = fig.add_subplot(121, projection='3d')
    ax1.scatter(X[:, 0], X[:, 1], X[:, 2], alpha=0.6, c='blue', s=30)
    ax1.set_title('原始数据 (3D)')
    ax1.set_xlabel('特征0')
    ax1.set_ylabel('特征1')
    ax1.set_zlabel('特征2')
    
    # 2D PCA结果
    ax2 = fig.add_subplot(122)
    ax2.scatter(X_pca[:, 0], X_pca[:, 1], alpha=0.6, c='red', s=30)
    ax2.set_title('PCA降维结果 (2D)')
    ax2.set_xlabel('第一主成分')
    ax2.set_ylabel('第二主成分')
    ax2.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

# 创建主成分向量可视化
fig, ax = plt.subplots(1, 1, figsize=(8, 6))
feature_names = [f'特征{i}' for i in range(X.shape[1])]
x_pos = np.arange(len(feature_names))

# 绘制前两个主成分
width = 0.35
ax.bar(x_pos - width/2, components[:, 0], width, label='第一主成分', alpha=0.7)
ax.bar(x_pos + width/2, components[:, 1], width, label='第二主成分', alpha=0.7)

ax.set_xlabel('特征')
ax.set_ylabel('主成分系数')
ax.set_title('主成分系数')
ax.set_xticks(x_pos)
ax.set_xticklabels(feature_names)
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("✅ 数据可视化完成！")


In [None]:
# 第二天学习完成庆祝！
print("🎉" * 50)
print("恭喜你完成了第二天的学习！")
print("🎉" * 50)

print("\n📊 今日学习统计:")
print("- 掌握了NumPy高级操作")
print("- 实现了PCA算法") 
print("- 创建了矩阵运算函数库")
print("- 制作了多种可视化图表")
print("- 解决了中文字体显示问题")

print("\n🚀 明日预告 - 第三天：线性代数基础")
print("- 观看3Blue1Brown《线性代数的本质》第1-2集")
print("- 理解向量的几何意义")
print("- 学习向量加法和标量乘法")
print("- 用NumPy实现向量运算")
print("- 开始接触线性代数的编程实现")

print("\n💪 继续保持这样的学习节奏！")
print("每一天的积累都在让你更接近大模型研发工程师的目标！")

print(f"\n📈 学习进度更新:")
print("第1天: ✅ Python环境搭建 + NumPy基础") 
print("第2天: ✅ NumPy进阶操作")
print("第3天: ⏳ 线性代数基础")
print("...")
print("目标: 🎯 大模型研发工程师")

print("\n" + "🌟" * 50)
print("坚持就是胜利！明天见！")
print("🌟" * 50)


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import matplotlib

# 解决中文字体显示问题
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS', 'SimHei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

print("NumPy版本:", np.__version__)
print("第二天学习开始！")


In [None]:
# 广播机制练习
print("=== 广播机制练习 ===")

# 创建测试数组
matrix_a = np.array([[1, 2, 3], [4, 5, 6]])
vector_b = np.array([10, 20, 30])

print(f"矩阵A形状: {matrix_a.shape}")
print(f"矩阵A:\n{matrix_a}")
print(f"向量B形状: {vector_b.shape}")
print(f"向量B: {vector_b}")

# 练习任务：
# 1. 计算矩阵A与向量B的相加结果
# 2. 计算矩阵A与向量B的相乘结果
# 3. 尝试创建一个(3,1)的向量C，与矩阵A进行广播运算
# 4. 理解广播的规则

# 请在下面完成练习：


In [None]:
# 创建矩阵运算函数库
class MatrixOperations:
    """矩阵运算函数库"""
    
    @staticmethod
    def matrix_multiply(A, B):
        """矩阵乘法 - 请实现这个函数"""
        # 提示：检查维度是否匹配，然后使用np.dot()
        pass
    
    @staticmethod  
    def matrix_determinant(A):
        """计算行列式 - 请实现这个函数"""
        # 提示：检查是否为方阵，然后使用np.linalg.det()
        pass
    
    @staticmethod
    def matrix_trace(A):
        """计算矩阵的迹 - 请实现这个函数"""
        # 提示：矩阵的迹是主对角线元素之和，使用np.trace()
        pass
    
    @staticmethod
    def matrix_eigenvalues(A):
        """计算特征值和特征向量 - 请实现这个函数"""
        # 提示：使用np.linalg.eig()
        pass

# 测试你的函数库
print("=== 矩阵运算函数库测试 ===")
A = np.array([[1, 2], [3, 4]])
B = np.array([[5, 6], [7, 8]])

print(f"矩阵A:\n{A}")
print(f"矩阵B:\n{B}")

# 请在这里测试你实现的函数：


In [None]:
# 实现简单的PCA主成分分析
def simple_pca(X, n_components=2):
    """
    简单的PCA实现 - 请完成这个函数
    
    参数:
    X: 输入数据矩阵 (n_samples, n_features)
    n_components: 主成分数量
    
    返回:
    X_pca: 降维后的数据
    components: 主成分
    eigenvalues: 特征值
    """
    # 步骤1: 中心化数据（减去均值）
    # 提示：使用 X - np.mean(X, axis=0)
    
    # 步骤2: 计算协方差矩阵
    # 提示：使用 np.cov(X_centered.T)
    
    # 步骤3: 计算特征值和特征向量
    # 提示：使用 np.linalg.eig()
    
    # 步骤4: 按特征值降序排列
    # 提示：使用 np.argsort()[::-1]
    
    # 步骤5: 选择前n_components个主成分
    
    # 步骤6: 投影数据到新空间
    # 提示：使用 np.dot(X_centered, components)
    
    # 请在这里实现PCA算法：
    pass

# 测试PCA算法
print("=== PCA算法测试 ===")
# 创建测试数据
np.random.seed(42)
X = np.random.randn(100, 4)  # 100个样本，4个特征
X[:, 1] = X[:, 0] + 0.5 * np.random.randn(100)  # 创建相关性

print(f"原始数据形状: {X.shape}")
print(f"原始数据前5行:\n{X[:5]}")

# 请在这里测试你的PCA实现：
