# NumPy 学习教程

欢迎来到NumPy学习教程！本教程将按照循序渐进的方式，带你掌握NumPy的核心概念和技能。

## 第1章：NumPy基础概念

### 学习目标
- 了解什么是NumPy及其重要性
- 掌握NumPy的安装和导入方法
- 理解NumPy与Python列表的区别

### 重要概念
- **NumPy**：Python中用于科学计算的核心库
- **ndarray**：NumPy的多维数组对象
- **向量化操作**：对整个数组进行操作，无需循环
- **性能优势**：比Python列表更快的运算速度

In [None]:
! pip install numpy
! pip install pyyaml

#### 显示配置信息

```python
np.show_config()
```

**参数说明：**

- `show_config()`：显示NumPy的编译配置信息，包括：
  - BLAS（基础线性代数子程序）配置
  - LAPACK（线性代数包）配置
  - 编译器信息
  - 其他依赖库信息

#### 获取NumPy配置对象

```python
np.__config__
```

**参数说明：**

- `__config__`：NumPy的配置对象，包含详细的编译和链接信息

#### 获取打印选项

```python
np.get_printoptions()
```

**参数说明：**

- `get_printoptions()`：获取NumPy数组的打印选项，包括：
  - `precision`：浮点数精度
  - `threshold`：打印时的元素数量阈值
  - `edgeitems`：在省略号前后显示的元素数量
  - `linewidth`：每行的最大字符数
  - `suppress`：是否抑制小数点的科学计数法表示

In [None]:
# 任务1：导入NumPy库并检查版本
# 要求：
# 1. 导入numpy库，使用别名np
import numpy as np
# 2. 打印NumPy的版本信息
print(f"Numpy版本: {np.__version__}")
# 3. 打印NumPy的配置信息
np.show_config()
print("-" * 50)
np.__config__
print("-" * 50)
np.get_printoptions()
print("-" * 50)


## NumPy数组与Python列表的区别

### 创建Python列表和NumPy数组

#### 创建Python列表

```python
arr = [i for i in range(1, 6)]
print(f"数组arr: {arr}, 类型: {type(arr)}")
```

**参数说明：**

- `range(1, 6)`：生成1到5的整数序列
- `[i for i in range(1, 6)]`：列表推导式，创建包含1-5的列表

**输出示例：**

```
数组arr: [1, 2, 3, 4, 5], 类型: <class 'list'>
```

#### 创建NumPy数组

```python
arr_np = np.array([i for i in range(1, 6)])
print(f"数组arr_np: {arr_np}, 类型: {type(arr_np)}")
```

**参数说明：**

- `np.array()`：NumPy的核心函数，用于从Python列表或其他可迭代对象创建数组
- `[i for i in range(1, 6)]`：与列表创建相同的元素序列

**输出示例：**

```
数组arr_np: [1 2 3 4 5], 类型: <class 'numpy.ndarray'>
```

### 运算行为的差异

#### Python列表的乘法运算

```python
arr_mult = arr * 2
print(f"列表arr乘以2的结果: {arr_mult}, 类型: {type(arr_mult)}")
```

**参数说明：**

- `* 2`：列表的乘法运算，实际上是重复列表元素
- 对于列表，`*`运算符会重复整个列表

**输出示例：**

```
列表arr乘以2的结果: [1, 2, 3, 4, 5, 1, 2, 3, 4, 5], 类型: <class 'list'>
```

#### NumPy数组的乘法运算

```python
arr_np_mult = arr_np * 2
print(f"数组arr_np乘以2的结果: {arr_np_mult}, 类型: {type(arr_np_mult)}")
```

**参数说明：**

- `* 2`：NumPy数组的乘法运算，实际上是每个元素都乘以2
- 对于NumPy数组，`*`运算符是元素级别的运算（向量化操作）

**输出示例：**

```
数组arr_np乘以2的结果: [2 4 6 8 10], 类型: <class 'numpy.ndarray'>
```

In [None]:
# 任务2：理解NumPy数组与Python列表的区别
# 要求：
# 1. 创建一个Python列表，包含数字1-5
arr = [i for i in range(1, 6)]
print(f"数组arr: {arr}, 类型: {type(arr)}")
# 2. 创建一个NumPy数组，包含相同的数字
arr_np = np.array([i for i in range(1, 6)])
print(f"数组arr_np: {arr_np}, 类型: {type(arr_np)}")
# 3. 对列表和数组分别进行乘法运算，观察区别
arr_mult = arr * 2
print(f"列表arr乘以2的结果: {arr_mult}, 类型: {type(arr_mult)}")
arr_np_mult = arr_np * 2
print(f"数组arr_np乘以2的结果: {arr_np_mult}, 类型: {type(arr_np_mult)}")


## 第2章：数组创建

### 学习目标
- 掌握各种创建NumPy数组的方法
- 理解不同创建方法的适用场景
- 学会创建特殊类型的数组

### 核心方法
- `np.array()`：从列表创建数组
- `np.zeros()`：创建全零数组
- `np.ones()`：创建全一数组
- `np.arange()`：创建等差数列
- `np.linspace()`：创建等间距数列
- `np.random.random()`：创建随机数组

In [None]:
# 任务3：从列表创建数组
# 要求：
# 1. 从一维列表[1,2,3,4,5]创建数组
arr_1d = np.array([1, 2, 3, 4, 5])
print(f"一维数组: \n {arr_1d}")
print(f"形状: {arr_1d.shape}")
print(f"维度: {arr_1d.ndim}")
print("-" * 50)


**代码说明：**

- `np.array()` 是NumPy中最基础的数组创建函数
- 参数可以是Python列表、元组等可迭代对象
- `shape` 属性返回数组的形状，一维数组返回元素个数
- `ndim` 属性返回数组的维度，一维数组返回1

In [None]:

# 2.1 从二维列表[[1,2,3],[4,5,6]]创建数组
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print(f"二维数组: \n{arr_2d}")
print(f"形状: {arr_2d.shape}")
print(f"维度: {arr_2d.ndim}")

# 2.2 查看二维数组的行数和列数
rows, cols = arr_2d.shape
print(f"二维数组的行数: {rows}")
print(f"二维数组的列数: {cols}")
# 2.3 访问二维数组中的元素，例如访问第1行第2列的元素
element = arr_2d[0, 1]
print(f"二维数组中第1行第2列的元素: {element}")
# 2.4 访问二维数组的第一行
first_row = arr_2d[0, :]
print(f"二维数组的第一行: {first_row}")
print("-" * 50)


- 二维数组的形状表示为 (行数, 列数)
- 可以通过索引访问特定元素，格式为 `arr[行索引, 列索引]`
- 使用 `:` 可以访问整行或整列
- 索引从0开始，第1行对应索引0

In [None]:
# 3.1 从三维列表创建一个2x2x2的数组
arr_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
print(f"三维数组: \n{arr_3d}")
print(f"形状: {arr_3d.shape}")
print(f"维度: {arr_3d.ndim}")
# 3.2 访问三维数组中的元素，例如访问第1层第2行第1列的元素
element_3d = arr_3d[0, 1, 0]
print(f"三维数组中第1层第2行第1列的元素: {element_3d}")
# 3.3 访问三维数组的第一层
first_layer = arr_3d[0, :, :]
print(f"三维数组的第一层: \n{first_layer}")
print("-" * 50)


- 三维数组的形状表示为 (层数, 行数, 列数)
- 三维索引格式为 `arr[层索引, 行索引, 列索引]`
- 可以通过 `:` 访问整个层、行或列

In [None]:
# 任务4：创建特殊数组
# 要求：
# 1. 创建一个3x4的全零数组
arr_zeros = np.zeros((3, 4))
print(f"3x4的全零数组:\n{arr_zeros}")
print("-" * 50)
# 2. 创建一个2x3的全一数组
arr_ones = np.ones((2, 3))
print(f"2x3的全一数组:\n{arr_ones}")
print("-" * 50)
# 3.1 创建一个3x3的单位矩阵
arr_eye = np.eye(3)
print(f"3x3的单位矩阵:\n{arr_eye}")
# 3.2 上2维对角线为1的矩阵
arr_eye_up = np.eye(3, k=2)  # k=1表示上对角线，k=-1表示下对角线
print(f"3x3的上对角线单位矩阵:\n{arr_eye_up}")
# 3.3 非方阵的单位矩阵
arr_eye_non_square = np.eye(2, 3)
print(f"2x3的非方阵单位矩阵:\n{arr_eye_non_square}")
print("-" * 50)
# 4. 创建一个2x2的填充7的数组
arr_full = np.full((2, 2), 7)
print(f"2x2的填充7的数组:\n{arr_full}")

In [None]:
# 任务5：创建序列数组
# 要求：
# 1.1 使用arange创建1-10的数组，步长为2
arr_arange = np.arange(1, 11, 2)
print(f"使用arange创建的数组(0-10, 步长2): \n {arr_arange}")
print(f"类型: {type(arr_arange)}")
print("-" * 50)
# 2. 使用arange创建10-1的递减数组
arr_arange_dec = np.arange(10, 0, -1)
print(f"使用arange创建的递减数组(10-0): \n {arr_arange_dec}")
# 3. 使用linspace创建0-1之间的5个等间距数
arr_linspace_0_1 = np.linspace(0, 1, 5)
print(f"使用linspace创建的数组(0-1之间的5个等间距数): \n {arr_linspace_0_1}")
print(f"类型: {type(arr_linspace_0_1)}")
print("-" * 50)
# 4. 使用linspace创建0-2π之间的10个等间距数
arr_linspace_0_2pi = np.linspace(0, 2 * np.pi, 10)
print(f"使用linspace创建的数组(0-2π之间的10个等间距数): \n {arr_linspace_0_2pi}")

In [None]:
# 任务6：创建随机数组
# 要求：
# 1. 创建一个2x3的随机数组（0-1之间）
arr_random_rand = np.random.rand(2, 3)
arr_random_random = np.random.random(size=(2, 3))
print(f"2x3的随机数组(0-1之间), 使用rand: \n {arr_random_rand}")
print(f"2x3的随机数组(0-1之间), 使用random: \n {arr_random_random}")
print("-" * 50)
# 2. 创建一个3x3的随机整数数组（0-10之间）
arr_random_int = np.random.randint(0, 10, (3, 3))
print(f"3x3的随机整数数组(0-10之间): \n {arr_random_int}")
print("-" * 50)
# 3. 创建一个符合正态分布的随机数组（均值0，标准差1）
arr_random_randn = np.random.randn(10)
average_arr = arr_random_randn.sum() / arr_random_randn.shape[0]
std_arr = arr_random_randn.std()
print(f"1维符合正态分布的随机数组: \n{arr_random_randn}")
print(f"数组的平均值: {average_arr}")
print(f"数组的标准差: {std_arr}")
# 4. 设置随机种子为42，然后创建一个2x2的随机数组
np.random.seed(42)
arr_random_seed_1 = np.random.random(size=(2, 2))
np.random.seed(42)
arr_random_seed_2 = np.random.random(size=(2, 2))
print(f"两个数组每个元素是否相同: {arr_random_seed_1 == arr_random_seed_2}")
print(f"两个数组是否相同: {np.array_equal(arr_random_seed_1, arr_random_seed_2)}")

## 第3章：数组属性

### 学习目标
- 掌握NumPy数组的重要属性
- 理解数组形状、维度、数据类型等概念
- 学会查看和修改数组属性

### 重要属性
- `shape`：数组的形状
- `ndim`：数组的维度
- `size`：数组的元素总数
- `dtype`：数组的数据类型
- `itemsize`：每个元素的大小（字节）
- `nbytes`：数组的总大小（字节）

In [None]:
# 任务7：探索数组属性
# 要求：
# 1. 创建一个3x4的二维数组
arr = np.random.random(size=(3, 4))
print(f"数组为: \n {arr}")
# 2. 打印该数组的所有属性（shape, ndim, size, dtype, itemsize, nbytes）
print(f"数组的形状shape为: {arr.shape}")
print(f"数组的维度ndim为: {arr.ndim}")
print(f"数组的元素总数size: {arr.size}")
print(f"数组中数据类型dtype: {arr.dtype}")
print(f"数组中每个元素的大小itemsize: {arr.itemsize}")
print(f"数组总大小nbytes(字节): {arr.nbytes}")
# 3. 创建一个一维数组，包含10个元素
arr_1d = np.linspace(0, 1, 10)
print(f"1维10数据数组: \n{arr_1d}")
# 4. 比较两个数组的属性差异


In [None]:
# 任务8：数据类型操作
# 要求：
# 1. 创建一个整数数组，指定数据类型为np.int8
arr_int = np.linspace(start=1, stop=11, num=10, dtype=np.int8)
print(f"数据类型位int的数组为: \n{arr_int}")
# 2. 创建一个浮点数数组，指定数据类型为np.float16
arr_float = np.linspace(start=0, stop=1, num=10, dtype=np.float16)
print(f"数据类型位float的数组为: \n{arr_float}")
# 3. 创建一个布尔数组
arr_bool = arr_int > 5
print(f"如果arr_int中的值大于5就为True, 得到布尔数组: \n{arr_bool}")
# 4. 尝试改变数组的数据类型
arr_float_to_int = arr_float.astype(np.int8)
print(f"把np.float16类型改成np.int8类型: \n {arr_float_to_int}")
print(f"数据类型为: {arr_float_to_int.dtype}")


## 第4章：数组索引和切片

### 学习目标
- 掌握NumPy数组的基本索引方法
- 学会使用切片操作访问数组元素
- 理解布尔索引和花式索引

### 核心概念
- **基本索引**：使用整数索引访问元素
- **切片**：使用冒号语法访问子数组
- **布尔索引**：使用布尔条件选择元素
- **花式索引**：使用整数数组选择元素

In [None]:
# 任务9：基本索引操作
# 要求：
# 1. 创建一个3x4的二维数组
arr = np.random.random(size=(3, 4))
print(f"数组为: \n{arr}")
# 2. 访问第一行的所有元素
arr_row1 = arr[0, :]
print(f"第一行所有元素为: \n{arr_row1}")
# 3. 访问第二列的所有元素
arr_col2 = arr[:, 1]
print(f"第二列所有元素: \n{arr_col2}")
# 4. 访问第二行第三列的元素
arr_row2_col3 = arr[1, 2]
print(f"第二行第三列元素: \n{arr_row2_col3}")
# 5. 访问最后一个元素
arr_last = arr[-1, -1]
print(f"最后一个元素: {arr_last}")

In [None]:
# 任务10：切片操作
# 要求：
# 1. 创建一个包含0-15的一维数组
arr = np.arange(start=0, stop=16, step=1)
print(f"数组为: \n {arr}")
# 2. 获取前5个元素
arr_first5 = arr[0:5]
print(f"前5个元素为: {arr_first5}")
# 3. 获取第3到第8个元素
arr_3_to_8 = arr[2:8]
print(f"获取第3到第8个元素: {arr_3_to_8}")
# 4. 获取从第2个开始，每隔2个元素
arr_2_to_last = arr[2::2]
print(arr_2_to_last)
# 5. 将数组反转
print(f"反转数组: {arr[::-1]}")
# 在这里编写你的代码：


In [None]:
# 任务11：多维数组切片
# 要求：
# 1. 创建一个4x5的二维数组
arr = np.random.random(size=(4, 5))
print(f"创建数组: \n{arr}")
# 2. 获取前两行的所有列
arr_col0to1 = arr[0:2, ]
print(f"前两行的数组: \n {arr_col0to1}")
# 3. 获取所有行的第2-4列
# 4. 获取第2-3行的第1-3列
# 5. 获取每隔一行的每隔一列


In [None]:
# 任务12：布尔索引
# 要求：
# 1. 创建一个包含0-20的数组
arr = np.arange(0, 21, step=1)
print(f"0-20的数组: \n {arr}")
# 2. 选择所有大于10的元素
arr_geq_10 = arr[arr > 10]
print(f"所有大于10的元素: \n{arr_geq_10}")
# 3. 选择所有偶数
arr_odds = arr[arr % 2 == 0]
print(f"偶数数组: \n{arr_odds}")
# 4. 选择所有在5-15之间的元素
arr_5_to_15 = arr[(arr >= 5) & (arr <= 15)]
print(f"5-15的所有元素: \n{arr_5_to_15}")
# 5. 选择所有能被3整除的元素
arr_mod3 = arr[arr % 3 == 0]
print(f"可以被3整除的数组: \n{arr_mod3}")

## 第5章：数组运算

### 学习目标
- 掌握NumPy数组的基本数学运算
- 理解向量化操作的优势
- 学会使用比较运算和逻辑运算

### 运算类型
- **算术运算**：加减乘除、幂运算
- **比较运算**：大于、小于、等于等
- **逻辑运算**：与、或、非
- **统计运算**：求和、均值、标准差等

In [None]:
# 任务13：基本算术运算
# 要求：
# 1. 创建两个数组a=[1,2,3,4], b=[5,6,7,8]
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

# 2. 计算两个数组的加、减、乘、除
print(f"加法: {a + b}")
print(f"减法: {a - b}")
print(f"乘法: {a * b}")
print(f"除法: {a / b}")

# 3. 计算数组a的平方
print(f"a的平方:{a**2}")

# 4. 计算数组a的平方根
print(f"a的平方根: {a**0.5}")

In [None]:
# 任务14：比较运算
# 要求：
# 1. 创建两个数组a=[1,2,3,4], b=[4,3,2,1]
a = np.array([1, 2, 3, 4])
b = np.array([4, 3, 2, 1])

# 2. 比较两个数组的元素是否相同
print(f"数组的每个元素是否相同: {a == b}")

In [None]:
# 任务15：统计运算
# 要求：
# 1. 创建一个包含1-10的数组
arr = np.random.randint(low=1, high=10, size=(5,))
print(f"数组为:\n {arr}")

# 2. 计算数组的和、均值、标准差、方差
print(f"和为:{arr.sum()}")
print(f"均值为: {arr.mean()}")
print(f"标准差为: {arr.std()}")
print(f"方差为: {arr.var()}")

# 3. 找出数组的最小值、最大值及其索引
print(f"数组最小值为:{arr.min()}, 索引为{arr.argmin()}")
print(f"数组最大值为: {arr.max()}, 索引为{arr.argmax()}")

# 4. 计算数组的累积和和累积积
print(f"累积和: {arr.cumsum()}")
print(f"累积积: {arr.cumprod()}")

## 第6章：线性代数运算

### 学习目标
- 掌握NumPy中的线性代数运算
- 理解矩阵运算的概念
- 学会使用NumPy的线性代数函数

### 重要函数
- `np.dot()`：矩阵乘法
- `np.matmul()`：矩阵乘法
- `np.linalg.inv()`：矩阵求逆
- `np.linalg.det()`：行列式
- `np.linalg.eig()`：特征值和特征向量

In [None]:
# 任务16：矩阵乘法
# 要求：
# 1. 创建两个2x3和3x2的矩阵
matrix_1 = np.array([[1, 2], [3, 4], [5, 6]])
matrix_2 = matrix_1.T
print(f"2x3的矩阵是: \n {matrix_1}")
print(f"3x2的矩阵是: \n {matrix_2}")

# 2. 使用np.dot()计算矩阵乘法
matrix_3 = np.dot(matrix_1, matrix_2)
print(f"相乘后矩阵为: \n {matrix_3}")

# 3. 使用@运算符计算矩阵乘法
matrix_4 = matrix_1 @ matrix_2
print(f"使用@计算之后的矩阵为: \n {matrix_4}")

# 4. 比较两种方法的结果
print(f"两个是否相同: \n {np.equal(matrix_3, matrix_4)}")

In [None]:
# 任务17：矩阵运算
# 要求：
# 1. 创建一个2x2的矩阵
matrix = np.random.randint(size=(2, 2), low=0, high=10)
print(f"矩阵为: \n {matrix}")

# 2. 计算矩阵的行列式
matrix_det = np.linalg.det(matrix)
print(f"矩阵行列式值为: \n {matrix_det}")

# 3. 计算矩阵的逆矩阵
matrix_inv = np.linalg.inv(matrix)
print(f"矩阵的逆为: \n {matrix_inv}")

# 4. 计算矩阵的特征值和特征向量
eigenvalues, eigenvector = np.linalg.eig(matrix)
print(f"矩阵特征值为: \n {eigenvalues}")
print(f"矩阵特征向量为: \n {eigenvector}")

# 5. 验证矩阵与其逆矩阵的乘积是否为单位矩阵
is_eyes = np.array_equal(np.eye(N=2, M=2), matrix@matrix_inv)
print(f"矩阵和逆矩阵相乘后是否为单位矩阵: {is_eyes}")

## 第7章：数组变形

### 学习目标
- 掌握NumPy数组的变形方法
- 学会改变数组的形状和维度
- 理解数组转置和轴变换

### 核心方法
- `reshape()`：改变数组形状
- `flatten()`：将数组展平为一维
- `ravel()`：将数组展平为一维（返回视图）
- `transpose()`：数组转置
- `T`：转置属性

In [None]:
# 任务18：数组变形
# 要求：
# 1. 创建一个包含1-12的数组
arr = np.arange(start=1, stop=13, step=1)
print(f"数组为: \n{arr}")
print(f"数组形状为: \n {arr.shape}")

# 2. 将其变形为3x4的数组
arr_reshape = arr.reshape((3, 4))
print(f"变形之后的数组: \n {arr_reshape}")
print(f"变形之后的数组形状为: \n {arr_reshape.shape}")

In [None]:
# 任务19：数组展平
# 要求：
# 1. 创建一个3x4的二维数组
arr = np.random.randint(size=(3, 4), low=1, high=13)
print(f"数组为: \n {arr}")

# 2. 使用flatten()将其展平为一维数组
arr_flatten = arr.flatten()
print(f"用flatten展平之后的数组为: \n {arr_flatten}")

# 3. 使用ravel()将其展平为一维数组
arr_ravel = arr.ravel()
print(f"ravel展平的数组为: \n {arr_ravel}")

# 4. 比较两种方法的区别（修改原数组后观察）
print(f"这两个数组是否相同: \n {np.array_equal(arr_flatten, arr_ravel)}")

In [None]:
# 任务20：数组转置
# 要求：
# 1. 创建一个3x4的二维数组
arr = np.random.randint(size=(3, 4), low=0, high=10)
print(f"数组创建为: \n {arr}")

# 2. 使用T属性进行转置
arr_T = arr.T
print(f"用T属性转置数组为: \n {arr_T}")

# 3. 使用transpose()函数进行转置
arr_transpose = np.transpose(arr)
print(f"用np.transpose()方法转置: \n {arr_transpose}")

# 4. 创建一个3x4x5的三维数组，进行轴变换
arr_3d = np.random.randint(size=(2, 3, 4), low=0, high=10)
arr_3d_T = arr_3d.T
print(f"原数组为: \n {arr_3d}")
print(f"用T转置的数组为: \n{arr_3d_T}")
print(f"原数组形状为: \n {arr_3d.shape}")
print(f"用T转置之后的数组为: \n{arr_3d_T.shape}")
arr_3d_axis0_T = np.transpose(arr_3d, axes=(0, 2, 1))
print(f"用np.transpose转置, 把第1维度和第2维度换个位置: {arr_3d_axis0_T.shape}")


## 第8章：广播机制

### 学习目标
- 理解NumPy的广播机制
- 掌握广播的规则和原理
- 学会利用广播进行高效运算

### 广播规则
1. 从后向前比较每个维度的尺寸
2. 维度尺寸相同或其中一个为1时可以广播
3. 缺失的维度可以广播
4. 广播后会扩展到最大的形状

In [None]:
# 任务21：标量与数组广播
# 要求：
# 1. 创建一个3x3的数组
arr = np.arange(start=1, stop=10).reshape(3, 3)
print(f"数组为: \n {arr}")

# 2. 将数组与标量5进行加法运算
arr_plus5 = arr + 5
print(f"数组+5为: \n {arr_plus5}")

# 3. 将数组与标量2进行乘法运算
arr_mul2 = arr * 2
print(f"数组*2为: \n {arr_mul2}")

In [None]:
# 任务22：不同形状数组广播
# 要求：
# 1. 创建一个3x3的数组A
A = np.arange(start=1, stop=10).reshape(3, 3)

print(f"A数组为: \n {A}")
# 2. 创建一个1x3的数组B
B = np.arange(start=1, stop=4).reshape(1, 3)
print(f"B数组为: \n {B}")

# 3. 创建一个3x1的数组C
C = np.arange(start=1, stop=4).reshape(3, 1)
print(f"C数组为: \n {C}")

# 4. 进行A+B、A+C的运算，观察广播效果
print(f"A+B结果为: \n {A+B}")
print(f"A+C结果为: \n {A+C}")


## 第9章：数组连接和分割

### 学习目标
- 掌握NumPy数组的连接方法
- 学会分割数组
- 理解不同轴的连接和分割

### 重要函数
- `np.concatenate()`：连接数组
- `np.stack()`：堆叠数组
- `np.hstack()`：水平连接
- `np.vstack()`：垂直连接
- `np.split()`：分割数组

In [None]:
# 任务23：数组连接
# 要求：
# 1. 创建两个3x3的数组A和B
A = np.arange(start=1, stop=10).reshape(3, 3)
B = np.arange(start=10, stop = 19).reshape(3, 3)
print(f"数组A: \n {A}")
print(f"数组A的形状: {A.shape}")
print(f"数组B: \n {B}")
print(f"数组B的形状: {B.shape}")
print("-" * 50)
# 2. 使用concatenate沿轴0连接（垂直连接）
concat_axis0 = np.concatenate((A, B), axis=0)
print(concat_axis0)
print(f"连接后的形状: \n {concat_axis0.shape}")
print(f"原数组形状: A为{A.shape}, B为{B.shape}")
print(f"连接后形状: ({A.shape[0] + B.shape[0]}, {A.shape[1]})")
print("-" * 50)
# 3. 使用concatenate沿轴1连接（水平连接）
concat_axis1 = np.concatenate((A, B), axis=1)
print(concat_axis1)
print(f"连接后的形状: \n {concat_axis1.shape}")
print(f"原数组形状: A为{A.shape}, B为{B.shape}")
print(f"连接后形状: ({A.shape[0]}, {A.shape[1] + B.shape[1]})")
print("-" * 50)
# 4. 使用vstack和hstack进行连接
vstack_result = np.vstack((A, B))
print(f"用vstack垂直堆叠得到: \n {vstack_result}")
print(f"vstack结果形状: {vstack_result.shape}")

hstack_result = np.hstack((A, B))
print(f"用hstack垂直堆叠得到: \n {hstack_result}")
print(f"hstack结果形状: {hstack_result.shape}")
# 5. 比较不同连接方法的结果

In [None]:
# 任务24：数组堆叠
# 要求：
# 1. 创建两个3x3的数组A和B
A = np.arange(start=1, stop=10).reshape(3, 3)
B = np.arange(start=10, stop = 19).reshape(3, 3)
print(f"数组A: \n {A}")
print(f"数组A的形状: {A.shape}")

print(f"数组B: \n {B}")
print(f"数组B的形状: {B.shape}")
print("-" * 50)
# 2. 使用stack沿新轴堆叠
stack_result = np.stack((A, B))
print(f"用stack堆叠之后的数组为: \n {stack_result}")
print(f"用stack堆叠之后的数组形状为: \n {stack_result.shape}")
print("-" * 50)
# 4. 使用dstack沿深度方向堆叠
dstack_result = np.dstack((A, B))
print(f"用dstack堆叠之后的数组为: \n {dstack_result}")
print(f"用dstack堆叠之后的数组形状为: \n {dstack_result.shape}")

In [None]:
# 任务25：数组分割
# 要求：
# 1. 创建一个包含0-11的数组，变形为3x4
arr = np.arange(start=0, stop=12).reshape(3, 4)
print(f"数组为: \n {arr}")
# 2. 使用split沿轴0分割成3个子数组
arr_split_axis0 = np.split(arr, indices_or_sections=3, axis=0)
print("使用split沿轴0分割成3个子数组:")
for arr_split in arr_split_axis0:
    print(arr_split)
# 3. 使用split沿轴1分割成2个子数组
arr_split_axis1 = np.split(ary=arr, indices_or_sections=2, axis=1)
print("使用split沿轴1分割成2个子数组:")
for arr_split in arr_split_axis1:
    print(arr_split)
# 4. 使用hsplit和vsplit进行分割
arr_hsplit = np.hsplit(arr, indices_or_sections=2)
print("使用hsplit进行分割:")
for arr_split in arr_hsplit:
    print(arr_split)
# 5. 尝试不均匀分割


## 第10章：文件操作

### 学习目标
- 掌握NumPy数组的保存和加载方法
- 学会读写文本文件
- 理解不同文件格式的特点

### 重要函数
- `np.save()`：保存数组为.npy文件
- `np.load()`：加载.npy文件
- `np.savetxt()`：保存数组为文本文件
- `np.loadtxt()`：加载文本文件

In [None]:
# 任务26：保存和加载二进制文件
# 要求：
# 1. 创建一个3x3的随机数组
np.random.seed(42)
arr = np.random.random(size=(3, 3))
# 2. 使用np.save()保存为.npy文件
import os
directory = "outputs"
filename = "random_array.npy"

if not os.path.exists(directory):
    os.makedirs(directory)
    print(f"创建目录: {directory}")
else:
    print(f"目录已存在: {directory}")

fullpath = os.path.join(directory, filename)
np.save(fullpath, arr)
if os.path.exists(fullpath):
    print(f"数组已保存到文件: {fullpath}")
    file_size = os.path.getsize(fullpath)
    print(f"文件大小: {file_size} 字节")
else:
    print("文件保存失败！")
# 3. 使用np.load()加载保存的文件
loaded_array = np.load(fullpath)
print("从文件加载的数组:")
print(loaded_array)
# 4. 验证加载的数组与原数组是否相同
print(f"验证加载的数组与原数组是否相同: {np.array_equal(arr, loaded_array)}")

In [None]:
# 任务27：保存和加载文本文件
# 要求：
# 1. 创建一个3x3的数组
np.random.seed(42)
array_3x3 = np.random.random((3, 3))

print("创建的3x3数组:")
print(array_3x3)
print(f"数组形状: {array_3x3.shape}")
print(f"数组数据类型: {array_3x3.dtype}")
print(f"数组最小值: {array_3x3.min():.4f}")
print(f"数组最大值: {array_3x3.max():.4f}")

# 2. 使用np.savetxt()保存为.txt文件
# 创建输出目录
output_dir = 'outputs'
os.makedirs(output_dir, exist_ok=True)
# 定义文件名
filename = os.path.join(output_dir, 'array_default.txt')
# 使用np.savetxt()保存为.txt文件（默认格式）
np.savetxt(filename, array_3x3)
print(f"数组已保存到: {filename}")
# 检查文件是否存在并显示内容
if os.path.exists(filename):
    file_size = os.path.getsize(filename)
    print(f"文件大小: {file_size} 字节")
    
    # 读取并显示文件内容
    print("\n保存的文件内容:")
    with open(filename, 'r') as f:
        content = f.read()
        print(content)
else:
    print("文件保存失败！")

# 3. 使用np.loadtxt()加载文本文件
# 使用np.loadtxt()加载文本文件
loaded_array = np.loadtxt(filename)

print("从文本文件加载的数组:")
print(loaded_array)
print(f"加载的数组形状: {loaded_array.shape}")
print(f"加载的数组数据类型: {loaded_array.dtype}")

# 验证加载的数组与原数组是否相同
original_array = np.random.seed(42)
original_array = np.random.random((3, 3))

arrays_equal = np.allclose(original_array, loaded_array)
print(f"\n加载的数组与原数组是否相同: {arrays_equal}")

if arrays_equal:
    print("✓ 文件加载成功，数据完整！")
else:
    print("✗ 文件加载可能存在问题！")
# 4. 尝试指定不同的分隔符和格式

"""测试不同的分隔符和格式"""

# 创建测试数组
np.random.seed(42)
test_array = np.random.random((3, 3))

print("=== 测试不同的分隔符和格式 ===")
print("原始数组:")
print(test_array)
print()

# 创建输出目录
output_dir = 'outputs'
os.makedirs(output_dir, exist_ok=True)

# 1. 不同的分隔符测试
delimiters = [',', ';']

print("1. 不同分隔符测试:")
for delimiter in delimiters:
    filename = os.path.join(output_dir, f'array_delim_{delimiter}.txt')
    
    # 保存文件
    np.savetxt(filename, test_array, delimiter=delimiter)
    
    # 加载文件
    loaded = np.loadtxt(filename, delimiter=delimiter)
    
    # 验证
    is_equal = np.allclose(test_array, loaded)
    
    print(f"分隔符 '{delimiter}':")
    print(f"  文件: {filename}")
    print(f"  验证: {'✓ 成功' if is_equal else '✗ 失败'}")
    
    # 显示文件内容（前两行）
    with open(filename, 'r') as f:
        lines = f.readlines()[:2]
        print(f"  内容预览: {lines[0].strip()}")
    print()

# 2. 不同的格式测试
print("2. 不同格式测试:")

formats = [
    ('%.2f', '2位小数'),
    ('%.4f', '4位小数'),
    ('%.8f', '8位小数'),
    ('%d', '整数'),
    ('%.2e', '科学计数法')
]

for fmt, description in formats:
    filename = os.path.join(output_dir, f'array_fmt_{description.replace(" ", "_")}.txt')
    
    try:
        # 保存文件
        np.savetxt(filename, test_array, fmt=fmt)
        
        # 加载文件
        loaded = np.loadtxt(filename)
        
        # 验证（对于整数格式可能不精确）
        if fmt == '%d':
            is_equal = np.allclose(test_array.astype(int), loaded)
        else:
            is_equal = np.allclose(test_array, loaded)
        
        print(f"格式 '{description}':")
        print(f"  文件: {filename}")
        print(f"  验证: {'✓ 成功' if is_equal else '✗ 失败（预期）'}")
        
        # 显示文件内容
        with open(filename, 'r') as f:
            content = f.read().split('\n')[0]
            print(f"  内容: {content}")
        print()
        
    except Exception as e:
        print(f"格式 '{description}' 失败: {e}")
        print()

# 3. 组合测试：分隔符+格式+头部
print("3. 组合测试（分隔符+格式+头部）:")

# 创建一个更复杂的保存
filename = os.path.join(output_dir, 'array_complex.txt')

# 保存时添加头部注释、指定分隔符和格式
header = "# 这是一个3x3的随机数组\n# 创建时间: 2024"
np.savetxt(filename, test_array, 
            delimiter=',', 
            fmt='%.4f',
            header=header,
            comments='')

print("复杂格式保存:")
print(f"  文件: {filename}")

# 显示完整文件内容
with open(filename, 'r') as f:
    content = f.read()
    print("  完整内容:")
    print(content)

# 加载时跳过头部行
loaded = np.loadtxt(filename, delimiter=',', skiprows=2)
is_equal = np.allclose(test_array, loaded)
print(f"  加载验证: {'✓ 成功' if is_equal else '✗ 失败'}")
print()


# 在这里编写你的代码：


## 第11章：实用函数

### 学习目标
- 掌握NumPy的实用函数
- 学会排序和搜索操作
- 理解集合操作

### 重要函数
- `np.sort()`：排序数组
- `np.argsort()`：返回排序索引
- `np.unique()`：找出唯一值
- `np.intersect1d()`：交集
- `np.union1d()`：并集

In [None]:
# 任务28：排序操作
# 要求：
# 1. 创建一个包含随机数的数组
arr = np.random.randint(size=(3, 2), low=0, high=10)
print("包含随机数的数组")
print(arr)
# 2. 使用np.sort()进行排序
arr_sort = np.sort(arr)
print("使用np.sort()进行排序")
print(arr_sort)
# 3. 使用np.argsort()获取排序索引
arr_argsort = np.argsort(arr)
print("使用np.argsort()获取排序索引")
print(arr_argsort)
# 4. 对二维数组沿不同轴进行排序
arr_sort_axis1 = np.sort(arr, axis=0)
print("对二维数组沿axis=0进行排序")
print(arr_sort_axis1)

In [None]:
# 任务29：唯一值和集合操作
# 要求：
# 1. 创建一个包含重复元素的数组
arr = np.random.randint(size=(3, 3), low=0, high=5)
print("数组为:")
print(arr)
# 2. 使用np.unique()找出唯一值
unique = np.unique(arr)
print("唯一值为:")
print(unique)
# 3. 创建两个数组，计算它们的交集
A = np.random.randint(size=(3, 3), low=0, high=5)
B = np.random.randint(size=(3, 3), low=0, high=5)
print(f"A数组为: \n {A}")
print(f"B数组为: \n {B}")
print("交集为:")
print(np.intersect1d(A, B))
# 4. 计算两个数组的并集
print("并集为:")
print(np.union1d(A, B))

## 第12章：综合实战

### 学习目标
- 综合运用所学的NumPy知识
- 解决实际问题
- 提高编程能力

### 实战项目
1. **数据分析**：使用NumPy处理和分析数据
2. **算法实现**：用NumPy实现简单算法
3. **性能优化**：比较NumPy和Python循环的性能

In [None]:
# 任务30：数据分析实战
# 要求：
# 1. 创建一个包含学生成绩的数组（5个学生，3门课程）
np.random.seed(42)
# 创建学生成绩数组（5个学生，3门课程）
# 成绩范围：60-100分
grades = np.random.randint(low=60, high=101, size=(5, 3))
students = ['学生A', '学生B', '学生C', '学生D', '学生E']
courses = ['数学', '英语', '物理']
print("成绩详情: ")
for i, student in enumerate(students):
    print(f"{student}: {courses[0]}={grades[i, 0]}分, {courses[1]}={grades[i, 1]}分, {courses[2]}={grades[i, 2]}分")
# 2. 计算每个学生的总分和平均分
total_scores = np.sum(grades, axis=1)
average_scores = np.mean(grades, axis=1)
print("\n")
print("学生\t总分\t平均分")
print("-"*25)
for i, student in enumerate(students):
    print(f"{student}\t{total_scores[i]}\t{average_scores[i]:.1f}")
# 3. 计算每门课程的平均分和标准差
# 计算每门课程的平均分（沿轴0求平均）
course_averages = np.mean(grades, axis=0)

# 计算每门课程的标准差（沿轴0求标准差）
course_stds = np.std(grades, axis=0)

# 计算每门课程的其他统计信息
course_mins = np.min(grades, axis=0)  # 最低分
course_maxs = np.max(grades, axis=0)  # 最高分
course_medians = np.median(grades, axis=0)  # 中位数

print("\n")
print("课程\t平均分\t标准差\t最低分\t最高分\t中位数")
print("-" * 55)

for i, course in enumerate(courses):
    print(f"{course}\t{course_averages[i]:.1f}\t{course_stds[i]:.1f}\t\t{course_mins[i]}\t{course_maxs[i]}\t{course_medians[i]:.1f}")

# 4. 找出每门课程的最高分和最低分
course_maxs = np.max(grades, axis=0)
course_mins = np.min(grades, axis=0)

# 找出获得最高分和最低分的学生索引
max_indices = np.argmax(grades, axis=0)
min_indices = np.argmin(grades, axis=0)

print("\n")
print("课程\t最高分\t学生\t最低分\t学生")
print("-" * 35)

for i, course in enumerate(courses):
    max_student = students[max_indices[i]]
    min_student = students[min_indices[i]]
    print(f"{course}\t{course_maxs[i]}\t{max_student}\t{course_mins[i]}\t{min_student}")

# 5. 对学生按总分进行排序
# 计算总分
total_scores = np.sum(grades, axis=1)

# 方法1：使用argsort获取排序索引
sorted_indices = np.argsort(total_scores)[::-1]  # [::-1]表示降序排列

print("\n")
print("排名\t学生\t总分\t平均分\t数学\t英语\t物理")
print("-" * 50)

for rank, idx in enumerate(sorted_indices, 1):
    student = students[idx]
    total = total_scores[idx]
    average = np.mean(grades[idx])
    math_score = grades[idx, 0]
    english_score = grades[idx, 1]
    physics_score = grades[idx, 2]
    print(f"{rank}\t{student}\t{total}\t{average:.1f}\t{math_score}\t{english_score}\t{physics_score}")

In [None]:
# 任务31：线性回归实现
# 要求：
# 1. 创建一些线性数据（y = 2x + 1 + 噪声）
import numpy as np
import matplotlib.pyplot as plt 
from matplotlib.font_manager import FontProperties
font_prop = FontProperties("SimHei")
plt.rcParams['font.family'] = font_prop.get_name()
# 设置随机种子 
np.random.seed(42)

# 创建x数据
n_samples = 50
x = np.linspace(0, 10, n_samples)

# 真的线性关系
true_slope = 2
true_intercept = 1
y_true = true_slope * x + true_intercept

# 添加噪声
# 均值为0，标准差为2的正态噪声
noise = np.random.normal(0, 2, n_samples)
y = y_true + noise

plt.figure(figsize=(10, 6))
plt.scatter(x, y, alpha=0.7, label='观测数据')
plt.plot(x, y_true, 'r-', linewidth=2, label='真实关系')
plt.xlabel('x')
plt.ylabel('y')
plt.title('线性数据生成 (y = 2x + 1 + 噪声)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# 2. 使用NumPy实现最小二乘法
print("=== 最小二乘法实现 ===")

# 方法1：使用正规方程 (Normal Equation)
# 对于线性回归 y = wx + b，我们需要解: (X^T * X) * w = X^T * y
# 其中 X 是设计矩阵，第一列全为1（对应截距），第二列是x值

def least_squares_normal_equation(x, y):
    """使用正规方程实现最小二乘法"""
    
    # 构建设计矩阵 X
    # X = [1, x]，其中1对应截距项
    X = np.column_stack([np.ones(len(x)), x])
    
    # 计算系数: w = (X^T * X)^(-1) * X^T * y
    X_transpose = X.T
    XTX = X_transpose @ X
    XTy = X_transpose @ y
    
    # 解线性方程组
    coefficients = np.linalg.solve(XTX, XTy)
    
    return coefficients[1], coefficients[0]  # 返回斜率和截距

# 计算斜率和截距
estimated_slope, estimated_intercept = least_squares_normal_equation(x, y)

print(f"估计的斜率: {estimated_slope:.4f}")
print(f"估计的截距: {estimated_intercept:.4f}")
print(f"真实的斜率: {true_slope}")
print(f"真实的截距: {true_intercept}")
print()

# 计算误差
slope_error = abs(estimated_slope - true_slope)
intercept_error = abs(estimated_intercept - true_intercept)

print(f"斜率误差: {slope_error:.4f}")
print(f"截距误差: {intercept_error:.4f}")

# 方法2：使用NumPy的polyfit函数
print("\n=== 方法2：使用np.polyfit ===")
polyfit_coefficients = np.polyfit(x, y, 1)  # 1表示线性拟合
polyfit_slope = polyfit_coefficients[0]
polyfit_intercept = polyfit_coefficients[1]

print(f"polyfit斜率: {polyfit_slope:.4f}")
print(f"polyfit截距: {polyfit_intercept:.4f}")
print(f"与正规方程结果一致: {abs(estimated_slope - polyfit_slope) < 1e-10 and abs(estimated_intercept - polyfit_intercept) < 1e-10}")

# 方法3：使用协方差方法
print("\n=== 方法3：使用协方差方法 ===")

def least_squares_covariance(x, y):
    """使用协方差方法实现最小二乘法"""
    
    # 计算均值
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    
    # 计算斜率: w = cov(x, y) / var(x)
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sum((x - x_mean) ** 2)
    
    slope = numerator / denominator
    
    # 计算截距: b = y_mean - w * x_mean
    intercept = y_mean - slope * x_mean
    
    return slope, intercept

cov_slope, cov_intercept = least_squares_covariance(x, y)

print(f"协方差方法斜率: {cov_slope:.4f}")
print(f"协方差方法截距: {cov_intercept:.4f}")
print(f"与正规方程结果一致: {abs(estimated_slope - cov_slope) < 1e-10 and abs(estimated_intercept - cov_intercept) < 1e-10}")


In [None]:
# 3. 计算斜率和截距
print("=== 斜率和截距计算详细分析 ===")

# 使用正规方程方法
def detailed_least_squares(x, y):
    """详细的最小二乘法实现"""
    
    # 1. 构建设计矩阵
    X = np.column_stack([np.ones(len(x)), x])
    print("1. 设计矩阵 X (前5行):")
    print(X[:5])
    print(f"   设计矩阵形状: {X.shape}")
    print()
    
    # 2. 计算 X^T * X
    XTX = X.T @ X
    print("2. X^T * X:")
    print(XTX)
    print()
    
    # 3. 计算 X^T * y
    XTy = X.T @ y
    print("3. X^T * y:")
    print(XTy)
    print()
    
    # 4. 解方程组
    try:
        coefficients = np.linalg.solve(XTX, XTy)
        print("4. 解得的系数:")
        print(f"   截距: {coefficients[0]:.4f}")
        print(f"   斜率: {coefficients[1]:.4f}")
        print()
        
        # 5. 验证解的正确性
        verification = XTX @ coefficients
        print("5. 验证 (XTX * coefficients):")
        print(verification)
        print("应该等于 XTy:")
        print(XTy)
        print(f"验证成功: {np.allclose(verification, XTy)}")
        print()
        
        return coefficients[1], coefficients[0]
        
    except np.linalg.LinAlgError as e:
        print(f"解方程失败: {e}")
        return None, None

# 执行详细计算
estimated_slope, estimated_intercept = detailed_least_squares(x, y)

# 统计显著性分析
print("=== 统计显著性分析 ===")

def calculate_statistics(x, y, slope, intercept):
    """计算回归统计量"""
    
    # 预测值
    y_pred = slope * x + intercept
    
    # 计算总平方和 (SST)
    y_mean = np.mean(y)
    SST = np.sum((y - y_mean) ** 2)
    
    # 计算回归平方和 (SSR)
    SSR = np.sum((y_pred - y_mean) ** 2)
    
    # 计算残差平方和 (SSE)
    SSE = np.sum((y - y_pred) ** 2)
    
    # 计算R平方
    R_squared = SSR / SST
    
    # 计算调整R平方
    n = len(y)
    p = 1  # 预测变量数量
    adjusted_R_squared = 1 - (1 - R_squared) * (n - 1) / (n - p - 1)
    
    # 计算标准误差
    MSE = SSE / (n - p - 1)  # 均方误差
    RMSE = np.sqrt(MSE)  # 均方根误差
    
    # 计算斜率的标准误差
    x_mean = np.mean(x)
    se_slope = np.sqrt(MSE / np.sum((x - x_mean) ** 2))
    
    # 计算截距的标准误差
    se_intercept = np.sqrt(MSE * (1/n + x_mean**2 / np.sum((x - x_mean) ** 2)))
    
    # 计算t统计量
    t_slope = slope / se_slope
    t_intercept = intercept / se_intercept
    
    return {
        'R_squared': R_squared,
        'adjusted_R_squared': adjusted_R_squared,
        'RMSE': RMSE,
        'se_slope': se_slope,
        'se_intercept': se_intercept,
        't_slope': t_slope,
        't_intercept': t_intercept,
        'SST': SST,
        'SSR': SSR,
        'SSE': SSE
    }

stats = calculate_statistics(x, y, estimated_slope, estimated_intercept)

print("回归统计量:")
print(f"R平方: {stats['R_squared']:.4f}")
print(f"调整R平方: {stats['adjusted_R_squared']:.4f}")
print(f"均方根误差 (RMSE): {stats['RMSE']:.4f}")
print()
print("系数标准误差:")
print(f"斜率标准误差: {stats['se_slope']:.4f}")
print(f"截距标准误差: {stats['se_intercept']:.4f}")
print()
print("t统计量:")
print(f"斜率t值: {stats['t_slope']:.4f}")
print(f"截距t值: {stats['t_intercept']:.4f}")
print()
print("平方和分解:")
print(f"总平方和 (SST): {stats['SST']:.4f}")
print(f"回归平方和 (SSR): {stats['SSR']:.4f}")
print(f"残差平方和 (SSE): {stats['SSE']:.4f}")
print(f"验证 SST = SSR + SSE: {np.isclose(stats['SST'], stats['SSR'] + stats['SSE'])}")


In [None]:
# 4. 预测新的x值对应的y值
# 拟合模型
estimated_slope, estimated_intercept = least_squares_normal_equation(x, y)

print("=== 预测新值 ===")
print(f"拟合模型: y = {estimated_slope:.4f}x + {estimated_intercept:.4f}")

# 创建新的x值进行预测
new_x_values = np.array([-1, 2, 5, 8, 11, 15])

# 预测对应的y值
predicted_y = estimated_slope * new_x_values + estimated_intercept

print("\n预测结果:")
print("新x值\t预测y值\t真实y值\t预测误差")
print("-" * 45)

for i, new_x in enumerate(new_x_values):
    pred_y = predicted_y[i]
    true_y = true_slope * new_x + true_intercept
    error = pred_y - true_y
    
    print(f"{new_x:4.1f}\t{pred_y:7.2f}\t{true_y:7.2f}\t{error:7.2f}")

# 预测区间计算
def calculate_prediction_interval(x_new, x_data, y_data, slope, intercept, confidence=0.95):
    """计算预测区间"""
    
    # 计算预测值
    y_pred = slope * x_new + intercept
    
    # 计算残差
    y_pred_data = slope * x_data + intercept
    residuals = y_data - y_pred_data
    
    # 计算MSE
    n = len(y_data)
    p = 1  # 预测变量数量
    MSE = np.sum(residuals**2) / (n - p - 1)
    
    # 计算x的均值和离差平方和
    x_mean = np.mean(x_data)
    SSX = np.sum((x_data - x_mean) ** 2)
    
    # 计算预测的标准误差
    se_pred = np.sqrt(MSE * (1 + 1/n + (x_new - x_mean)**2 / SSX))
    
    # 计算t值
    from scipy import stats
    t_value = stats.t.ppf((1 + confidence) / 2, n - p - 1)
    
    # 计算预测区间
    margin_of_error = t_value * se_pred
    lower_bound = y_pred - margin_of_error
    upper_bound = y_pred + margin_of_error
    
    return y_pred, lower_bound, upper_bound, margin_of_error

print(f"\n=== 预测区间分析 (95%置信度) ===")
print("新x值\t预测值\t下限\t上限\t区间宽度")
print("-" * 50)

for new_x in new_x_values:
    y_pred, lower, upper, margin = calculate_prediction_interval(
        new_x, x, y, estimated_slope, estimated_intercept
    )
    
    print(f"{new_x:4.1f}\t{y_pred:7.2f}\t{lower:7.2f}\t{upper:7.2f}\t{2*margin:7.2f}")

# 可视化预测结果
plt.figure(figsize=(12, 8))

# 原始数据
plt.scatter(x, y, alpha=0.7, label='原始数据', color='blue')

# 真实关系
plt.plot(x, y_true, 'r-', linewidth=2, label='真实关系', alpha=0.8)

# 拟合线
plt.plot(x, estimated_slope * x + estimated_intercept, 'g--', 
         linewidth=2, label='拟合线', alpha=0.8)

# 预测点
plt.scatter(new_x_values, predicted_y, color='red', s=100, 
           marker='s', label='预测点', alpha=0.8, edgecolors='black')

# 预测区间（对于原始数据范围）
x_range = np.linspace(min(x), max(x), 100)
y_pred_range = estimated_slope * x_range + estimated_intercept

# 计算预测区间边界
lower_bounds = []
upper_bounds = []

for x_val in x_range:
    _, lower, upper, _ = calculate_prediction_interval(
        x_val, x, y, estimated_slope, estimated_intercept
    )
    lower_bounds.append(lower)
    upper_bounds.append(upper)

plt.fill_between(x_range, lower_bounds, upper_bounds, 
                alpha=0.2, color='green', label='95%预测区间')

plt.xlabel('x')
plt.ylabel('y')
plt.title('线性回归预测结果')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()

# 外推预测分析
print(f"\n=== 外推预测分析 ===")
print("注意：外推预测（超出原始数据范围）的可靠性较低")
print("原始x范围:", f"[{min(x):.1f}, {max(x):.1f}]")
print("外推点:", [x_val for x_val in new_x_values if x_val < min(x) or x_val > max(x)])


In [None]:
# 5. 计算预测误差
print("=== 预测误差分析 ===")

# 计算原始数据的预测值
y_pred = estimated_slope * x + estimated_intercept

# 计算各种误差指标
def calculate_errors(y_true, y_pred):
    """计算各种误差指标"""
    
    # 1. 残差 (Residuals)
    residuals = y_true - y_pred
    
    # 2. 平均绝对误差 (MAE)
    MAE = np.mean(np.abs(residuals))
    
    # 3. 均方误差 (MSE)
    MSE = np.mean(residuals ** 2)
    
    # 4. 均方根误差 (RMSE)
    RMSE = np.sqrt(MSE)
    
    # 5. 平均绝对百分比误差 (MAPE)
    # 避免除零，添加小常数
    MAPE = np.mean(np.abs((y_true - y_pred) / (y_true + 1e-10))) * 100
    
    # 6. R平方 (R-squared)
    y_mean = np.mean(y_true)
    SST = np.sum((y_true - y_mean) ** 2)
    SSR = np.sum((y_pred - y_mean) ** 2)
    R_squared = SSR / SST
    
    # 7. 调整R平方
    n = len(y_true)
    p = 1  # 预测变量数量
    adjusted_R_squared = 1 - (1 - R_squared) * (n - 1) / (n - p - 1)
    
    # 8. 最大误差
    max_error = np.max(np.abs(residuals))
    
    # 9. 中位数绝对误差
    median_abs_error = np.median(np.abs(residuals))
    
    return {
        'residuals': residuals,
        'MAE': MAE,
        'MSE': MSE,
        'RMSE': RMSE,
        'MAPE': MAPE,
        'R_squared': R_squared,
        'adjusted_R_squared': adjusted_R_squared,
        'max_error': max_error,
        'median_abs_error': median_abs_error
    }

# 计算误差
errors = calculate_errors(y, y_pred)

print("误差指标:")
print(f"平均绝对误差 (MAE): {errors['MAE']:.4f}")
print(f"均方误差 (MSE): {errors['MSE']:.4f}")
print(f"均方根误差 (RMSE): {errors['RMSE']:.4f}")
print(f"平均绝对百分比误差 (MAPE): {errors['MAPE']:.2f}%")
print(f"R平方: {errors['R_squared']:.4f}")
print(f"调整R平方: {errors['adjusted_R_squared']:.4f}")
print(f"最大误差: {errors['max_error']:.4f}")
print(f"中位数绝对误差: {errors['median_abs_error']:.4f}")

# 残差分析
print(f"\n=== 残差分析 ===")
residuals = errors['residuals']

print("残差统计:")
print(f"均值: {np.mean(residuals):.6f} (应该接近0)")
print(f"标准差: {np.std(residuals):.4f}")
print(f"最小值: {np.min(residuals):.4f}")
print(f"最大值: {np.max(residuals):.4f}")
print(f"中位数: {np.median(residuals):.4f}")

# 残差正态性检验
def normality_test(residuals):
    """简单的正态性检验"""
    
    # 计算偏度和峰度
    from scipy import stats
    
    skewness = stats.skew(residuals)
    kurtosis = stats.kurtosis(residuals)
    
    # Shapiro-Wilk检验
    shapiro_stat, shapiro_p = stats.shapiro(residuals)
    
    return {
        'skewness': skewness,
        'kurtosis': kurtosis,
        'shapiro_stat': shapiro_stat,
        'shapiro_p': shapiro_p
    }

try:
    normality_results = normality_test(residuals)
    print(f"\n残差正态性检验:")
    print(f"偏度: {normality_results['skewness']:.4f} (理想值: 0)")
    print(f"峰度: {normality_results['kurtosis']:.4f} (理想值: 0)")
    print(f"Shapiro-Wilk检验: 统计量={normality_results['shapiro_stat']:.4f}, p值={normality_results['shapiro_p']:.4f}")
    print(f"正态性假设: {'接受' if normality_results['shapiro_p'] > 0.05 else '拒绝'} (α=0.05)")
except ImportError:
    print("\n需要安装scipy进行正态性检验")

# 残差可视化
plt.figure(figsize=(15, 10))

# 1. 残差 vs 拟合值
plt.subplot(2, 2, 1)
plt.scatter(y_pred, residuals, alpha=0.7)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('拟合值')
plt.ylabel('残差')
plt.title('残差 vs 拟合值')
plt.grid(True, alpha=0.3)

# 2. 残差 vs x值
plt.subplot(2, 2, 2)
plt.scatter(x, residuals, alpha=0.7)
plt.axhline(y=0, color='r', linestyle='--')
plt.xlabel('x值')
plt.ylabel('残差')
plt.title('残差 vs x值')
plt.grid(True, alpha=0.3)

# 3. 残差直方图
plt.subplot(2, 2, 3)
plt.hist(residuals, bins=15, alpha=0.7, density=True, edgecolor='black')
plt.xlabel('残差')
plt.ylabel('密度')
plt.title('残差分布直方图')
plt.grid(True, alpha=0.3)

# 4. Q-Q图
try:
    from scipy import stats
    plt.subplot(2, 2, 4)
    stats.probplot(residuals, dist="norm", plot=plt)
    plt.title('残差Q-Q图')
    plt.grid(True, alpha=0.3)
except ImportError:
    plt.subplot(2, 2, 4)
    plt.text(0.5, 0.5, '需要安装scipy\n显示Q-Q图', 
             ha='center', va='center', transform=plt.gca().transAxes)
    plt.title('残差Q-Q图')

plt.tight_layout()
plt.show()

# 误差分解分析
print(f"\n=== 误差分解分析 ===")

# 总误差分解
total_variance = np.var(y)
explained_variance = np.var(y_pred)
residual_variance = np.var(residuals)

print("方差分解:")
print(f"总方差: {total_variance:.4f}")
print(f"解释方差: {explained_variance:.4f}")
print(f"残差方差: {residual_variance:.4f}")
print(f"方差解释比例: {explained_variance/total_variance*100:.1f}%")
print(f"验证: 总方差 = 解释方差 + 残差方差")
print(f"      {total_variance:.4f} ≈ {explained_variance + residual_variance:.4f}")

# 交叉验证评估
print(f"\n=== 交叉验证评估 ===")

def simple_cross_validation(x, y, k=5):
    """简单的k折交叉验证"""
    
    n = len(x)
    fold_size = n // k
    indices = np.arange(n)
    np.random.shuffle(indices)
    
    cv_errors = []
    
    for i in range(k):
        # 划分训练集和验证集
        start_idx = i * fold_size
        end_idx = (i + 1) * fold_size if i < k - 1 else n
        
        val_indices = indices[start_idx:end_idx]
        train_indices = np.concatenate([indices[:start_idx], indices[end_idx:]])
        
        # 训练模型
        x_train, y_train = x[train_indices], y[train_indices]
        slope, intercept = least_squares_normal_equation(x_train, y_train)
        
        # 验证
        x_val, y_val = x[val_indices], y[val_indices]
        y_pred_val = slope * x_val + intercept
        
        # 计算验证误差
        mse_val = np.mean((y_val - y_pred_val) ** 2)
        cv_errors.append(mse_val)
    
    return np.array(cv_errors)

# 执行交叉验证
cv_mse = simple_cross_validation(x, y, k=5)

print(f"交叉验证结果 (5折):")
print(f"各折MSE: {cv_mse}")
print(f"平均MSE: {np.mean(cv_mse):.4f}")
print(f"MSE标准差: {np.std(cv_mse):.4f}")
print(f"训练集MSE: {errors['MSE']:.4f}")
print(f"过拟合程度: {(np.mean(cv_mse) - errors['MSE'])/errors['MSE']*100:.1f}%")
