# 🧮 上机练习2：NumPy 数值计算基础

本 Notebook 包含：
- 题目说明（8 题：数组创建、索引切片、矩阵运算、广播、聚合、随机数、逻辑筛选等）
- 学生作答区（函数骨架，标注了 `# TODO`）

📝 使用方式：
1. 先阅读题目说明；
2. 在“学生作答区”完成实现（不要修改函数名）；

🗓️ 提交说明:

- **命名：SJ2_学号_姓名.pdf**
- **提交至邮箱：qilunluo@m.scnu.edu.cn**
- **提交时间：明天(10/16)晚上 11:59 p.m. 前**
---

## 题目说明

## 题1：创建指定形状与数值的数组

**说明：** 实现 `create_array(n, m, value)`：
- 创建一个形状为 `(n, m)` 的 NumPy 数组；
- 每个元素都为 `value`；
- 数据类型为 `float`。

---

## 题2：生成等差数列并计算平均值

**说明：** 实现 `arange_mean(start, stop, step)`：
- 使用 `np.arange` 生成等差序列；
- 返回该数组的平均值。

---

## 题3：找出数组中大于平均值的元素

**说明：** 实现 `greater_than_mean(arr)`：
- 输入 1D 数组；
- 返回所有**大于平均值**的元素组成的新数组。

---

## 题4：生成随机数组并归一化

**说明：** 实现 `normalize_random(size)`：
- 生成 `[0, 1)` 区间的随机浮点数组；
- 长度为 `size`；
- 返回**归一化后**的数组，使其和为 1。

---

## 题5：计算矩阵的对角线差值

**说明：** 实现 `diag_diff(mat)`：
- 计算矩阵主对角线与副对角线元素之和的差；
- 返回 `abs(主对角和 - 副对角和)`。

---

## 题6：按行标准化（Z-score）

**说明：** 实现 `standardize_rows(X, eps=1e-8)`：
- 对二维数组 `X` **逐行**做标准化：`(x - 均值) / (标准差)`；
- 当标准差接近 0 时，用 `eps` 防止除零。返回与 `X` 同形状数组。

---

## 题7：两组向量的两两欧氏距离（矢量化）

**说明：** 实现 `pairwise_distances(A, B)`：
- 输入 `A` 形状 `(m, d)`，`B` 形状 `(n, d)`；
- 返回形状 `(m, n)` 的距离矩阵，**不使用 Python for 循环**。

---

## 题8：线性最小二乘（伪逆解 + MSE）

**说明：** 实现 `least_squares_theta(X, y)`：
- 给定 `X`(n×d)、`y`(n,)，使用 `np.linalg.pinv` 计算 `θ = pinv(X) @ y`
- 同时返回训练集均方误差 `MSE = mean((X@θ - y)^2)`。
- 返回 `(theta, mse)`。

---
## 学生作答区（请在下方函数中完成 TODO，不要改函数名/参数）

### 环境准备
运行下方单元格以导入 NumPy。

In [26]:
import numpy as np
np.__version__

'2.2.4'

In [5]:
# —— 题1 ——
def create_array(n: int, m: int, value: float) -> np.ndarray:
    # TODO: 创建形状 (n, m) 的数组，所有元素为 value，类型为 float
    return np.full((n, m), value, dtype=float)
    raise NotImplementedError
    

# —— 题2 ——
def arange_mean(start: float, stop: float, step: float) -> float:
    # TODO: 用 np.arange 生成数组，返回平均值
    warray = np.arange(start, stop, step)
    return warray.mean()
    raise NotImplementedError


# —— 题3 ——
def greater_than_mean(arr: np.ndarray) -> np.ndarray:
    # TODO: 逻辑筛选，返回大于 arr.mean() 的元素
    mask = arr > arr.mean()
    return (arr[mask])
    raise NotImplementedError


# —— 题4 ——
def normalize_random(size: int) -> np.ndarray:
    # TODO: np.random.rand + 除以总和
    arr = np.random.rand(5)
    return arr/arr.sum()
    raise NotImplementedError


# —— 题5 ——
def diag_diff(mat: np.ndarray) -> float:
    # TODO: np.trace + np.fliplr
    if mat.shape[0] != mat.shape[1]:
        raise IndexError("矩阵不是方阵")
    return np.trace - np.fliplr
    raise NotImplementedError


# —— 题6 ——
def standardize_rows(X: np.ndarray, eps: float = 1e-8) -> np.ndarray:
    # TODO: 逐行标准化；注意保持形状广播 (n,1)
    row_means = X.mean(axis=1, keepdims=True)
    row_stds = X.std(axis=1, keepdims=True)
    standardized_X = (X - row_means) / (row_stds + eps)
    return standardized_X
    raise NotImplementedError
        

# —— 题7 ——
def pairwise_distances(A: np.ndarray, B: np.ndarray) -> np.ndarray:
    # TODO: 使用 (a^2 + b^2 - 2ab) 的展开式矢量化实现
    A_squared = np.sum(A**2, axis=1, keepdims=True)
    B_squared = np.sum(B**2, axis=1)
    dot_product = -2 * (A @ B.T)
    D_squared = A_squared + B_squared + dot_product
    D_squared = np.maximum(D_squared, 0)
    return D_squared
    raise NotImplementedError


# —— 题8 ——
def least_squares_theta(X: np.ndarray, y: np.ndarray) -> tuple[np.ndarray, float]:
    # TODO: θ = pinv(X) @ y；并返回 MSE
    X_pinv = np.linalg.pinv(X)
    theta = X_pinv @ y
    y_pred = X @ theta
    residuals = y - y_pred
    mse = np.mean(residuals**2)
    return theta, mse
    raise NotImplementedError

---
## 示例

In [27]:
def create_array(n: int, m: int, value: float) -> np.ndarray:
    return np.full((n, m), value, dtype=float)

In [28]:
print(create_array(2, 3, 5.5))

[[5.5 5.5 5.5]
 [5.5 5.5 5.5]]


In [29]:
def arange_mean(start: float, stop: float, step: float) -> float:
    # TODO: 用 np.arange 生成数组，返回平均值
    warray = np.arange(start, stop, step)
    return warray.mean()
arange_mean(0,10,1)

np.float64(4.5)

In [30]:
def greater_than_mean(arr: np.ndarray) -> np.ndarray:
    # TODO: 逻辑筛选，返回大于 arr.mean() 的元素
    mask = arr > arr.mean()
    return (arr[mask])
greater_than_mean(np.arange(0,10,1))

array([5, 6, 7, 8, 9])

In [31]:
def normalize_random(size: int) -> np.ndarray:
    # TODO: np.random.rand + 除以总和
    arr = np.random.rand(5)
    return arr/arr.sum()
normalize_random(5)

array([0.47947873, 0.01617377, 0.25375627, 0.20690833, 0.04368291])

In [32]:
def diag_diff(mat: np.ndarray) -> float:
    # TODO: np.trace + np.fliplr
    if mat.shape[0] != mat.shape[1]:
        raise IndexError("矩阵不是方阵")
    return np.trace(mat) - np.trace(np.fliplr(mat))
diag_diff(np.diag([1,2,2,1]))

np.int64(6)

In [33]:
def standardize_rows(X: np.ndarray, eps: float = 1e-8) -> np.ndarray:
    # TODO: 逐行标准化；注意保持形状广播 (n,1)
    row_means = X.mean(axis=1, keepdims=True)
    row_stds = X.std(axis=1, keepdims=True)
    standardized_X = (X - row_means) / (row_stds + eps)
    return standardized_X
standardize_rows(np.array([[1,1.1,1],[1,4,5],[2,4,10]]))

array([[-0.70710663,  1.41421326, -0.70710663],
       [-1.37281294,  0.39223227,  0.98058067],
       [-0.98058067, -0.39223227,  1.37281294]])

In [35]:
def pairwise_distances(A: np.ndarray, B: np.ndarray) -> np.ndarray:
    # TODO: 使用 (a^2 + b^2 - 2ab) 的展开式矢量化实现
    A_squared = np.sum(A**2, axis=1, keepdims=True)
    B_squared = np.sum(B**2, axis=1)
    dot_product = -2 * (A @ B.T)
    D_squared = A_squared + B_squared + dot_product
    D_squared = np.maximum(D_squared, 0)
    D = np.sqrt(D_squared)
    return D
pairwise_distances(np.array([[0,0],[1,0],[1,1]]),np.array([[1,0],[0,1]]))

array([[1.        , 1.        ],
       [0.        , 1.41421356],
       [1.        , 1.        ]])

In [36]:
def least_squares_theta(X: np.ndarray, y: np.ndarray) -> tuple[np.ndarray, float]:
    # TODO: θ = pinv(X) @ y；并返回 MSE
    X_pinv = np.linalg.pinv(X)
    theta = X_pinv @ y
    y_pred = X @ theta
    residuals = y - y_pred
    mse = np.mean(residuals**2)
    return theta, mse
X = np.array([[1, 1],[1, 2], [1, 3]])
Y = np.array([5, 8, 11])
a = least_squares_theta(X, Y)
b = X @ a[0]
print(a,b)

(array([2., 3.]), np.float64(5.259072701473412e-30)) [ 5.  8. 11.]
