# numpy

- NumPy（Numerical Python）是 Python 生态中最重要的科学计算库之一。  
- 它提供了高效的 **多维数组对象（ndarray）**，以及丰富的数值运算函数。  
- NumPy 是许多科学与数据分析库的基础（如 Pandas、SciPy、scikit-learn、TensorFlow）。  
- 在数值计算、信号处理、机器学习和数据可视化中，NumPy 扮演着“底层引擎”的角色。  

## 与 Python 内置 list 的比较
### 1. 存储方式
- Python 的 `list` 是“对象数组”，每个元素都是一个独立的对象，存储分散，效率低。  
- NumPy 的 `ndarray` 是“连续内存块”，所有元素类型相同，存储更紧凑。  

### 2. 运算速度
- `list` 在做逐元素运算时必须写显式循环，效率低；  
- `ndarray` 使用底层 C/Fortran 实现的向量化操作，效率高。  

### 3. 向量化计算
- `list`：`[x**2 for x in mylist]`  
- `ndarray`：`arr**2`（无需循环，简洁高效）。  

---

In [158]:
import numpy as np

In [159]:
import time ## import 内置的时间函数库

In [160]:
# Python list 运算
L = list(range(1_000_000))
start = time.time()
L2 = [x**2 for x in L]
print("list 计算耗时:", time.time() - start)

list 计算耗时: 0.02834296226501465


In [161]:

# NumPy array 运算
A = np.arange(1_000_000)
start = time.time()
A2 = A**2
print("numpy 计算耗时:", time.time() - start)


numpy 计算耗时: 0.0035049915313720703


### NumPy 与 Python list 的对比

| 特性            | Python list                           | NumPy ndarray                            |
|-----------------|---------------------------------------|------------------------------------------|
| **存储方式**    | 元素是对象指针，分散存储              | 连续内存块，元素类型统一，存储紧凑       |
| **数据类型**    | 可混合不同类型（int, float, str 等） | 必须相同类型（可指定 dtype，如 float32） |
| **运算方式**    | 需要显式循环（如列表推导式）          | 向量化操作，直接对数组整体运算           |
| **运算效率**    | 纯 Python，效率较低                   | 基于 C/Fortran 实现，效率高              |
| **功能扩展**    | 仅支持基本操作                        | 丰富的科学计算函数库（线性代数、FFT 等） |
| **内存占用**    | 较大（存储指针和对象开销）            | 较小（连续存储，内存紧凑）               |
| **应用场景**    | 通用容器，适合小规模数据存储与操作    | 科学计算、数据分析、机器学习等大规模计算 |


### Python 中的 `import ... as ...` 用法

#### 1. 基本逻辑

- `import 模块名`：正常导入模块。  
- `import 模块名 as 别名`：给模块起一个别名，在当前代码作用域中使用该别名来调用模块。  
- **目的**：简化书写、避免冲突、提高可读性。

#### 2. 使用场景 1：简化调用

有些模块名较长，起别名后能让代码更简洁。

常见约定：
- `numpy → np`
- `pandas → pd`
- `matplotlib.pyplot → plt`

#### 3. 使用场景 2：避免命名冲突

不同模块可能提供相同的函数名（如 `mean`），通过别名可以区分。


In [163]:
import math as m

print(m.sqrt(16))  # 使用别名 m 调用 sqrt

4.0


In [164]:
import numpy as np
import pandas as pd

a = np.array([1, 2, 3])
df = pd.DataFrame({'A': [1,2], 'B':[3,4]})

print("NumPy 数组:", a)
print("Pandas 数据框:\n", df)


NumPy 数组: [1 2 3]
Pandas 数据框:
    A  B
0  1  3
1  2  4


In [7]:
import statistics as stat
import numpy as np

print("statistics.mean:", stat.mean([1,2,3]))
print("numpy.mean:", np.mean([1,2,3]))

statistics.mean: 2
numpy.mean: 2.0


### Python 中的 `from ... import ...` 用法讲义

包括基本语法、起别名、导入多个成员，以及为什么不要用 `*`。

#### 1. 基本语法

语法：
```python
from 模块名 import 成员名
```

In [8]:
from math import sqrt, pi

print(sqrt(16))   # 4.0
print(pi)         # 3.141592653589793

4.0
3.141592653589793


#### 2. 导入多个成员: 可以在一行里导入多个，也可以分多行写：

In [11]:
from math import sin, cos, tan

print(sin(0), cos(0), tan(0))

# 或者分行导入
from math import (
    exp,
    log,
)
print(exp(1), log(10))

0.0 1.0 0.0
2.718281828459045 2.302585092994046


#### 3. 起别名: 可以为导入的成员起别名，简化书写或避免冲突。

In [9]:
from math import sqrt as s

print(s(25))  # 5.0

5.0


In [12]:
from math import sin as Sin
from math import cos as Cos
from math import tan as Tan

print(Sin(0), Cos(0), Tan(0))

0.0 1.0 0.0


#### 4. 强烈不推荐的用法!!!!

```python
from math import *
```
***问题***：

- ***容易覆盖已有变量或函数名***；

- ***可读性差，别人看不出某个名字来自哪里***；

- ***大型项目中非常危险!!!***


#### 5. 使用场景

- 当只需要少量函数时，用 `from ... import ...` 更简洁；  
- 当需要很多功能时，推荐 `import 模块` 或 `import 模块 as 别名`；  
- **避免使用 `*` 导入**，保持代码清晰可读。


---

## ndarray 基础

NumPy 的核心数据结构是 **`ndarray`（N-dimensional array）**，它是一个多维数组对象，所有元素类型相同，存储在连续的内存块中。相比 Python 内置的 `list`，`ndarray` 更高效，适合大规模数值计算。

### 1. 创建数组
常见方式：
- `np.array()`：由 Python 列表或元组生成；
- `np.zeros()` / `np.ones()`：生成全 0 或全 1 数组；
- `np.arange()`：等差数列；
- `np.linspace()`：指定范围内等间隔点。
- `np.concatenate()`: 合并数据

In [18]:
import numpy as np ## np 是最常见的numpy的缩写

In [19]:
a = np.array([1, 2, 3])
print("a:", a)

a: [1 2 3]


In [14]:
zeros = np.zeros((2, 3))
print("zeros:\n", zeros)


zeros:
 [[0. 0. 0.]
 [0. 0. 0.]]


In [15]:
ones = np.ones((2, 2))
print("ones:\n", ones)

ones:
 [[1. 1.]
 [1. 1.]]


In [16]:
arange = np.arange(0, 10, 2)
print("arange:", arange)

arange: [0 2 4 6 8]


In [17]:
linspace = np.linspace(0, 1, 5)
print("linspace:", linspace)

linspace: [0.   0.25 0.5  0.75 1.  ]


---
### 2. 查看数组属性
常见属性：
- `ndarray.shape`：数组形状（各维度大小）；
- `ndarray.ndim`：数组维度数；
- `ndarray.dtype`：数组元素的数据类型；
- `ndarray.size`：数组元素总数。


In [21]:
arr = np.arange(12).reshape(3, 4)

print("数组:\n", arr)

数组:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [22]:
print("shape:", arr.shape)

shape: (3, 4)


In [23]:
print("ndim:", arr.ndim)

ndim: 2


In [24]:
print("dtype:", arr.dtype)

dtype: int64


In [25]:
print("size:", arr.size)

size: 12


### 数组拼接与追加：`np.concatenate` 与 `np.append`

在科学计算和数据处理中，经常需要将多个数组拼接在一起，或者向已有数组中追加元素。  
NumPy 提供了两个常用函数来实现：`np.concatenate` 和 `np.append`。

| 特性       | `np.concatenate`                  | `np.append`                          |
|------------|-----------------------------------|--------------------------------------|
| 功能       | 拼接多个数组                      | 向数组追加元素                       |
| 参数要求   | 必须传入序列 `(a1, a2, …)`        | 直接传单个数组或标量即可             |
| 默认行为   | 默认 `axis=0`，必须保证维度匹配    | 默认 `axis=None`，会展平再追加        |
| 适用场景   | 多个数组拼接，要求严格            | 快速追加数据，尤其是一维或小规模数组 |

- 如果需要 拼接多个数组（特别是多维情况下），推荐使用 np.concatenate；

- 如果只是 向数组末尾追加数据，np.append 更加简洁；

- 注意 np.append 默认会展平数组，使用时要明确指定 axis 避免出错。

#### `np.concatenate`

**功能**  
- 沿指定轴将多个数组拼接在一起；  
- 要求在非拼接方向上的维度必须相同。  

**语法**  
```python
np.concatenate((a1, a2, ...), axis=0)
```

In [84]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])

# 沿行方向拼接
print(np.concatenate((a, b), axis=0))


[[1 2]
 [3 4]
 [5 6]]


In [85]:

# 沿列方向拼接
c = np.array([[7], [8]])
print(np.concatenate((a, c), axis=1))

[[1 2 7]
 [3 4 8]]


#### `np.append`

***功能***

- 向数组追加值，可以追加标量或数组；

- 默认情况下会先展平为一维再追加。

***语法***
```python
np.append(arr, values, axis=None)
```

In [87]:
arr = np.array([1, 2, 3])

# 默认 axis=None，会展平
print(np.append(arr, [4, 5]))

[1 2 3 4 5]


In [88]:
## 在二维数组上追加
arr2 = np.array([[1, 2], [3, 4]])
arr3 = np.array([[5, 6]])
print(np.append(arr2, arr3, axis=0))

[[1 2]
 [3 4]
 [5 6]]


In [90]:
arr4 = np.array([[7], [8]])
print(np.append(arr2, arr4, axis=1))

[[1 2 7]
 [3 4 8]]


### 练习： 1. 数据创建与属性

某班级有 10 名学生，4 门课程（数学、物理、化学、英语）。
数据存储在一个 `10x4` 的 `NumPy` 数组中，行为学生，列为课程成绩（0–100 的整数）。请完成以下任务

输出该数组`scores`的形状（shape）、维度数（ndim）、元素总数（size）、数据类型（dtype）

给这个10名学生起名字(可以是`A, B, C`,`A1, A2, A3`等)，用上次课的知识，以`姓名：数学：xx，物理：xx，化学：xx，英语 `打印出来

In [71]:
## 学生成绩为
scores = np.random.randint(60, 100, 40).reshape(10, 4)
scores


array([[87, 85, 75, 60],
       [61, 67, 94, 88],
       [78, 82, 61, 81],
       [94, 99, 82, 90],
       [87, 88, 64, 81],
       [97, 74, 78, 94],
       [71, 83, 74, 71],
       [81, 67, 74, 72],
       [84, 61, 74, 84],
       [75, 98, 69, 90]])

In [68]:
## 你的代码



In [72]:
names = [ f'A{_name}' for _name in range(10) ]
names

['A0', 'A1', 'A2', 'A3', 'A4', 'A5', 'A6', 'A7', 'A8', 'A9']

In [None]:
## 你的代码



### 3. 基本运算
- `ndarray` 支持逐元素运算；
- 提供常见的数学函数（如 `np.sqrt`, `np.exp`, `np.log`）；
- 不需要显式循环，效率更高。


In [26]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

print("加法:", x + y)
print("乘法:", x * y)
print("平方:", x**2)
print("平方根:", np.sqrt(x))
print("指数:", np.exp(x))

加法: [5 7 9]
乘法: [ 4 10 18]
平方: [1 4 9]
平方根: [1.         1.41421356 1.73205081]
指数: [ 2.71828183  7.3890561  20.08553692]


---
### ndarray 的索引与切片

NumPy 的 `ndarray` 支持和 Python 列表类似的索引与切片，但更强大，能够方便地操作多维数组。

常见方式：
1. **单元素索引**：用下标访问单个元素；
2. **切片**：通过 `start:end:step` 选取子数组；
3. **多维索引**：用逗号分隔的方式同时操作多维；
4. **布尔索引**：用布尔数组筛选元素；
5. **花式索引（fancy indexing）**：用整数数组选取特定位置的元素。


In [27]:
arr = np.arange(10)
print("原始数组:", arr)

# 单元素索引
print("arr[3] =", arr[3])

# 切片
print("arr[2:7] =", arr[2:7])
print("arr[:5] =", arr[:5])
print("arr[::2] =", arr[::2])  # 步长为 2

原始数组: [0 1 2 3 4 5 6 7 8 9]
arr[3] = 3
arr[2:7] = [2 3 4 5 6]
arr[:5] = [0 1 2 3 4]
arr[::2] = [0 2 4 6 8]


In [28]:
# 多维数组索引
mat = np.arange(12).reshape(3,4)
print("矩阵:\n", mat)

print("单元素 mat[1,2] =", mat[1,2])  # 第 2 行第 3 列
print("按行切片 mat[1,:] =", mat[1,:])
print("按列切片 mat[:,2] =", mat[:,2])


矩阵:
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
单元素 mat[1,2] = 6
按行切片 mat[1,:] = [4 5 6 7]
按列切片 mat[:,2] = [ 2  6 10]


In [31]:
# 布尔索引
arr = np.arange(10)
mask = arr % 2 == 0
print("原始数组:", arr)

print("布尔掩码:", mask)
print("选取偶数:", arr[mask])


原始数组: [0 1 2 3 4 5 6 7 8 9]
布尔掩码: [ True False  True False  True False  True False  True False]
选取偶数: [0 2 4 6 8]


#### 小结：
- 索引和切片让我们可以灵活地操作数组；  
- 布尔索引适合条件筛选；  
- 花式索引适合批量获取特定位置的元素。  

#### 练习：基本运算与切片

提取第 1 个学生的所有成绩（索引 0 行）。

提取所有学生的数学成绩（索引 0 列）。

将所有成绩整体加 5 分（广播），但分数不得超过 100（用 `np.clip` 实现）。

In [76]:
## 你的代码



---
### ndarray 的数据类型与类型转换

NumPy 的 `ndarray` 要求 **所有元素必须是相同的数据类型**，这让它在内存上更紧凑，计算更高效。

- `ndarray` 的所有元素必须统一类型；  
- NumPy 会自动进行类型提升，但有时会带来额外开销；  
- 使用 `astype()` 可以安全地进行类型转换。  


#### 1. 常见数据类型（dtype）
- `int32`, `int64`：整型（根据平台不同）；
- `float32`, `float64`：浮点数（科学计算常用）；
- `bool`：布尔类型；
- `complex64`, `complex128`：复数类型；
- `str_` 或 `object`：字符串或任意 Python 对象。

#### 2. 查看数据类型
可以用 `.dtype` 属性查看数组的数据类型。


In [32]:
import numpy as np

a = np.array([1, 2, 3])
b = np.array([1.0, 2.0, 3.0])
c = np.array([1+2j, 3+4j])
d = np.array([True, False, True])

print("a dtype:", a.dtype)
print("b dtype:", b.dtype)
print("c dtype:", c.dtype)
print("d dtype:", d.dtype)


a dtype: int64
b dtype: float64
c dtype: complex128
d dtype: bool


#### 3. 自动类型提升（type promotion）

当混合类型创建数组时，NumPy 会自动将元素“提升”为能兼容的公共类型。


In [33]:
arr = np.array([1, 2.5, 3])  
print("数组:", arr)
print("dtype:", arr.dtype)  # 自动转为 float64


数组: [1.  2.5 3. ]
dtype: float64


#### 4. 类型转换（astype）

可以用 `astype()` 方法显式转换数据类型。


In [34]:
arr = np.array([1.7, 2.8, 3.9])
print("原始数组:", arr, arr.dtype)

arr_int = arr.astype(int)
print("转换为 int:", arr_int, arr_int.dtype)

arr_bool = arr.astype(bool)
print("转换为 bool:", arr_bool, arr_bool.dtype)


原始数组: [1.7 2.8 3.9] float64
转换为 int: [1 2 3] int64
转换为 bool: [ True  True  True] bool


#### 5. 生成不同类型的数据

可以用 `np.array( data.  dtype=xxx )` 方法显式转换数据类型。

In [97]:
np.arange(2, 10, dtype=int)

array([2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange(2, 10, dtype=float)

In [96]:
np.arange(2, 10, dtype=np.float64 )

array([2., 3., 4., 5., 6., 7., 8., 9.])

In [98]:
np.arange(2, 10, dtype=np.complex128)

array([2.+0.j, 3.+0.j, 4.+0.j, 5.+0.j, 6.+0.j, 7.+0.j, 8.+0.j, 9.+0.j])

---
### 数组形状操作

NumPy 提供了灵活的数组形状变换功能，可以在不复制数据的前提下改变数组的视图。

- `reshape` 改变数组形状；
- `flatten` / `ravel` 把数组展平成一维，区别在于是否拷贝数据；
- `transpose` / `.T` 转置数组；
- `np.newaxis` 可用于增加维度（常用于广播运算）。  


#### 1. reshape
改变数组形状，但元素总数必须保持一致。


In [36]:
arr = np.arange(12)
print("原始数组:", arr)

reshaped = arr.reshape(3, 4)
print("reshape(3,4):\n", reshaped)

reshaped2 = arr.reshape(2, -1)  # 自动推断列数
print("reshape(2,-1):\n", reshaped2)

原始数组: [ 0  1  2  3  4  5  6  7  8  9 10 11]
reshape(3,4):
 [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
reshape(2,-1):
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]


#### 2. flatten 与 ravel
- `flatten()`：返回一个新的一维数组（拷贝）；  
- `ravel()`：返回数组的扁平视图（共享内存）。  


In [37]:
mat = np.arange(9).reshape(3,3)
print("原始矩阵:\n", mat)

flat1 = mat.flatten()
flat2 = mat.ravel()

print("flatten():", flat1)
print("ravel():", flat2)

# 修改 ravel 的结果会影响原数组
flat2[0] = 99
print("修改后的 mat:\n", mat)


原始矩阵:
 [[0 1 2]
 [3 4 5]
 [6 7 8]]
flatten(): [0 1 2 3 4 5 6 7 8]
ravel(): [0 1 2 3 4 5 6 7 8]
修改后的 mat:
 [[99  1  2]
 [ 3  4  5]
 [ 6  7  8]]


#### 3. 转置 transpose
- `transpose()`：交换数组的维度；  
- `.T` 属性：矩阵转置的简写。


In [38]:
mat = np.arange(6).reshape(2,3)
print("原始矩阵:\n", mat)

print("转置 transpose:\n", mat.transpose())
print("转置 .T:\n", mat.T)


原始矩阵:
 [[0 1 2]
 [3 4 5]]
转置 transpose:
 [[0 3]
 [1 4]
 [2 5]]
转置 .T:
 [[0 3]
 [1 4]
 [2 5]]


#### 4. 维度扩展
- `np.newaxis`：增加新维度；
- `reshape`：调整为更高维度。


In [39]:
vec = np.array([1,2,3])
print("原始:", vec, vec.shape)

col_vec = vec[:, np.newaxis]
print("转为列向量:\n", col_vec, col_vec.shape)

row_vec = vec[np.newaxis, :]
print("转为行向量:\n", row_vec, row_vec.shape)


原始: [1 2 3] (3,)
转为列向量:
 [[1]
 [2]
 [3]] (3, 1)
转为行向量:
 [[1 2 3]] (1, 3)


---
### 广播机制（Broadcasting）

NumPy 的 **广播机制**（Broadcasting）允许不同形状的数组在运算时自动扩展为兼容的形状，而不需要显式复制数据。

#### 1. 基本规则
- 如果两个数组的维度数不同，在较小维度的前面补 1；  
- 从最后一个维度开始比较，如果维度大小相同，或者其中一个为 1，则认为兼容；  
- 如果不满足上述条件，就会报错。


In [40]:
a = np.array([1, 2, 3])      # shape = (3,)
b = 2                        # 标量
print("a + b =", a + b)      # 标量会扩展为和 a 相同形状

a + b = [3 4 5]


In [41]:
# 不同形状的数组
A = np.ones((3, 3))
b = np.array([1, 2, 3])

print("矩阵 A:\n", A)
print("向量 b:", b)

print("A + b =\n", A + b)   # b 在行方向上自动广播


矩阵 A:
 [[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
向量 b: [1 2 3]
A + b =
 [[2. 3. 4.]
 [2. 3. 4.]
 [2. 3. 4.]]


In [42]:
# 更高维度的广播
X = np.arange(3).reshape(3,1)
Y = np.arange(3)

print("X:\n", X)
print("Y:", Y)

X:
 [[0]
 [1]
 [2]]
Y: [0 1 2]
X + Y =
 [[0 1 2]
 [1 2 3]
 [2 3 4]]


In [43]:
print("X + Y =\n", X + Y)   # X shape (3,1), Y shape (3,) → 结果 shape (3,3)


X + Y =
 [[0 1 2]
 [1 2 3]
 [2 3 4]]


#### 2. 广播失败的情况
如果两个数组在某个维度上不兼容（既不相等，也不是 1），就会报错。


In [44]:
try:
    a = np.ones((2,3))
    b = np.ones((4,1))
    print(a + b)
except ValueError as e:
    print("广播失败:", e)


广播失败: operands could not be broadcast together with shapes (2,3) (4,1) 


#### 3. 广播的应用场景
- 数组与标量运算（常见于加减常数、归一化等）；
- 向量与矩阵运算；
- 不同维度的数据对齐计算。

**优势**：  
- 避免显式使用循环；  
- 节省内存，不需要真正复制扩展数据；  
- 提高运算速度。


---
### 通用函数（Universal Functions, ufunc）

NumPy 提供了大量的 **通用函数（ufunc）**，它们是一类对数组逐元素（element-wise）进行运算的函数，底层用 C 实现，效率极高。

相比 Python 内置的 `math` 模块：
- `math` 只能处理**标量（单个数值）**；
- NumPy 的 `ufunc` 可以一次性处理整个数组，支持广播机制，运算更快。

#### 常见通用函数
- **算术运算**：`np.add`, `np.subtract`, `np.multiply`, `np.divide`
- **幂函数与对数**：`np.power`, `np.exp`, `np.log`
- **三角函数**：`np.sin`, `np.cos`, `np.tan`
- **比较运算**：`np.greater`, `np.less`, `np.equal`
- **聚合函数**：`np.sum`, `np.mean`, `np.max`, `np.min`


In [45]:
import math

# Python math 只能处理标量
print("math.sqrt(16) =", math.sqrt(16))

# NumPy ufunc 能处理数组
arr = np.array([1, 4, 9, 16])
print("np.sqrt(arr) =", np.sqrt(arr))


math.sqrt(16) = 4.0
np.sqrt(arr) = [1. 2. 3. 4.]


In [46]:
# 算术运算
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

print("np.add(a, b):", np.add(a, b))
print("np.multiply(a, b):", np.multiply(a, b))
print("a**2:", np.power(a, 2))


np.add(a, b): [5 7 9]
np.multiply(a, b): [ 4 10 18]
a**2: [1 4 9]


In [47]:
# 三角函数与指数/对数
x = np.linspace(0, np.pi, 5)

print("sin(x):", np.sin(x))
print("cos(x):", np.cos(x))
print("exp(x):", np.exp(x))
print("log(x+1):", np.log(x+1))


sin(x): [0.00000000e+00 7.07106781e-01 1.00000000e+00 7.07106781e-01
 1.22464680e-16]
cos(x): [ 1.00000000e+00  7.07106781e-01  6.12323400e-17 -7.07106781e-01
 -1.00000000e+00]
exp(x): [ 1.          2.19328005  4.81047738 10.55072407 23.14069263]
log(x+1): [0.         0.57964145 0.94421571 1.21080774 1.42108041]


In [48]:
# 比较运算与聚合
arr = np.array([1, 3, 5, 7, 9])

print("arr > 4:", arr > 4)
print("equal to 5:", np.equal(arr, 5))

print("sum:", np.sum(arr))
print("mean:", np.mean(arr))
print("max:", np.max(arr))


arr > 4: [False False  True  True  True]
equal to 5: [False False  True False False]
sum: 25
mean: 5.0
max: 9


#### 练习: 类型与形状操作

将成绩数组转换为 `float32` 类型。

将数组 `reshape` 成 4x10（按课程存储），并输出英语成绩列。

将数组 `flatten` 成一维，并计算最高分(`np.max`)和最低分(`np.min`)。


In [None]:
## 你的代码



---
### 数组的聚合与统计方法

NumPy 提供了大量的 **聚合函数**（aggregation functions），用来对数组整体或指定轴（axis）进行统计计算。

#### 1. 常见聚合函数
- `np.sum()`：求和  
- `np.mean()`：均值  
- `np.std()`：标准差  
- `np.var()`：方差  
- `np.min()` / `np.max()`：最小值 / 最大值  
- `np.argmin()` / `np.argmax()`：最小值 / 最大值索引  
- `np.median()`：中位数


In [49]:

arr = np.array([1, 2, 3, 4, 5])

print("sum:", np.sum(arr))
print("mean:", np.mean(arr))
print("std:", np.std(arr))
print("var:", np.var(arr))
print("min:", np.min(arr), "at index", np.argmin(arr))
print("max:", np.max(arr), "at index", np.argmax(arr))
print("median:", np.median(arr))


sum: 15
mean: 3.0
std: 1.4142135623730951
var: 2.0
min: 1 at index 0
max: 5 at index 4
median: 3.0


#### 2. 按轴计算（axis 参数）

- `axis=0`：对“行”方向计算（结果是按列聚合）；  
- `axis=1`：对“列”方向计算（结果是按行聚合）。  


In [50]:
mat = np.arange(1, 13).reshape(3, 4)
print("矩阵:\n", mat)

print("按列求和 axis=0:", np.sum(mat, axis=0))
print("按行求和 axis=1:", np.sum(mat, axis=1))

print("按列均值 axis=0:", np.mean(mat, axis=0))
print("按行均值 axis=1:", np.mean(mat, axis=1))


矩阵:
 [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
按列求和 axis=0: [15 18 21 24]
按行求和 axis=1: [10 26 42]
按列均值 axis=0: [5. 6. 7. 8.]
按行均值 axis=1: [ 2.5  6.5 10.5]


#### 3. 累积函数
- `np.cumsum()`：累加和  
- `np.cumprod()`：累乘积  


In [51]:
arr = np.array([1, 2, 3, 4])
print("原始数组:", arr)

print("累加和:", np.cumsum(arr))
print("累乘积:", np.cumprod(arr))


原始数组: [1 2 3 4]
累加和: [ 1  3  6 10]
累乘积: [ 1  2  6 24]


In [53]:
arr = np.ones(9)
print("原始数组:", arr)

print("累加和:", np.cumsum(arr))
print("累乘积:", np.cumprod(arr))


原始数组: [1. 1. 1. 1. 1. 1. 1. 1. 1.]
累加和: [1. 2. 3. 4. 5. 6. 7. 8. 9.]
累乘积: [1. 1. 1. 1. 1. 1. 1. 1. 1.]


**小结**：
- 聚合函数是数据分析和科学计算中最常用的操作；  
- `axis` 参数决定按行还是按列聚合；  
- 累积函数（如 `cumsum`、`cumprod`）适合需要逐步计算的场景。  


---
### 排序与查找相关功能

NumPy 提供了一些方便的函数来进行排序、搜索和索引操作，常用于数据处理与分析。

- `sort` / `argsort`：排序与索引排序；
- `searchsorted`：在有序数组中高效查找插入位置；
- `nonzero` / `where`：条件筛选与索引；
- `unique` / `bincount`：唯一值与频数统计。  


#### 1. 排序（sort, argsort）
- `np.sort(arr)`：返回排好序的数组副本（不会修改原数组）；  
- `arr.sort()`：原地排序，直接修改数组；  
- `np.argsort(arr)`：返回排序后元素的索引位置。  


In [54]:

arr = np.array([3, 1, 4, 1, 5, 9])
print("原始数组:", arr)

print("np.sort:", np.sort(arr))      # 返回新数组
print("原始数组保持不变:", arr)

arr.sort()
print("arr.sort() 后:", arr)

arr2 = np.array([10, 40, 30, 20])
print("argsort:", np.argsort(arr2))  # 索引排序
print("按索引重排:", arr2[np.argsort(arr2)])


原始数组: [3 1 4 1 5 9]
np.sort: [1 1 3 4 5 9]
原始数组保持不变: [3 1 4 1 5 9]
arr.sort() 后: [1 1 3 4 5 9]
argsort: [0 3 2 1]
按索引重排: [10 20 30 40]


#### 2. searchsorted（二分查找）
`np.searchsorted(a, v)` 在有序数组 `a` 中查找元素 `v` 应该插入的位置，保证数组有序。

- 默认返回 **左边界**（left），可指定 `side="right"` 返回右边界；
- 常用于区间查找、分箱（binning）、数据对齐。


In [55]:
arr = np.array([1, 3, 5, 7, 9])
print("有序数组:", arr)

print("插入 3 的位置:", np.searchsorted(arr, 3))
print("插入 3 的右边界:", np.searchsorted(arr, 3, side="right"))

print("批量插入 [2,6]:", np.searchsorted(arr, [2, 6]))


有序数组: [1 3 5 7 9]
插入 3 的位置: 1
插入 3 的右边界: 2
批量插入 [2,6]: [1 3]


#### 3. nonzero 与 where
- `np.nonzero(arr)`：返回非零元素的索引；  
- `np.where(condition, x, y)`：根据条件从 `x` 或 `y` 中选择元素。  


In [56]:
arr = np.array([0, 2, 0, 4, 5])
print("非零索引:", np.nonzero(arr))

x = np.array([1, 2, 3, 4])
print("where 条件选择:", np.where(x > 2, x, -1))


非零索引: (array([1, 3, 4]),)
where 条件选择: [-1 -1  3  4]


#### 4. unique 与 bincount
- `np.unique(arr)`：返回数组中的唯一值（可选返回索引和计数）；  
- `np.bincount(arr)`：统计非负整数的出现次数。  


In [57]:
arr = np.array([1, 2, 2, 3, 3, 3])
print("unique:", np.unique(arr))
print("unique 返回计数:", np.unique(arr, return_counts=True))

print("bincount:", np.bincount(arr))  # 索引表示值，值表示出现次数


unique: [1 2 3]
unique 返回计数: (array([1, 2, 3]), array([1, 2, 3]))
bincount: [0 1 2 3]


#### 练习：

- 计算每个学生的平均成绩（axis=1）。

- 计算每门课程的最高分、最低分、平均分（axis=0）。

- 用 np.mean 和 np.std 计算数学成绩的均值和标准差，将数学成绩标准化为 $z = \frac{x-\mu}{\sigma}$。

- 用 np.where 找出数学成绩低于均值的学生编号和名字，找出全班总平均分最高的学生编号名字。

In [79]:
## 你的代码



array([76.75, 77.5 , 75.5 , 91.25, 80.  , 85.75, 74.75, 73.5 , 75.75,
       83.  ])

---

### NumPy 的输入输出功能

在实际计算中，我们常常需要 **保存计算结果** 或 **读取已有数据**。  
NumPy 提供了多种输入输出方式：


####  文本文件 I/O

- `np.loadtxt()`：从文本文件读取数据；  
- `np.savetxt()`：将数组保存为文本文件；  
- 常用于处理 `.txt`、`.csv` 数据。


In [99]:
# 保存数组到文本
arr = np.array([[1, 2, 3], [4, 5, 6]])
np.savetxt("data/data.txt", arr, fmt="%d", delimiter=",")


In [100]:

# 从文本中读取数组
arr2 = np.loadtxt("data/data.txt", delimiter=",")
print( arr2 )


[[1. 2. 3.]
 [4. 5. 6.]]


#### 使用 `delimiter` 控制分隔符

In [104]:
# 保存为 CSV 格式，逗号分隔
np.savetxt("data/data.csv", arr, delimiter=" ")

In [106]:
# 从 CSV 文件读取
loaded_csv = np.loadtxt("data/data.csv", delimiter=" ")
print(loaded_csv)

[[1. 2. 3.]
 [4. 5. 6.]]


#### 使用`fmt`控制数字格式

In [None]:
# 保留两位小数
np.savetxt("data/data_2f.txt", arr, fmt="%.2f")

In [None]:
# 保留两位小数科学计数法
np.savetxt("data/data_2e.txt", arr, fmt="%.2e")

In [None]:
# 保存为整数（四舍五入）
np.savetxt("data_int.txt", arr, fmt="%d")

In [107]:
#np.savetxt?

使用 `header` 添加文件说明

In [108]:
np.savetxt("data_with_header.txt", arr,
           fmt="%.3f", delimiter=",",
           header="x_value, y_value")


---

# Pandas 基本使用方法

## NumPy 与 Pandas 的区别与联系

在科学计算和数据分析中，NumPy 和 Pandas 是最常用的两个工具库。  
它们既有区别，又经常配合使用

---

### 对比总结表格

| 特性/维度         | NumPy                                      | Pandas                                                   |
|-------------------|--------------------------------------------|----------------------------------------------------------|
| 核心数据结构       | `ndarray`（多维数组）                       | `Series`（一维） 和 `DataFrame`（二维表格）               |
| 主要用途           | 数值计算、矩阵运算、科学计算基础             | 数据分析、数据清洗、表格数据处理                         |
| 数据类型支持       | 主要是数值（整型、浮点型、复数），支持布尔   | 支持更多类型（数值、字符串、时间序列、分类数据等）       |
| 操作方式           | 基于索引、切片、广播机制                     | 基于标签（列名/行索引）、条件筛选、分组聚合               |
| 性能               | 速度极快（底层 C 实现），适合大规模数值运算  | 基于 NumPy，数值性能略低，但对结构化数据更友好           |
| 缺失值处理         | 缺失值需用特殊方式表示（如 `np.nan`）        | 内置 `NaN` 处理，提供 `dropna()`、`fillna()` 等方法       |
| 文件读写           | 基本支持文本（`savetxt/loadtxt`）、二进制    | 支持多种格式（CSV、Excel、SQL、JSON、HDF5 等）           |
| 学习曲线           | 偏底层，适合数学、科学计算背景的人            | 偏上层，语法更贴近数据分析思维                           |
| 适合场景           | 数值计算、线性代数、傅立叶变换、模拟仿真      | 数据分析、数据清洗、数据挖掘、统计建模                   |
| 与其他工具关系     | 是 Pandas、SciPy、TensorFlow 等库的基础       | 构建在 NumPy 之上，常与 Matplotlib/Scikit-learn 联合使用 |


## Pandas 基础：Series 和 DataFrame

Pandas 提供了两个核心数据结构：
- **Series**：带标签的一维数组
- **DataFrame**：带行列标签的二维表格

---

### 1. Series 使用


In [109]:
import pandas as pd

In [114]:

# 直接传入列表
s = pd.Series([10, 20, 30, 40])
s

0    10
1    20
2    30
3    40
dtype: int64

In [113]:
# 指定索引
s2 = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
s2

a    10
b    20
c    30
d    40
dtype: int64

In [117]:
print(s2['a'])     # 按索引取值
print(s2.iloc[0])       # 按位置取值
print(s2[['a','c']])  # 取多个值

10
10
a    10
c    30
dtype: int64


### 2. DataFrame 使用

In [121]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [25, 30, 35],
    'Score': [85.5, 90.2, 88.0]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age,Score
0,Alice,25,85.5
1,Bob,30,90.2
2,Charlie,35,88.0


In [123]:
print(df.head())   # 前几行

      Name  Age  Score
0    Alice   25   85.5
1      Bob   30   90.2
2  Charlie   35   88.0


In [124]:
print(df.tail())   # 后几行

      Name  Age  Score
0    Alice   25   85.5
1      Bob   30   90.2
2  Charlie   35   88.0


In [125]:
print(df.info())   # 数据信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Name    3 non-null      object 
 1   Age     3 non-null      int64  
 2   Score   3 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 204.0+ bytes
None


In [127]:
print(df.describe())  # 统计描述

        Age      Score
count   3.0   3.000000
mean   30.0  87.900000
std     5.0   2.351595
min    25.0  85.500000
25%    27.5  86.750000
50%    30.0  88.000000
75%    32.5  89.100000
max    35.0  90.200000


In [129]:
df['Name']      # 选一列

0      Alice
1        Bob
2    Charlie
Name: Name, dtype: object

In [131]:
df[['Name','Age']] # 选多列

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Charlie,35


In [132]:
df.iloc[0]       # 按位置选第一行

Name     Alice
Age         25
Score     85.5
Name: 0, dtype: object

In [133]:
df.loc[0]        # 按索引选第一行

Name     Alice
Age         25
Score     85.5
Name: 0, dtype: object

In [134]:
df.loc[0, 'Name'] # 按行列索引

'Alice'

### 3. DataFrame 常用操作

In [135]:
df['Passed'] = df['Score'] > 85
df.loc[1, 'Age'] = 31
df

Unnamed: 0,Name,Age,Score,Passed
0,Alice,25,85.5,True
1,Bob,31,90.2,True
2,Charlie,35,88.0,True


In [136]:
df = df.drop(columns=['Passed']) # 删除列
df = df.drop(index=[0])          # 删除行
df

Unnamed: 0,Name,Age,Score
1,Bob,31,90.2
2,Charlie,35,88.0


In [137]:
df[df['Age'] > 28]  # 筛选年龄大于28的

Unnamed: 0,Name,Age,Score
1,Bob,31,90.2
2,Charlie,35,88.0


In [138]:
df.sort_values(by='Score', ascending=False)

Unnamed: 0,Name,Age,Score
1,Bob,31,90.2
2,Charlie,35,88.0


### 4. Series 与 DataFrame 的关系

- `Series` 相当于 `DataFrame` 中的一列；

- `DataFrame` 可以看作多个 `Series` 按列组合而成；

- 二者都支持基于标签和基于位置的索引方式。


---
## Pandas 的输入输出（I/O）与统计分析功能

Pandas 提供了丰富的 I/O 功能，可以非常方便地读写各种格式的数据文件。  
在完成数据读取之后，Pandas 的 `DataFrame` 和 `Series` 提供了大量内置统计函数，让数据分析更加高效。

### 1. Pandas 的输入输出功能

#### 1.1 常见读取函数
- `pd.read_csv()`：读取 CSV 文件  
- `pd.read_excel()`：读取 Excel 文件（需安装 `openpyxl` 或 `xlrd`）  
- `pd.read_json()`：读取 JSON 文件  
- `pd.read_sql()`：从 SQL 数据库读取  
- `pd.read_html()`：从 HTML 表格读取  


In [142]:
#import pandas as pd

df = pd.read_csv("data/students.csv")
df

Unnamed: 0,Name,Age,Class,Score
0,Alice,18,A,85
1,Bob,19,A,90
2,Charlie,18,B,78
3,David,20,B,92
4,Eva,19,A,88
5,Frank,18,B,76
6,Grace,20,A,95
7,Helen,21,B,89


In [143]:
df.head()

Unnamed: 0,Name,Age,Class,Score
0,Alice,18,A,85
1,Bob,19,A,90
2,Charlie,18,B,78
3,David,20,B,92
4,Eva,19,A,88


#### 1.2 常见写入函数

`DataFrame.to_csv()`：写入 CSV 文件

`DataFrame.to_excel()`：写入 Excel 文件

`DataFrame.to_json()`：写入 JSON 文件

`DataFrame.to_sql()`：写入数据库

In [144]:
df.to_csv("data/students_out.csv", index=False)

---
## 2. Pandas 的统计分析功能

一旦数据读入到 DataFrame，就可以直接使用内置统计方法：

### 2.1 常用统计方法

`df.mean()`：平均值

`df.median()`：中位数

`df.max()` / `df.min()`：最大值 / 最小值

`df.std()` / `df.var()`：标准差 / 方差

`df.describe()`：一次性输出常见统计量

In [153]:
df['Score'].mean()     # 平均分

np.float64(86.625)

In [154]:
df['Age'].max()        # 最大年龄

np.int64(21)

In [155]:
df.describe()          # 汇总统计

Unnamed: 0,Age,Score
count,8.0,8.0
mean,19.125,86.625
std,1.125992,6.631903
min,18.0,76.0
25%,18.0,83.25
50%,19.0,88.5
75%,20.0,90.5
max,21.0,95.0


### 2.2 分组统计

使用 `groupby` 可以对数据进行分组统计。

In [146]:
grouped = df.groupby('Class')['Score'].mean()
print(grouped)


Class
A    89.50
B    83.75
Name: Score, dtype: float64


### 2.3 缺失值处理

`df.isna()` / `df.notna()`：检测缺失值

`df.dropna()`：删除缺失值

`df.fillna()`：填充缺失值

In [150]:
df

Unnamed: 0,Name,Age,Class,Score
0,Alice,18,A,85
1,Bob,19,A,90
2,Charlie,18,B,78
3,David,20,B,92
4,Eva,19,A,88
5,Frank,18,B,76
6,Grace,20,A,95
7,Helen,21,B,89


In [151]:
df.dropna()            # 删除缺失值

Unnamed: 0,Name,Age,Class,Score
0,Alice,18,A,85
1,Bob,19,A,90
2,Charlie,18,B,78
3,David,20,B,92
4,Eva,19,A,88
5,Frank,18,B,76
6,Grace,20,A,95
7,Helen,21,B,89


In [152]:
df.fillna(df['Score'].mean())  # 用平均值填充

Unnamed: 0,Name,Age,Class,Score
0,Alice,18,A,85
1,Bob,19,A,90
2,Charlie,18,B,78
3,David,20,B,92
4,Eva,19,A,88
5,Frank,18,B,76
6,Grace,20,A,95
7,Helen,21,B,89


In [156]:
df = pd.read_csv("data/students.csv")

# 计算平均分
print("全班平均分:", df['Score'].mean())

# 按班级分组统计
print("各班平均分:")
print(df.groupby('Class')['Score'].mean())

# 找出最高分学生
best_student = df.loc[df['Score'].idxmax()]
print("最高分学生:", best_student['Name'], "分数:", best_student['Score'])


全班平均分: 86.625
各班平均分:
Class
A    89.50
B    83.75
Name: Score, dtype: float64
最高分学生: Grace 分数: 95


### 练习题: 对于数据`students_with_nan_20.csv`

1. 缺失值检测: 统计每一列缺失值的数量；找出缺失最多的一列。提示：`df.isna().sum()`

2. 缺失值处理: 用各列的平均值填充数值型缺失值（`Age`, `Score`）；用“未知”填充缺失的 `Class`。

3. 统计分析：计算每个班级的平均分；找出平均分最高的班级；找出全班最高分的学生姓名和分数。

4. 导出结果：将缺失值处理后的新 `DataFrame` 保存为 `students_clean.csv`。

In [157]:
## 你的代码
