### 01.Numpy简介

#### 1.Numpy 简介

https://numpy.org/

#### 2.Pandas vs NumPy vs SciPy选型决策流程图

![image.png](attachment:image.png)

#### 2.1.NumPy核心定位  

![image.png](attachment:image.png)

NumPy （Numeric Python）主要用于处理数组和矩阵运算。通常与 SciPy（Scientific Python）和 Matplotlib（绘图库）一起使用。这种组合广泛用于替代 MatLab，是一个流行的技术计算平台。

Numpy 使用手册：

https://numpy.org/doc/

#### 3.Numpy 环境

 标准的 Python 发行版不会与 NumPy 模块捆绑在一起。
一个轻量级的替代方法是使用流行的 Python 包安装程序 pip 来安装 NumPy。    

In [None]:
pip install numpy   

#### 4.NumPy - Ndarray 对象

NumPy 中定义的最重要的对象是称为 ndarray 的 N 维数组类型。它描述相同类型的元素集合。可以使用基于零的索引访问集合中的项目。    ndarray中的每个元素在内存中使用相同大小的块。 ndarray中的每个元素是数据类型对象的对象（称为 dtype）。    从ndarray对象提取的任何元素（通过切片）由一个数组标量类型的 Python 对象表示。下图显示了ndarray，数据类型对象（dtype）和数组标量类型之间的关系。           

#### 5.总结

| 特点         | pandas                          | scipy                                    | numpy                                    |
|--------------|---------------------------------|------------------------------------------|------------------------------------------|
| 主要用途     | 处理表格数据，适合做数据分析     | 高级科学计算（数值优化、统计等）           | 做数学运算，尤其是数组相关               |
| 数据结构     | 基于 numpy 的“表格”型数据        | 基于 NumPy 的多种科学计算模块             | “数组”型，类似数字列表                   |
| 处理数据类型 | 可以处理不同类型的数据（数字、文字、日期等） | 专注于科学计算（矩阵运算、统计）         | 主要处理数字数据                         |
| 索引功能     | 支持标签                         | 不支持标签                               | 不支持标签                               |
| 缺失值处理   | 支持                             | 不支持                                   | 不支持                                   |
| 功能         | 数据清洗、统计、分组、合并等     | 优化、插值、线性代数、信号处理等         | 加减乘除、数组运算                       |
| 速度         | 功能更多，处理的事物复杂         | 与 NumPy 类似                             | 更快，专注于高效的数值计算               |
| 适用场景     | 数据分析、数据清洗、表格数据处理 | 复杂科学问题的建模和解决                 | 数学运算、大规模的数值计算               |
| 时间日期处理 | 支持处理时间数据（时间序列等）   | 不支持时间序列                           | 不支持处理时间和日期数据                   |

### 02.数据导入导出

以下是 NumPy 数据导入导出 （不推荐，可读性很差，了解即可。推荐使用 Pandas 读数据）相关操作的总结，通过表格形式进行归纳，包含常用的读取、保存文件的功能。

| 操作           | 描述                                                         | 示例代码                                                                 |
|----------------|--------------------------------------------------------------|------------------------------------------------------------------------|
| 读取文本文件    | 从文本文件中读取数据，默认按空格或制表符分隔。               | `np.loadtxt('data.txt')`                                                |
| 读取 CSV 文件   | 从 CSV 文件读取数据，支持不同分隔符、处理列标题等。           | `np.genfromtxt('data.csv', delimiter=',')`                          |
| 读取 NPY 文件   | 读取存储为 `.npy` 格式的数组文件，专为高效存储和读取 NumPy 数组设计。 | `np.load('data.npy')`                                              |
| 读取 MAT 文件   | 从 `.mat` 文件（Matlab 文件）读取数据。                       | `from scipy.io import loadmat; data = loadmat('data.mat')`            |
| 保存为文本文件  | 将数组保存为文本格式，通常是空格或制表符分隔的文件。         | `np.savetxt('output.txt', arr)`                                  |
| 保存为 CSV 文件| 将数组保存为 CSV 格式，常用于与其他数据处理工具（如 Excel）进行交换。 | `np.savetxt('output.csv', arr, delimiter=',')`                  |
| 保存为 NPY 文件 | 将数组保存为 `.npy` 格式，支持高效存储和读取。               | `np.save('output.npy', arr)`                                        |
| 保存 MAT 文件   | 将 NumPy 数组保存为 `.mat` 文件。                           | `from scipy.io import savemat; savemat('output.mat', {'data': arr})`    |

#### 推荐方式：

In [None]:
import numpy as np
import pandas as pd

# 读取数据
path = r'./iris.data' # 路径
headers = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class'] # 设置表头
df = pd.read_csv(path, header=None, names=headers) # 读取数据

df # 查看数据

### 03.数据筛选

#### 1.创建操作

| 操作类型       | 语法                        | 解释                                       |
|--------------|-----------------------------|------------------------------------------|
|` np.array()`     | `np.array([[1, 2, 3], [4, 5, 6]])` | 从列表或嵌套列表创建数组                     |
| `np.zeros() `   | `np.zeros((2, 3)) `           | 创建指定形状的全 0 数组（2 行 3 列）         |
| `np.ones() `    | `np.ones((2, 3))  `           | 创建指定形状的全 1 数组（2 行 3 列）         |
| `np.arange() `  | `np.arange(0, 10, 2)  `       | 创建从 0 到 10（不包含 10），步长为 2 的数组 |
| `np.linspace()` | `np.linspace(0, 10, 5) `     | 创建从 0 到 10（包含 10），均匀分布的 5 个数的数组 |

创建操作

In [None]:
import numpy as np

# 创建一个数组，当然也可以在excel等程序中直接导入
arr = np.array([[1, 2, 3, 4, 5],
               [2, 2, 3, 4, 5],
               [3, 2, 3, 4, 5],
               [4, 2, 3, 4, 5],
               [5, 2, 3, 4, 5],
               [6, 2, 3, 4, 5],
               [7, 2, 3, 4, 5],
               [8, 2, 3, 4, 5],
               [9, 2, 3, 4, 5]])

# 创建数组
arr_zero = np.zeros((2, 3))           # 2x3 的0矩阵
print("zeros:\n", arr_zero)
arr_one = np.ones((2, 3))             # 2x3 的单位阵
print("ones:\n", arr_one)
arr_range = np.arange(0, 10, 2)       # 从 0 到 10，步长为 2
print("arange:", arr_range)
arr_linspace = np.linspace(0, 10, 5)  # 从 0 到 10 之间均匀分布的 5 个数
print("linspace:", arr_linspace)
print("================创建数组================")

| 操作类型       | 语法                  | 解释                                       |
|--------------|--------------------------------------|------------------------------------------|
| ndarray      | np.array([1, 2, 3])          | NumPy 的核心数据结构，表示一个多维数组         |
| dtype        | arr.dtype               | 返回数组 arr 元素的类型                     |
| ndim         | arr.ndim                | 返回数组 arr 的维度数                       |
| shape       | arr.shape               | 返回数组 arr 的形状（各维度的大小）           |
| size        | arr.size                | 返回数组 arr 元素总数                       |
| itemsize      | arr.itemsize             | 返回数组 arr 中每个元素的字节大小           |
| reshape()    | arr.reshape(2, 3)        | 改变数组 arr 的形状（不改变数据）             |
| flatten()   | arr.flatten()             | 将多维数组 arr 展平为一维数组（返回副本）     |
| ravel()      | arr.ravel()               | 返回数组 arr 展平后的视图（返回原数据）     |
| transpose()  | arr.transpose()            | 对数组 arr 进行转置                     |

#### 2.读取

读取

In [None]:
import numpy as np
import pandas as pd

path = r'./iris.data'
headers = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
df = pd.read_csv(path, header=None, names=headers)
df

转换

# 将 DataFrame 转换为 NumPy 数组
arr = df.to_numpy()  # 或者 data = df.values
print("ndarray:", arr)               # NumPy 核心数据结构

数组属性

In [None]:
# 数组属性
print("dtype:", arr.dtype)           # 元素类型
print("ndim:", arr.ndim)             # 数组维度数
print("shape:", arr.shape)           # 数组形状
print("size:", arr.size)             # 数组元素总数
print("itemsize:", arr.itemsize)     # 每个元素字节大小
print('==============数组属性====================')

In [None]:
# 数组方法
reshaped = arr.reshape(5,150)         # 改变形状,必须跟原形状一致，比如原形状shape: (150, 5)=150X5=750;那么无论如何变形结果必须也是750
reshaped

In [None]:
flattened = arr.flatten()            # 展平为一维数组
flattened

In [None]:
raveled = arr.ravel()                # 展平视图
raveled

In [None]:
transposed = reshaped.transpose()    # 转置
transposed

#### 3.增、删、改、查操作

| 操作类型 | 语法                          | 解释                                                                 |
|----------|-------------------------------|----------------------------------------------------------------------|
| 创建     | `np.array([1, 2, 3])`          | 创建一个一维数组，元素为列表中的值                                      |
|          | `np.zeros((2, 3))`             | 创建一个 2x3 的0 矩阵                                                   |
|          | `np.ones((2, 3))`              | 创建一个 2x3 的单位阵                                                    |
|          | `np.arange(0, 10, 2)`          | 创建一个元素为从 0 到 9（不包括 10），步长为 2 的数组                     |
|          | `np.linspace(0, 10, 5)`      | 创建一个数组，元素为从 0 到 10 之间均匀分布的 5 个数                     |
| 增加      | `np.append(arr, [4, 5])`       | 向数组 arr 末尾添加元素 [4, 5]                                          |
|          | `np.insert(arr, 1, 10)`       | 在数组 arr 的索引位置 1 处插入值 10                                      |
| 删除      | `np.delete(arr, 2)`           | 删除数组 arr 中索引位置为 2 的元素                                    |
| 修改      | `arr[0] = 10`                  | 将数组 arr 中索引为 0 的元素覆盖改为 10                                |
| 查询      | `arr[0]`                       | 访问数组 arr 中索引为 0 的元素                                        |
|          | `arr[0:11:2]`                  | 访问数组 arr 中索引为 0 到 11（不包括 11）步长 2 的子数组               |
|          | `arr[arr > 3]`                 | 查找数组 arr 中大于 3 的元素                                          |
|          | `arr[-1]`                     | 从数组倒数第一个访问元素                                              |
|          | `np.where(arr > 2, arr, 0)`     | 满足条件的元素保留，其余元素替换为0                                    |
|          | `np.argmax(arr)`                | 查找最大值的索引位置                                                   |
|          | `np.argmin(arr)`                | 查找最小值的索引位置                                                   |
|          | `np.take(arr, [0, 2, 4])`       | .take 将数据变为一位数据，然后选取特定索引位置的元素                     |
|          | `arr[:, 1]`                   | 传入行列两个数据，表示所有；代码表示所有行，索引第 1 列                     |

#### 3.1.增

创建

In [None]:
import numpy as np

# 创建一个数组
arr = np.array([[1, 2, 3, 4, 5],
               [2, 2, 3, 4, 5],
               [3, 2, 3, 4, 5],
               [4, 2, 3, 4, 5],
               [5, 2, 3, 4, 5],
               [6, 2, 3, 4, 5],
               [7, 2, 3, 4, 5],
               [8, 2, 3, 4, 5],
               [9, 2, 3, 4, 5]])
arr


增

In [None]:
# 增
print("================增================")
arr_append = np.append(arr, [6, 7, 8, 9, 10])       # 向末尾添加元素,会变成一维数组
print("append:\n", arr_append)
arr_insert = np.insert(arr, 1, 10)       # 在索引 1 处插入值 10,会变成一维数组
print("insert:\n", arr_insert)
print("reshape:\n")
arr_append = arr_append.reshape(-1, 5) # 变成二维数组,这里-1表示自动计算行数
arr_append

#### 3.2.删

In [None]:
# 删
arr_delete = np.delete(arr, 2)           # 删除索引为 2 的元素
print("delete:\n", arr_delete)
print("================删================")

#### 3.3.改

In [None]:
# 改
arr[0] = 10                               # 将索引为 0 的元素修改为 10
print("modified arr:\n", arr)
print("================改================")

#### 3.4.查

In [None]:
# 查
print('原始数组:\n', arr)
print("access index 0:\n", arr[0])         # 访问索引为 0 的元素
print("slice [0:8:2]:\n", arr[0:8:2])    # 索引为 0 到 7（步长 2）的子数组
print("elements > 3:\n", arr[arr > 3])     # 查找大于 3 的元素
print("last element:\n", arr[-1])          # 访问倒数第一个元素

In [None]:
# np.where
arr_condition = np.where(arr > 2, arr, 0)  # 满足条件的保留，其余替换为 0
print("where condition:\n", arr_condition)

# np.argmax, np.argmin
print("argmax (index of max value):\n", np.argmax(arr)) # 返回最大值索引
print("argmin (index of min value):\n", np.argmin(arr)) # 返回最小值索引

# np.take
arr_take = np.take(arr, [0, 2, 4])        # 选择特定索引位置的元素，展开为一维进行索引取值
print("take:\n", arr_take)

# 获取特定列
arr_2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])  # 二维数组
print("second column:\n", arr_2d[:, 1])  # 所有行，获取第二列
print("================查================")


### 04.数据清洗

| 操作           | 示例代码                                      | 说明                                                                 |
|----------------|----------------------------------------------|----------------------------------------------------------------------|
| 缺失值检测     | `np.isnan(arr)`                                | 检测布尔值                                                            |
| 删除缺失值     | `arr = arr[~np.isnan(arr)]`                     | 用取反赋值实现删除                                                    |
| 填充缺失值     | `np.nan_to_num(arr, nan=0)`                     | 指定填充缺失值                                                        |
| 重复值检测     | `np.unique(arr, return_index=True)`               | 用于检查和定位重复值，便于后续删除或合并数据。                              |
| 删除重复值     | `arr = np.unique(arr)`                          | 数据去重                                                             |
| 异常值检测     | Z-score: `np.where(np.abs((arr - np.mean(arr)) / np.std(arr)) > 3)` | 检测极端值或异常值；`.where()`条件定位，`.abs()`绝对值                              |
| 异常值替换     | `arr[arr > 100] = np.median(arr)`                  | 用中位数、均值或者众数替换异常值                                             |
|              | `arr[arr > 100] = np.mean(arr)`                  |                                                                      |
|              | `arr[arr > 100] = np.mode(arr)`                  |                                                                      |
| 字符串处理     | `arr = np.char.strip(arr)`                       | 处理文本数据中的杂项字符或格式                                           |
| 数据类型转换     | `arr = arr.astype(float)`                         | 将字符串转换为数值类型                                                   |

In [None]:
import numpy as np

# 创建一个示例数组
arr = np.array([1, 2, np.nan, 4, 5, 6, np.nan, 8, 9, 9])

# 检查数组中的缺失值（NaN）
print('原数组:\n', arr)
print("缺失值检测:\n", np.isnan(arr))  # 返回布尔数组，True 表示缺失值
print("================缺失值检测================")

# 删除包含缺失值的元素
arr_cleaned = arr[~np.isnan(arr)] # 通过取非赋值实现删除
print("删除缺失值:\n", arr_cleaned)
print("================删除缺失值================")

# 使用 0 填充缺失值
arr_filled = np.nan_to_num(arr, nan=0)
print("填充缺失值:\n", arr_filled)
print("================用0填充缺失值================")

# 检查数组中是否有重复值
arr = np.array([1, 2, 2, 3, 3, 3, 4])
unique_values, indices = np.unique(arr, return_index=True)
print("唯一值:", unique_values)  # 输出: 元素[1 2 3 4]
print("唯一值的索引位置:", indices)  # 输出: 索引[0 1 3 6]
print("================重复值检测================")

# 删除重复值，仅保留唯一值
arr_no_duplicates = np.unique(arr)
print("删除重复值:\n", arr_no_duplicates)
print("================删除重复值================")

# 使用 Z-Score 方法检测异常值（假设阈值为 3）
z_score = (arr - np.mean(arr)) / np.std(arr)
outliers = np.where(np.abs(z_score) > 3)
print("异常值检测:\n", outliers)
print("================异常值检测================")


Z-Score（标准分数）

$$Z = \frac{X - \mu}{\sigma}$$

● $X$：单个数据点的原始值  <br>
● $\mu$：数据集的均值  <br>
● $\sigma$：数据集的标准差<br> 

计算步骤

1. 计算均值（$\mu$）：所有数据点的平均值。<br>
2. 计算标准差（$\sigma$）：数据分布的离散程度。<br>
3. 标准化每个数据点：用公式将原始值转换为 Z-Score。<br>
示例：<br>
假设某班级 5 名学生的数学成绩为：$70, 80, 90, 95, 85$  <Br>
● 均值（$\mu$）：$(70+80+90+95+85)/5 = 84$  <br>
● 标准差（$\sigma$）：约 9.38  <br>
● Z-Score 计算：<br>
$Z_{70} = \frac{70 - 84}{9.38} \approx -1.49$ <br>
  其他成绩的 Z-Score 同理可得。<br>

核心作用
1. 异常值检测  
  ○ 判断标准：  
    ■ $|Z| > 3$：极可能是异常值（覆盖约 99.7% 的正态数据）。  
    ■ $|Z| > 2$：可能是潜在异常值（覆盖约 95% 的正态数据）。<br>
  ○ 适用场景：金融风控、传感器数据清洗、实验数据质量控制。
2. 数据标准化  
  ○ 消除量纲差异，使不同量纲的特征可比（如身高 vs 体重）。  
  ○ 机器学习模型（如 SVM、K-Means、线性回归）常需标准化输入数据。
3. 概率计算  
  ○ 通过 Z-Score 查标准正态分布表，计算数据点的百分位排名。  
  ○ 示例：Z=1.96 对应 97.5% 的累积概率。

In [None]:

# 将大于 100 的异常值替换为中位数
arr[arr > 100] = np.median(arr)
print("异常值替换:\n", arr)
print("================异常值替换================")

# 处理字符串数组，去除空格
str_arr = np.array([' hello ', 'world  ', '  numpy '])
str_arr_cleaned = np.char.strip(str_arr)
print("字符串处理（去除空格）:\n", str_arr_cleaned)
print("================字符串处理================")

# 将数组转换为 float 类型
arr_float = arr.astype(float)
print("数据类型转换:\n", arr_float)
print("================数据类型转换================") 

### 05.数据操作

| 操作           | 示例代码                          | 说明                                     |
|----------------|-----------------------------------|------------------------------------------|
| 矩阵加法       | `np.add(arr1, arr2)`              | 对两个数组进行逐元素相加                   |
| 矩阵减法       | `np.subtract(arr1, arr2)`          | 对两个数组进行逐元素相减                   |
| 矩阵乘法       | `np.dot(arr1, arr2)`              | 进行矩阵乘法                             |
| 矩阵除法       | `np.divide(arr1, arr2)`            | 对两个数组进行逐元素除法                   |
| 元素乘法       | `arr1 * arr2`                     | 对两个数组进行逐元素相乘                     |
| 元素除法       | `arr1 / arr2`                     | 对两个数组进行逐元素除法                     |
| 转置           | `np.transpose(arr)`                | 对矩阵进行转置操作                           |
| 求和           | `np.sum(arr)`                       | 计算数组的所有元素的和                     |
| 求列和         | `np.sum(arr, axis=0)`               | 计算每列的和，axis=0                        |
| 求行和         | `np.sum(arr, axis=1)`               | 计算每行的和，axis=1                        |
| 均值           | `np.mean(arr)`                      | 计算数组的均值                             |
| 行均值         | `np.mean(arr, axis=1)`             | 计算每行的均值，axis=1                    |
| 列均值         | `np.mean(arr, axis=0)`             | 计算每列的均值，axis=0                    |
| 中位数         | `np.median(arr)`                    | 计算数组的中位数                             |
| 最大值         | `np.max(arr)`                      | 计算数组的最大值                             |
| 最小值         | `np.min(arr)`                      | 计算数组的最小值                             |
| 最大值索引       | `np.argmax(arr)`                   | 计算数组中最大值的位置索引                     |
| 最小值索引       | `np.argmin(arr)`                   | 计算数组中最小值的位置索引                     |
| 标准差         | `np.std(arr)`                     | 计算数组的标准差                             |
| 方差           | `np.var(arr)`                     | 计算数组的方差                             |
| 矩阵行列式     | `np.linalg.det(arr)`               | 计算矩阵的行列式（仅适用于方阵）               |
| 矩阵逆         | `np.linalg.inv(arr)`                 | 计算矩阵的逆（仅适用于非奇异方阵）           |
| 分组计算       | `np.groupby(arr, key)`             | 按照给定的分组键计算分组后，可以计算每组的统计量 |
| 应用函数       | `np.apply_along_axis(func, axis, arr)`   | 沿着指定轴应用函数                           |
| 广播           | `arr1 + arr2`                     | 不同形状的数组也可以进行运算，前提是它们能够通过广播规则对齐 |

In [None]:
import numpy as np

# 创建示例数组
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])

# 矩阵加法
add_result = np.add(arr1, arr2)
print("矩阵加法:\n", add_result)

# 矩阵减法
subtract_result = np.subtract(arr1, arr2)
print("矩阵减法:\n", subtract_result)

# 矩阵乘法
dot_result = np.dot(arr1, arr2)
print("矩阵乘法:\n", dot_result)

# 矩阵除法
divide_result = np.divide(arr1, arr2)
print("矩阵除法:\n", divide_result)

# 元素乘法
elementwise_mul = arr1 * arr2
print("元素乘法:\n", elementwise_mul)

# 元素除法
elementwise_div = arr1 / arr2
print("元素除法:\n", elementwise_div)

# 转置
transpose_result = np.transpose(arr1)
print("转置:\n", transpose_result)

# 求和
sum_result = np.sum(arr1)
print("求和:", sum_result)

# 求列和
sum_col = np.sum(arr1, axis=0)
print("求列和:", sum_col)

# 求行和
sum_row = np.sum(arr1, axis=1)
print("求行和:", sum_row)

# 均值
mean_result = np.mean(arr1)
print("均值:", mean_result)

# 行均值
mean_row = np.mean(arr1, axis=1)
print("行均值:", mean_row)

# 列均值
mean_col = np.mean(arr1, axis=0)
print("列均值:", mean_col)

# 中位数
median_result = np.median(arr1)
print("中位数:", median_result)

# 最大值
max_result = np.max(arr1)
print("最大值:", max_result)

# 最小值
min_result = np.min(arr1)
print("最小值:", min_result)

# 最大值索引
argmax_result = np.argmax(arr1)
print("最大值索引:", argmax_result)

# 最小值索引
argmin_result = np.argmin(arr1)
print("最小值索引:", argmin_result)

# 标准差
std_result = np.std(arr1)
print("标准差:", std_result)

# 方差
var_result = np.var(arr1)
print("方差:", var_result)

# 矩阵行列式
det_result = np.linalg.det(arr1)
print("矩阵行列式:", det_result)

# 矩阵逆
inv_result = np.linalg.inv(arr1)
print("矩阵逆:\n", inv_result)

# 应用函数
def square(x):
    return x ​** 2

apply_result = np.apply_along_axis(square, 0, arr1)
print("应用函数（平方）:\n", apply_result)

# 广播
arr3 = np.array([1, 2])
broadcast_result = arr1 + arr3
print("广播:\n", broadcast_result)