| 操作           | 示例                                                                 | 说明                                                                 |
|----------------|----------------------------------------------------------------------|----------------------------------------------------------------------|
| ​**缺失值检测** | `np.isnan(arr)`                                                     | 检测布尔值，返回一个布尔数组，表示是否为缺失值（NaN）                |
| ​**删除缺失值** | `arr = arr[~np.isnan(arr)]`                                         | 用取反赋值实现删除缺失值                                             |
| ​**填充缺失值** | `np.nan_to_num(arr, nan=0)`                                         | 指定填充缺失值，将 NaN 替换为指定值（如 0）                          |
| ​**重复值检测** | `np.unique(arr, return_index=True)`                                | 用于检查和定位重复值，便于后续删除或合并数据                         |
| ​**删除重复值** | `arr = np.unique(arr)`                                             | 数据去重，返回唯一值组成的数组                                       |
| ​**异常值检测** | `Z-score：np.where(np.abs((arr - np.mean(arr)) / np.std(arr)) > 3)` | 检测极端值或异常值；`.where()` 条件定位，`.abs()` 绝对值             |
| ​**异常值替换** | `arr[arr > 100] = np.median(arr)`                                  | 用中位数替换异常值                                                  |
|                | `arr[arr > 100] = np.mean(arr)`                                    | 用均值替换异常值                                                    |
|                | `arr[arr > 100] = np.mode(arr)`                                    | 用众数替换异常值                                                    |
| ​**字符串处理** | `arr = np.char.strip(arr)`                                         | 处理文本数据中的杂项字符或格式                                      |
| ​**数据类型转换** | `arr = arr.astype(float)`                                         | 将字符串转换为数值类型                                              |

In [1]:
import numpy as np
# 创建一个示例数组
arr = np.array([[1, 2, np.nan], 
                 [4, 5, np.nan], 
                 [8, 9, 9]])
print("原始数组：\n", arr)

原始数组：
 [[ 1.  2. nan]
 [ 4.  5. nan]
 [ 8.  9.  9.]]


In [2]:
# 检查数组中的缺失值（NaN）
print('原数组:\n', arr)
print("缺失值检测:\n", np.isnan(arr))  # 返回布尔数组，True 表示缺失值
print("================缺失值检测================")


原数组:
 [[ 1.  2. nan]
 [ 4.  5. nan]
 [ 8.  9.  9.]]
缺失值检测:
 [[False False  True]
 [False False  True]
 [False False False]]


In [3]:
# 删除包含缺失值的元素
arr_cleaned = arr[~np.isnan(arr)] # 通过取非赋值实现删除
print("删除缺失值:\n", arr_cleaned)
print("================删除缺失值================")


删除缺失值:
 [1. 2. 4. 5. 8. 9. 9.]


In [4]:

# 使用 0 填充缺失值
arr_filled = np.nan_to_num(arr, nan=0)
print("填充缺失值:\n", arr_filled)
print("================用0填充缺失值================")


填充缺失值:
 [[1. 2. 0.]
 [4. 5. 0.]
 [8. 9. 9.]]


In [5]:

# 检查数组中是否有重复值
arr = np.array([1, 2, 2, 3, 3, 3, 4])
unique_values, indices = np.unique(arr, return_index=True)
print("唯一值:", unique_values)  # 输出: 元素[1 2 3 4]
print("唯一值的索引位置:", indices)  # 输出: 索引[0 1 3 6]
print("================重复值检测================")


唯一值: [1 2 3 4]
唯一值的索引位置: [0 1 3 6]


In [6]:

# 删除重复值，仅保留唯一值
arr_no_duplicates = np.unique(arr)
print("删除重复值:\n", arr_no_duplicates)
print("================删除重复值================")


删除重复值:
 [1 2 3 4]


### Z-Score（标准分数）

$$
Z = \frac{X - \mu}{\sigma}
$$
- **$X$**：单个数据点的原始值  
- **$\mu$**：数据集的均值  
- **$\sigma$**：数据集的标准差  

---

### **计算步骤**
1. **计算均值（$\mu$）**：所有数据点的平均值。
2. **计算标准差（$\sigma$）**：数据分布的离散程度。
3. **标准化每个数据点**：用公式将原始值转换为 Z-Score。

**示例**：  
假设某班级 5 名学生的数学成绩为：$$70, 80, 90, 95, 85$$  
- **均值（$\mu$）**：$ (70+80+90+95+85)/5 = 84 $  
- **标准差（$\sigma$）**：约 9.38  
- **Z-Score 计算**：  
  $$
  Z_{70} = \frac{70 - 84}{9.38} \approx -1.49  
  $$
  其他成绩的 Z-Score 同理可得。

---

### **核心作用**
1. **异常值检测**  
   - **判断标准**：  
     - $ |Z| > 3 $：极可能是异常值（覆盖约 99.7% 的正态数据）。  
     - $ |Z| > 2 $：可能是潜在异常值（覆盖约 95% 的正态数据）。  
   - **适用场景**：金融风控、传感器数据清洗、实验数据质量控制。

2. **数据标准化**  
   - 消除量纲差异，使不同量纲的特征可比（如身高 vs 体重）。  
   - 机器学习模型（如 SVM、K-Means、线性回归）常需标准化输入数据。

3. **概率计算**  
   - 通过 Z-Score 查标准正态分布表，计算数据点的百分位排名。  
   - **示例**：Z=1.96 对应 97.5% 的累积概率。

---

In [7]:

# 使用 Z-Score 方法检测异常值（假设阈值为 3）
z_score = (arr - np.mean(arr)) / np.std(arr)
outliers = np.where(np.abs(z_score) > 3)
print("异常值检测:\n", outliers)
print("================异常值检测================")


异常值检测:
 (array([], dtype=int64),)


In [8]:

# 将大于 100 的异常值替换为中位数
arr[arr > 100] = np.median(arr)
print("异常值替换:\n", arr)
print("================异常值替换================")


异常值替换:
 [1 2 2 3 3 3 4]


In [9]:

# 处理字符串数组，去除空格
str_arr = np.array([' hello ', 'world  ', '  numpy '])
str_arr_cleaned = np.char.strip(str_arr)
print("字符串处理（去除空格）:\n", str_arr_cleaned)
print("================字符串处理================")


字符串处理（去除空格）:
 ['hello' 'world' 'numpy']


In [10]:
# 将数组转换为 float 类型
arr_float = arr.astype(float)
print("数据类型转换:\n", arr_float)
print("================数据类型转换================")


数据类型转换:
 [1. 2. 2. 3. 3. 3. 4.]
