In [1]:
import numpy as np
import pandas as pd

# --- 第一张图 & 第二张图开头：数据生成与修改 ---

np.random.seed(42)  # 为了结果的可重复性设置随机种子
X = np.random.rand(50, 1)  # 2维数据

# 手动修改前两个数据点，制造明显的异常值
X[0, 0] = 3
X[1, 0] = 2

# --- 第二张图：创建 DataFrame 并计算四分位数 ---

# 假设df是一个Pandas DataFrame，包含了你想要分析的数据集
# 'column_name' 是你想要检测异常值的列名

# 随机一个dataframe
df = pd.DataFrame(X, columns=['column_name'])

# 设置分位数，例如四分位数
Q1 = df['column_name'].quantile(0.25)  # 第一四分位数 (25%)
Q3 = df['column_name'].quantile(0.75)  # 第三四分位数 (75%)

# --- 第三张图：计算 IQR 并标记异常值 ---

# 计算四分位数范围 (IQR)
IQR = Q3 - Q1

# 定义下界和上界来识别异常值
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 标记异常值
# 使用 apply 和 lambda 函数：如果值小于下界或大于上界，标记为 'Yes'，否则为 'No'
df['outlier'] = df['column_name'].apply(lambda x: 'Yes' if x < lower_bound or x > upper_bound else 'No')

# 打印出被标记为异常值的行
print(df[df['outlier'] == 'Yes'])

   column_name outlier
0          3.0     Yes
1          2.0     Yes


这主要是为了排除异常值

In [2]:
import numpy as np
import pandas as pd

# --- 1. 数据生成 (保持与你提供的代码一致) ---
np.random.seed(42)  # 设置随机种子
X = np.random.rand(50, 1)  # 生成 50 个 0-1 之间的随机数

# 手动制造明显的异常值 (为了演示，这两个值都很大)
X[0, 0] = 3
X[1, 0] = 2

# 创建 DataFrame
df = pd.DataFrame(X, columns=['column_name'])

# --- 2. 计算 Z-score ---
# Z-score 公式: z = (x - μ) / σ
# μ (mean): 平均值
# σ (std): 标准差

mean_val = df['column_name'].mean()
std_val = df['column_name'].std()

# 计算每行数据的 Z-score
df['z_score'] = (df['column_name'] - mean_val) / std_val

# --- 3. 标记异常值 ---
# 设定阈值 (根据你的要求，绝对值大于 3.5 为异常)
z_threshold = 3.5

# 判断逻辑：如果 Z-score 的绝对值 > 3.5，标记为 'Yes'，否则为 'No'
df['outlier'] = df['z_score'].apply(lambda z: 'Yes' if abs(z) > z_threshold else 'No')

# --- 4. 打印结果 ---
print("--- 统计信息 ---")
print(f"平均值 (μ): {mean_val:.4f}")
print(f"标准差 (σ): {std_val:.4f}")
print("-" * 20)

print("--- 检测到的异常值 ---")
# 打印出被标记为异常值的行
print(df[df['outlier'] == 'Yes'])

--- 统计信息 ---
平均值 (μ): 0.5194
标准差 (σ): 0.5050
--------------------
--- 检测到的异常值 ---
   column_name   z_score outlier
0          3.0  4.911753     Yes


这个是标准差判断异常