# NumPy 与 Pandas 实践

## 实验目标

本实验将使用经典的 **Iris（鸢尾花）数据集**来练习 NumPy 和 Pandas 的核心操作。

Iris 数据集包含 150 个样本，每个样本有 4 个特征：
- sepal length（萼片长度）
- sepal width（萼片宽度）
- petal length（花瓣长度）
- petal width（花瓣宽度）

共有 3 个品种：setosa、versicolor、virginica，每个品种 50 个样本。

## 实验内容

1. **数据加载与探索** - 使用 NumPy 和 Pandas 加载数据
2. **数据统计** - 计算各种统计量
3. **数据筛选** - 使用条件筛选和布尔索引
4. **数据分组** - 按品种分组统计
5. **数据合并** - 合并多个数据源

---
## Part 1: 数据加载与探索

首先，让我们加载必要的库和数据集。

In [None]:
# ===== 预填充代码 =====
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris

# 加载 Iris 数据集
iris = load_iris()

# 查看数据集的基本信息
print("数据集特征名称:", iris.feature_names)
print("目标类别:", iris.target_names)
print("数据形状:", iris.data.shape)

**练习 1.1**：将 Iris 数据集转换为 Pandas DataFrame

请创建一个 DataFrame，要求：
- 列名为：sepal_length、sepal_width、petal_length、petal_width、species
- species 列使用 target_names 对应的名称（0='setosa', 1='versicolor', 2='virginica'）

提示：可以使用 `np.select()` 或列表推导式

In [None]:
# ===== 学生代码 =====
# TODO: 创建 iris_df DataFrame


# 预期输出: (150, 5) 的 DataFrame
print("DataFrame 形状:", iris_df.shape)
print("\n前 5 行:")
print(iris_df.head())

---
## Part 2: 数据统计

让我们使用 NumPy 来计算各种统计量。

**练习 2.1**：手动实现统计函数

请手动实现以下统计函数（不要使用 np.mean、np.std 等现成函数）：

In [None]:
# ===== 学生代码 =====
# TODO: 实现以下函数

def manual_mean(arr):
    """
    计算数组的平均值
    参数: arr - NumPy 数组
    返回: 平均值
    """
    pass  # 删除 pass 并填写你的代码

def manual_std(arr):
    """
    计算数组的标准差
    参数: arr - NumPy 数组
    返回: 标准差
    """
    pass  # 删除 pass 并填写你的代码

def manual_median(arr):
    """
    计算数组的中位数
    参数: arr - NumPy 数组
    返回: 中位数
    """
    pass  # 删除 pass 并填写你的代码

# 测试你的函数
sepal_length = iris.data[:, 0]

print("萼片长度统计:")
print(f"  手动计算均值: {manual_mean(sepal_length):.4f}")
print(f"  NumPy 均值: {np.mean(sepal_length):.4f}")
print(f"  手动计算标准差: {manual_std(sepal_length):.4f}")
print(f"  NumPy 标准差: {np.std(sepal_length):.4f}")
print(f"  手动计算中位数: {manual_median(sepal_length):.4f}")
print(f"  NumPy 中位数: {np.median(sepal_length):.4f}")

# 预期输出: 萼片长度均值约 5.8433，标准差约 0.8253，中位数约 5.8000

**练习 2.2**：按品种统计各特征的平均值

使用 NumPy 的布尔索引和轴参数，计算每个品种各特征的平均值。

In [None]:
# ===== 学生代码 =====
# TODO: 计算每个品种各特征的平均值
# 提示: 使用 iris.target == 0/1/2 进行布尔索引


# 预期输出:
# setosa:    [5.006, 3.418, 1.464, 0.244]
# versicolor: [5.936, 2.770, 4.260, 1.326]
# virginica:  [6.588, 2.974, 5.552, 2.026]
print("各品种各特征平均值:")
for i, name in enumerate(iris.target_names):
    # 在这里填写你的代码
    pass

---
## Part 3: 数据筛选

使用 Pandas 进行数据筛选操作。

**练习 3.1**：筛选满足条件的数据

请完成以下筛选任务：

In [None]:
# ===== 学生代码 =====
# TODO: 完成以下筛选任务

# 1. 筛选出萼片长度大于 6cm 的样本
long_sepal = None  # 替换为你的代码

# 2. 筛选出花瓣宽度小于 0.2cm 的 setosa 样本
small_petal_setosa = None  # 替换为你的代码

# 3. 筛选出萼片长度大于 6cm 且 花瓣长度大于 5cm 的样本
large_flowers = None  # 替换为你的代码

# 4. 筛选出 species 为 setosa 或 virginica 的样本
specific_species = None  # 替换为你的代码

print("1. 萼片长度 > 6cm 的样本数:", len(long_sepal))
print("   前 5 行:")
print(long_sepal.head())

print("\n2. 花瓣宽度 < 0.2cm 的 setosa 样本数:", len(small_petal_setosa))

print("\n3. 萼片长度 > 6cm 且 花瓣长度 > 5cm 的样本数:", len(large_flowers))

print("\n4. setosa 或 virginica 的样本数:", len(specific_species))

# 预期输出:
# 1. 61 个样本
# 2. 5 个样本
# 3. 37 个样本
# 4. 100 个样本

**练习 3.2**：使用 loc 和 iloc 进行数据选择

In [None]:
# ===== 学生代码 =====
# TODO: 使用 loc 和 iloc 完成数据选择

# 1. 使用 loc 选择前 10 行的 sepal_length 和 petal_length 列
result_loc = None  # 替换为你的代码

# 2. 使用 iloc 选择第 50-59 行（索引）的第 0-2 列
result_iloc = None  # 替换为你的代码

# 3. 使用 loc 选择 species 为 versicolor 且 petal_width > 1.5 的行
versicolor_wide = None  # 替换为你的代码

print("1. loc 选择结果:")
print(result_loc)

print("\n2. iloc 选择结果:")
print(result_iloc)

print("\n3. versicolor 且花瓣宽 > 1.5 的样本数:", len(versicolor_wide))

# 预期输出:
# 3. versicolor 且花瓣宽 > 1.5 的样本数: 5

---
## Part 4: 数据分组与聚合

使用 Pandas 的 groupby 功能进行数据分析。

**练习 4.1**：按品种分组统计

请使用 groupby 完成以下统计任务：

In [None]:
# ===== 学生代码 =====
# TODO: 使用 groupby 完成统计

# 1. 按品种分组，计算各特征的均值
species_mean = None  # 替换为你的代码

# 2. 按品种分组，计算各特征的最大值
species_max = None  # 替换为你的代码

# 3. 按品种分组，计算各特征的标准差
species_std = None  # 替换为你的代码

print("1. 各品种各特征均值:")
print(species_mean)

print("\n2. 各品种各特征最大值:")
print(species_max)

print("\n3. 各品种各特征标准差:")
print(species_std)

**练习 4.2**：使用 agg 函数一次性计算多个统计量

In [None]:
# ===== 学生代码 =====
# TODO: 使用 agg 函数一次性计算均值、中位数、标准差

# 按品种分组，对每个特征计算多个统计量
species_stats = None  # 替换为你的代码

print("各品种详细统计:")
print(species_stats)

# 提示: 使用 agg 或 aggregate 方法，传入 ['mean', 'median', 'std']

---
## Part 5: 数据合并

练习使用 Pandas 的 merge 功能合并数据。

**练习 5.1**：合并两个数据集

In [None]:
# ===== 预填充代码 =====
# 创建一些额外的数据
# 数据集 1: 花卉颜色信息
flower_colors = pd.DataFrame({
    'species': ['setosa', 'versicolor', 'virginica'],
    'color': ['purple', 'blue', 'white'],
    'fragrance': ['mild', 'strong', 'very strong']
})

# 数据集 2: 花卉原产地信息
flower_origin = pd.DataFrame({
    'species': ['setosa', 'versicolor', 'virginica'],
    'origin': ['Europe', 'North America', 'North America'],
    'blooming_season': ['spring', 'summer', 'summer']
})

print("花卉颜色信息:")
print(flower_colors)
print("\n花卉原产地信息:")
print(flower_origin)

In [None]:
# ===== 学生代码 =====
# TODO: 合并数据

# 1. 将 flower_colors 和 flower_origin 按 species 列合并
flower_info = None  # 替换为你的代码

# 2. 将合并后的信息与 iris_df 合并
iris_with_info = None  # 替换为你的代码

print("合并后的花卉信息:")
print(flower_info)

print("\n完整的 Iris 数据集（包含颜色和产地）:")
print(iris_with_info.head(10))

---
## Part 6: 数据转换与可视化准备

为后续的可视化和机器学习做数据准备。

**练习 6.1**：特征标准化

手动实现 Z-score 标准化：$x' = \frac{x - \mu}{\sigma}$

In [None]:
# ===== 学生代码 =====
# TODO: 手动实现 Z-score 标准化

def zscore_normalize(X):
    """
    对数据进行 Z-score 标准化
    参数: X - NumPy 数组，形状为 (n_samples, n_features)
    返回: 标准化后的数据，均值，标准差
    """
    pass  # 删除 pass 并填写你的代码

# 对 Iris 数据进行标准化
X_normalized, means, stds = zscore_normalize(iris.data)

print("原始数据统计:")
print("均值:", np.mean(iris.data, axis=0))
print("标准差:", np.std(iris.data, axis=0))

print("\n标准化后数据统计:")
print("均值:", np.mean(X_normalized, axis=0))
print("标准差:", np.std(X_normalized, axis=0))

# 预期输出: 标准化后均值接近 0，标准差接近 1

**练习 6.2**：创建特征交叉

创建新的特征：萼片面积 = 萼片长度 × 萼片宽度，花瓣面积 = 花瓣长度 × 花瓣宽度

In [None]:
# ===== 学生代码 =====
# TODO: 创建特征交叉

# 在 iris_df 中添加两列: sepal_area 和 petal_area


print("添加面积特征后的数据:")
print(iris_df.head())

# 统计各品种的平均面积
# TODO: 按品种分组计算平均面积
area_by_species = None  # 替换为你的代码

print("\n各品种平均面积:")
print(area_by_species[['sepal_area', 'petal_area']])

---
## Part 7: 挑战练习

综合运用所学知识完成以下挑战。

**挑战 7.1**：找出最具区分度的特征

哪个特征最能区分 setosa 和其他两个品种？

提示：可以计算品种间该特征的均值差异与标准差的比值（区分度 = |mean1 - mean2| / std）

In [None]:
# ===== 学生代码 =====
# TODO: 找出最具区分度的特征

def discriminability(data1, data2):
    """
    计算两组数据的区分度
    返回: |mean1 - mean2| / pooled_std
    """
    pass  # 删除 pass 并填写你的代码

# 计算 setosa 与其他品种在每个特征上的区分度


# 输出结果，找出最具区分度的特征


# 预期输出: petal_width 和 petal_length 对 setosa 的区分度最高

**挑战 7.2**：实现一个简单的分类器

基于花瓣长度和花瓣宽度，实现一个简单的规则分类器：
- 如果花瓣宽度 < 0.6，预测为 setosa
- 如果花瓣长度 < 5 且花瓣宽度 < 1.7，预测为 versicolor
- 否则预测为 virginica

In [None]:
# ===== 学生代码 =====
# TODO: 实现简单的规则分类器

def simple_classifier(petal_length, petal_width):
    """
    基于规则的简单分类器
    参数: petal_length, petal_width - 标量或数组
    返回: 预测的类别 (0=setosa, 1=versicolor, 2=virginica)
    """
    pass  # 删除 pass 并填写你的代码

# 对整个数据集进行预测
predictions = simple_classifier(iris.data[:, 2], iris.data[:, 3])

# 计算准确率
accuracy = None  # 替换为你的代码

print(f"简单分类器的准确率: {accuracy:.2%}")

# 输出混淆矩阵
# TODO: 计算混淆矩阵
confusion_matrix = None  # 替换为你的代码

print("\n混淆矩阵:")
print(confusion_matrix)

# 预期输出: 准确率约 97% 左右

---
## 实验总结

恭喜你完成了 NumPy 与 Pandas 实践！通过本实验，你应该掌握了：

1. ✓ 使用 NumPy 进行数组操作和统计计算
2. ✓ 使用 Pandas 进行数据清洗和筛选
3. ✓ 使用 groupby 进行分组聚合分析
4. ✓ 使用 merge 合并多个数据源
5. ✓ 手动实现数据标准化和特征工程
6. ✓ 构建简单的规则分类器

这些技能是机器学习数据预处理的基础，在后续章节中我们将继续使用这些工具。